337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

MiroThinker-1.5智能體模型,30B評測性能超越1T模型

0
分享至


始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū),始終堅持“中立、開放、共建、共創(chuàng)、合作”五項基本原則,歡迎加入共同成長。

MiroMind 由全球知名創(chuàng)新企業(yè)家、慈善家陳天橋,與清華大學(xué)知名 AI 青年學(xué)者代季峰教授聯(lián)合發(fā)起,團隊曾憑借成功預(yù)測 Polymarket (全球最大的去中心化預(yù)測市場)題目,連續(xù)登頂 Future X 全球榜首。

近期,團隊又率先開源搜索智能體模型——MiroThinker 1.5,該智能體模型在多個搜索智能體基準(zhǔn)測試中躋身全球第一梯隊,超過ChatGPT-Agent、Seed-1.8、DeepSeek-3.2等模型。MiroThinker 1.5已上線始智AI-wisemodel開源社區(qū),歡迎大家前去體驗。


模型地址

https://wisemodel.cn/models/MiroMind/MiroThinker-v1.5-30B

01.

杰出的性能表現(xiàn)

MiroThinker-v1.5-30B 僅用1/30的參數(shù)規(guī)模跑出了比肩眾多 1T 模型的性能表現(xiàn),其 235B 的版本在多個搜索智能體基準(zhǔn)測試中躋身全球第一梯隊。

在BrowseComp上,位列全球第一。


BrowseComp 性能對比

在四項基準(zhǔn)測試中的表現(xiàn)杰出:

  • HLE-Text(人類終極測試):39.2%

  • BrowseComp(網(wǎng)頁檢索類大模型基準(zhǔn)測試):69.8%

  • BrowseComp-ZH(BrowseComp的中文適配版本):71.5%

  • GAIA-Val-165(GAIA基準(zhǔn)測試驗證集):80.8%


Agent 搜索評測基準(zhǔn)性能對比

越級挑戰(zhàn):MiroThinker-v1.5-30B vs Kimi-K2-Thinking

面對參數(shù)量高達(dá) 30 倍的萬億參數(shù)巨獸 Kimi-K2-Thinking,MiroThinker-v1.5-30B 用極低的成本展示了旗鼓相當(dāng)?shù)谋憩F(xiàn):

  • 推理成本MiroThinker-v1.5-30B 單條調(diào)用成本低至 $0.07,僅為 Kimi-K2-Thinking 的 1/20,且推理更快。

  • 性能表現(xiàn)在關(guān)鍵評測集 BrowseComp-ZH 中實現(xiàn)性能超越,證明「大」 不等于 「強」。

02.

技術(shù)介紹

主流大模型往往盲目追求萬億參數(shù),MiroThinker 系列選擇了一條反共識的路線:刻意將模型控制在 30B–200B 的輕量級規(guī)模。MiroMind 團隊強調(diào),省下的不是算力,而是把算力花在了更刀刃的地方 —— 對外的信息獲取與交互。當(dāng)模型同時具備研究式確認(rèn)機制與時序因果約束,這種圍繞外部信息獲取的交互過程才讓“發(fā)現(xiàn)式智能”真正落地。這也是對 Interactive Scaling 的深耕,使他們用小得多的模型,做到了大模型才能做到的事。


MiroThinker 1.5 的核心發(fā)力點,在于通過 Interactive Scaling 打破孤立推理的僵局,將「推理」與「外部環(huán)境」深度耦合。通過構(gòu)建「推理 - 驗證 - 修正」循環(huán),引入外部信息作為校驗錨點,用確定性的證據(jù)流來對沖不確定性的推演,解決邏輯坍塌問題。

Training-time Interactive Scaling 技術(shù),將交互內(nèi)化進模型推理,用確定性對抗不確定性

當(dāng)智能的 Scaling 范式不再局限于模型內(nèi)部龐大的世界知識儲備與縝密的長程邏輯推理,而是依托模型高頻與外部世界中探索與交互并獲得閉環(huán)反饋時,小而高效的探索者模型能展現(xiàn)比肩于甚至超出大而嚴(yán)謹(jǐn)?shù)乃伎颊吣P偷闹橇λ健?/p>

MiroThinker 1.5 正是基于這一判斷,將 Interactive Scaling 從推理階段的外掛能力,前移并內(nèi)化為訓(xùn)練階段的核心機制。模型并非被要求「盡量在腦中想清楚一切」,而是被系統(tǒng)性地訓(xùn)練成一個善于向外求證、敢于否定自己、能夠快速修正路徑的 Agent。

在訓(xùn)練過程中,MiroMind 團隊刻意削弱對「單次完美推理」的獎勵,轉(zhuǎn)而強化以下行為模式:

  • Evidence-Seeking(主動求證)模型被鼓勵將每一個關(guān)鍵判斷拆解為可驗證的子假設(shè),并主動發(fā)起對外查詢、檢索與比對。結(jié)論本身不再是訓(xùn)練目標(biāo),找到可靠證據(jù)的過程才是。缺乏信源支撐的高置信輸出,會在訓(xùn)練中被系統(tǒng)性地懲罰。

  • Iterative Verification(多輪校驗與自我修正)推理不被視為一次性路徑,而是一個可反復(fù)回溯、修正的過程。模型在交互中被要求不斷對已有判斷進行反證測試,一旦發(fā)現(xiàn)證據(jù)沖突,必須顯式調(diào)整假設(shè),而非「帶著錯誤繼續(xù)推下去」。

  • Anti-Hallucination(對捷徑的系統(tǒng)性過濾)對那些「看起來合理、但缺乏真實依據(jù)」的推理捷徑保持零容忍。訓(xùn)練中不僅評估答案是否正確,更關(guān)注答案是如何得到的:任何依賴統(tǒng)計相關(guān)性、模式記憶或隱含先驗而繞過證據(jù)驗證的路徑,都會被標(biāo)記為低質(zhì)量推理。

通過這種訓(xùn)練方式,MiroThinker 1.5 逐步形成了一種本能反應(yīng):在不確定性面前,先交互、再判斷;在高風(fēng)險結(jié)論前,先查證、再收斂。這使得模型不再需要將龐大的世界知識全部內(nèi)化為參數(shù),而是學(xué)會在需要時,快速、精準(zhǔn)地向外部世界借力。

時序敏感訓(xùn)練沙盒

時序敏感訓(xùn)練沙盒,是破解因果律的鑰匙:普通大模型訓(xùn)練常處在上帝視角—— 它在數(shù)據(jù)里早已見過結(jié)果,學(xué)到的往往是復(fù)述與劇透,而不是預(yù)測。MiroThinker 的訓(xùn)練則約束模型只能看過去,不能看未來,在嚴(yán)格的時間可見性約束下做判斷、再用同樣受時序約束的證據(jù)去驗證與更新。

  • 控數(shù)據(jù)合成引擎構(gòu)建覆蓋多任務(wù)類型的、難度與時間戳可控的數(shù)據(jù)合成體系。每一道題目的「正確答案」并非靜態(tài)標(biāo)簽,而是隨時間戳動態(tài)演化;模型必須在嚴(yán)格的信息可見性約束下,基于當(dāng)時可獲取的信息做出判斷,而校驗過程同樣顯式引入時間戳約束,以確保推演與評分均符合真實世界的時序邏輯。

  • 時序敏感訓(xùn)練機制:采用嚴(yán)格的時間戳與信息可見性約束,徹底杜絕 Future Leakage;模型在訓(xùn)練過程中的每一步只能與發(fā)表于當(dāng)前時間戳之前的信息進行交互。

在這種訓(xùn)練范式下,模型被迫學(xué)會在信息不完備、噪聲存在、信號延遲的真實條件下進行推演與修正,而不是依賴靜態(tài)數(shù)據(jù)集中的「標(biāo)準(zhǔn)答案」。時間由此從一個背景變量,轉(zhuǎn)變?yōu)樗茉炷P托袨榕c推理方式的核心約束,使模型更接近真實世界中的認(rèn)知與決策過程

03.

模型樣例

樣例一: A 股漲停板預(yù)測

(注:以下僅為樣例展示,不構(gòu)成投資建議)

日期:12 月 10 日(周三)


對話鏈接:https://dr.miromind.ai/share/07430808-d84d-4e40-9615-bf07d6e71365

注解:

躍嶺股份:16 只連板股,當(dāng)天晉級僅 4 只,晉級率 25%,市場情緒顯著退潮。MiroMind 在 8 支二板股里,精準(zhǔn)押中唯一晉級成功的那一支。

12 月 11 日(周四)


對話鏈接:https://dr.miromind.ai/share/eccc29b9-889b-43f9-b6bf-f4b2b7c8dc1e

注解:

再升科技:9 只連板股,當(dāng)天晉級僅 2 只,晉級率 22%,市場環(huán)境持續(xù)降溫。MiroMind 命中 9 支連板股中高位晉級者 —— 退潮里選中“活口”。

樣例二: GTA 6 明年能按時發(fā)布嗎?


對話鏈接:https://dr.miromind.ai/share/10e5d1fd-c6b6-4b96-a2ed-4b776a3e1dcd

編輯:趙雅鑫

----- END -----


wisemodel相關(guān):

系列模型:


關(guān)于wisemodel更多


1

歡迎持續(xù)關(guān)注和支持

開源社區(qū)建設(shè)需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻(xiàn)和維護,歡迎大家加入wisemodel開源社區(qū)的志愿者計劃和開源共創(chuàng)計劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開源社區(qū)動態(tài)。

2

歡迎加盟wisemodel開源社區(qū)

3

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵高校實驗室、大企業(yè)研究團隊、個人等,在wisemodel平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹,也可以是關(guān)于AI技術(shù)實踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關(guān)于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立,旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高校科研院所、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個人開發(fā)者,以及政府部門、學(xué)會協(xié)會、聯(lián)盟、基金會等,還有投資機構(gòu)、科技媒體等,共同參與建設(shè)AI開源創(chuàng)新生態(tài)。

向上滑動查看

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
太可憐了!2張照片,幾乎就是張雪峰人生的最後定格

太可憐了!2張照片,幾乎就是張雪峰人生的最後定格

魔都姐姐雜談
2026-03-28 04:04:21
美國務(wù)卿:絕不允許伊朗永久控制霍爾木茲海峽

美國務(wù)卿:絕不允許伊朗永久控制霍爾木茲海峽

界面新聞
2026-03-30 21:27:52
中國為何不同情伊朗?錯過四次機會終走成死局

中國為何不同情伊朗?錯過四次機會終走成死局

民間胡扯老哥
2026-03-29 05:50:57
遼寧男籃止住連敗,保住前12名,趙繼偉14+11復(fù)蘇,雙塔合砍42+19

遼寧男籃止住連敗,保住前12名,趙繼偉14+11復(fù)蘇,雙塔合砍42+19

替補席看球
2026-03-30 21:37:10
LV,賣不動了?

LV,賣不動了?

中國新聞周刊
2026-03-30 18:15:39
爆傳男籃擬歸化伯里斯!他是誰?歸化可能性到底有多大?

爆傳男籃擬歸化伯里斯!他是誰?歸化可能性到底有多大?

你看球呢
2026-03-30 14:30:25
接陌生電話不要先出聲

接陌生電話不要先出聲

大象新聞
2026-03-29 07:29:10
張雪峰室內(nèi)跑步有多夸張!配速是馬拉松冠軍基普喬格的水平

張雪峰室內(nèi)跑步有多夸張!配速是馬拉松冠軍基普喬格的水平

金牌娛樂
2026-03-30 09:54:01
好友曝張雪峰遺容狀態(tài)!化了妝像歐巴,黑眼圈遮不住,薛之謙發(fā)文

好友曝張雪峰遺容狀態(tài)!化了妝像歐巴,黑眼圈遮不住,薛之謙發(fā)文

阿纂看事
2026-03-28 18:44:03
恐無緣世界杯!利物浦9000萬神鋒3次吐餅 單刀不傳讓拜仁巨星暴怒

恐無緣世界杯!利物浦9000萬神鋒3次吐餅 單刀不傳讓拜仁巨星暴怒

我愛英超
2026-03-30 06:59:54
張雪峰女兒發(fā)聲悼念惹淚目,員工回應(yīng)其二婚爆料,靈堂遺照已曝光

張雪峰女兒發(fā)聲悼念惹淚目,員工回應(yīng)其二婚爆料,靈堂遺照已曝光

小徐講八卦
2026-03-28 06:21:26
核武器殉爆?以色列政府發(fā)布危險物質(zhì)泄露,伊朗這回中大樂透了!

核武器殉爆?以色列政府發(fā)布危險物質(zhì)泄露,伊朗這回中大樂透了!

掉了顆大白兔糖
2026-03-30 18:24:01
賈躍亭宣布法拉第未來月底將超額完成機器人首月20臺交付目標(biāo)

賈躍亭宣布法拉第未來月底將超額完成機器人首月20臺交付目標(biāo)

IT之家
2026-03-30 17:30:27
外交部:古屋圭司不準(zhǔn)入境

外交部:古屋圭司不準(zhǔn)入境

閃電新聞
2026-03-30 13:22:32
張雪峰二婚妻子付幸:幾個月婚姻分走數(shù)億,11歲女兒遺產(chǎn)繼承復(fù)雜

張雪峰二婚妻子付幸:幾個月婚姻分走數(shù)億,11歲女兒遺產(chǎn)繼承復(fù)雜

眼光很亮
2026-03-27 16:04:09
請客吃飯對方帶外人來蹭吃,你遭遇過嗎?網(wǎng)友:我抬腳就會走掉

請客吃飯對方帶外人來蹭吃,你遭遇過嗎?網(wǎng)友:我抬腳就會走掉

解讀熱點事件
2026-03-24 00:05:06
國家機密,洲際導(dǎo)彈的制造方法

國家機密,洲際導(dǎo)彈的制造方法

遠(yuǎn)方青木
2026-03-25 23:55:16
人老了,再憋的慌也不要去這幾個地方:1、原來的單位;2、不遠(yuǎn)不近的親戚;3、可有可無的聚會

人老了,再憋的慌也不要去這幾個地方:1、原來的單位;2、不遠(yuǎn)不近的親戚;3、可有可無的聚會

四行書
2026-03-30 12:35:12
女子被送養(yǎng)37年,親生父母來相認(rèn),哭到最后要借錢,女子磕頭斷親

女子被送養(yǎng)37年,親生父母來相認(rèn),哭到最后要借錢,女子磕頭斷親

阿纂看事
2026-03-30 19:09:00
癱瘓28年桑蘭近況:45歲仍白皙漂亮,嫁資產(chǎn)千萬老公,兒子已12歲

癱瘓28年桑蘭近況:45歲仍白皙漂亮,嫁資產(chǎn)千萬老公,兒子已12歲

拳擊時空
2026-03-30 06:17:40
2026-03-30 21:51:00
wisemodel開源社區(qū) incentive-icons
wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū),打造中國版“huggingface”
466文章數(shù) 14關(guān)注度
往期回顧 全部

科技要聞

一句謊言引發(fā)的硅谷血案

頭條要聞

開發(fā)商承諾有學(xué)校3年后交房沒建 業(yè)主起訴被當(dāng)?shù)伛g回

頭條要聞

開發(fā)商承諾有學(xué)校3年后交房沒建 業(yè)主起訴被當(dāng)?shù)伛g回

體育要聞

想進世界杯,意大利還要過他這一關(guān)

娛樂要聞

單依純凌晨發(fā)長文道歉!李榮浩再回應(yīng)

財經(jīng)要聞

本輪地緣沖突,A股憑什么走出獨立行情

汽車要聞

限時12.58萬起 銀河星耀8遠(yuǎn)航家系列上市

態(tài)度原創(chuàng)

家居
親子
數(shù)碼
本地
公開課

家居要聞

東方法式美學(xué) 現(xiàn)代簡約

親子要聞

孩子眼睛出現(xiàn)這些現(xiàn)象,一定要警惕!

數(shù)碼要聞

4499元起!vivo Pad6 Pro正式發(fā)布 搭載行業(yè)首款4K屏

本地新聞

用Color Walk的方式解鎖城市春日

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版