337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

MI-Peaks用互信息追蹤,首次捕捉大模型推理“信息高峰”

0
分享至


始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在,歡迎加入共同成長。

你肯定見過大模型在解題時「裝模作樣」地輸出:「Hmm…」、「Wait, let me think」、「Therefore…」這些看似「人類化」的思考詞。但一個靈魂拷問始終存在:這些詞真的代表模型在「思考」,還是僅僅為了「表演」更像人類而添加的語言裝飾?是模型的「頓悟時刻」,還是純粹的「煙霧彈」?

來自中國人民大學高瓴人工智能學院、上海人工智能實驗室、倫敦大學學院(UCL)和大連理工大學的聯合研究團隊,在最新論文中首次利用信息論這把「手術刀」,精準解剖了大模型內部的推理動態,給出了令人信服的答案:當這些「思考詞」出現的瞬間,模型大腦(隱空間)中關于正確答案的信息量,會突然飆升數倍!

這絕非偶然裝飾,而是真正的「信息高峰」與「決策拐點」!更酷的是,基于這一發現,研究者提出了無需額外訓練就能顯著提升模型推理性能的簡單方法,代碼已開源已上線始智AI-wisemodel開源社區,歡迎使用。


代碼地址

https://wisemodel.cn/codes/actor/MI-Peaks/intro

01.

揭秘大模型推理軌跡“信息高峰”

研究者們追蹤了像 DeepSeek-R1 系列蒸餾模型、QwQ 這類擅長推理的大模型在解題時的「腦電波」(隱空間表征)。他們測量每一步的「腦電波」與最終正確答案的互信息(Mutual Information, MI),并觀察這些互信息如何演繹變化。

驚人現象出現了:模型推理并非勻速「爬坡」,而是存在劇烈的「信息脈沖」!在特定步驟,互信息值會突然、顯著地飆升,形成顯著的「互信息峰值」(MI Peaks)現象。這些峰值點稀疏但關鍵,如同黑暗推理路徑上突然點亮的強光路標!


這意味著什么?直覺上,這些互信息峰值點處的表征,模型大腦中那一刻的狀態,蘊含了更多指向正確答案的最關鍵信息!

進一步地,研究者通過理論分析證明(定理 1 & 2),推理過程中積累的互信息越高,模型最終回答錯誤概率的上界和下界就越緊,換言之,回答正確的概率就越高!



既然互信息峰值的現象較為普遍地出現在推理模型(LRMs)中,那么非推理模型(non-reasoning LLMs)上也會表現出類似的現象嗎?


為了探索這一問題,研究者選取了 DeepSeek-R1-Distill 系列模型和其對應的非推理模型進行實驗。如上圖橙色線所示,在非推理模型的推理過程中,互信息往往表現出更小的波動,體現出明顯更弱的互信息峰值現象,且互信息的數值整體上更小。

這表明在經過推理能力強化訓練后,推理模型一方面似乎整體在表征中編碼了更多關于正確答案的信息,另一方面催生了互信息峰值現象的出現!

02.

“思考詞匯”=“信息高峰”的語言化身

那么,這些互信息峰值點處的表征,到底蘊含著怎樣的語義信息?

神奇的是,當研究者把這些「信息高峰」時刻的「腦電波」翻譯回人能看懂的語言(解碼到詞匯空間)時,發現它們最常對應的,恰恰是那些標志性的「思考詞」:

  • 反思/停頓型:「Hmm」、「Wait」…

  • 邏輯/過渡型:「Therefore」、「So」…

  • 行動型:「Let」、「First」…


例如,研究者隨機摘取了一些模型輸出: 「Wait, let me think differently. Let’s denote...,」 「Hmm, so I must have made a mistake somewhere. Let me double-check my calculations. First, ...」

研究團隊將這些在互信息峰值點頻繁出現、承載關鍵信息并在語言上推動模型思考的詞匯命名為「思考詞匯」(thinking tokens)。它們不是可有可無的裝飾,而是信息高峰在語言層面的「顯靈」,可能在模型推理路徑上扮演著關鍵路標或決策點的角色!

為了證明這些 tokens 的關鍵性,研究者進行了干預實驗,即在模型推理時抑制這些思考詞匯的生成。

實錘驗證:實驗結果顯示,抑制思考詞匯的生成會顯著影響模型在數學推理數據集(如 GSM8K、MATH、AIME24)上的性能;相比之下,隨機屏蔽相同數量的其他普通詞匯,對性能影響甚微。這表明這些存在于互信息峰值點處的思考詞匯,確實對模型有效推理具有至關重要的作用!


03.

無需訓練,巧用“信息高峰”提升推理性能

理解了「信息高峰」和「思考詞匯」的奧秘,研究者提出了兩種無需額外訓練即可提升現有 LRMs 推理性能的實用方法。


應用一:表征訓話


啟發:既然 MI 峰值點的表征蘊含豐富信息,何不讓模型「多咀嚼消化」一下?

方法:在模型推理過程中,當檢測到生成了思考詞匯時,不急于讓其立刻輸出,而是將其對應的表征重新輸入到模型中進行額外一輪計算,讓模型充分挖掘利用表征中的豐富信息。

效果:在多個數學推理基準(GSM8K、MATH500、AIME24)上,RR 方法一致地提升了 LRMs 的推理性能。例如,在極具挑戰性的 AIME24 上,DeepSeek-R1-Distill-LLaMA-8B 的準確率相對提升了 20%!這表明讓模型更充分地利用這些高信息量的「頓悟」表征,能有效解鎖其推理潛力。


應用二:基于思考詞匯的測試時拓展


啟發:在推理時如果允許模型生成更多 token(增加計算預算),如何引導模型進行更有效的「深度思考」,而不是漫無目的地延伸?

方法:受啟發于前人工作,作者在模型完成初始推理輸出后,如果還有 token 預算,則強制模型以「思考詞匯」開頭(如「Therefore」、「So」、「Wait」、「Hmm」等)繼續生成后續內容,引導模型在額外計算資源下進行更深入的推理。

效果:當 token 預算增加時,TTTS 能持續穩定地提升模型的推理性能。如圖所示,在 GSM8K 和 MATH500 數據集上,在相同的 Token 預算下,TTTS 持續優于原始模型。在 AIME24 數據集上,盡管原始模型的性能在早期提升得較快,但當 token 預算達到 4096 后,模型性能就到達了瓶頸期;而 TTTS 引導下的模型,其性能隨著 Token 預算的增加而持續提升,并在預算達到 6144 后超越了原始模型。

04.

總結

這項研究首次揭示了 LRMs 推理過程中的動態機制:通過互信息動態追蹤,首次清晰觀測到 LRMs 推理過程中的互信息峰值(MI Peaks)現象,為理解模型「黑箱」推理提供了創新視角和實證基礎。

進一步地,研究者發現這些互信息峰值處的 token 對應的是表達思考、反思等的「思考詞匯」(Thinking Tokens),并通過干預實驗驗證了這些 token 對模型推理性能具有至關重要的影響。

最后,受啟發于對上述現象的理解和分析,研究者提出了兩種簡單有效且無需訓練的方法來提升 LRMs 的推理性能,即表征循環(Representation Recycling - RR)和基于思考詞匯的測試時擴展(Thinking Token based Test-time Scaling - TTTS)。

研究者希望這篇工作可以為深入理解 LRMs 的推理機制提供新的視角,并進一步提出可行的方案來進一步推升模型的推理能力。

劉勇,中國人民大學,長聘副教授,博士生導師,國家級高層次青年人才。長期從事機器學習基礎理論研究,共發表論文 100 余篇,其中以第一作者/通訊作者發表頂級期刊和會議論文近 50 篇,涵蓋機器學習領域頂級期刊 JMLR、IEEE TPAMI、Artificial Intelligence 和頂級會議 ICML、NeurIPS 等。

編輯:成蘊年

----- END -----


wisemodel相關:

系列模型:

關于wisemodel更多

1

歡迎持續關注和支持

開源社區建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果,包括模型、數據集和代碼等發布到 wisemodel.cn 社區,共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續關注wisemodel.cn開源社區動態。

2

歡迎加盟wisemodel開源社區

始智AI wisemodel社區自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區,為了加快公司發展,我們長期需要技術、運營等人才加盟,技術側重在AI infra、后端開發,熟悉K8S、模型訓練和推理等技術, 以及熟悉開發者生態運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果,鼓勵高校實驗室、大企業研究團隊、個人等,在wisemodel平臺上分享各類優質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關于wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立,旨在打造和建設中立開放的AI開源創新社區,將打造成“HuggingFace”之外最活躍的AI開源社區,匯聚主要AI開源模型、數據集和代碼等,歡迎高??蒲性核⒋笮突ヂ摼W公司、創新創業企業、廣大個人開發者,以及政府部門、學會協會、聯盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創新生態。

向上滑動查看

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
蔡磊透露身體近況:四個人同時攙扶也無法邁步,感覺最對不起的就是妻子

蔡磊透露身體近況:四個人同時攙扶也無法邁步,感覺最對不起的就是妻子

極目新聞
2026-03-29 22:40:10
奧運冠軍“拉拉鏈露胸”,讓耐克繃不住了!

奧運冠軍“拉拉鏈露胸”,讓耐克繃不住了!

品牌營銷報
2026-02-23 11:31:10
太反常!別的國家越強越沒人敢惹,為啥中國越強,麻煩就越多

太反常!別的國家越強越沒人敢惹,為啥中國越強,麻煩就越多

小蘭聊歷史
2026-03-30 15:11:22
美國歷史,或將于本周三改寫!

美國歷史,或將于本周三改寫!

湊近看世界
2026-03-30 10:24:47
中東危機只是小菜?更大危機還在后面,外媒:中國將徹底顛覆戰場

中東危機只是小菜?更大危機還在后面,外媒:中國將徹底顛覆戰場

嘆知
2026-03-29 18:13:46
焦泊喬成籌碼?廣東可能進行交易,前國手有望加盟,曾獲杜鋒青睞

焦泊喬成籌碼?廣東可能進行交易,前國手有望加盟,曾獲杜鋒青睞

萌蘭聊個球
2026-03-30 08:19:53
霍啟山激動:嫂子我喜歡這個!郭晶晶:等著,嫂子給你要微信去!

霍啟山激動:嫂子我喜歡這個!郭晶晶:等著,嫂子給你要微信去!

拳擊時空
2026-03-28 07:07:19
烏克蘭認輸了?澤連斯基改口認慫,不到24小時,普京下達最新命令

烏克蘭認輸了?澤連斯基改口認慫,不到24小時,普京下達最新命令

近史閣
2026-03-30 12:19:48
歐洲人在性方面有多開放?德國再創歷史!女廁所、女浴室隨便進了

歐洲人在性方面有多開放?德國再創歷史!女廁所、女浴室隨便進了

西樓知趣雜談
2026-03-24 14:38:30
萬科12位高管被調查

萬科12位高管被調查

地產微資訊
2026-03-28 11:17:12
楊瀚森全程沒動手仍吃T!白扔2000美元太冤枉,主帥盛贊:很踏實

楊瀚森全程沒動手仍吃T!白扔2000美元太冤枉,主帥盛贊:很踏實

你的籃球頻道
2026-03-30 10:02:01
“斬首術”應該獲諾貝爾獎?如此“讓領導先走”,真是偉大創造嗎

“斬首術”應該獲諾貝爾獎?如此“讓領導先走”,真是偉大創造嗎

瑜說還休
2026-03-27 17:31:33
單依純明目張膽侵權他人作品,拒不道歉,李榮浩4連問硬剛到底

單依純明目張膽侵權他人作品,拒不道歉,李榮浩4連問硬剛到底

上觀新聞
2026-03-29 17:56:07
伊朗做好最壞打算,如果美國發動地面戰,將拉著周邊鄰國同歸于盡

伊朗做好最壞打算,如果美國發動地面戰,將拉著周邊鄰國同歸于盡

探史
2026-03-30 11:47:20
中國摩托的越南復仇:從“工業垃圾”到“平替神車”

中國摩托的越南復仇:從“工業垃圾”到“平替神車”

沙雕小琳琳
2026-03-28 10:15:55
洛桑去世真相:博林25年后坦白,他其實沒喝多少酒

洛桑去世真相:博林25年后坦白,他其實沒喝多少酒

觀察者海風
2026-03-26 23:12:53
曼聯夏窗鎖定23歲頂級中場!為截胡曼城,紅魔愿以他為核心建隊

曼聯夏窗鎖定23歲頂級中場!為截胡曼城,紅魔愿以他為核心建隊

仰臥撐FTUer
2026-03-30 13:28:08
開辟第二個戰場?美航母后撤,胡塞導彈砸向以色列,伊朗迎來強援

開辟第二個戰場?美航母后撤,胡塞導彈砸向以色列,伊朗迎來強援

張殿成
2026-03-30 16:02:05
朱孝天撕「賣情懷F4」標簽上陸綜 曾志偉嚇一跳:為什么要來?

朱孝天撕「賣情懷F4」標簽上陸綜 曾志偉嚇一跳:為什么要來?

ETtoday星光云
2026-03-30 09:50:17
塔圖姆轟32+5+8無緣今日最佳!對不起,你碰到暴走創紀錄的申京了

塔圖姆轟32+5+8無緣今日最佳!對不起,你碰到暴走創紀錄的申京了

世界體育圈
2026-03-30 12:41:58
2026-03-30 16:59:00
wisemodel開源社區 incentive-icons
wisemodel開源社區
始智AI wisemodel.cn開源社區,打造中國版“huggingface”
466文章數 14關注度
往期回顧 全部

科技要聞

DeepSeek性能異常問題已解決,服務恢復

頭條要聞

單套最低5400萬 北京豪宅暴雷幾十戶業主辦不了房產證

頭條要聞

單套最低5400萬 北京豪宅暴雷幾十戶業主辦不了房產證

體育要聞

想進世界杯,意大利還要過他這一關

娛樂要聞

單依純凌晨發長文道歉!李榮浩再回應

財經要聞

油價沖擊,有些亞洲貨幣先扛不住了!

汽車要聞

理想i9要來了!外形似小號MEGA 能沖擊高端純電市場?

態度原創

游戲
教育
旅游
手機
公開課

白天撿垃圾、晚上守家的多人肉鴿!《佩布爾騎士》發售信息公布!

教育要聞

義務教育搖號“可以操作”?教育局辟謠:典型騙局,請別入坑!

旅游要聞

赴泰旅游價格或上漲,泰國擬向外國游客收300泰銖

手機要聞

三星舊機更新現隔空投送開關,卻無法使用?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版