337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

ICLR 2026|隱式思考模型LRT:「隱式思維鏈」推理,更快更強!

0
分享至



近日,哈爾濱工業大學(深圳)聯合深圳河套學院、Independent Researcher提出了隱式思考模型 LRT(Latent Reasoning Tuning),通過一個輕量級的推理網絡,將大模型冗長的「思維鏈」壓縮為緊湊的隱式向量表征,一次前向計算即可完成推理,無需逐 token 生成數千字的中間推理過程。

LRT 不僅實現了高效思考,還能作為一種全新的混合思考范式,在 Qwen3 系列模型上超越了其原生的非思考模式。



  • 論文地址: https://openreview.net/forum?id=CbK7lYbmv8
  • 代碼開源: https://github.com/MobiusDai/LRT

出發點:大模型「自言自語」的推理過程真的全都有用嗎?

以 OpenAI o1、DeepSeek-R1、Qwen QwQ 為代表的慢思考推理模型,通過生成詳盡的逐步推理鏈來解決復雜問題,展現了強大的推理能力。然而,這些模型存在一個顯著痛點 ——過度思考(Overthinking):

  • 即使是簡單的數學題,模型也可能生成數千個 token 的推理過程,其中包含大量回溯、自我驗證和冗余步驟;
  • 推理軌跡的長度往往遠超最終答案,導致推理延遲高、計算開銷大,嚴重制約了實時應用。

Question:這些冗長的推理鏈真的全部必要嗎?

關鍵發現:推理軌跡存在大量冗余

為了回答上述問題,團隊設計了一組實驗:在 DeepSeek-R1-Distill-Qwen-7B 模型上,將推理軌跡進行不同粒度的刪減 —— 隨機跳過一定比例的 token 或推理步驟,然后觀察模型能否僅憑殘缺的推理鏈給出正確答案。



核心洞察: 即使隨機丟棄 50% 的推理軌跡,模型準確率僅下降約 2 個百分點。這可以得出兩個結論:

  1. 當前的推理軌跡中存在大量冗余信息,遠超正確推理所需的信息;
  2. 推理模型具有強大的信息過濾能力,即使面對殘缺、高困惑度的推理鏈,依然能從中提取關鍵信息并總結得出正確答案。

這一發現直接啟發了團隊的核心思路:既然完整的逐步推理鏈并非必要,能否用一種更緊湊的隱式表征來替代它?

方法:隱式思考模型 LRT

基于上述洞察,團隊提出了 Latent Reasoning Tuning(LRT) 框架。其核心思想可以概括為:用一個輕量級推理網絡,將顯式的推理鏈「編碼」為固定長度的隱式向量,直接注入大模型即可生成最終答案。

技術架構



如上圖所示,傳統推理模型需要逐 token 自回歸生成整條推理鏈(Decode → Decode → ... → Decode),而 LRT 的流程為:



具體方法





模型的推理生成過程可分為兩個階段:

  • Prefill 階段:模型一次性處理輸入提示 X 中的全部 token,初始化注意力狀態(KV 緩存)。這一階段是并行的,計算效率較高;
  • Decode 階段:模型逐 token 自回歸地生成輸出,每一步僅基于前序 token 與緩存狀態進行推理。這一階段是串行的,也是推理延遲的主要瓶頸。

在 Decode 階段,思維鏈的生成過程可以形式化為:









既然推理軌跡是輸入的函數,而已經證明了它存在大量冗余,那么一個自然的想法是:使用一個更高效的函數來替代它?











實驗結果

1. 高效思考 —— 在不同 Token Budget 下表現最優



在 DeepSeek-R1-Distill-Qwen-1.5B 上,與多種高效推理方法進行對比:

  • 在不同的 Token 預算下,LRT 在域內和域外任務上全面領先。在 512-Token 下,其平均準確率比 NoThinking 高 2.66%,比 RL 類方法 ShorterBetter、LC-R1 分別高 5.90% 和 4.74%。

2. 混合思考 —— 超越 Qwen3 原生混合思考模式



LRT 的模塊化設計天然適合作為混合推理的新范式:面對簡單問題使用隱式思考快速作答,面對困難問題切換回顯式慢思考深入推理。在 Qwen3 系列模型上驗證了這一能力:

  • 在 Qwen3-4B 上,LRT 的 pass@4 平均準確率達到 71.60%,比 Qwen3 原生非思考模式高出 5.82 個百分點!在 GSM8K 上提升近 7%,在 LSAT 上提升超過 14%。這表明隱式推理向量能有效引導模型產生更多樣、更高質量的解題路徑。

3. 推理效率對比



  • LRT 的推理延遲顯著低于 Qwen3 的混合思考模式,甚至比非思考模式還快 —— 因為隱式推理向量引導模型生成更簡潔的答案,減少了解碼步數。

4. 消融實驗分析



隱式推理 token 數量的影響:隨著隱式 token 數從 64 增加到 256,性能穩步提升(42.53% → 48.42%)。



兩階段訓練:加入 RL 階段后,域內任務平均提升約 9%,域外任務平均提升約 4.3%,驗證了強化學習對隱式推理優化的關鍵作用。



更大的基礎模型(如 Qwen3-8B)則能充分利用更多的隱式 token(使用 512 個隱式 token 時結果仍能提高),說明隱式推理的「容量」與基礎模型能力正相關。

總結

隱式思考模型 LRT 開辟了一條全新的高效推理路徑:

  • 理論洞察:系統性地揭示了推理軌跡的高度冗余性,證明完整的逐步推理鏈并非正確推理的前提;
  • 高效思考:通過將顯式推理鏈壓縮為隱式向量表征,用單次前向計算替代數千步自回歸解碼,大幅降低推理成本;
  • 混合思考:模塊化的即插即用設計,無需修改大模型參數,可在隱式推理與顯式推理之間無縫切換,為混合推理系統提供了更優的替代方案;
  • 效果優異:在數學、邏輯、科學等多類基準上全面超越現有高效推理方法,并在 Qwen3 系列模型上超越其原生非思考模式。

作者信息

本文第一作者姜聰,哈爾濱工業大學(深圳)博士生,研究方向為高效思考與推理模型。通訊作者張正,哈爾濱工業大學(深圳)教授、博士生導師,教育部青年長江學者,主要從事高效能多模態人工智能的研究,近年專注于高效與可信多模態大模型。

主要完成單位為哈爾濱工業大學(深圳)& 深圳河套學院。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
一個龍套演員如何用三年爬上好萊塢頂流

一個龍套演員如何用三年爬上好萊塢頂流

追星雷達站
2026-04-18 15:01:47
還差256天42歲!詹皇造9紀錄無愧季后賽之王 美記:仍能統治一切

還差256天42歲!詹皇造9紀錄無愧季后賽之王 美記:仍能統治一切

顏小白的籃球夢
2026-04-20 06:50:23
父母愛情:十年后才明白,安杰看不上于大光,家庭條件只是一方面

父母愛情:十年后才明白,安杰看不上于大光,家庭條件只是一方面

天璣影視說
2026-04-20 07:58:02
古籍記載龍長虎短手相 無名指更長之人晚年多有四種人生結局

古籍記載龍長虎短手相 無名指更長之人晚年多有四種人生結局

嘮叨說歷史
2026-03-31 14:25:43
王健林徹底告別萬達電影,公司名稱變更為“儒意電影娛樂股份有限公司”

王健林徹底告別萬達電影,公司名稱變更為“儒意電影娛樂股份有限公司”

澎湃新聞
2026-04-19 19:32:26
一個被低估的普拉提動作:為什么健身博主放棄了平板支撐

一個被低估的普拉提動作:為什么健身博主放棄了平板支撐

爬蟲飼養員
2026-04-18 15:08:14
本田被曝將關停廣州、武漢兩座燃油車工廠 年產能砍至72萬輛

本田被曝將關停廣州、武漢兩座燃油車工廠 年產能砍至72萬輛

金融界
2026-04-17 13:45:07
塞爾比回應被奧沙利文取綽號:我們彼此尊重,被談論說明你做對了

塞爾比回應被奧沙利文取綽號:我們彼此尊重,被談論說明你做對了

世界體壇觀察家
2026-04-20 06:27:05
WCBA總決賽:四川橫掃山西,王思雨三分狂飆,坎貝奇驚艷全場!

WCBA總決賽:四川橫掃山西,王思雨三分狂飆,坎貝奇驚艷全場!

天光破云來
2026-04-20 01:21:03
華為Mate新機突然降價:4月18日,優惠1000元

華為Mate新機突然降價:4月18日,優惠1000元

3C毒物
2026-04-18 15:55:35
好慘,200名中企工人在俄羅斯務工遭遇欠薪,舉牌沿街游行!

好慘,200名中企工人在俄羅斯務工遭遇欠薪,舉牌沿街游行!

黯泉
2026-04-19 12:00:29
我國摧毀特大假酒網絡!查獲侵權假冒白酒近2萬箱

我國摧毀特大假酒網絡!查獲侵權假冒白酒近2萬箱

21世紀經濟報道
2026-04-19 13:41:58
特朗普稱自己是“和平締造者”:算上伊朗和黎巴嫩,我平息了十場戰爭

特朗普稱自己是“和平締造者”:算上伊朗和黎巴嫩,我平息了十場戰爭

魯中晨報
2026-04-19 09:29:03
33歲章澤天風格大變!穿艷俗紗裙、副乳突出,比實際年齡成熟10歲

33歲章澤天風格大變!穿艷俗紗裙、副乳突出,比實際年齡成熟10歲

阿訊說天下
2026-04-18 14:53:39
若沒有此人,中國歷史或將改寫!晚年離休后享受什么待遇?

若沒有此人,中國歷史或將改寫!晚年離休后享受什么待遇?

史之銘
2026-04-19 15:49:20
甘肅天水一佳人好漂亮, 身高168cm,體重48kg 美的讓人移不開眼

甘肅天水一佳人好漂亮, 身高168cm,體重48kg 美的讓人移不開眼

鄉野小珥
2026-04-08 00:48:57
多次遭特朗普大罵“紙老虎”“毫無用處”,北約“罕見”大動作:30國駐北約大使集體訪日!日本已囤積44.4噸核材料,足夠造5500枚核彈頭

多次遭特朗普大罵“紙老虎”“毫無用處”,北約“罕見”大動作:30國駐北約大使集體訪日!日本已囤積44.4噸核材料,足夠造5500枚核彈頭

揚子晚報
2026-04-19 07:55:51
江蘇一出租車司機發現“上班搭子”突然電話不接消息不回、車一直停在路邊,果斷報警!救回同事一命

江蘇一出租車司機發現“上班搭子”突然電話不接消息不回、車一直停在路邊,果斷報警!救回同事一命

臺州交通廣播
2026-04-20 06:39:30
5月1日起,10類行為全國嚴查!誰碰誰倒霉

5月1日起,10類行為全國嚴查!誰碰誰倒霉

石辰搞笑日常
2026-04-19 01:06:37
尹正自曝把摩托車全賣了:“車牌漲價了,賺翻了,我愛摩托車”

尹正自曝把摩托車全賣了:“車牌漲價了,賺翻了,我愛摩托車”

悅君兮君不知
2026-04-18 22:21:30
2026-04-20 08:32:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12795文章數 142632關注度
往期回顧 全部

科技要聞

50分26秒破人類紀錄!300臺機器人狂飆半馬

頭條要聞

特朗普:美伊20日將舉行談判 再不接受協議就轟炸伊朗

頭條要聞

特朗普:美伊20日將舉行談判 再不接受協議就轟炸伊朗

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

何潤東漲粉百萬!內娛隔空掀桌第一人

財經要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬 極氪8X為什么這么多人買?

態度原創

數碼
藝術
游戲
時尚
家居

數碼要聞

榮耀手表4更新又跳票?官方回應來了

藝術要聞

蒲華寫水仙,清健嫵媚

PS必吃榜!5月陣容前瞻 007新游終于來了

裝修“精神角落”,就是這么上癮

家居要聞

法式線條 時光靜淌

無障礙瀏覽 進入關懷版