337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

多模態幻覺的病因「高熵節點」找到了!全基準幻覺率下降

0
分享至


新智元報道

編輯:LRST

【新智元導讀】多模態大推理模型的幻覺,很多時候并非「沒看見」,而是在最不確定的推理階段想偏了。最新研究發現,模型在生成because、however、wait等transition words時,往往處于高熵關鍵節點,更容易脫離圖像證據、轉向語言腦補。LEAD在高熵階段不急于輸出單一離散token,而是先在潛在語義空間保留多種候選推理方向,并通過視覺錨點持續拉回圖像證據,顯著緩解幻覺。

在多模態大模型的浪潮中,具備顯式長鏈思考能力的MLRMs正在快速成為焦點。它們看起來更會「想」,也更善于在復雜任務中展開多步推理。

可問題是,想得更長,真的就更可靠嗎?

來自Monash University、Georgia Tech、Cornell University等機構的研究者給出了一個很有意思的答案:未必。

模型的問題并不總是出在「看錯圖」,而常常出在推理鏈進入不確定轉折點之后,開始順著語言慣性一路想偏。


論文鏈接:https://arxiv.org/pdf/2603.13366

研究者進一步指出,這種偏航并不是隨機噪聲,而是和token級別的不確定性緊密相關。尤其當模型生成because、however、wait這類帶有轉折、反思和因果意味的過渡詞時,往往對應著更高的token entropy,也意味著模型正在多個潛在推理路徑之間搖擺。一旦此時被迫過早選定一個離散token,后續整條reasoning trajectory都可能被帶歪。

幻覺不只是「看錯」,而且是在轉折詞之后「想偏」

這篇論文首先抓住了一個非常有傳播力、也很有解釋力的現象:多模態幻覺經常出現在transition words之后。 論文統計發現,在MLRMs中,hallucination更容易在transition words后出現,而且這類case在全部幻覺中占了相當大比例。

換句話說,模型不是無緣無故地亂說,而是常常在「因此」「但是」「等等」這些看似高階推理信號出現之后,開始脫離圖像,進入語言主導的腦補狀態。


更關鍵的是,論文沒有停留在現象層面,而是把這個問題和token entropy 聯系起來。

作者發現,這些 transition words 往往對應更高的熵值,也就是模型最不確定、最容易在多個語義分支之間搖擺的時刻。

于是,問題就不再只是「模型會不會幻覺」,而變成了:模型在最不確定的時候,為什么還要被迫立刻做出一個離散決策?

為什么高熵token 最危險?

為了驗證高熵節點到底有多關鍵,作者做了進一步的token masking分析。結果很直接:mask掉高熵token,比mask掉其他token對最終性能的傷害更大。 這說明高熵token雖然「不確定」,卻恰恰是推理過程里的關鍵決策點。更有意思的是,這種影響在推理鏈前段尤其明顯——越早出現的高熵智元(token),越可能決定后續整條reasoningpath 的走向。

論文還發現,和hallucination相關的高熵token,通常擁有更低的視覺注意力比例。這意味著一旦模型進入高不確定狀態,它對視覺證據的依賴反而可能下降,開始更多依賴語言上下文繼續往下編。也就是說,多模態幻覺的關鍵,不只是模型沒看圖,而是它在不確定時逐漸不再看圖。

LEAD怎么做

基于這一觀察,作者提出了 LEAD(Latent Entropy-Aware Decoding)。

它的核心思想很直觀:當模型處于高熵狀態時,不再強迫它立刻從概率分布里采樣出一個單獨token,而是使用概率加權的連續 embedding,在潛在語義空間中同時保留多個候選推理方向;而當熵值下降后,再自然切回常規的離散token解碼,實現從「探索」到「收斂」的自適應過渡。


這篇工作的另一個亮點,是它沒有只做「latent decoding」,還進一步加入了 visual anchor injection。

作者觀察到,高熵階段往往也是視覺信息最容易被弱化的階段,因此LEAD在這一階段注入來自預訓練視覺表示的 guidance vector,把模型持續往圖像證據上拉,避免它在「想」的過程中越走越偏。

這個設計讓 LEAD 和一般的 decoding trick 不太一樣:它不只是重排token分數,而是在關鍵推理節點直接改變模型的表征與決策方式。

不只減少幻覺

實驗部分是這篇論文很扎實的一點。

作者在多組通用理解與hallucination benchmark上測試了LEAD,結果顯示它在不同backbone上都能帶來穩定增益。

以R1-Onevision-7B 為例,加入LEAD后,VStar從66.5提升到71.2,RealWorldQA從62.5提升到66.4,MMEval-Pro從69.4提升到73.9,MMHalu和Bingo也分別提升到3.80和3.84。

類似增益也出現在Vision-R1、VL-Rethinker、VL-Cogito和OpenVLThinker等模型上。

在數學與科學視覺推理任務上,LEAD同樣有效。比如在R1-Onevision-7B上,MathVision 從 29.9 提升到 32.4,Geometry3K 從 57.9 提升到 61.2,MMK12-Bio從40.8提升到44.8;在Vision-R1-7B上,MathVision 從 27.2 提升到 29.7,MathVerse 從 52.4 提升到54.5。也就是說,LEAD 帶來的不是某個單點 benchmark 的偶然提升,而是跨通用理解、數學和科學推理的整體增益。


消融實驗

這套方法不是「玄學調參」。論文顯示,動態 entropy threshold 策略優于始終離散或始終潛在的極端設置;而 persistence window 也存在一個合適區間,太短會導致頻繁切換,太長又會退回傳統 CoT 的行為模式。視覺錨點強度也不是越大越好,適中的視覺注入最能兼顧圖像grounding和語言上下文。


定性結果

論文展示了LEAD在具體樣例中的視覺注意力分配與token-level概率分布:相比baseline和MemVR,LEAD 會把更多注意力放在與問題真正相關的圖像區域上;同時,在 latent reasoning 階段,token分布更分散、熵更高,而進入 discrete reasoning 階段后,分布會逐步收斂到更確定的輸出。這種「先保留多種可能,再在證據約束下收斂」的過程,正是它緩解幻覺的關鍵。


更有意思的是,LEAD不只是更準,還更「省」。論文在MathVision上發現,LEAD在保持最高準確率的同時,平reasoning length反而更短;在Pass@k實驗中,它也能在更小的k上更快達到峰值,說明它擁有更好的 sample efficiency。換句話說,LEAD并不是靠「想得更長」取勝,而是靠在關鍵的不確定節點少走彎路。


最后,作者還用PPL以及GPT-5評估了輸出文本的 grammar、fluency 和 naturalness。

結果顯示,LEAD 在緩解幻覺的同時,并沒有犧牲文本質量,反而在多個維度上保持了更優或更穩的表現。也就是說,這種方法不是靠「保守回答」換來的提升,而是在 reasoning reliability 和生成質量之間取得了更好的平衡。

總的來看,這篇工作的啟發很明確:多模態模型的問題,未必是不會推理,而是在最不確定的時候,過早把自己鎖死在了一個可能錯誤的token 上。

LEAD的價值,就在于把「高熵階段」識別成真正的危險區,并讓模型在這里先保留語義多樣性、再回到確定輸出,同時用視覺錨點把推理重新拽回圖像證據。對多模態大推理模型來說,這可能比單純「多想一點」更重要。

參考資料:

https://arxiv.org/pdf/2603.13366

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
奉陪到底,中方專機抵朝前,朝鮮亮出集束彈頭,日韓防長緊急通話

奉陪到底,中方專機抵朝前,朝鮮亮出集束彈頭,日韓防長緊急通話

共工之錨
2026-04-10 01:25:50
孫穎莎幕后爆料若屬實,王勵勤將無法阻止其個人發展

孫穎莎幕后爆料若屬實,王勵勤將無法阻止其個人發展

老癘體育解說
2026-04-10 13:04:26
抵達廣東!威姆斯正式上任,新崗位曝光,與易建聯聯手,杜鋒期待

抵達廣東!威姆斯正式上任,新崗位曝光,與易建聯聯手,杜鋒期待

萌蘭聊個球
2026-04-10 10:35:36
一周竟然7次,32歲男子心源性猝死,妻子:勸了很多次,就是不聽

一周竟然7次,32歲男子心源性猝死,妻子:勸了很多次,就是不聽

健康之光
2026-04-08 10:56:55
路虎加完近500元油直接逃單后續!線索斷警方結案,操作全是套路

路虎加完近500元油直接逃單后續!線索斷警方結案,操作全是套路

離離言幾許
2026-04-10 09:02:27
美國、德國、英國、法國、日本、發表聯合聲明,中國強烈反對。

美國、德國、英國、法國、日本、發表聯合聲明,中國強烈反對。

小熊看國際
2026-04-10 12:30:38
消息人士:中東產油國準備恢復通過霍爾木茲海峽的石油出口

消息人士:中東產油國準備恢復通過霍爾木茲海峽的石油出口

財聯社
2026-04-10 13:46:47
走進人民大會堂前,鄭麗文團中現“特殊人物”,臺當局撒彌天大謊

走進人民大會堂前,鄭麗文團中現“特殊人物”,臺當局撒彌天大謊

愛下廚的阿釃
2026-04-10 14:06:04
董卿:一個男人在明知道你有家庭,有孩子的情況下,還要和你婚外有情,那這個男人的道德標準有多低!

董卿:一個男人在明知道你有家庭,有孩子的情況下,還要和你婚外有情,那這個男人的道德標準有多低!

黎兜兜
2026-04-10 16:09:00
全紅嬋后續:香港媒體先爆料,檢察日報喊話嚴查,隊友集體背刺!

全紅嬋后續:香港媒體先爆料,檢察日報喊話嚴查,隊友集體背刺!

眼光很亮
2026-04-09 12:34:30
蘋果新品官宣:4月9日,正式開售

蘋果新品官宣:4月9日,正式開售

科技堡壘
2026-04-08 10:22:36
男子用2條毒蛇泡酒,12年后打開本想品嘗美酒,誰知出現驚人現象

男子用2條毒蛇泡酒,12年后打開本想品嘗美酒,誰知出現驚人現象

詭譎怪談
2025-04-01 17:37:59
一個人頂一家公司!他光去年就結算了600億!

一個人頂一家公司!他光去年就結算了600億!

奮斗在韓國
2026-04-08 10:05:26
韓國總統李在明轉發以色列士兵折磨巴勒斯坦少年視頻并發聲:我們必須查清楚

韓國總統李在明轉發以色列士兵折磨巴勒斯坦少年視頻并發聲:我們必須查清楚

大象新聞
2026-04-10 14:44:10
NBA歷史首次!爸爸詹姆斯接兒子布朗尼助攻暴扣 官方發聲盛贊

NBA歷史首次!爸爸詹姆斯接兒子布朗尼助攻暴扣 官方發聲盛贊

醉臥浮生
2026-04-10 11:12:46
安徽蚌埠一幼兒園給孩子喂錯藥,家長回應:老師錯將其他生病小孩的藥喂給孩子;最新回應:已報警,衛健委已介入

安徽蚌埠一幼兒園給孩子喂錯藥,家長回應:老師錯將其他生病小孩的藥喂給孩子;最新回應:已報警,衛健委已介入

極目新聞
2026-04-10 12:20:03
廣東今年防汛形勢復雜嚴峻 或迎超強臺風正面襲擊

廣東今年防汛形勢復雜嚴峻 或迎超強臺風正面襲擊

財聯社
2026-04-10 14:22:45
蘋果給折疊屏起了個新名字,國產廠商連夜抄作業

蘋果給折疊屏起了個新名字,國產廠商連夜抄作業

薛定諤的BUG
2026-04-09 17:06:08
以色列,終成人類公敵!

以色列,終成人類公敵!

燕梳樓頻道
2026-04-10 15:02:39
彩票店從不外傳:機選加1步,剔除90%垃圾號,中獎概率大不同

彩票店從不外傳:機選加1步,剔除90%垃圾號,中獎概率大不同

芭比衣櫥
2026-04-10 12:27:58
2026-04-10 16:36:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
14939文章數 66763關注度
往期回顧 全部

科技要聞

馬斯克狂發大火箭也養不起AI 年虧50億美元

頭條要聞

"小鎮唯一騎手"月入過萬:沒人跟他搶單 全鎮靠他吃飯

頭條要聞

"小鎮唯一騎手"月入過萬:沒人跟他搶單 全鎮靠他吃飯

體育要聞

17歲賺了一百萬美元,25歲被CBA裁員

娛樂要聞

夏克立婚內出軌 曾參加《爸爸去哪兒》

財經要聞

愛爾眼科一院長被指猥褻 總部:已被停職

汽車要聞

搭載第二代刀片電池及閃充技術 騰勢N8L閃充版預售35萬起

態度原創

家居
親子
教育
本地
公開課

家居要聞

復古風格 自然簡約

親子要聞

安吉拉馬上要拍畢業照了,一眨眼長成大姑娘了,這裙子還挺好看

教育要聞

二年級培優,難倒99%的學生

本地新聞

12噸巧克力有難,全網化身超級偵探添亂

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版