337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

浙大團隊破解多模態(tài)模型「盲目自信」:先校準置信度,再分配算力

0
分享至

多模態(tài)大模型,到底有多“嘴硬”?

浙江大學聯(lián)合阿里巴巴、香港城市大學、密歇根大學的研究團隊做了一個很直接的實驗:

把輸入圖像從清晰狀態(tài)一路加噪到接近不可辨認,同時持續(xù)監(jiān)測模型的準確率與置信度。

結果是,準確率斷崖式下跌,但置信度幾乎不動。也就是說,圖像已經(jīng)看不清了,模型仍然會高置信度地給出答案。



這類“盲目自信”,正是多模態(tài)大模型在復雜視覺推理中產(chǎn)生幻覺和誤判的重要根源。針對這一問題,研究團隊提出了CA-TTS(Confidence-Aware Test-Time Scaling)框架:先通過置信度驅動的強化學習校準模型的自我評估能力,再把校準后的置信度轉化為推理階段的資源分配信號。

效果也很直接:在四個主流視覺推理基準上,CA-TTS全面達到SOTA,平均超越現(xiàn)有最優(yōu)方法8.8%。其中,在Math-Vision上,準確率從基線的23.0%提升到42.4%。論文已被CVPR 2026接收。



達爾文早就說過:無知比知識更容易產(chǎn)生自信

這項工作的出發(fā)點,其實是一個長期被忽視的問題:模型是否真的知道自己“不知道”?

研究團隊將上述現(xiàn)象定義為“感知鈍化”(Perceptual Bluntness)。也就是,模型對視覺信息質(zhì)量的變化缺乏敏感性,視覺證據(jù)已經(jīng)明顯退化,但置信度仍維持在高位。放在人類語境里,這很像一個人在看不清題目的情況下,仍然非常篤定地報出答案。

為了在多模態(tài)場景下更穩(wěn)定地度量這種問題,研究團隊沒有沿用文本模型里常見的token級校準方式,而是將置信度定義為整個輸出序列的平均負對數(shù)概率(NMLP),建立響應級別的置信度度量。基于這一度量,整套方法分成兩個階段:訓練階段的置信度校準,以及推理階段的置信度感知擴展。



第一步:CDRL讓視覺感知與置信度重新對齊

訓練階段的核心模塊是CDRL(Confidence-Driven Reinforcement Learning)。它的目標不是單純提升答題準確率,而是讓模型在“看得清”和“看不清”兩種情況下,給出與視覺證據(jù)相匹配的置信度。

具體做法是,讓模型同時處理同一問題的原始圖像與加噪圖像,并通過強化學習優(yōu)化一個雙重獎勵機制:

1. 感知敏感性獎勵:鼓勵模型在原始圖像與噪聲圖像之間產(chǎn)生合理的置信度差異。差異越大,說明模型越能感知視覺退化。

2. 校準一致性獎勵:當模型預測正確且置信度高時給予正向獎勵;當模型預測錯誤但置信度仍高時施加懲罰。

這兩個獎勵共同約束模型學會兩件事:一是對視覺退化保持敏感,二是對自身判斷保持誠實

在訓練數(shù)據(jù)上,研究團隊從6個公開基準中篩選出1936個高質(zhì)量樣本,并使用CLIP注意力圖定位關鍵視覺區(qū)域,生成更具針對性的擾動,使噪聲集中施加在真正影響推理的局部區(qū)域。



從結果看,CDRL的效果并不只是“置信度變低”這么簡單,而是“置信度終于跟視覺證據(jù)對上了”。面對噪聲圖像時,訓練后的模型置信度下降幅度是訓練前的4.3倍;面對遮擋條件時,這一比值達到4.7倍。

更值得注意的是,訓練前模型在視角變換和馬賽克干擾下,置信度甚至還會反向上升,而CDRL訓練后,所有視覺擾動條件下的置信度都轉為顯著下降,ECE與AUC指標也同步改善。

第二步:CA-TTS把校準后的置信度變成推理信號

有了更可信的置信度之后,研究團隊進一步提出CA-TTS,把“模型對自己有多確定”轉化為推理階段的調(diào)度信號。它包含三個協(xié)同工作的模塊,并由專家模型動態(tài)決定何時介入:

Self-Consistency:不再使用簡單多數(shù)投票,而是采用置信度加權投票。模型生成多個候選答案后,先由內(nèi)部置信度進行聚合,再引入專家模型作為外部校準器,對候選答案進行二次評估。

Self-Reflection:當初步結果的置信度不足時,專家模型以Critic角色生成批評意見,引導基礎模型重新推理,避免它在原有錯誤路徑上反復自洽。

Self-Check:在視覺層面對答案做進一步驗證。通過對比解碼,比較原始圖像與噪聲圖像下的輸出概率分布;如果答案確實依賴視覺證據(jù),那么在噪聲圖像下其支持度應當下降。



與常見的Tree-of-Thoughts不同,CA-TTS的關鍵不只是“多想幾步”,而是建立了一個多階段驗證閉環(huán)。前一階段即使給出錯誤候選,后續(xù)模塊仍有機會糾正它。論文中的“墻上缺了多少塊磚”案例就體現(xiàn)了這一點:Tree-of-Thoughts在最終單點評估上失手,而CA-TTS通過加權投票、反思和視覺自檢三步糾偏,最終恢復出正確答案。

實驗結果:四大基準全面領先



在四個主流視覺推理基準上,CA-TTS的表現(xiàn)如下。需要強調(diào)的是,這里的基座模型統(tǒng)一為Qwen2.5-VL-7B,因此提升主要來自方法本身,而不是底座差異。

幾組數(shù)字尤其有代表性。Math-Vision上,CA-TTS從基線的23.0%直接提升到42.4%,幾乎翻倍;MMMU上達到66.3%,相較基線提升17.5個百分點。這說明它帶來的不是單點收益,而是在不同類型視覺推理任務上的一致性改進。

消融實驗進一步揭示了CDRL與CA-TTS的分工關系:



單獨使用CDRL,提升3.4個百分點,說明置信度校準本身就有獨立價值;單獨使用CA-TTS,提升15.0個百分點,說明推理框架已經(jīng)能夠顯著改善決策質(zhì)量;兩者結合后總提升達到19.4個百分點,表明CDRL為CA-TTS提供了更可靠的策略基礎,二者存在明顯協(xié)同效應。



研究團隊還檢驗了專家模型的依賴程度。即使讓Qwen2.5-VL-7B自身充當“專家”,性能也仍比純Majority Voting高出接近5個百分點(32.57% vs. 27.65%)。換句話說,強專家模型確實能進一步放大收益,但框架本身并不是靠“抱大腿”成立的。

Test-Time Scaling:斜率拉開,才是更關鍵的結果

如果說四個基準上的SOTA說明方法“更準”,那么test-time scaling曲線揭示的是它“為什么更值”。



在Math-Vision上,研究團隊比較了采樣數(shù)量從1增加到32時,不同方法的準確率增長趨勢。結果顯示,CA-TTS的擴展斜率β = 3.65,而Majority Voting為1.64,DeepConf為1.19。也就是說,CA-TTS的擴展效率分別是后兩者的2.2倍和3.1倍。

這意味著,同樣是增加采樣次數(shù),CA-TTS并不是“更頻繁地碰運氣”,而是更有效地把額外算力投向真正不確定的問題上。當Majority Voting和DeepConf在35%左右逐漸趨于飽和時,CA-TTS仍能繼續(xù)爬升,并最終突破45%。

從這個角度看,置信度校準并不是一個附屬優(yōu)化項,而是在重新定義test-time scaling的效率上限。它讓“多算一點”這件事第一次變得更有方向感。

從“先推理后感知”到“先感知后推理”

這項工作最值得關注的地方,可能并不只是又一個更高的benchmark分數(shù),而是它提出了一種新的問題順序。

過去,多模態(tài)推理研究默認的前提是:模型已經(jīng)在充分利用視覺信息,接下來只需要把推理能力做強。但這篇論文提醒我們,一個模型可能根本沒有真正“看懂”圖像,卻依然能給出高度自信的回答。若這個前提沒有被修正,后續(xù)再復雜的推理鏈條,也可能建立在不可靠的感知基礎上。

CA-TTS的思路正好反過來:先通過CDRL建立對視覺證據(jù)變化敏感、且與準確性一致的置信度,再讓這種置信度去指導推理資源的分配。這是一種明確的Perceive-then-Reason范式,也就是從“先推理后感知”轉向“先感知后推理”。

當然,這一方向也并非沒有代價。多次采樣與專家模型調(diào)用會帶來額外推理成本,當前實驗也主要集中在數(shù)學推理和通用VQA任務上。但如果目標是讓多模態(tài)大模型在高風險場景中真正做到“知道自己什么時候不該太自信”,那么這條路線已經(jīng)給出了一個很有說服力的起點。

論文標題:
Linking Perception, Confidence and Accuracy in MLLMs
作者:
Yuetian Du*, Yucheng Wang*, Rongyu Zhang, Zhijie Xu, Boyu Yang, Ming Kong, Jie Liu#, Qiang Zhu#
單位:
浙江大學、阿里巴巴集團、香港城市大學、密歇根大學
發(fā)表:
CVPR 2026
項目鏈接:
https://github.com/anotherbricki/CA-TTS

作者簡介:
本文第一作者為杜越天,浙江大學博士生,研究方向為多模態(tài)大模型的置信度校準與test-time scaling,導師為朱強教授。本文在朱強教授和劉潔博士的指導下完成。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
太意外!米蘭寶格麗之夜合影:劉亦菲兩度被擠,下意識動作引熱議

太意外!米蘭寶格麗之夜合影:劉亦菲兩度被擠,下意識動作引熱議

時間巡查
2026-03-25 04:28:00
5換1?拿26年前五順位打包換文班?名嘴西蒙斯開出離譜報價!

5換1?拿26年前五順位打包換文班?名嘴西蒙斯開出離譜報價!

仰臥撐FTUer
2026-03-25 13:34:02
國民黨大亂!馬英九緊急發(fā)聲、與鄭麗文決裂?蕭旭岑恐遭牢獄之災

國民黨大亂!馬英九緊急發(fā)聲、與鄭麗文決裂?蕭旭岑恐遭牢獄之災

趣文說娛
2026-03-25 16:42:22
女大學生住院做檢查,報告竟是假的!珠海中山五院等多方回應

女大學生住院做檢查,報告竟是假的!珠海中山五院等多方回應

南方都市報
2026-03-24 12:42:25
臺獨大金主身中29槍暴斃

臺獨大金主身中29槍暴斃

雪中風車
2026-03-24 20:19:46
國產(chǎn)ED藥金戈跌落神壇!一年少賣798萬片,這屆中國男人雄起了?

國產(chǎn)ED藥金戈跌落神壇!一年少賣798萬片,這屆中國男人雄起了?

思思夜話
2026-03-25 13:48:18
42歲劉翔現(xiàn)狀:環(huán)游世界不上班,終身合同管溫飽,拉黑噴子享清凈

42歲劉翔現(xiàn)狀:環(huán)游世界不上班,終身合同管溫飽,拉黑噴子享清凈

小徐講八卦
2026-02-09 18:42:29
新冠后遺癥對人體的最大影響,很多人深受其害,有些人還不自知

新冠后遺癥對人體的最大影響,很多人深受其害,有些人還不自知

呼吸科大夫胡洋
2026-02-22 11:39:12
歐美進一步“離心”?德總統(tǒng):對美信任已然喪失;法國防參謀長:美已“不可預測”

歐美進一步“離心”?德總統(tǒng):對美信任已然喪失;法國防參謀長:美已“不可預測”

紅星新聞
2026-03-25 13:54:18
美國商務部:在美國制裁下,中國休想大批量制造的AI芯片

美國商務部:在美國制裁下,中國休想大批量制造的AI芯片

顧史
2026-03-24 19:56:17
主持人魏笑的最后3天:15號生日,16號領證,17號婚禮成葬禮

主持人魏笑的最后3天:15號生日,16號領證,17號婚禮成葬禮

就一點
2026-03-19 10:47:51
終于有人管管美國了!美國遇到大麻煩,美國:中美兩國需要攜手

終于有人管管美國了!美國遇到大麻煩,美國:中美兩國需要攜手

福建平子
2026-01-28 10:52:25
全球龍蝦批量黑化!Meta2小時災難擊穿硅谷心臟,OpenClaw反噬來襲

全球龍蝦批量黑化!Meta2小時災難擊穿硅谷心臟,OpenClaw反噬來襲

新智元
2026-03-21 10:11:37
特朗普稱美國已將伊朗徹底從地圖上抹去,伊朗總統(tǒng)回應;內(nèi)塔尼亞胡:以色列和美國為世界而戰(zhàn),希望其他國家也加入進來

特朗普稱美國已將伊朗徹底從地圖上抹去,伊朗總統(tǒng)回應;內(nèi)塔尼亞胡:以色列和美國為世界而戰(zhàn),希望其他國家也加入進來

每日經(jīng)濟新聞
2026-03-23 08:19:10
張雪峰去世后續(xù)!公司現(xiàn)狀曝光,門上對聯(lián)被拆下,殯葬人員曝后事

張雪峰去世后續(xù)!公司現(xiàn)狀曝光,門上對聯(lián)被拆下,殯葬人員曝后事

阿鳧愛吐槽
2026-03-25 11:25:56
張雪峰離世,爆出大瓜!

張雪峰離世,爆出大瓜!

財經(jīng)三分鐘pro
2026-03-25 16:15:25
39人落網(wǎng)!中方追回走私稀土,價值46個億,美國砸重金收買內(nèi)鬼

39人落網(wǎng)!中方追回走私稀土,價值46個億,美國砸重金收買內(nèi)鬼

阿鳧愛吐槽
2026-03-24 03:53:45
中國銀行、建設銀行、民生銀行、工商銀行,發(fā)布風險提示

中國銀行、建設銀行、民生銀行、工商銀行,發(fā)布風險提示

極目新聞
2026-03-25 09:10:14
美國國防部長:所有國家應該排好順序,專門給美國總統(tǒng)說一句謝謝

美國國防部長:所有國家應該排好順序,專門給美國總統(tǒng)說一句謝謝

達文西看世界
2026-03-24 08:13:44
75歲劉曉慶連發(fā)三條動態(tài)辟謠死訊,怒斥造謠者:“這么想我死啊”

75歲劉曉慶連發(fā)三條動態(tài)辟謠死訊,怒斥造謠者:“這么想我死啊”

極目新聞
2026-03-25 17:01:40
2026-03-25 17:56:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12343文章數(shù) 176424關注度
往期回顧 全部

科技要聞

紅極一時卻草草收場,Sora宣布正式關停

頭條要聞

"軍工虎"譚瑞松獲死緩:搞權色交易 多次泄露內(nèi)幕信息

頭條要聞

"軍工虎"譚瑞松獲死緩:搞權色交易 多次泄露內(nèi)幕信息

體育要聞

35歲替補門將,憑什么入選英格蘭隊?

娛樂要聞

張雪峰經(jīng)搶救無效不幸去世 年僅41歲

財經(jīng)要聞

管濤:中東局勢如何影響人民幣匯率走勢?

汽車要聞

智己LS8放大招 30萬內(nèi)8系旗艦+全線控底盤秀實力

態(tài)度原創(chuàng)

本地
手機
時尚
藝術
房產(chǎn)

本地新聞

來永泰同安 赴一場春天的約會

手機要聞

廢舊手機回收價大漲 去年回收價20元的舊手機今年漲到180

告別黑白灰,春天穿“奶油色”真的很好看

藝術要聞

《百花譜》,這個春天畫花不用愁!

房產(chǎn)要聞

41億!259畝!建學校…三亞這個大城更,最新方案曝光!

無障礙瀏覽 進入關懷版