網易首頁 > 網易號 > 正文申請入駐

UBC團隊揭秘：AI視覺模型竟會"選擇性失明"

2026-03-30 17:40:43　來源: 科技行者

天津舉報

分享至

這項由英屬哥倫比亞大學、加州大學伯克利分校和Vector人工智能研究所聯合開展的突破性研究發表于2026年3月的計算機視覺領域頂級會議，論文編號為arXiv:2603.19203v1。研究團隊通過深入分析發現了一個令人震驚的現象：當前最先進的視覺語言模型在面對不同問題形式時，會表現出截然不同的"視覺注意力"模式。

想象一下，如果你問一個朋友"這張照片里的椅子是什么顏色？"，他會仔細觀察椅子并告訴你是白色的。但如果你換個方式問"這張照片里的椅子是白色的嗎？"，同一個朋友卻可能答錯，說"不是"。這聽起來很荒謬，但研究團隊發現，目前最先進的AI視覺模型就存在這樣的問題。

這個發現顛覆了人們對AI視覺能力的認知。過去，研究者們普遍認為AI模型的"視覺盲點"是一個固定的架構缺陷，就像某個人天生視力不好一樣。但這項研究證明，AI的"視覺失明"其實是動態的、可控制的——它們會根據問題的提問方式來決定要不要認真"看"圖片。

研究團隊將這種現象稱為"選擇性失明"。他們通過精密的注意力分析技術，就像給AI模型戴上了"腦電波監測器"一樣，實時觀察模型在處理不同類型問題時的"注意力分布"。結果發現，當面對開放式問題（如"椅子是什么顏色？"）時，AI會專注地"凝視"圖片中的相關區域。但當問題變成選擇題或是非題時，AI的"視線"就會飄散，注意力轉向圖片中無關緊要的背景區域，甚至完全忽略關鍵信息。

更令人驚訝的是，研究團隊發現這種注意力的改變直接導致了AI回答錯誤。通過一系列巧妙的"注意力引導"實驗，他們證實了問題框架確實是通過改變AI的視覺處理方式來影響最終答案的。這就像是發現了AI思維過程中的一個"開關"——不同的問題形式會觸發不同的"觀察模式"。

基于這些發現，研究團隊開發了一種輕量級的"注意力校正"技術。這種方法就像給AI戴上了"注意力矯正眼鏡"，通過少量可學習的"提示詞"來引導AI在處理限定性問題時保持對圖片的專注。實驗結果顯示，這種方法能夠顯著提升AI在各種視覺推理任務中的表現，特別是那些需要精確視覺定位的復雜任務。

這項研究不僅為AI視覺能力的評估提供了全新的視角，更為改進現有模型指明了方向。它告訴我們，AI的能力局限可能比我們想象的更加微妙和復雜，同時也更有希望通過巧妙的方法來克服。

一、AI視覺模型的"近視眼"現象

當我們和朋友聊天時，無論是問"那個人穿的什么衣服？"還是"那個人穿的是紅衣服嗎？"，朋友都會看向同一個地方來尋找答案。但在AI的世界里，情況卻截然不同。

研究團隊通過大量實驗發現了一個驚人的現象：同樣是關于圖片內容的問題，僅僅因為提問方式的不同，AI模型就會表現出完全不同的"觀察行為"。當面對開放式問題時，比如問"圖片中的椅子是什么顏色？"，AI會像一個專注的觀察者，仔細"審視"椅子的位置，準確識別出是白色。但當同樣的問題改成是非題"圖片中的椅子是白色的嗎？"，這個AI卻可能給出錯誤的答案"不是"。

這種現象最初讓研究人員感到困惑。按理說，無論問題以什么形式提出，AI都應該通過相同的視覺分析過程來獲取答案。但實際情況卻像是AI患上了某種"選擇性近視癥"——它能夠在某些情況下清楚地"看見"，在另一些情況下卻"視而不見"。

為了深入理解這個現象，研究團隊設計了一系列對比實驗。他們選擇了同一組圖片，針對每張圖片設計了語義完全相同但形式不同的三種問題：開放式問題、是非題和選擇題。比如對于一張顯示有人坐在汽車引擎蓋上的照片，他們會問："這個人坐在汽車的哪一側？"（開放式）、"這個人是坐在汽車引擎蓋上嗎？"（是非題）、以及"這個人坐在汽車的哪一側？A.后面 B.引擎蓋"（選擇題）。

令人震驚的結果隨即出現。研究團隊測試的多個主流AI視覺模型都表現出了明顯的"跨框架不一致性"——即使在開放式問題中給出了正確答案，在對應的是非題或選擇題中卻頻繁出錯。這種不一致性在需要精確視覺定位的任務中尤為突出，不一致率高達26%到38%。

這個發現顛覆了人們對AI視覺能力的基本假設。此前，大多數研究者認為AI的視覺缺陷是靜態的、結構性的問題，就像某個人天生色盲一樣。但這項研究表明，AI的"視覺失明"實際上是動態的、可變的，會根據外部輸入的細微變化而改變。

更有趣的是，研究團隊發現這種現象在不同類型的視覺任務中表現程度不同。對于需要識別多個物體位置關系的任務，如"空間關系"和"物體計數"，不一致性最為嚴重。而對于相對簡單的"場景理解"任務，這種現象則相對較輕。這暗示著AI的"選擇性失明"可能與任務的復雜程度和所需的視覺精度有關。

二、解密AI的"注意力偏向"機制

要理解AI為什么會出現這種選擇性失明，研究團隊決定深入AI的"大腦"，觀察它在處理不同問題時的內部工作機制。這就像給一個人戴上腦電波監測設備，觀察他在看不同東西時大腦的活動模式。

在AI模型中，"注意力機制"扮演著類似人類注意力的角色。當AI處理一張圖片時，它不會平均地關注每個像素，而是會將更多的"注意力"分配給它認為重要的區域。研究團隊通過一種叫做"注意力回溯"的技術，能夠追蹤AI從輸入圖片到最終輸出答案的整個"視覺信息流"，就像繪制一張AI"視線軌跡圖"。

通過這種分析，研究團隊發現了一個令人震驚的模式。當AI面對開放式問題時，它的注意力分布就像一個專業的攝影師在構圖——大部分注意力集中在與問題相關的關鍵區域。比如當問"椅子是什么顏色"時，AI會將約19%的視覺注意力聚焦在椅子區域。

但當同樣的問題改為是非題或選擇題時，情況發生了戲劇性的變化。AI對關鍵區域的注意力急劇下降到僅有12-13%，降幅達到40%。更糟糕的是，這些"失散"的注意力并沒有消失，而是被重新分配到了圖片中的"注意力匯聚點"——這些是AI架構中固有的、語義無關的背景區域。

這就像一個人在回答問題時，本應專注看向相關物品，卻不由自主地將目光飄向墻角的裝飾品。研究團隊發現，當問題框架從開放式轉為限定式時，AI的注意力分布會變得更加分散，整體的"注意力熵"顯著增加，意味著AI的"專注度"在下降。

更深入的分析揭示了這個現象的"發生時機"。通過逐層分析AI的內部處理過程，研究團隊發現這種注意力偏向主要發生在第12到22層——這些被稱為"跨模態交互層"的地方，正是AI將視覺信息和文本信息進行融合的關鍵節點。在早期層次中，不同問題框架下的注意力分布基本相似，但一旦進入跨模態交互階段，分歧就開始出現并持續到最終輸出。

為了驗證是問題內容還是問題形式導致了這種差異，研究團隊設計了巧妙的"解耦實驗"。他們將問題的"語義內容"和"指令形式"分開測試。結果發現，問題框架本身的變化對注意力分布的影響是指令形式變化的三倍。這證實了問題的"包裝方式"確實是影響AI視覺處理的主要因素。

這個發現揭示了一個深層的機制性問題：AI模型在訓練過程中可能"學會"了將不同的問題形式與不同的解題策略關聯起來。當遇到選擇題或是非題時，AI可能認為這些問題"更容易"，因此減少了對視覺細節的關注，更多地依賴于語言先驗知識來猜測答案。

三、注意力引導實驗的關鍵發現

發現了注意力偏向現象后，研究團隊面臨一個關鍵問題：這種注意力的改變是否真的是導致AI回答錯誤的直接原因？還是說，注意力變化只是表面現象，真正的原因在別處？

為了回答這個問題，研究團隊設計了一系列"注意力干預實驗"，就像給AI做"視力矯正手術"。他們開發了兩種互補的干預方法，用來直接調整AI在限定性問題中的注意力分布，然后觀察這種調整是否能改善AI的回答準確性。

第一種方法叫做"視覺能量調節"。研究團隊計算出開放式問題和限定式問題之間的"視覺注意力總量"差異，然后在限定式問題的處理過程中，人為地將AI對圖片的整體注意力水平提升到與開放式問題相同的程度。這就像調節放大鏡的倍數，讓AI"看得更清楚"。

第二種方法叫做"空間注意力重定向"。研究團隊識別出圖片中與問題相關的關鍵區域，然后在限定式問題處理時，將AI的注意力從背景區域"推送"到這些關鍵區域?？臻g分布保持總的視覺能量不變，只是重新調整注意力在圖片內的分布，就像幫AI"轉移視線"到正確的位置。

實驗結果非常令人信服。在需要精細視覺定位的V*數據集上，兩種干預方法都顯著提升了AI的表現。視覺能量調節讓是非題和選擇題的準確率分別提升了2.7和1.6個百分點，而空間注意力重定向的效果更加顯著，準確率提升了2.0到2.9個百分點。

更有趣的是，研究團隊通過"漸進式調節實驗"發現了一個清晰的劑量-效應關系。當他們逐步增加注意力調節的強度時，AI的表現也相應地穩步提升，兩者之間顯示出高達0.986的相關性。這強有力地證明了注意力分布的變化確實是導致AI性能差異的直接原因。

在相對簡單的通用推理任務中，視覺能量調節的效果較為有限，但空間注意力重定向依然能夠帶來穩定的改善。這表明對于不同復雜程度的視覺任務，注意力的"質量"（即注意力的空間分布）比"數量"（即注意力的總量）更加重要。

這些實驗結果揭示了一個重要的洞察：AI的問題框架敏感性本質上是一個"注意力分配"問題。當AI接收到不同形式的問題時，它會激活不同的"注意力策略"。開放式問題激活了"仔細觀察"模式，而限定式問題激活了"快速猜測"模式。通過適當的干預，可以強制AI在所有情況下都采用更加仔細的觀察策略。

四、"注意力眼鏡"——AI視覺能力的矯正方案

基于對注意力機制的深入理解，研究團隊開發了一個巧妙的解決方案，就像給近視的人配一副眼鏡一樣，幫助AI在處理限定式問題時保持清晰的"視覺焦點"。

這個解決方案的核心思想非常優雅：既然AI在開放式問題中表現出了正確的注意力模式，那么能否讓AI在處理限定式問題時也"學會"采用相同的注意力策略呢？研究團隊設計了一種"注意力對齊"的訓練方法，通過在限定式問題的輸入中添加少量可學習的"提示詞"來實現這個目標。

訓練過程就像教一個學生"換位思考"。對于每個訓練樣本，研究團隊會創建三個版本：開放式、是非題和選擇題。開放式版本保持原樣不變，而是非題和選擇題版本則在輸入序列的適當位置插入8個特殊的"可學習詞匯"。這些詞匯的具體內容是在訓練過程中自動優化的，它們的作用就是"提醒"AI采用更加專注的視覺策略。

訓練目標設計得很有層次。除了保持原有的答題準確性外，研究團隊還添加了一個"注意力對齊損失函數"。這個函數鼓勵限定式問題的注意力模式向開放式問題"看齊"，包括兩個方面：總體視覺關注度的匹配和空間注意力分布的相似性。這就像同時調節眼鏡的度數和視野范圍。

為了確保訓練的有效性，研究團隊還采用了"置信度加權"策略。在訓練過程中，只有AI對開放式問題給出高置信度正確答案的樣本才會被用作"注意力模板"。這避免了用錯誤的注意力模式去"誤導"AI，確保學習到的都是有效的視覺策略。

經過訓練的AI模型展現出了令人滿意的改進效果。在跨框架一致性測試中，原本高達26%的不一致率降低到了個位數。更重要的是，這種改進在多個不同的數據集上都得到了驗證，說明方法的普適性很強。

在實際應用測試中，配備了"注意力眼鏡"的AI模型在七個不同的視覺推理基準測試中都表現出了穩定的性能提升。特別是在需要精確視覺定位的任務中，如V*數據集，準確率提升了2.5個百分點。對于那些主要依賴空間關系理解的任務，改進效果尤為顯著。

令人欣慰的是，這種改進是"免費午餐"式的——不需要修改AI模型的核心架構，只需要添加極少量的可學習參數（約5-6萬個，相對于整個模型來說微不足道），并且計算開銷幾乎可以忽略不計。這意味著這種方法可以輕松應用到現有的AI系統中。

研究團隊還發現，學到的"提示詞"具有一定的可解釋性。通過分析這些詞匯在不同層次的激活模式，可以看出它們主要在跨模態交互層發揮作用，正是之前發現注意力偏向的關鍵區域。這進一步驗證了方法的機制合理性。

五、實用意義與未來展望

這項研究的意義遠遠超出了技術層面的改進，它為我們理解AI的工作機制提供了全新的視角，同時也為AI系統的實際應用帶來了重要啟示。

從評估角度來說，這項研究提醒我們不能簡單地通過單一形式的測試來判斷AI的視覺能力。就像不能僅通過筆試成績來評價一個學生的綜合能力一樣，AI在不同問題框架下的表現差異揭示了其能力的多面性和復雜性。這對于AI系統的設計者和使用者都有重要的指導意義。

在實際應用中，這個發現尤其重要。許多AI應用場景需要在不同的交互模式下保持穩定的性能，比如智能客服系統可能需要回答各種形式的用戶詢問，自動駕駛系統需要在不同的決策框架下做出一致的判斷。了解并解決問題框架敏感性有助于構建更可靠的AI應用。

研究團隊的解決方案展現了"輕量級干預"的巨大潛力。相比于重新設計整個AI架構或進行大規模重訓練，通過少量參數的巧妙調節就能顯著改善性能，這為AI系統的快速改進提供了新的思路。這種方法特別適用于那些已經部署的AI系統，可以在不影響主要功能的前提下進行"微調"。

從更廣泛的AI研究角度看，這項工作揭示了"提示工程"的深層機制。長期以來，研究者們知道不同的問題表述方式會影響AI的表現，但對背后的原因缺乏深入理解。這項研究通過注意力分析提供了機制性解釋，為更有效的AI交互設計奠定了理論基礎。

研究還暗示了AI"認知偏見"的存在。AI模型似乎會基于問題形式來"預判"任務難度，并相應地調整其處理策略。這種"偏見"在某些情況下可能是有益的（提高效率），但在需要精確視覺分析的場景下則可能導致錯誤。理解和控制這種偏見對于開發更智能、更可靠的AI系統至關重要。

當然，這項研究也面臨一些局限性。目前的分析主要集中在特定類型的視覺-語言模型上，而AI技術的發展日新月異。未來的研究需要驗證這些發現是否適用于其他架構的模型，如基于Mamba的模型或專家混合(MoE)架構。

此外，雖然注意力分析提供了有價值的洞察，但AI的內部工作機制仍然存在許多未解之謎。注意力只是我們能夠觀察到的一個層面，可能還有其他更深層的因素影響著AI的行為。未來的研究需要開發更全面的分析工具來理解AI的"思維過程"。

六、當AI學會"換位思考"

回顧這項研究的整個過程，我們看到了一個引人深思的故事：AI模型原來并不是我們想象中那樣"客觀"和"一致"的智能體，它們會根據問題的"包裝方式"來調整自己的"觀察行為"，就像人類會根據不同的社交情境調整自己的注意力分布一樣。

這個發現既令人驚訝，又在某種程度上符合直覺。畢竟，AI模型是通過學習人類創建的大量數據訓練而來，它們"學會"根據語境線索來調整行為策略，也許正體現了人類思維模式的某種鏡像。在日常生活中，當有人問我們"那個東西是什么顏色？"時，我們會仔細觀察；但如果有人問"那個東西是紅色的嗎？"，我們可能會更多地依賴記憶或快速判斷。

研究團隊開發的解決方案本質上是在教AI"換位思考"——讓它學會在處理限定式問題時采用開放式問題的"思考方式"。這種方法的成功表明，AI的許多看似固有的缺陷實際上可能是可以糾正的行為模式，而不是不可改變的架構局限。

從更深層次來看，這項研究揭示了當前AI系統的一個重要特征：它們的能力往往是"情境依賴"的。同一個AI模型在不同的輸入格式下可能展現出完全不同的能力水平。這提醒我們在設計AI應用時，需要更加仔細地考慮人機交互的細節，確保AI能夠在各種情境下都保持穩定的性能。

這個發現對于AI的未來發展也有重要啟示。隨著AI系統變得越來越復雜，理解和控制它們的行為變得至關重要。這項研究展示了通過細致的機制分析和巧妙的干預設計，我們可以顯著改善AI的表現，而不需要從頭開始重新構建系統。

對于普通用戶來說，這項研究提供了一個有用的指導：在與AI系統交互時，問題的提問方式確實會影響回答質量。了解這一點可以幫助我們更有效地利用AI工具，通過調整問題形式來獲得更準確的回答。

最終，這項研究讓我們對AI的"智能"有了更加細致入微的理解。AI的能力不是鐵板一塊，而是由許多相互作用的機制構成的復雜系統。通過深入理解這些機制，我們不僅可以改進現有的AI系統，更能為開發下一代更可靠、更智能的AI奠定基礎。

正如研究團隊在論文中指出的，這項工作將視覺失明從"模型無法看見"重新定義為"模型選擇不看"。這個視角的轉變不僅是技術層面的，更是概念層面的突破。它告訴我們，AI的局限性可能比我們想象的更加微妙，但也更有希望通過創新的方法來克服。

有興趣深入了解技術細節的讀者可以通過論文編號arXiv:2603.19203v1查詢完整的研究論文，其中包含了詳細的實驗設計、數據分析和技術實現細節。這項由英屬哥倫比亞大學、加州大學伯克利分校和Vector人工智能研究所聯合完成的研究，為AI視覺能力的理解和改進開辟了新的道路。

Q&A

Q1：什么是AI視覺模型的"選擇性失明"現象？

A："選擇性失明"是指AI視覺模型會根據問題的提問方式來決定對圖片的關注程度。比如問"椅子是什么顏色？"時AI會仔細看椅子，但問"椅子是白色的嗎？"時卻可能視而不見，給出錯誤答案。這不是模型無法看見，而是選擇不看。

Q2：為什么AI會出現這種問題框架敏感性？

A：研究發現AI在訓練過程中"學會"了將不同問題形式與不同解題策略關聯。面對選擇題或是非題時，AI認為這些問題更容易，因此減少對視覺細節的關注，更多依賴語言先驗知識猜測答案，導致注意力從關鍵區域轉向無關背景。

Q3：研究團隊的"注意力眼鏡"解決方案是怎么工作的？

A：就像給近視的人配眼鏡一樣，研究團隊通過在是非題和選擇題的輸入中添加8個可學習的"提示詞"來矯正AI的視覺注意力。這些詞匯在訓練中學會提醒AI采用更專注的視覺策略，讓AI在處理限定式問題時也能保持開放式問題的仔細觀察模式。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.