網易首頁 > 網易號 > 正文申請入駐

北大等七大機構聯手打造：讓AI真正學會"看懂世界"的超級測試題

2026-03-27 16:55:46　來源: 科技行者

北京舉報

分享至

當你看到一張模糊不清的老照片，你可能會本能地調整角度、增強對比度，甚至用放大鏡仔細觀察細節。但如果讓AI來做同樣的事情，它們會怎么表現呢？這個看似簡單的問題，實際上觸及了當前人工智能領域的一個核心挑戰：如何讓機器真正學會像人類一樣靈活地處理復雜的視覺任務。

這項由北京大學、南洋理工大學、中科大、重慶大學、國防科技大學、中科院以及美團七大機構合作完成的研究，發表于2026年3月的arXiv預印本服務器，編號為arXiv:2603.15030v2。研究團隊針對當前AI視覺能力評估的不足，創建了一個名為VTC-Bench（VisualToolChain-Bench）的全新測試平臺，專門用于評估多模態大語言模型在復雜視覺任務中的真實表現。

要理解這項研究的重要性，不妨回想一下人類處理視覺問題的過程。當醫生診斷X光片時，他們可能需要先調整圖像亮度，然后放大特定區域，接著測量病灶大小，最后綜合多個信息得出結論。這個過程涉及多個步驟的工具使用和邏輯推理，而這正是當前AI系統最薄弱的環節。

現有的AI評估方法就像只測試學生能否回答單選題，卻從不考察他們是否會使用計算器、量角器等工具來解決實際問題。VTC-Bench的創新在于，它不僅測試AI能否"看懂"圖像，更重要的是測試AI能否像人類一樣，靈活運用各種視覺工具來處理復雜的現實任務。

一、搭建史上最豐富的AI視覺工具庫

研究團隊首先面臨的挑戰是：如何為AI提供一套完整而實用的視覺工具？他們的解決方案是基于OpenCV這個在計算機視覺領域廣泛使用的工具庫，精心篩選并整理出32種不同的視覺操作工具。

這些工具被巧妙地分為四大類別，就像一個裝備齊全的攝影工作室。幾何變換工具就像相機的各種拍攝角度和鏡頭，包括旋轉、翻轉、裁剪、縮放等操作，讓AI能夠從不同角度觀察和處理圖像。圖像增強工具則像是后期處理軟件，包括顏色空間轉換、亮度調節、去噪、銳化等功能，幫助AI改善圖像質量。特征提取工具相當于專業的分析儀器，能夠檢測邊緣、分離對象、識別形狀等，讓AI能夠深入理解圖像內容。最后的繪圖工具則像是標注筆和測量儀，讓AI能夠在圖像上做標記、測量距離和計算面積。

這套工具庫的設計理念完全模擬了人類視覺認知的三個階段：首先是恢復和優化圖像質量，然后提取關鍵特征信息，最后進行驗證和量化分析。每個工具都有詳細的使用說明和參數設置，確保AI能夠準確理解和使用它們。

二、設計真實世界的視覺挑戰題目

有了工具還不夠，關鍵是要設計出能夠真實反映人類視覺處理需求的測試題目。研究團隊構建了一個包含680個精心設計問題的測試集，這些問題被組織成一個九層的認知難度體系，就像一座技能金字塔。

在金字塔的底層，是視覺感知增強任務。這包括三個基礎技能：強化文字識別、感知修復和注意力聚焦。強化文字識別就像給戴眼鏡的人擦拭鏡片，AI需要處理各種干擾因素（如模糊、傾斜、光線不足）來準確識別圖像中的文字。感知修復則像是修復老照片的專家，AI需要去除霧霾、調整曝光、減少噪點等，讓模糊的圖像變得清晰可見。注意力聚焦要求AI能夠在復雜場景中鎖定關鍵信息，就像在嘈雜的派對中專注聽某個人說話。

中層是定量視覺估算任務，包括測量、顏色分析和計數三個方面。測量任務要求AI像工程師一樣精確計算物體的尺寸、距離和位置。顏色分析讓AI成為色彩專家，能夠準確識別和量化圖像中的顏色分布。計數任務則考驗AI在復雜場景中準確統計對象數量的能力，比如數清一堆重疊硬幣的具體數目。

金字塔頂層是組合視覺推理任務，這是最具挑戰性的部分。圖表分析要求AI像數據分析師一樣，從復雜的圖表中提取信息并進行推理。數學幾何任務讓AI扮演幾何學家的角色，通過構建輔助線和測量來解決幾何問題。空間推理則考驗AI在極端條件下（如過度曝光或嚴重模糊）分析空間關系的能力。

每個測試題目都配有標準答案和詳細的工具使用軌跡，就像給學生不僅提供正確答案，還提供完整的解題步驟。這種設計確保了評估的精確性，不僅看結果是否正確，還要看解決問題的過程是否合理。

三、揭示AI視覺能力的真實水平

當研究團隊用VTC-Bench測試19個主流的多模態大語言模型時，結果令人大跌眼鏡。即使是表現最好的Gemini-3.0-Pro模型，成功率也只有51.2%，這就像一個優秀學生在復雜的實際應用考試中勉強及格。

更讓人意外的是不同類型模型之間的巨大差異。商業化的閉源模型（如GPT系列、Gemini系列）在使用工具后表現有顯著提升，GPT-4o甚至獲得了9.56%的性能提升。然而開源模型的表現卻讓人失望，它們不僅提升幅度微乎其微，有時甚至出現了性能下降。這就像給業余廚師和專業廚師同樣的高級廚具，專業廚師能夠充分發揮工具的作用，而業余廚師可能反而被復雜的工具所困擾。

研究還發現了一個有趣的現象：AI模型在不同難度層級的任務中表現截然不同。在基礎的視覺感知增強任務中，模型表現相對較好，就像學會了使用濾鏡和調色板。但在需要精確操作的定量估算任務中，許多模型開始力不從心。而在最高層級的組合推理任務中，模型的表現出現了兩極分化：要么表現優異，要么徹底失敗。

這種現象反映了一個深層問題：AI模型在工具使用方面存在嚴重的"偏科"現象。它們更擅長粗粒度的操作，比如簡單的旋轉或翻轉，但在需要精確參數調節的細致操作中表現糟糕。就像一個人會用錘子敲釘子，但不會用精密螺絲刀進行微調。

四、AI工具使用的深層問題分析

為了深入理解AI模型的局限性，研究團隊進行了詳細的行為分析。他們發現了幾個令人擔憂的問題模式。

首先是工具選擇的單一化傾向。數據顯示，模型在面對不同任務時，往往依賴少數幾個熟悉的工具，就像一個只會使用錘子的人，把所有問題都當成釘子。具體來說，模型最常使用的工具包括放大、裁剪、顏色過濾、旋轉和直方圖增強，而對于那些可能更適合特定任務的專業工具卻很少涉及。

其次是執行效率的低下。即使是表現最好的模型，在工具使用效率方面也存在嚴重問題。GPT-5.2模型雖然最終答案準確率較高，但它的工具使用效率只有16.78%，這意味著它執行了大量無效的操作。這就像一個人為了擰緊螺絲，卻先后嘗試了扳手、錘子、剪刀等十幾種工具。

第三個問題是缺乏系統性的執行策略。理想情況下，AI應該像經驗豐富的技師一樣，按照邏輯順序使用工具：先診斷問題，然后選擇合適的工具，按步驟執行，最后驗證結果。但實際測試中發現，大多數模型采用的是試錯式的方法，隨機嘗試各種工具組合，希望碰運氣找到正確答案。

研究團隊還通過具體案例分析發現了兩種典型的失敗模式。第一種是"工具濫用"，模型選擇了完全不適合的工具，比如用畫圓工具來測量距離，這就像用湯勺來擰螺絲。第二種是"結果盲從"，模型過分依賴工具的輸出結果，即使結果明顯有誤也不會進行交叉驗證，這就像盲目相信一個壞掉的溫度計的讀數。

五、技術創新與評估突破

VTC-Bench的技術創新不僅僅體現在工具庫的豐富性上，更重要的是它建立了一套全新的評估體系。傳統的AI視覺評估就像只看學生的考試成績，而VTC-Bench不僅看成績，還要看解題過程、工具使用技巧和邏輯推理能力。

評估系統采用了四個核心指標。平均通過率衡量模型回答正確問題的比例，這是最直觀的成功指標。工具調用率反映模型在多大程度上愿意使用工具，而不是僅依靠內置能力。平均絕對誤差量化模型預測的工具使用步驟與標準答案之間的差距。工具使用效率則評估模型在達成目標過程中是否存在冗余操作。

為了確保評估的公平性和準確性，研究團隊設計了兩種不同的交互模式。代碼驅動模式讓AI直接編寫Python代碼來調用OpenCV函數，這更適合那些具有編程能力的模型。界面驅動模式則提供標準化的工具接口，AI只需要選擇工具并設置參數，這降低了使用門檻但也限制了靈活性。

數據收集過程也極其嚴格。所有測試圖像都經過專家人工審核，確保問題的合理性和答案的準確性。每個問題都有詳細的標準解答流程，這些流程由Gemini-3.0-Pro生成初稿，然后由人類專家進行二次驗證和修正。這種"AI輔助+人工驗證"的方式既保證了效率，又確保了質量。

六、實驗結果的深度剖析

在對19個主流模型的全面測試中，實驗結果揭示了當前AI視覺能力的真實狀態。整體而言，所有模型的表現都遠低于預期，這表明從靜態圖像理解到動態工具操作的轉變，對AI來說是一個巨大的跨越。

不同類型模型之間的表現差異極為顯著。專門為工具使用而設計的商業模型表現最佳，但即使是這類模型的佼佼者，成功率也沒有超過52%。通用型商業模型次之，它們雖然具有強大的基礎能力，但在工具使用方面缺乏專門的訓練。開源工具使用模型的表現令人失望，盡管它們在設計時就考慮了工具調用，但實際效果并不理想。最令人意外的是開源通用模型，它們不僅基礎能力不足，在工具使用方面也幾乎沒有提升。

任務難度分析顯示了一個清晰的層次結構。在基礎的視覺感知增強任務中，大部分模型都能取得相對較好的成績，因為這類任務主要需要簡單的圖像處理操作。但隨著任務復雜度的增加，模型的成功率急劇下降。在定量視覺估算任務中，許多模型開始出現明顯的性能下降，因為這類任務需要精確的參數控制和多步驟操作。而在最高難度的組合視覺推理任務中，模型的表現呈現兩極分化：少數表現優秀的模型能夠顯著提升性能，而大多數模型則完全無法適應。

工具使用模式分析揭示了模型行為的深層規律。幾乎所有模型都表現出明顯的工具偏好，頻繁使用少數幾個簡單工具，而回避復雜或專業性較強的工具。這種現象類似于人類在面對陌生工具時的保守行為，但對于AI系統來說，這種保守可能源于訓練數據的不平衡或算法設計的局限性。

效率分析的結果更是令人震驚。即使是表現最好的商業模型，其工具使用效率也很少超過40%，這意味著大部分操作都是無效的嘗試。這種低效率不僅浪費計算資源，更重要的是反映了模型缺乏系統性的問題解決策略。

七、現實應用的啟示與挑戰

VTC-Bench的測試結果對AI應用的現狀提出了嚴肅的質疑。在許多宣稱具有強大視覺能力的AI系統中，真正能夠勝任復雜現實任務的寥寥無幾。這種能力差距在實際應用中可能導致嚴重的后果。

以醫療影像分析為例，AI系統可能能夠識別X光片中的異常區域，但如果需要它調整圖像對比度、測量病灶大小、繪制解剖標記等復合操作，目前的系統很可能無法勝任。這種局限性使得AI在真實醫療環境中的應用仍然受到很大限制。

在自動駕駛領域，類似的問題同樣存在。車載AI系統可能能夠識別道路標識和行人，但在惡劣天氣條件下，如果需要動態調整圖像處理參數、組合多個傳感器數據、進行實時空間推理等復雜操作，現有系統的可靠性就會大打折扣。

工業質檢是另一個典型應用場景。雖然AI在標準環境下的產品缺陷檢測已經相當成熟，但面對光照變化、角度偏移、多重缺陷等復雜情況時，需要AI能夠靈活運用各種圖像處理工具進行自適應調整，這正是當前系統的薄弱環節。

更廣泛地說，這項研究揭示了當前AI發展中的一個關鍵問題：單一任務的優化與復合能力的培養之間存在巨大鴻溝。許多AI系統在特定任務上表現出色，但一旦需要組合多種能力來解決復雜問題，性能就會急劇下降。

八、技術發展方向的指引

基于實驗發現的問題，研究為未來AI視覺系統的發展指明了幾個重要方向。首先是工具使用策略的優化。當前模型缺乏系統性的問題分析和工具選擇能力，未來需要開發更智能的工具調度算法，讓AI能夠像熟練技工一樣，根據問題特點選擇最合適的工具組合。

其次是效率優化的迫切需要。目前模型的工具使用效率普遍偏低，大量無效操作不僅浪費資源，還可能引入錯誤。未來的AI系統需要具備更強的執行規劃能力，能夠預先制定高效的操作序列，減少試錯過程。

第三個重要方向是跨領域工具適應能力的提升。現有模型往往在特定工具集上表現較好，但面對新的工具或領域時適應能力很差。這就像一個只會使用特定品牌工具的工人，換了工具品牌就不知所措。未來需要開發具有更強泛化能力的模型架構。

訓練數據的多樣性也是一個關鍵因素。當前許多模型的工具使用偏好可能源于訓練數據中某些工具出現頻率過高。未來需要構建更加平衡和多樣化的訓練數據集，確保模型能夠公平地學習各種工具的使用方法。

此外，人機協作模式的探索也值得關注。完全自動化的工具使用可能在短期內難以達到人類水平，但如果能夠設計良好的人機交互界面，讓人類專家在關鍵節點提供指導，可能能夠顯著提升整體性能。

九、評估體系的突破與影響

VTC-Bench不僅僅是一個測試工具，更代表了AI評估理念的根本性轉變。傳統的AI評估往往關注單一任務的性能指標，就像只測試學生的記憶能力，而忽略了實際應用能力。VTC-Bench的創新在于它評估的是AI系統的綜合應用能力，包括工具選擇、參數調節、步驟規劃、結果驗證等多個維度。

這種評估理念的轉變對整個AI領域產生了深遠影響。它促使研究者重新思考AI系統的設計目標：不僅要追求單一任務的高精度，更要注重系統的綜合應用能力。這就像教育改革一樣，從單純追求考試成績轉向培養學生的綜合素質和實際應用能力。

VTC-Bench的另一個重要貢獻是建立了標準化的評估流程。通過提供詳細的工具使用軌跡和多維度的評估指標，它為AI系統的比較和改進提供了客觀依據。這種標準化評估有助于推動整個領域的健康發展，避免各自為政的局面。

研究中采用的雙模式評估策略（代碼驅動和界面驅動）也為不同類型AI系統的公平比較奠定了基礎。這種設計考慮到了AI系統的多樣性，既適用于具有編程能力的高級系統，也適用于專門的工具調用系統。

更重要的是，VTC-Bench揭示了當前AI發展中的一個重要盲點：過度關注靜態能力而忽視動態應用能力。這種發現促使研究者重新審視AI系統的訓練方法和評估標準，推動了更加實用和綜合的AI技術發展。

說到底，這項研究最重要的意義在于它誠實地揭示了當前AI視覺系統的真實水平。在各種AI技術快速發展和商業化宣傳的浪潮中，VTC-Bench提供了一個冷靜而客觀的視角，讓我們看到AI技術距離真正的智能化應用還有很長的路要走。這種認知對于制定合理的技術發展策略和應用期望具有重要價值。

同時，這項研究也為AI技術的未來發展指明了清晰的方向。通過建立標準化的評估體系和發現關鍵技術瓶頸，它為后續研究提供了寶貴的參考和指導。可以預期，基于這些發現的新一代AI系統將在工具使用能力和復合任務處理方面取得顯著進步。

對于普通用戶而言，這項研究提醒我們在使用AI技術時要保持理性和謹慎的態度。雖然AI在許多特定任務上表現出色，但在需要復雜推理和工具操作的場景中，人類的監督和干預仍然是必要的。隨著技術的不斷進步，我們有理由相信AI將在未來能夠更好地處理復雜的現實問題，但這個過程需要時間和持續的技術創新。

Q&A

Q1：VTC-Bench與傳統AI視覺測試有什么不同？

A：VTC-Bench不只測試AI能否識別圖像內容，更重要的是測試AI能否像人類一樣靈活使用各種視覺工具來解決復雜問題。傳統測試就像只考察學生的記憶能力，而VTC-Bench考察的是實際應用能力，包括工具選擇、參數調節、步驟規劃等綜合技能。

Q2：為什么表現最好的AI模型成功率也只有51%？

A：這說明從靜態圖像理解到動態工具操作對AI來說是巨大跨越。AI模型普遍缺乏系統性的問題解決策略，往往依賴少數熟悉工具，執行效率低下。即使最先進的模型，在面對需要多步驟操作和精確參數控制的復雜任務時，仍然力不從心，就像會用錘子但不會精密操作的工人。

Q3：VTC-Bench測試結果對實際AI應用有什么啟示？

A：測試揭示了當前AI視覺系統在實際應用中的重大局限性。在醫療影像、自動駕駛、工業質檢等需要復合操作的場景中，AI系統的可靠性會大打折扣。這提醒我們在使用AI技術時要保持理性態度，在復雜場景中仍需人類監督，同時也為未來AI技術發展指明了方向。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.