![]()
這項由北京大學多媒體信息處理國家重點實驗室領導,聯合香港中文大學和Simplexity Robotics公司共同完成的研究發表于2026年,論文編號為arXiv:2603.15618v2。有興趣深入了解的讀者可以通過該編號查詢完整論文。
當我們看到一個機器人試圖抓取桌上的蘋果時,你可能會認為這很簡單——畢竟人類三歲小孩都能輕松做到。但實際上,讓機器人準確地"看清楚"并"抓準確"一直是人工智能領域的重大難題。就像一個視力逐漸模糊的人試圖穿針引線一樣,現有的視覺-語言-動作模型在執行精密操作時經常會出現"看得見卻抓不準"的問題。
北京大學的研究團隊經過深入分析發現,這個問題的根源出人意料地簡單:現有的AI機器人模型就像一個注意力不集中的學生,在處理信息的過程中,越到后面越容易"走神"。當信息在模型的深層結構中傳遞時,對關鍵視覺信息的敏感度會逐漸降低,就好比看書看到后面章節時開始打瞌睡,重要內容都沒記住。
為了解決這個"注意力渙散"的問題,研究團隊開發了一套名為DeepVision-VLA的創新框架。這個框架的核心思想類似于給一個容易走神的學生配備一個專業的視覺教練。這位"教練"是一個專門的視覺基礎模型DINOv3,它擅長捕捉畫面中的精細細節。通過一種巧妙的"視覺-語言混合變換器"機制,這位視覺教練會在學生最容易走神的時候及時提醒,確保重要的視覺信息不會被遺漏。
更有趣的是,研究團隊還設計了一個"動作引導的視覺篩選"策略。這就像一個智能的注意力過濾器,能夠自動識別哪些視覺信息對即將執行的動作最重要,然后重點關注這些關鍵區域,同時忽略那些無關的背景噪音。這種機制不僅提高了精度,還大大減少了計算負擔。
在實際測試中,DeepVision-VLA表現出色。在模擬環境的十項任務中,它比之前最先進的方法提高了9個百分點。更令人印象深刻的是,在真實世界的復雜雙臂機械手操作任務中,它的成功率提升了7.5個百分點。這種改進在機器人領域是相當顯著的,意味著原本十次操作可能失敗三次的機器人,現在基本上每次都能成功完成任務。
一、機器人為什么會"眼疾手慢"
要理解這項研究的重要性,我們首先需要搞清楚機器人操作背后的復雜性。當人類看到桌上有個蘋果并想要拿起它時,這個過程對我們來說簡單得不需要思考:眼睛看到蘋果的位置、形狀和大小,大腦瞬間計算出手臂需要如何移動,然后手準確地抓住蘋果。整個過程流暢自然,就像呼吸一樣自動。
但對于機器人來說,這個看似簡單的過程實際上需要處理海量的信息。機器人首先通過攝像頭獲得圖像,然后需要理解語言指令(比如"拿起那個紅蘋果"),最后將視覺信息和語言指令轉換成精確的機械動作。這就像要求一個人同時當翻譯、畫家和指揮家——翻譯理解指令,畫家識別物體,指揮家協調動作。
目前的視覺-語言-動作模型可以想象成一個巨大的信息處理工廠,有著幾十層的處理車間。信息從第一層開始,逐層向下傳遞和加工。研究團隊發現了一個關鍵問題:在這個信息工廠的深層車間里,工人們對重要視覺信息的注意力會逐漸分散。
為了驗證這個發現,研究團隊設計了一系列巧妙的實驗。他們分析了三個不同的主流模型:OpenVLA、π0和自己開發的QwenVLA-OFT。這三個模型就像三種不同品牌的智能助手,但都有著相似的內部結構。研究團隊使用了1500個來自BridgeV2數據集的機械手操作視頻進行分析,這個數據集包含了大量高質量的機器人操作演示。
實驗的設計很像醫生給病人做視力檢查。研究團隊首先觀察模型在不同層級上的"注意力地圖"——也就是模型在做決策時主要關注畫面的哪些區域。結果發現,在較淺的層級(相當于信息處理的早期階段),模型能夠很好地關注到機械手、目標物體以及它們的交互區域。但隨著信息向更深層級傳遞,這種關注逐漸變得分散和模糊,就像近視眼摘掉眼鏡后看東西一樣。
為了更準確地量化這種注意力衰減現象,研究團隊采用了一種"視覺遮擋測試"。這個測試類似于眼科醫生檢查視野時遮住部分視線的方法。他們在模型的不同層級上選擇性地遮擋關鍵的視覺區域,然后觀察這種遮擋對最終動作精度的影響程度。
實驗結果非常清晰:當在淺層遮擋重要視覺區域時,模型的動作精度會大幅下降,說明這些層級確實在依賴這些關鍵視覺信息。但當在深層做同樣的遮擋時,對精度的影響就小得多,甚至有時候完全遮擋也不會造成明顯影響。這就像一個人在專心工作時被打斷會很受影響,但在走神時被打斷反而沒什么感覺。
這個發現揭示了一個重要問題:現有模型采用的串行架構存在固有缺陷。在這種架構中,視覺信息只在最開始被注入模型,然后隨著處理層級的增加逐漸衰減。這就像在傳話游戲中,信息傳遞得越遠,失真就越嚴重。到了模型需要做最終決策的深層,重要的視覺細節已經模糊不清了。
二、視覺教練的智慧解決方案
面對這個"注意力渙散"的難題,研究團隊提出了一個創新的解決方案:視覺-語言混合變換器框架,簡稱VL-MoT。這個框架的核心理念可以用一個生動的比喻來解釋:如果把原來的模型比作一個容易走神的學生,那么新框架就相當于給這個學生配備了一位專業的視覺教練。
這位"視覺教練"是DINOv3,一個專門訓練用來理解視覺細節的AI模型。DINOv3就像一個擁有鷹眼的觀察者,能夠捕捉到畫面中最細微的空間細節和物體特征。它的特長是提供高質量的視覺表征,這些表征比傳統視覺編碼器產生的信息更加精細和準確。
VL-MoT框架的巧妙之處在于它的協作機制。不同于傳統方法只在開始階段注入視覺信息,這個新框架會在模型的深層——也就是最容易"走神"的地方——持續提供來自視覺教練的指導。這就像在考試時,監考老師會特別關注那些容易開小差的學生,在關鍵時刻給予提醒。
具體的工作機制類似于雙人協作解題。原有的VLA模型負責整體的語言理解和動作規劃,而DINOv3視覺專家則專注于提供精確的視覺分析。在模型的深層,這兩個"專家"會進行信息交換和協作。視覺專家會將自己觀察到的重要視覺特征傳遞給VLA模型,幫助它在做最終決策時不會遺漏關鍵的視覺信息。
研究團隊在設計這個協作機制時做了許多精心的考慮。他們發現,不是所有層級的視覺特征都同樣有用。經過大量實驗,他們確定了最佳的特征選擇策略:使用DINOv3模型的最后幾層特征,而不是早期層或者均勻分布的層級。這個選擇背后有深刻的道理:DINOv3的后期層級捕獲的是高層次的、語義豐富的視覺表征,這些特征更加抽象和穩定,與VLA模型中與動作相關的特征更加兼容。
整個協作過程可以想象成兩個專家在會議室里討論問題。VLA模型提出自己的理解和初步方案,DINOv3則從視覺角度提供補充信息和修正建議。它們通過一種叫做"共享注意力"的機制進行交流,這種機制允許兩個模型在保持各自專業性的同時,有效地交換和整合信息。
為了進一步優化這個協作過程,研究團隊還設計了一個智能的"動作引導視覺篩選"策略。這個策略的工作原理類似于一個智能的注意力過濾器。它會利用模型淺層的可靠視覺定位能力,識別出對即將執行的動作最重要的視覺區域,然后只讓這些關鍵區域的信息參與到深層的協作中去。
這種篩選機制帶來了雙重好處。首先,它確保了傳遞給深層的視覺信息都是高度相關的,提高了處理的精度。其次,通過減少不相關信息的處理,它大大降低了計算負擔。這就像一個高效的秘書,只會把最重要的文件放到老板的桌上,既保證了工作質量,又提高了效率。
更有趣的是,這個篩選策略還支持高分辨率圖像的處理。由于篩選掉了大量無關信息,系統可以承受更高分辨率的輸入圖像,從而獲得更豐富的視覺細節。這就像給一個近視的人戴上了放大鏡,不僅看得更清楚,還能處理更復雜的視覺任務。
三、真實世界中的卓越表現
要驗證一個AI模型是否真正有效,最終還是要看它在真實環境中的表現。研究團隊設計了全面的實驗來測試DeepVision-VLA的實際能力,這些實驗涵蓋了從模擬環境到真實世界的各種場景。
在模擬環境的測試中,研究團隊選擇了RLBench平臺上的十項具有代表性的機械手操作任務。這些任務就像機器人的"十項全能"比賽,包括關盒子、合筆記本電腦、放下馬桶座圈、掃垃圾到簸箕里、關冰箱門、把電話放到底座上、取雨傘、摘相框、在酒架上放酒瓶,以及給植物澆水。每項任務都需要精確的視覺理解和動作協調,就像要求一個機器人管家完成各種日常家務。
實驗結果令人印象深刻。DeepVision-VLA在所有十項任務中平均成功率達到了83%,相比之下,之前的最優方法HybridVLA只有74%的成功率。這9個百分點的提升在機器人領域是相當顯著的,因為每一個百分點的改進都代表著大量工程努力的結果。
特別值得注意的是,DeepVision-VLA在一些視覺要求特別高的任務上表現尤為出色。比如在"掃垃圾到簸箕"這個任務上,它的成功率比基線方法提高了80個百分點,從15%躍升到95%。在"在酒架上放酒瓶"這個需要精確定位的任務上,成功率也提高了31個百分點。這些巨大的改進清楚地證明了增強視覺表征對精密操作的重要性。
但真正的考驗來自真實世界的實驗。研究團隊使用了一臺Franka Research 3機械臂,這是目前工業界廣泛使用的高精度機器人平臺。他們設計了四項復雜的操作任務,每項任務都對應不同的現實應用場景。
第一項任務是"堆疊可樂罐",這個看似簡單的任務實際上需要機器人精確判斷物體的形狀、重量分布和穩定性。機器人必須準確抓取每個可樂罐,并將其穩定地放置在另一個罐子上方,形成穩定的堆疊結構。
第二項任務是"寫字母S",這是一個極具挑戰性的精細操作任務。機器人需要握住筆,在白板上畫出清晰的字母。這不僅需要精確的力度控制,還需要流暢的軌跡規劃。任何微小的偏差都會導致字形扭曲或筆畫中斷。
第三和第四項任務分別是"摘水果放到盤子里"和"倒可樂到瓶子里",這兩個任務都被進一步分解為多個步驟來進行更細致的評估。比如摘水果任務分為先摘香蕉然后摘胡蘿卜兩個步驟,而倒可樂任務則分為抓取和傾倒兩個階段。這種多步驟的任務設計能夠更好地測試模型在復雜操作序列中保持一致性能的能力。
在這些真實世界的測試中,DeepVision-VLA展現出了卓越的性能。整體平均成功率達到了91.7%,大幅超越了之前最好的方法π0.5的84.2%。更重要的是,在一些最具挑戰性的任務上,比如"倒可樂到瓶子里"的兩個步驟,DeepVision-VLA都達到了完美的100%成功率。
這種出色的表現可以歸因于幾個關鍵因素。首先是視覺精度的顯著提升。通過VL-MoT框架,模型能夠在執行動作時持續獲得高質量的視覺指導,確保每個動作都基于準確的視覺理解。其次是動作引導的視覺篩選策略的貢獻,它幫助模型專注于最相關的視覺區域,避免了背景噪音的干擾。
四、深入解析技術創新點
為了全面理解DeepVision-VLA的技術優勢,研究團隊進行了詳細的消融實驗,這就像醫生做各種專項檢查來確定每種治療方法的具體效果。
首先,他們驗證了不同視覺信息融合方式的效果。傳統的早期融合方法就像在做菜之前就把所有調料混在一起,雖然簡單但效果有限。研究團隊發現,這種方法只能將基線性能從65.5%提升到73%。而中層特征對齊的方法,類似于在烹飪過程中逐步添加調料,能夠達到67%的成功率。
相比之下,DeepVision-VLA采用的深層混合變換器方法就像擁有一位專業的烹飪顧問,在最關鍵的時刻提供精準指導,成功率達到了88%。這種顯著的性能差異清楚地證明了深層視覺信息注入的重要性。
在視覺特征選擇策略的對比實驗中,研究團隊發現了一個有趣的現象。使用DINOv3的前16層特征只能達到61.5%的成功率,均勻采樣16層特征能達到85%,而使用最后16層特征則能達到最佳的88%成功率。這個結果符合視覺表征學習的基本原理:深層特征包含更多高級語義信息,與動作決策的兼容性更好。
研究團隊還對比了不同視覺基礎模型的效果。當將DINOv3替換為SigLIP時,在相同的均勻采樣策略下,成功率下降到77%。這個差異反映了兩種模型不同的預訓練目標:SigLIP專注于圖像-文本對齊,而DINOv3則專注于細粒度的空間表征學習,后者更適合精密的機械手操作任務。
在動作引導視覺篩選策略的驗證實驗中,研究團隊對比了幾種不同的篩選指導方法。使用DINOv3的全局特征作為篩選依據沒有帶來改進,成功率仍然是65.5%。這說明全局的場景語義信息對于識別操作相關區域的幫助有限。
使用指令到視覺的注意力作為篩選依據能夠將成功率提升到84%,這表明任務感知的語言指導確實有效。但最佳的效果來自使用動作到視覺的注意力,成功率達到88%。這個結果驗證了研究團隊的核心假設:淺層的動作tokens能夠提供最可靠的視覺定位信息。
關于參考層級的選擇,實驗顯示單獨使用第4層、第8層、第12層和第16層的注意力信息分別能達到85%、69%、82.5%和87.5%的成功率。第16層表現最佳,但多層平均(第4-19層)能夠達到最優的88%,這說明多層信息融合能夠提供更穩定和全面的視覺定位。
五、突破性能表現的深層原因
DeepVision-VLA之所以能夠取得如此顯著的性能提升,背后有著深層的技術原理。這些原理的理解對于推動整個領域的發展具有重要意義。
首先是信息流動機制的根本性改進。傳統的VLA模型采用單向的信息流動,視覺信息只在模型的入口處被注入,然后隨著層級的深入逐漸衰減。這就像一條河流,水源只在上游,下游的水量會越來越少。DeepVision-VLA則創造了一種"多源供水"的機制,在模型的深層持續注入高質量的視覺信息,確保決策層始終有足夠的視覺依據。
其次是專業化分工的優勢。在這個新框架中,原有的VLA模型專注于語言理解和整體的動作規劃,而DINOv3視覺專家則專門負責提供精確的視覺分析。這種分工類似于現代工業生產中的專業化協作,每個組件都能在自己最擅長的領域發揮最大效用,然后通過有效的協調機制實現整體性能的最優化。
動作引導的視覺篩選策略的成功也揭示了一個重要的認知原理:相關性比完整性更重要。在處理復雜的視覺場景時,關鍵不在于獲得所有的視覺信息,而在于識別和利用與當前任務最相關的信息。這個策略通過利用淺層網絡的可靠視覺定位能力,實現了"智能聚焦",既提高了處理精度,又降低了計算成本。
多分辨率處理機制也是一個重要的創新點。通過為VLA分支和視覺專家分支分別提供不同分辨率的輸入(256×256 vs 512×512),系統實現了計算效率和視覺精度的平衡。VLA分支使用較低分辨率進行整體的語言理解和動作規劃,而視覺專家使用高分辨率圖像進行精確的細節分析。這種設計類似于人類視覺系統中的中央凹和周邊視覺的協作機制。
泛化能力的測試結果也揭示了模型的深層優勢。在面對背景變化和光照條件變化等環境擾動時,DeepVision-VLA表現出了更好的魯棒性。這種魯棒性來自于視覺表征的增強和任務相關信息的精準篩選。當環境發生變化時,模型仍然能夠準確識別和關注關鍵的操作區域,不會被無關的環境變化所干擾。
六、廣泛應用前景與未來發展
DeepVision-VLA的技術突破為機器人應用開辟了廣闊的前景,其影響將遠遠超出實驗室的范圍,觸及我們日常生活的方方面面。
在家庭服務機器人領域,這項技術的應用前景尤為廣闊。配備DeepVision-VLA的家用機器人將能夠執行更加精細和復雜的家務任務。比如,它們可以精確地整理不同形狀和大小的物品,小心地清潔易碎的裝飾品,或者準確地擺放餐具。這種精度的提升意味著家庭機器人將從簡單的清掃和搬運工具,進化為能夠處理復雜家務的真正助手。
在工業制造領域,DeepVision-VLA的影響可能更加深遠。精密制造業對機器人操作精度有著極高的要求,微小的偏差都可能導致產品缺陷或安全隱患。這項技術能夠顯著提高機器人在組裝精密零件、質量檢測和包裝等環節的準確性。特別是在電子產品制造、汽車裝配和醫療器械生產等對精度要求極高的行業,DeepVision-VLA將能夠勝任更多原本需要人工完成的精細操作。
醫療機器人是另一個極具潛力的應用領域。在手術輔助、藥物配置和患者護理等醫療場景中,機器人操作的精度直接關系到患者的安全和治療效果。DeepVision-VLA的視覺增強能力將使醫療機器人能夠更準確地識別醫療器械、定位治療部位,并執行更加精細的操作。這不僅能夠減輕醫護人員的工作負擔,還能夠在一定程度上降低人為操作失誤的風險。
在特殊環境作業方面,DeepVision-VLA也展現出巨大的應用價值。在深海探索、太空作業或核設施維護等人類難以直接參與的危險環境中,機器人需要在復雜且不可預測的條件下執行精確操作。增強的視覺理解能力將使這些機器人能夠更好地適應環境變化,準確識別目標物體,并完成復雜的操作任務。
從技術發展的角度來看,DeepVision-VLA也為未來的研究方向指明了道路。首先是多模態信息融合的進一步探索。除了視覺信息,觸覺、聽覺等其他感官信息的整合將為機器人提供更全面的環境感知能力。研究團隊提到的未來工作中包括探索不同視覺專家模型的效果,這將有助于找到更適合特定任務的視覺表征方法。
另一個重要的發展方向是實時性能的優化。雖然當前的系統已經在精度方面取得了顯著突破,但在一些需要快速響應的應用場景中,計算效率仍然是一個需要持續改進的方面。通過模型壓縮、硬件優化和算法改進等手段,未來的系統將能夠在保持高精度的同時實現更快的響應速度。
泛化能力的進一步提升也是未來研究的重點。雖然DeepVision-VLA在面對環境變化時表現出了良好的魯棒性,但在更加多樣化和復雜的真實世界環境中,模型的泛化能力仍有提升空間。這需要在訓練數據的多樣性、模型架構的適應性和學習算法的改進等多個方面繼續努力。
長期來看,DeepVision-VLA代表的技術方向可能會推動整個人工智能領域的發展模式轉變。從傳統的端到端黑盒模型向可解釋、可分析的模塊化系統轉變,從單一模型處理所有任務向專業化模型協作轉變。這種轉變不僅有助于提高系統性能,還能夠為AI系統的安全性和可靠性提供更好的保障。
說到底,DeepVision-VLA的成功證明了一個簡單而深刻的道理:解決復雜問題的關鍵往往不在于構建更加龐大的系統,而在于找到問題的本質并采用針對性的解決方案。通過深入分析現有模型的局限性,并設計巧妙的改進策略,研究團隊不僅解決了機器人視覺理解的技術難題,更為整個領域的發展提供了新的思路和方法。
這項研究的價值不僅在于它帶來的性能提升,更在于它展示了科學研究中理論分析和實踐驗證相結合的重要性。從發現問題到提出假設,從設計解決方案到驗證效果,整個研究過程體現了嚴謹的科學方法和創新的工程實踐。對于任何對AI機器人技術感興趣的人來說,這項工作都提供了寶貴的啟發和參考。隨著技術的不斷成熟和應用的不斷擴展,我們有理由相信,真正智能和可靠的機器人助手離我們的日常生活已經不再遙遠。
Q&A
Q1:DeepVision-VLA是什么?
A:DeepVision-VLA是北京大學團隊開發的一種新型機器人AI框架,專門解決機器人"看得見卻抓不準"的問題。它通過視覺-語言混合變換器機制,讓機器人在執行動作時始終保持對關鍵視覺信息的準確理解,從而大幅提高操作精度。
Q2:為什么現有的機器人會出現視覺理解衰減問題?
A:現有的機器人AI模型采用串行架構,視覺信息只在開始階段被注入,隨著信息在模型深層傳遞,對重要視覺細節的注意力會逐漸分散。就像傳話游戲一樣,信息傳得越遠失真越嚴重,到最終決策時關鍵視覺信息已經模糊不清了。
Q3:DeepVision-VLA在實際應用中表現如何?
A:在測試中表現出色,模擬環境中比之前最好方法提高9個百分點,真實世界任務中提高7.5個百分點。特別是在需要精確操作的任務上改進更明顯,比如"掃垃圾到簸箕"任務成功率從15%提升到95%,"倒可樂到瓶子"任務達到100%成功率。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.