想象這樣一個(gè)場(chǎng)景:一個(gè)機(jī)器人面前的桌上擺著一堆物體,其中包含紅色積木和藍(lán)色積木,此時(shí),如果給出讓它“把紅色積木疊到藍(lán)色積木上”的指令,它是否能順利執(zhí)行?
![]()
(來(lái)源:Nano Banana Pro)
對(duì)人類(lèi)來(lái)說(shuō),這個(gè)任務(wù)聽(tīng)起來(lái)十分簡(jiǎn)單。因?yàn)槟阈枰龅闹皇茄劬Χ⒅t色積木,伸手拿起,然后鎖定藍(lán)色積木,放到上面就大功告成。但對(duì)當(dāng)前大多數(shù)機(jī)器人而言,事情并非如此。在很多時(shí)候,機(jī)器人的任務(wù)成功率并不穩(wěn)定,它有可能徑直去操縱其他物體,而非目標(biāo)物體。
為什么如此簡(jiǎn)單的任務(wù),對(duì)于機(jī)器人來(lái)說(shuō)卻無(wú)法穩(wěn)定完成呢?
這是由于當(dāng)前主流的 VLA 模型(Vision-Language-Action Model,視覺(jué)-語(yǔ)言-動(dòng)作模型)在執(zhí)行抓取任務(wù)時(shí),視覺(jué)注意力往往呈彌散分布。也就是說(shuō),模型雖能輸出動(dòng)作序列,但其內(nèi)部注意力并未真正聚焦于指令所指的目標(biāo)物體(如紅色積木),而是分散在圖像多個(gè)區(qū)域。
這種注意力錯(cuò)位直接導(dǎo)致機(jī)器人的操作失誤,例如容易抓取錯(cuò)誤物體,或在多物體環(huán)境中定位不準(zhǔn)。
為了解決這一問(wèn)題,來(lái)自香港科技大學(xué)(廣州)與西湖大學(xué)等高校的一支聯(lián)合研究團(tuán)隊(duì),在對(duì)主流 VLA 模型進(jìn)行系統(tǒng)分析后,提出了 ReconVLA(重建式視覺(jué)-語(yǔ)言-動(dòng)作模型)。
在這個(gè)模型中,他們創(chuàng)新性地引入了一種名為"隱式定位"(Implicit Grounding)的訓(xùn)練范式。不在推理階段額外加模塊,不輸出邊界框,而是在訓(xùn)練過(guò)程中,通過(guò)讓模型重建目標(biāo)操作區(qū)域的圖像,迫使它在視覺(jué)編碼階段就把注意力集中到正確的地方。
![]()
圖 | 團(tuán)隊(duì)論文(來(lái)源:arXiv)
據(jù)悉,該工作于上月榮獲 AAAI 國(guó)際先進(jìn)人工智能協(xié)會(huì) 2026 的杰出論文獎(jiǎng)(Outstanding Paper Award)。
論文第一作者宋文軒告訴 DeepTech,當(dāng)前 VLA 模型的主流架構(gòu),通常以一個(gè)預(yù)訓(xùn)練好的 VLM 為主干,再接上一個(gè)動(dòng)作生成頭(action head),用來(lái)輸出機(jī)器人的控制信號(hào)。這個(gè)架構(gòu)里,VLM 負(fù)責(zé)“看”和“理解”,動(dòng)作頭負(fù)責(zé)“做”。
![]()
圖 | 宋文軒 (來(lái)源:被訪(fǎng)者)
問(wèn)題在于,VLM 最初是為圖像理解和對(duì)話(huà)任務(wù)設(shè)計(jì)的,它學(xué)到的視覺(jué)表征(visual representation)側(cè)重語(yǔ)義層面。比如識(shí)別一張圖里有什么東西、它們之間的關(guān)系。但對(duì)機(jī)器人操控來(lái)說(shuō),真正重要的不只是“圖里有什么”,而是“我該去操作哪里”,這涉及到操作可供性(affordance)的感知,是一種 VLM 原生訓(xùn)練目標(biāo)中并不包含的能力。
另一位團(tuán)隊(duì)核心成員之一丁鵬翔補(bǔ)充,通用視覺(jué)模型和具身控制任務(wù)之間存在顯著的領(lǐng)域差異(domain gap)。即便 VLM 在圖像理解上極為強(qiáng)大,它也未必能自然遷移到機(jī)器人場(chǎng)景。這種能力缺失直接表現(xiàn)為視覺(jué)注意力的高度彌散。
![]()
圖 | 丁鵬翔 (來(lái)源:受訪(fǎng)者)
在簡(jiǎn)單場(chǎng)景下,注意力分散或許影響不大。如果桌上只有一個(gè)物體,就算注意力散一點(diǎn),模型也大概率能抓對(duì)。但一旦場(chǎng)景變得雜亂,比如桌面上擺了五六樣?xùn)|西,麻煩就來(lái)了。
團(tuán)隊(duì)實(shí)驗(yàn)表明,此時(shí),“模型往往看到物體就抓”。只要腕部相機(jī)視野中出現(xiàn)可抓取目標(biāo),模型就傾向于執(zhí)行抓取動(dòng)作,至于抓的是不是人類(lèi)期望的那個(gè),它并不總是關(guān)心。抓取動(dòng)作的成功率可能很高,但抓取的正確率則是另一回事。這說(shuō)明模型完成了動(dòng)作層面的任務(wù),卻沒(méi)有與人類(lèi)意圖對(duì)齊(intent alignment)。
另一個(gè)更隱蔽問(wèn)題出現(xiàn)在長(zhǎng)程任務(wù)(long-horizon task)中。所謂長(zhǎng)程任務(wù),就是需要多個(gè)步驟依次完成的操作鏈。因?yàn)榧词姑恳徊侥呐轮挥形⑿∑睿`差會(huì)逐步累積,到后面幾步時(shí),系統(tǒng)狀態(tài)可能已經(jīng)偏離了訓(xùn)練數(shù)據(jù)的分布。丁鵬翔舉了一個(gè)直觀的數(shù)字:即便單步成功率高達(dá) 99%,連續(xù)執(zhí)行 100 步后的整體成功率也只剩約 36.6%。
那么,“隱式定位”到底是什么意思?具體又該如何實(shí)現(xiàn)?丁鵬翔給了 DeepTech 類(lèi)比:人類(lèi)在執(zhí)行精細(xì)操作時(shí),雖然看到的是整個(gè)場(chǎng)景,但真正聚焦的只有一小片區(qū)域。如果指令是“拿杯子”,哪怕桌上放了十樣?xùn)|西,人類(lèi)的視覺(jué)焦點(diǎn)會(huì)自動(dòng)鎖定在杯子上,周?chē)囊磺卸甲兊媚:_@種行為在視覺(jué)科學(xué)中叫做“凝視”(gaze)。
ReconVLA 借鑒了這一機(jī)制。在訓(xùn)練階段,除了常規(guī)的動(dòng)作預(yù)測(cè)損失之外,模型還需要完成一個(gè)輔助任務(wù):重建當(dāng)前圖像中與操作目標(biāo)對(duì)應(yīng)的區(qū)域,即所謂的“凝視區(qū)域”(gaze region)。
![]()
(來(lái)源:論文)
具體來(lái)說(shuō),模型的視覺(jué)輸出 token(稱(chēng)為"重建 token",reconstructive token)會(huì)被輸入到一個(gè)輕量級(jí)的擴(kuò)散變壓器(diffusion transformer)中,該擴(kuò)散模塊的目標(biāo)是從噪聲中恢復(fù)出凝視區(qū)域的視覺(jué)特征。如果模型在編碼階段沒(méi)有把注意力放在目標(biāo)區(qū)域上,它輸出的重建 token 就不會(huì)包含足夠的細(xì)粒度信息,擴(kuò)散模塊就無(wú)法完成重建,損失函數(shù)就會(huì)懲罰它。
這形成了一個(gè)流暢的反饋回路:想要完成重建 → 必須關(guān)注目標(biāo) → 關(guān)注目標(biāo)后視覺(jué)表征更精確 → 動(dòng)作預(yù)測(cè)更準(zhǔn)。整個(gè)過(guò)程中,沒(méi)有任何顯式的邊界框輸出,也沒(méi)有外部檢測(cè)模型參與推理。重建模塊只在訓(xùn)練時(shí)存在,推理時(shí)被完全移除。這意味著 ReconVLA 在部署階段的推理速度與常規(guī) VLA 模型完全一致,不引入任何額外延遲。
這和此前的視覺(jué)定位方法有什么不同?
此前,視覺(jué)定位主要依賴(lài)于兩種范式。一種是"顯式定位"(Explicit Grounding),比如 RoboGround 和 VIP 等工作,它們使用外部檢測(cè)模型(如 YOLO 或 LISA)先把目標(biāo)物體裁剪出來(lái),再把裁剪圖像和原圖一起輸入 VLA。這種方法確實(shí)提供了更聚焦的視覺(jué)信息,但它依賴(lài)外部模型的精度,且兩張圖像的簡(jiǎn)單拼接引入了信息冗余。
另一種是"思維鏈定位"(CoT Grounding),如 ECoT 和 GraspVLA,讓模型先輸出目標(biāo)的邊界框坐標(biāo),再輸出動(dòng)作。這種方式在理論上很漂亮,但實(shí)驗(yàn)結(jié)果顯示它甚至不如基線(xiàn)。在 CALVIN 基準(zhǔn)測(cè)試中,CoT 方式的 5 步連續(xù)任務(wù)成功率幾乎為零。原因可能在于,坐標(biāo)形式的定位信息對(duì) VLA 模型來(lái)說(shuō)并不是一種高效的引導(dǎo)信號(hào),同時(shí)要輸出精確坐標(biāo)和精確動(dòng)作值,給訓(xùn)練帶來(lái)了額外負(fù)擔(dān)。
![]()
圖 | 不同范式之間的概念比較(來(lái)源:論文)
相比之下,ReconVLA 的隱式定位在同一基準(zhǔn)上取得了最高成績(jī)。
在 CALVIN ABC→D 測(cè)試(要求模型在未見(jiàn)過(guò)的環(huán)境 D 中執(zhí)行 5 步連續(xù)任務(wù))中,ReconVLA 在第 5 個(gè)子任務(wù)上達(dá)到了 64.1% 的成功率,而基線(xiàn)模型為 49.0%,顯式定位方法為 50.2%,提升約 15 個(gè)百分點(diǎn)。在更具挑戰(zhàn)性的精細(xì)操作任務(wù)"積木堆疊"(stack block)中,基線(xiàn)成功率僅 59.3%,ReconVLA 達(dá)到 79.5%,提升超過(guò) 20 個(gè)百分點(diǎn)。
![]()
圖 | 不同范式之間的測(cè)試分?jǐn)?shù)對(duì)比(來(lái)源:論文)
為了讓重建能力具備泛化性,團(tuán)隊(duì)還構(gòu)建了一個(gè)大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)集,包含超過(guò) 10 萬(wàn)條機(jī)器人操作軌跡和 200 萬(wàn)個(gè)數(shù)據(jù)樣本。數(shù)據(jù)來(lái)源包括開(kāi)源的 BridgeData V2 以及 LIBERO、CALVIN 兩個(gè)仿真環(huán)境數(shù)據(jù)集。
凝視區(qū)域的標(biāo)注借助了 Grounding DINO 這一開(kāi)放詞匯檢測(cè)模型(open-vocabulary detector),大部分?jǐn)?shù)據(jù)可以通過(guò)零樣本(zero-shot)方式直接標(biāo)注,對(duì)于機(jī)器人場(chǎng)景中一些較為罕見(jiàn)或復(fù)雜的物體,團(tuán)隊(duì)則進(jìn)行了定制化微調(diào)。消融實(shí)驗(yàn)證實(shí),預(yù)訓(xùn)練階段對(duì)泛化能力的提升是顯著的。移除預(yù)訓(xùn)練后,5 步連續(xù)任務(wù)的最終成功率從 64.1% 下降至 58.2%。
真實(shí)世界的實(shí)驗(yàn)進(jìn)一步驗(yàn)證了這一方法的可行性。
團(tuán)隊(duì)使用一臺(tái) 6 自由度的 AgileX PiPer 機(jī)械臂,配合兩個(gè)深度相機(jī)(分別作為基座視角和手部視角),在四個(gè)代表性任務(wù)上進(jìn)行了測(cè)試:將水果放入碗中、疊碗、翻杯子、整理桌面。在每個(gè)任務(wù)中,ReconVLA 都取得了最高成功率。
特別值得注意的是在“未見(jiàn)物體”(unseen objects)的測(cè)試中,當(dāng)目標(biāo)物體不在訓(xùn)練數(shù)據(jù)中時(shí),對(duì)比方法 OpenVLA 和 PD-VLA 的成功率接近零,而 ReconVLA 仍能成功定位目標(biāo)并完成操作,展現(xiàn)出其視覺(jué)泛化能力。
![]()
圖 | 四個(gè)代表性任務(wù)的真實(shí)世界設(shè)置(來(lái)源:論文)
當(dāng)然,任何方法都不是完美的。宋文軒向 DeepTech 坦言,ReconVLA 的主要額外成本在訓(xùn)練階段——引入重建目標(biāo)意味著更多的計(jì)算開(kāi)銷(xiāo),盡管團(tuán)隊(duì)已經(jīng)對(duì)擴(kuò)散模塊做了輕量化設(shè)計(jì)來(lái)控制這部分消耗。丁鵬翔指出了另一層局限:當(dāng)前建模仍然主要基于二維視覺(jué)空間,在需要深度信息和三維幾何約束的高精度任務(wù)中,即便二維定位更加精確,空間操作精度仍然可能受限。
團(tuán)隊(duì)透露,他們已在后續(xù)工作中開(kāi)始探索三維感知建模(3D-aware modeling),相關(guān)成果已提交至近期的學(xué)術(shù)會(huì)議。此外,力覺(jué)感知和力控信號(hào)等多模態(tài)信息目前也尚未納入框架,但從方法結(jié)構(gòu)上看,這些模態(tài)完全可以通過(guò)同樣的隱式建模機(jī)制整合進(jìn)來(lái)。
談到具身智能的落地前景,丁鵬翔的看法頗為務(wù)實(shí)。他認(rèn)為 VLA 不必急于落地到某一個(gè)具體的垂直場(chǎng)景才算有價(jià)值。類(lèi)比早期的 ChatGPT,GPT-3 發(fā)布時(shí)并沒(méi)有立即嵌入某個(gè)特定行業(yè)流程,但它顯著改變了寫(xiě)作和內(nèi)容創(chuàng)作的效率。
VLA 的價(jià)值可能也會(huì)經(jīng)歷類(lèi)似的“兩步走”。第一步是降低部署成本。過(guò)去每個(gè)工廠(chǎng)任務(wù)都需要獨(dú)立建模,如果有一個(gè)足夠強(qiáng)的基礎(chǔ)模型,企業(yè)只需少量微調(diào)就能完成適配;第二步才是結(jié)合 Agent 系統(tǒng)構(gòu)建具體場(chǎng)景的閉環(huán)工作流。
他還補(bǔ)充說(shuō),他們?cè)鴮⒔?jīng)過(guò)通用訓(xùn)練的模型部署到實(shí)際工業(yè)環(huán)境中測(cè)試擰螺絲、插接零部件等任務(wù),結(jié)果顯示只要基座模型足夠穩(wěn)定,下游任務(wù)性能就會(huì)顯著提升。他認(rèn)為短中期更具潛力的場(chǎng)景包括半結(jié)構(gòu)化工業(yè)裝配、輕工業(yè)精細(xì)操作以及商業(yè)服務(wù)機(jī)器人(如飲品制作)。這些場(chǎng)景的共同特點(diǎn)是操作鏈條明確、精度要求高、對(duì)重復(fù)性穩(wěn)定性有剛需。
除研究外,這支團(tuán)隊(duì)還共同創(chuàng)建了一個(gè)名為 OpenHelix 的開(kāi)源社區(qū),目前已持續(xù)開(kāi)源十余個(gè)項(xiàng)目,累計(jì)獲得約 3,600 個(gè) GitHub 星標(biāo)。在資源有限的條件下,他們選擇了一條"高效與聚焦"的路線(xiàn)。不追求數(shù)百?gòu)?GPU 的大規(guī)模訓(xùn)練和高度工程化的演示,而是專(zhuān)注于具有方法論洞見(jiàn)的研究方向。
他們相信,只有通過(guò)開(kāi)放共享,研究成果才能真正落地到更多從業(yè)者手中。除了 ReconVLA 的后續(xù)迭代,團(tuán)隊(duì)還在推進(jìn)觸覺(jué)與力反饋、雙臂協(xié)作等方向的研究,目標(biāo)是拓寬 VLA 的能力邊界,而不僅僅停留在單一展示型應(yīng)用上。
https://arxiv.org/html/2508.10333v1
運(yùn)營(yíng)/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.