網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

首獲AAAI杰出論文獎(jiǎng)，這個(gè)具身團(tuán)隊(duì)讓機(jī)器人學(xué)會(huì)像人一樣凝視目標(biāo)

2026-02-15 16:59:18　來(lái)源: DeepTech深科技

河南舉報(bào)

分享至

想象這樣一個(gè)場(chǎng)景：一個(gè)機(jī)器人面前的桌上擺著一堆物體，其中包含紅色積木和藍(lán)色積木，此時(shí)，如果給出讓它“把紅色積木疊到藍(lán)色積木上”的指令，它是否能順利執(zhí)行？

（來(lái)源：Nano Banana Pro）

對(duì)人類(lèi)來(lái)說(shuō)，這個(gè)任務(wù)聽(tīng)起來(lái)十分簡(jiǎn)單。因?yàn)槟阈枰龅闹皇茄劬Χ⒅t色積木，伸手拿起，然后鎖定藍(lán)色積木，放到上面就大功告成。但對(duì)當(dāng)前大多數(shù)機(jī)器人而言，事情并非如此。在很多時(shí)候，機(jī)器人的任務(wù)成功率并不穩(wěn)定，它有可能徑直去操縱其他物體，而非目標(biāo)物體。

為什么如此簡(jiǎn)單的任務(wù)，對(duì)于機(jī)器人來(lái)說(shuō)卻無(wú)法穩(wěn)定完成呢？

這是由于當(dāng)前主流的 VLA 模型（Vision-Language-Action Model，視覺(jué)-語(yǔ)言-動(dòng)作模型）在執(zhí)行抓取任務(wù)時(shí)，視覺(jué)注意力往往呈彌散分布。也就是說(shuō)，模型雖能輸出動(dòng)作序列，但其內(nèi)部注意力并未真正聚焦于指令所指的目標(biāo)物體（如紅色積木），而是分散在圖像多個(gè)區(qū)域。

這種注意力錯(cuò)位直接導(dǎo)致機(jī)器人的操作失誤，例如容易抓取錯(cuò)誤物體，或在多物體環(huán)境中定位不準(zhǔn)。

為了解決這一問(wèn)題，來(lái)自香港科技大學(xué)（廣州）與西湖大學(xué)等高校的一支聯(lián)合研究團(tuán)隊(duì)，在對(duì)主流 VLA 模型進(jìn)行系統(tǒng)分析后，提出了 ReconVLA（重建式視覺(jué)-語(yǔ)言-動(dòng)作模型）。

在這個(gè)模型中，他們創(chuàng)新性地引入了一種名為"隱式定位"（Implicit Grounding）的訓(xùn)練范式。不在推理階段額外加模塊，不輸出邊界框，而是在訓(xùn)練過(guò)程中，通過(guò)讓模型重建目標(biāo)操作區(qū)域的圖像，迫使它在視覺(jué)編碼階段就把注意力集中到正確的地方。

圖 | 團(tuán)隊(duì)論文（來(lái)源：arXiv）

據(jù)悉，該工作于上月榮獲 AAAI 國(guó)際先進(jìn)人工智能協(xié)會(huì) 2026 的杰出論文獎(jiǎng)（Outstanding Paper Award）。

論文第一作者宋文軒告訴 DeepTech，當(dāng)前 VLA 模型的主流架構(gòu)，通常以一個(gè)預(yù)訓(xùn)練好的 VLM 為主干，再接上一個(gè)動(dòng)作生成頭（action head），用來(lái)輸出機(jī)器人的控制信號(hào)。這個(gè)架構(gòu)里，VLM 負(fù)責(zé)“看”和“理解”，動(dòng)作頭負(fù)責(zé)“做”。

圖 | 宋文軒（來(lái)源：被訪(fǎng)者）

問(wèn)題在于，VLM 最初是為圖像理解和對(duì)話(huà)任務(wù)設(shè)計(jì)的，它學(xué)到的視覺(jué)表征（visual representation）側(cè)重語(yǔ)義層面。比如識(shí)別一張圖里有什么東西、它們之間的關(guān)系。但對(duì)機(jī)器人操控來(lái)說(shuō)，真正重要的不只是“圖里有什么”，而是“我該去操作哪里”，這涉及到操作可供性（affordance）的感知，是一種 VLM 原生訓(xùn)練目標(biāo)中并不包含的能力。

另一位團(tuán)隊(duì)核心成員之一丁鵬翔補(bǔ)充，通用視覺(jué)模型和具身控制任務(wù)之間存在顯著的領(lǐng)域差異（domain gap）。即便 VLM 在圖像理解上極為強(qiáng)大，它也未必能自然遷移到機(jī)器人場(chǎng)景。這種能力缺失直接表現(xiàn)為視覺(jué)注意力的高度彌散。

圖 | 丁鵬翔（來(lái)源：受訪(fǎng)者）

在簡(jiǎn)單場(chǎng)景下，注意力分散或許影響不大。如果桌上只有一個(gè)物體，就算注意力散一點(diǎn)，模型也大概率能抓對(duì)。但一旦場(chǎng)景變得雜亂，比如桌面上擺了五六樣?xùn)|西，麻煩就來(lái)了。

團(tuán)隊(duì)實(shí)驗(yàn)表明，此時(shí)，“模型往往看到物體就抓”。只要腕部相機(jī)視野中出現(xiàn)可抓取目標(biāo)，模型就傾向于執(zhí)行抓取動(dòng)作，至于抓的是不是人類(lèi)期望的那個(gè)，它并不總是關(guān)心。抓取動(dòng)作的成功率可能很高，但抓取的正確率則是另一回事。這說(shuō)明模型完成了動(dòng)作層面的任務(wù)，卻沒(méi)有與人類(lèi)意圖對(duì)齊（intent alignment）。

另一個(gè)更隱蔽問(wèn)題出現(xiàn)在長(zhǎng)程任務(wù)（long-horizon task）中。所謂長(zhǎng)程任務(wù)，就是需要多個(gè)步驟依次完成的操作鏈。因?yàn)榧词姑恳徊侥呐轮挥形⑿∑睿`差會(huì)逐步累積，到后面幾步時(shí)，系統(tǒng)狀態(tài)可能已經(jīng)偏離了訓(xùn)練數(shù)據(jù)的分布。丁鵬翔舉了一個(gè)直觀的數(shù)字：即便單步成功率高達(dá) 99%，連續(xù)執(zhí)行 100 步后的整體成功率也只剩約 36.6%。

那么，“隱式定位”到底是什么意思？具體又該如何實(shí)現(xiàn)？丁鵬翔給了 DeepTech 類(lèi)比：人類(lèi)在執(zhí)行精細(xì)操作時(shí)，雖然看到的是整個(gè)場(chǎng)景，但真正聚焦的只有一小片區(qū)域。如果指令是“拿杯子”，哪怕桌上放了十樣?xùn)|西，人類(lèi)的視覺(jué)焦點(diǎn)會(huì)自動(dòng)鎖定在杯子上，周?chē)囊磺卸甲兊媚：＿@種行為在視覺(jué)科學(xué)中叫做“凝視”（gaze）。

ReconVLA 借鑒了這一機(jī)制。在訓(xùn)練階段，除了常規(guī)的動(dòng)作預(yù)測(cè)損失之外，模型還需要完成一個(gè)輔助任務(wù)：重建當(dāng)前圖像中與操作目標(biāo)對(duì)應(yīng)的區(qū)域，即所謂的“凝視區(qū)域”（gaze region）。

（來(lái)源：論文）

具體來(lái)說(shuō)，模型的視覺(jué)輸出 token（稱(chēng)為"重建 token"，reconstructive token）會(huì)被輸入到一個(gè)輕量級(jí)的擴(kuò)散變壓器（diffusion transformer）中，該擴(kuò)散模塊的目標(biāo)是從噪聲中恢復(fù)出凝視區(qū)域的視覺(jué)特征。如果模型在編碼階段沒(méi)有把注意力放在目標(biāo)區(qū)域上，它輸出的重建 token 就不會(huì)包含足夠的細(xì)粒度信息，擴(kuò)散模塊就無(wú)法完成重建，損失函數(shù)就會(huì)懲罰它。

這形成了一個(gè)流暢的反饋回路：想要完成重建 → 必須關(guān)注目標(biāo) → 關(guān)注目標(biāo)后視覺(jué)表征更精確 → 動(dòng)作預(yù)測(cè)更準(zhǔn)。整個(gè)過(guò)程中，沒(méi)有任何顯式的邊界框輸出，也沒(méi)有外部檢測(cè)模型參與推理。重建模塊只在訓(xùn)練時(shí)存在，推理時(shí)被完全移除。這意味著 ReconVLA 在部署階段的推理速度與常規(guī) VLA 模型完全一致，不引入任何額外延遲。

這和此前的視覺(jué)定位方法有什么不同？

此前，視覺(jué)定位主要依賴(lài)于兩種范式。一種是"顯式定位"（Explicit Grounding），比如 RoboGround 和 VIP 等工作，它們使用外部檢測(cè)模型（如 YOLO 或 LISA）先把目標(biāo)物體裁剪出來(lái)，再把裁剪圖像和原圖一起輸入 VLA。這種方法確實(shí)提供了更聚焦的視覺(jué)信息，但它依賴(lài)外部模型的精度，且兩張圖像的簡(jiǎn)單拼接引入了信息冗余。

另一種是"思維鏈定位"（CoT Grounding），如 ECoT 和 GraspVLA，讓模型先輸出目標(biāo)的邊界框坐標(biāo)，再輸出動(dòng)作。這種方式在理論上很漂亮，但實(shí)驗(yàn)結(jié)果顯示它甚至不如基線(xiàn)。在 CALVIN 基準(zhǔn)測(cè)試中，CoT 方式的 5 步連續(xù)任務(wù)成功率幾乎為零。原因可能在于，坐標(biāo)形式的定位信息對(duì) VLA 模型來(lái)說(shuō)并不是一種高效的引導(dǎo)信號(hào)，同時(shí)要輸出精確坐標(biāo)和精確動(dòng)作值，給訓(xùn)練帶來(lái)了額外負(fù)擔(dān)。

圖 | 不同范式之間的概念比較（來(lái)源：論文）

相比之下，ReconVLA 的隱式定位在同一基準(zhǔn)上取得了最高成績(jī)。

在 CALVIN ABC→D 測(cè)試（要求模型在未見(jiàn)過(guò)的環(huán)境 D 中執(zhí)行 5 步連續(xù)任務(wù)）中，ReconVLA 在第 5 個(gè)子任務(wù)上達(dá)到了 64.1% 的成功率，而基線(xiàn)模型為 49.0%，顯式定位方法為 50.2%，提升約 15 個(gè)百分點(diǎn)。在更具挑戰(zhàn)性的精細(xì)操作任務(wù)"積木堆疊"（stack block）中，基線(xiàn)成功率僅 59.3%，ReconVLA 達(dá)到 79.5%，提升超過(guò) 20 個(gè)百分點(diǎn)。

圖 | 不同范式之間的測(cè)試分?jǐn)?shù)對(duì)比（來(lái)源：論文）

為了讓重建能力具備泛化性，團(tuán)隊(duì)還構(gòu)建了一個(gè)大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)集，包含超過(guò) 10 萬(wàn)條機(jī)器人操作軌跡和 200 萬(wàn)個(gè)數(shù)據(jù)樣本。數(shù)據(jù)來(lái)源包括開(kāi)源的 BridgeData V2 以及 LIBERO、CALVIN 兩個(gè)仿真環(huán)境數(shù)據(jù)集。

凝視區(qū)域的標(biāo)注借助了 Grounding DINO 這一開(kāi)放詞匯檢測(cè)模型（open-vocabulary detector），大部分?jǐn)?shù)據(jù)可以通過(guò)零樣本（zero-shot）方式直接標(biāo)注，對(duì)于機(jī)器人場(chǎng)景中一些較為罕見(jiàn)或復(fù)雜的物體，團(tuán)隊(duì)則進(jìn)行了定制化微調(diào)。消融實(shí)驗(yàn)證實(shí)，預(yù)訓(xùn)練階段對(duì)泛化能力的提升是顯著的。移除預(yù)訓(xùn)練后，5 步連續(xù)任務(wù)的最終成功率從 64.1% 下降至 58.2%。

真實(shí)世界的實(shí)驗(yàn)進(jìn)一步驗(yàn)證了這一方法的可行性。

團(tuán)隊(duì)使用一臺(tái) 6 自由度的 AgileX PiPer 機(jī)械臂，配合兩個(gè)深度相機(jī)（分別作為基座視角和手部視角），在四個(gè)代表性任務(wù)上進(jìn)行了測(cè)試：將水果放入碗中、疊碗、翻杯子、整理桌面。在每個(gè)任務(wù)中，ReconVLA 都取得了最高成功率。

特別值得注意的是在“未見(jiàn)物體”（unseen objects）的測(cè)試中，當(dāng)目標(biāo)物體不在訓(xùn)練數(shù)據(jù)中時(shí)，對(duì)比方法 OpenVLA 和 PD-VLA 的成功率接近零，而 ReconVLA 仍能成功定位目標(biāo)并完成操作，展現(xiàn)出其視覺(jué)泛化能力。

圖 | 四個(gè)代表性任務(wù)的真實(shí)世界設(shè)置（來(lái)源：論文）

當(dāng)然，任何方法都不是完美的。宋文軒向 DeepTech 坦言，ReconVLA 的主要額外成本在訓(xùn)練階段——引入重建目標(biāo)意味著更多的計(jì)算開(kāi)銷(xiāo)，盡管團(tuán)隊(duì)已經(jīng)對(duì)擴(kuò)散模塊做了輕量化設(shè)計(jì)來(lái)控制這部分消耗。丁鵬翔指出了另一層局限：當(dāng)前建模仍然主要基于二維視覺(jué)空間，在需要深度信息和三維幾何約束的高精度任務(wù)中，即便二維定位更加精確，空間操作精度仍然可能受限。

團(tuán)隊(duì)透露，他們已在后續(xù)工作中開(kāi)始探索三維感知建模（3D-aware modeling），相關(guān)成果已提交至近期的學(xué)術(shù)會(huì)議。此外，力覺(jué)感知和力控信號(hào)等多模態(tài)信息目前也尚未納入框架，但從方法結(jié)構(gòu)上看，這些模態(tài)完全可以通過(guò)同樣的隱式建模機(jī)制整合進(jìn)來(lái)。

談到具身智能的落地前景，丁鵬翔的看法頗為務(wù)實(shí)。他認(rèn)為 VLA 不必急于落地到某一個(gè)具體的垂直場(chǎng)景才算有價(jià)值。類(lèi)比早期的 ChatGPT，GPT-3 發(fā)布時(shí)并沒(méi)有立即嵌入某個(gè)特定行業(yè)流程，但它顯著改變了寫(xiě)作和內(nèi)容創(chuàng)作的效率。

VLA 的價(jià)值可能也會(huì)經(jīng)歷類(lèi)似的“兩步走”。第一步是降低部署成本。過(guò)去每個(gè)工廠(chǎng)任務(wù)都需要獨(dú)立建模，如果有一個(gè)足夠強(qiáng)的基礎(chǔ)模型，企業(yè)只需少量微調(diào)就能完成適配；第二步才是結(jié)合 Agent 系統(tǒng)構(gòu)建具體場(chǎng)景的閉環(huán)工作流。

他還補(bǔ)充說(shuō)，他們?cè)鴮⒔?jīng)過(guò)通用訓(xùn)練的模型部署到實(shí)際工業(yè)環(huán)境中測(cè)試擰螺絲、插接零部件等任務(wù)，結(jié)果顯示只要基座模型足夠穩(wěn)定，下游任務(wù)性能就會(huì)顯著提升。他認(rèn)為短中期更具潛力的場(chǎng)景包括半結(jié)構(gòu)化工業(yè)裝配、輕工業(yè)精細(xì)操作以及商業(yè)服務(wù)機(jī)器人（如飲品制作）。這些場(chǎng)景的共同特點(diǎn)是操作鏈條明確、精度要求高、對(duì)重復(fù)性穩(wěn)定性有剛需。

除研究外，這支團(tuán)隊(duì)還共同創(chuàng)建了一個(gè)名為 OpenHelix 的開(kāi)源社區(qū)，目前已持續(xù)開(kāi)源十余個(gè)項(xiàng)目，累計(jì)獲得約 3,600 個(gè) GitHub 星標(biāo)。在資源有限的條件下，他們選擇了一條"高效與聚焦"的路線(xiàn)。不追求數(shù)百?gòu)?GPU 的大規(guī)模訓(xùn)練和高度工程化的演示，而是專(zhuān)注于具有方法論洞見(jiàn)的研究方向。

他們相信，只有通過(guò)開(kāi)放共享，研究成果才能真正落地到更多從業(yè)者手中。除了 ReconVLA 的后續(xù)迭代，團(tuán)隊(duì)還在推進(jìn)觸覺(jué)與力反饋、雙臂協(xié)作等方向的研究，目標(biāo)是拓寬 VLA 的能力邊界，而不僅僅停留在單一展示型應(yīng)用上。

https://arxiv.org/html/2508.10333v1

運(yùn)營(yíng)/排版：何晨龍

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.