![]()
設想這樣一個場景:你打電話讓同事去辦公室某個地方拿東西,僅憑語言描述位置是多么困難。在辦公室里,從一堆已經喝過的礦泉水瓶中,讓對面同學遞過來你之前喝過的那個,只用語言幾乎無法準確描述——「左邊第二個」?「有點舊的那個」?這時候,人們更傾向于用手指一下,或者拿出圖片來指代。
這揭示了一個根本問題:人類在面對面交流時,會自然地通過手勢、指點來完成對物體或位置的定位(grounding),而不是依賴復雜的文本描述。即使對于人類這樣強大的多模態大腦,純語言指令也存在歧義,難以準確傳達空間信息。在雜亂場景、相似物體眾多的環境中,語言描述往往力不從心。
同理,當我們只用語言給視覺-語言-動作(Vision-Language-Action,VLA)模型下達指令時,就如同讓人在電話里描述復雜場景,面臨兩個根本性困境:
第一,語言在某些場景下根本無法精確表達。比如在無參考點的桌面上精確放置物體——「把杯子放在距離左邊緣 15 cm、前方 10 cm 的位置」,這種絕對坐標式的描述既不自然又難以準確傳達。再比如雜亂場景中的特定目標,或者形狀不規則的物體,語言的表達能力觸及了邊界。
第二,即使可以用復雜詳細的語言描述,VLA 模型也難以泛化理解。研究發現,雖然先進的視覺-語言模型(VLM)能以 60-70% 的準確率定位復雜描述的目標,但 text-only VLA 在執行時的成功率卻只有 25% 左右。復雜的空間關系描述超出了 VLA 模型的泛化能力范圍。
千尋智能高陽團隊的研究人員注意到這兩個根本性瓶頸,在最新論文《Point What You Mean: Visually Grounded Instruction Policy》中提出了 Point-VLA 方法。該方法通過在圖像上疊加邊界框(bounding box)提供明確的視覺定位線索,讓機器人能像人一樣「看著圖、指著點」來理解指令,在真實機器人操作任務中實現了高達 92.5% 的成功率,相比純文本 VLA 的 32.4% 提升了近 3 倍。
- 論文標題:Point What You Mean: Visually Grounded Instruction Policy
- 論文鏈接:https://arxiv.org/pdf/2512.18933
- 項目主頁:https://yuhang-harry.github.io/Point-VLA
![]()
圖 1:Point-VLA 通過在圖像上疊加邊界框,解決了雜亂場景抓取、OOD 物體操作、無參考點精確放置等語言指令難以勝任的任務
語言的邊界:VLA 模型面臨的根本挑戰
視覺-語言-動作(VLA)模型近年來在具身智能領域取得了顯著進展,能夠將自然語言指令直接轉化為機器人動作。然而,研究團隊發現,VLA 模型仍然受制于語言本身的固有局限性。
兩大核心問題:
1. 語言無法表達的場景(Inexpressible References)
在真實世界中,有些場景語言根本無法精確描述,無論你怎么努力:
- 無參考點的精確位置:「把杯子放在桌面上距離左邊緣 15 cm、前方 10 cm 的位置」——這種絕對坐標式的描述,語言表達起來既不自然又容易出錯。
- 不規則 / 無定形物體:一個形狀復雜、紋理獨特的陶土塊,用語言描述「紅藍條紋、頂部方形底部圓形」仍然模糊不清。
- 雜亂場景中的特定目標:在八個相同瓶子的桌面上,即使你說「右側第二排中間偏左的那個」,聽者依然難以確定。
這些場景的共同特點是:語言的表達能力觸及了邊界。而人類在這種情況下會自然地用手指一下,或者拿出圖片指給對方看。
2. 復雜描述的泛化困境(Limited Generalization)
即使在某些場景下,我們可以通過非常詳細、復雜的語言描述來補全信息,但這又帶來了新的問題:VLA 模型難以泛化理解這些復雜的空間描述。
研究團隊的實驗揭示了一個令人驚訝的現象:
- 先進的 VLM(如 GPT-4V)在面對詳細的文本描述時,能夠以 60-70% 的準確率定位目標。
- 但 text-only VLA 在相同場景下的操作成功率卻只有 25% 左右。
這說明,即使 VLM「看懂」了復雜的語言描述,VLA 模型在將其轉化為精確動作時仍然力不從心。復雜的空間關系描述超出了 VLA 模型的泛化能力范圍,導致在雜亂場景、OOD 物體、精確放置等任務中表現急劇下降。這兩個問題共同構成了 VLA 模型在真實世界部署的根本瓶頸。
![]()
圖 2:VLM 能以 60-70% 準確率定位復雜文本描述的目標(左兩例),但 text-only VLA 執行成功率僅 25%,揭示了語言-動作對齊的鴻溝。右側展示了語言根本無法描述的場景(無參考點平面),Point-VLA 通過視覺定位解決了這兩類問題
Point-VLA:像人一樣「指著說」
為了突破語言的固有局限,千尋智能高陽團隊提出了 Point-VLA 方法,其核心思想簡單而有效:既然語言無法精確表達,那就像人類一樣,用「指」的方式來明確目標。
視覺定位指令(Visually Grounded Instruction)
Point-VLA 的關鍵創新在于引入了視覺定位指令。具體而言,系統在機器人觀察到的第一幀圖像上疊加一個邊界框(bounding box),明確標注出目標物體或位置。這個邊界框就像人類用手指指向目標一樣,提供了明確的像素級空間線索。
例如,對于「拿起瓶子」這個指令:
- 純文本模式:「Pick up the bottle to the right of the leftmost bottles, in the middle of the desk」(信息完整但過于復雜,VLA 難以準確執行)
- Point-VLA 模式:「Pick up」+ 圖像上的紅色邊界框(信息完整且簡單直接)
這種方式將高層意圖(pick up, place)保留在語言中,而將精確的空間信息(哪個物體、什么位置)編碼在視覺線索中,完美結合了語言的抽象性和視覺的精確性。
![]()
圖 3:Point-VLA 推理流程——用戶通過 GUI 在俯視圖上繪制邊界框,或通過手勢由 MLLM 自動生成邊界框,結合簡短文本指令,機器人即可精確執行操作
統一的策略架構
Point-VLA 采用統一的策略架構,能夠同時處理純文本指令和視覺定位指令。在訓練時,模型以 1:1 的比例接收兩種模態的數據:
- 純文本指令:保持模型對常規語言指令的理解能力。
- 視覺定位指令:學習利用像素級視覺線索進行精確操作。
這種聯合訓練策略使得 Point-VLA 既能處理簡單的語言指令(如「向前移動」),也能在需要時接受視覺定位來完成復雜任務,實現了靈活的「即插即用」能力。
視頻展示 Point-VLA 在真實機器人上的操作效果,包括雜亂場景抓取、精確放置等任務
可擴展的自動數據標注 Pipeline
視覺定位指令需要為每個演示標注邊界框,這可能帶來數據標注成本的挑戰。千尋智能團隊開發了一套自動數據標注 Pipeline,利用多模態大語言模型(MLLM)自動生成視覺定位監督信號。
Pipeline 的工作流程很直接:給定一段演示視頻和文本指令,MLLM 分析視頻內容,自動識別關鍵幀并在第一幀上標注目標物體的邊界框。為了提升模型的泛化能力,研究團隊還設計了兩種數據增強策略——隨機平移和局部 CutMix。隨機平移鼓勵模型關注目標的相對位置而非絕對坐標,局部 CutMix 則防止模型過擬合特定物體的視覺特征。
這套 Pipeline 使得研究團隊能夠從現有的演示數據中高效生成大量視覺定位監督信號,無需額外的人工標注成本,支持無縫的數據集成和擴展。
![]()
圖 4:Point-VLA 訓練流程——MLLM 自動從演示視頻中生成邊界框標注,結合隨機平移和 CutMix 增強,與純文本數據聯合訓練統一策略
實驗驗證:從 32.4% 到 92.5% 的跨越
千尋智能團隊在真實機器人平臺上進行了全面的實驗驗證,涵蓋 6 個具有挑戰性的操作任務,包括不規則物體抓取、OOD 物體抓取、雜亂場景抓取、蛋槽精確放置、平面精確放置和蛋槽精確插入。實驗結果令人振奮:Point-VLA 在所有任務上的平均成功率達到 92.5%,相比純文本 VLA 的 32.4% 提升了近 3 倍
在最具挑戰性的雜亂場景抓取任務中,Point-VLA 的成功率從 43.3% 提升到 94.3%,在精確放置任務中從 23.3% 提升到 90.0%。這些結果充分證明了視覺定位在消除歧義和實現精確操作方面的強大能力。
![]()
圖 5:6 個評估任務的真實機器人實驗場景,涵蓋目標物體指代(不規則物體、OOD 物體)和目標位置指代(雜亂抓取、蛋槽、平面放置)等挑戰
![]()
表 1:六個真實機器人操作任務的成功率(%)對比,其中text-vla和interleave-vla均經過與Point-vla同樣數據量,精細文本方位詞標注訓練至收斂,保證對比公平性,數據集信息見論文fig5
語言邊界場景的突破
研究團隊特別設計了兩類「語言邊界」場景來驗證 Point-VLA 的能力:
- 場景 1:語言根本無法表達的任務
在無參考點的平面桌面上精確放置物體:「把杯子放在距離左邊緣 15 cm、前方 10 cm 的位置」。這種絕對坐標式的描述,語言表達既不自然又難以準確傳達。純文本 VLA 在這類任務上的成功率僅 30%。
而 Point-VLA 通過在圖像上直接標注目標位置的邊界框,繞過了語言表達的邊界,成功率達到95%
- 場景 2:復雜描述難以泛化
在包含 8 個相同瓶子的雜亂桌面上,需要用「拿起右側、最左邊那排瓶子中間的那個」這樣復雜的描述。雖然 VLM 能以 60-70% 準確率定位,但 text-only VLA 在執行時成功率僅 43.3%——模型難以泛化理解如此復雜的空間關系描述。
Point-VLA 通過視覺定位提供明確的像素級線索,使模型無需理解復雜的語言描述就能準確執行,成功率提升到94.3%
此外,研究團隊還在多個機器人平臺和 VLA 模型骨架上進行了驗證,包括 π0.5 和 π0 兩個不同的基礎模型,以及雙臂機器人和全身人形機器人。結果顯示 Point-VLA 在不同模型和硬件配置下均能保持高成功率,證明了其作為通用接口的可擴展性。
在與純文本指令的兼容性測試中,Point-VLA 即使在純文本模式下(不使用視覺定位),也能匹配甚至超越純文本 VLA baseline。研究團隊在三種空間指代任務上進行了對比:相對位置指代、矩陣布局指代和基于參考的指代。結果顯示,Point-VLA 在純文本模式下的表現與 baseline 相當或更好,而在使用視覺定位時則在復雜空間指代任務上取得最高成功率。這說明視覺定位訓練提升了模型對空間關系的理解能力,即使在不使用視覺定位時也能受益。
在數據擴展性實驗中,隨著訓練數據量的增加,Point-VLA 的性能持續提升,而純文本 VLA 很快達到飽和。在 OOD 物體抓取任務中,當訓練數據從 3 個場景增加到 12 個場景時,Point-VLA 的準確率從約 0.8 提升到 0.95,而純文本 VLA 在約 0.27 處就停止增長,表明視覺定位提供的明確監督信號使模型能夠更有效地從數據中學習。
![]()
圖 6:(上)Point-VLA 在三種指令模式下的成功率對比——即使在純文本模式下,Point-VLA 也能匹配或超越 baseline,使用視覺定位時在復雜空間指代上取得最高成功率。(下)隨訓練數據增加,Point-VLA 性能持續提升,而純文本 VLA 很快飽和
技術意義與未來展望
Point-VLA 的提出具有重要的理論和實踐意義。首先,它揭示并解決了 VLA 領域的一個根本性問題:語言本身的表達能力限制了模型的性能上限。通過引入視覺定位,Point-VLA 繞過了這一瓶頸,為 VLA 模型開辟了新的發展路徑。
其次,自動數據標注 Pipeline 使得視覺定位監督信號的獲取成本大幅降低,支持從現有演示數據中無縫生成訓練數據,為大規模 VLA 模型的訓練提供了可行的技術路線。
92.5% 的成功率使得 VLA 模型首次在復雜真實場景中達到了實用化的門檻。Point-VLA 展示的精確操作能力,為機器人在工業、服務等領域的實際應用提供了技術基礎。更重要的是,Point-VLA 驗證了「指著說」這種人類自然交互方式在人機交互中的有效性,啟發了未來具身智能系統在多模態交互方面的探索。
關于千尋智能 Spirit AI
千尋智能致力于推動具身智能和機器人技術的發展,通過創新的 AI 算法使機器人能夠更好地理解和執行人類指令。高陽團隊專注于視覺-語言-動作模型的研究,在多模態學習、機器人操作等領域取得了一系列突破性成果。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.