網易首頁 > 網易號 > 正文申請入駐

目標更重要？國內公司超越Generalist，進化到動作中心世界模型

2026-04-14 15:32:50　來源: 機器之心Pro

北京舉報

分享至

機器之心發布

最近，具身智能圈被 Generalist CEO 的一篇長文《Going Beyond World Models & VLAs》刷屏。文章拋出了一個看似振聾發聵的觀點：目標遠比工具標簽更重要。與其陷入 “我們到底是在做 VLA（視覺 - 語言 - 動作模型）還是世界模型（World Model）” 的教條之爭，不如回歸本源：讓機器高效、準確地作用于物理世界。

目標固然重要，但這只說對了一半。喊出 “回歸目標” 的口號很容易，但如果僅僅停留在 “目標驅動” 的思維層面上，而沒有在底層架構上做出與之匹配的決斷與取舍，那所謂的 “突破邊界” 也不過是空中樓閣。Generalist 試圖用 “完全掌控基礎模型、從零訓練” 來解決一切問題，這是一種大力出奇跡的粗暴解法。但在算力與數據均受限的真實物理世界里，我們需要的不僅是宏大的目標，更是極具穿透力的架構設計。

巧合的是，在這場關于 “目標驅動（Goal-Driven）” 與 “理念驅動（Idea-Driven）” 的探討中，國內最早布局世界模型的公司極佳視界，他們沒有停留在概念的爭辯上，而是直接切中物理世界的約束，提出并開源了 “以動作為中心的世界模型” GigaWorld-Policy。這不僅僅是一次架構的微調，而是對具身智能底層邏輯的重構。

項目主頁：https://gigaai-research.github.io/GigaWorld-Policy/

目標的本質

從 “理解世界” 到 “作用于世界”

在探討 GigaWorld-Policy 之前，我們必須先理清當前世界模型在機器人領域的尷尬處境。過去一年，讓機器人 “先想象，再行動” 幾乎成了世界模型標配思路：模型在推理時同步生成未來的視頻幀，再從這些高維視覺表征中提取或規劃動作。

這種做法在直覺上很美妙，但在工程實踐中卻暴露出了兩個致命缺陷：

目標錯位：視頻生成是手段，而高頻、精準的動作輸出才是目的。將手段當成目標，不可避免地會導致模型架構的臃腫和計算資源的錯配。
現實約束：渲染高維像素的計算開銷極大，不僅帶來了難以忍受的推理延遲，視頻預測的誤差還會沿著時間步傳遞給動作序列，最終導致物理交互的崩潰。

極佳視界的判斷是：如果一個設計在推理時必須做大量與最終目標無關的計算，那它一定不是最優解。真正的具身智能，需要的不是一個能在腦海中完美回放 4K 視頻的 “幻想家”，而是一個對物理規律擁有 “潛意識” 般直覺反應的 “實干家”。

就像頂尖的乒乓球運動員，在擊球的瞬間絕不需要在腦海中渲染出球的完整運動軌跡，而是依靠肌肉記憶和物理直覺直接做出最優動作。

GigaWorld-Policy

讓視頻生成從 “場上選手” 轉為 “幕后教練”

基于對 “目標” 和 “現實約束” 的重新思考，GigaWorld-Policy 在架構層面做出了一個極具顛覆性的改變：讓視頻生成在推理時變為可選項。

在這個架構中，視頻生成模塊的角色發生了根本性的轉變：

訓練時的 “嚴師”：模型在訓練階段同時接受 “動作預測” 和 “視頻生成” 的雙重監督。海量的互聯網視頻數據在這里發揮了巨大的價值，視頻生成作為一個嚴苛的輔助任務，強迫模型深入學習并內化符合真實物理規律的動態表征（Dynamics Representation）。
推理時的 “Action-Only” 模式：一旦部署到物理世界，視頻生成模塊便徹底退居幕后。模型可以一鍵切換至純動作輸出模式，直接下發高頻控制指令。

這種設計甩掉了渲染高維像素的算力包袱。理解物理規律，不再等同于必須渲染出物理畫面。只有當架構本身與目標實現完全對齊時，“目標驅動” 才不再是一句空話。

數據效率

在現實約束下尋找最優解

Generalist 在文章中提到，面對機器人領域數據稀缺的問題，他們的選擇是 “從零訓練”，并堅信當數據足夠充足時，完全掌控基礎模型能更快突破邊界。這是一個典型的 “富人思維” 陷阱，也違背了機器學習的基本規律。在產業落地的現實中，“缺乏 web-scale 的機器人動作數據” 是一道繞不過去的坎。指望靠海量真機數據硬生生喂出一個 “從零訓練” 的基礎模型，在經濟性和時間成本上都是不可接受的。

要真正解決數據效率問題，必須回歸第一性原理。OpenAI 提出的 Transfer Scaling Law（遷移縮放定律）為我們指明了方向：它揭示了預訓練模型在目標任務上的性能，并不只取決于模型大小，更取決于預訓練數據（源域）與目標任務數據（目標域）之間的分布對齊程度。簡而言之，你喂給模型再多的通用數據，如果它的表征結構不適合直接輸出 “動作”，這種知識遷移的損耗將是極其驚人的。

極佳視界的解法，正是對 Transfer Scaling Law 的一次教科書級別的工程實踐。因為 GigaWorld-Policy 從底層架構上就確立了 “以動作為中心”，這使得模型在預訓練階段提取的物理表征，天然地與最終的 “動作輸出” 任務高度對齊。這就大大降低了知識遷移的損耗（Transfer Penalty）。

在第一性原理的指導下，GigaWorld-Policy 跑通了 “三段式高效訓練 Pipeline”：

建立物理常識（源域預訓練）：利用海量互聯網視頻，讓基座模型學習廣泛的通用物理常識和視覺表征。
聚焦時空演變（跨域適配）：引入涵蓋第一人稱視角、真實機器人操作及仿真環境的多源視頻，專攻具身場景下的時空動態演變，拉近源域與目標域的分布距離。
精準對齊（目標域微調）：僅需少量的帶標簽真機動作數據，即可完成最終的控制策略對齊。

實驗數據極具說服力：GigaWorld-Policy 僅用 10% 的真實機器人數據，就能達到傳統 VLA 方案使用 100% 數據的效果。這種分層范式，相比傳統 VLA 實現了高達 10 倍的訓練效率提升。

推理延遲

物理世界的硬約束

在物理世界中，時間就是生命。毫秒級的延遲差異，往往就是 “穩穩抓住” 與 “打翻水杯” 的區別。“慢吞吞” 的端到端大模型，在真實的物理交互中毫無用武之地。

拋棄了視頻生成的包袱后，GigaWorld-Policy 在推理效率上迎來了質的飛躍。在 A100 GPU 上，其推理速度達到了驚人的360 毫秒 / 步。相比之下，相較 Motus，GigaWorld-Policy 實現了更少的推理顯存占用以及 10 倍推理速度提升。
更關鍵的是，這種速度的提升直接轉化為了控制性能的躍升。在真實世界的任務評測中，GigaWorld-Policy 的平均成功率達到了 83%，不僅比 Motus 快 9 倍，成功率更是高出 7 個百分點。

開源精神與產業的未來

與其在概念的迷宮中打轉，或是空談 “目標驅動”，不如用代碼和落地效果說話。就在前段時間，極佳視界宣布 GigaWorld-Policy 全面開源：

項目主頁：https://gigaai-research.github.io/GigaWorld-Policy/
代碼：https://github.com/open-gigaai/giga-world-policy
論文：https://arxiv.org/pdf/2603.17240

在此之前，他們的 GigaWorld-1 不僅在世界模型權威基準 WorldArena 中登頂全球第一（綜合得分突破 60 分，超越谷歌、英偉達、阿里等國際頂尖團隊），其開源代碼和數據集在 Huggingface 上的下載量也已突破 2.4 萬次：

代碼：https://github.com/open-gigaai/CVPR-2026-Workshop-WM-Track
數據：https://huggingface.co/datasets/open-gigaai/CVPR-2026-WorldModel-Track-Dataset

無論是 Generalist 的深思，還是極佳視界的破局，都在向整個行業傳遞一個明確的信號：具身智能已經走過了 “概念驗證” 的階段。未來的主戰場，屬于那些真正理解物理約束、敢于在架構上斷舍離的實干者。而 “以動作為中心” 的世界模型，或許是通往物理 AGI 之路上，一座極具里程碑意義的進步。

世界模型無疑是 2026 年至今整個科技圈最熱議題之一。它正推動 AI 從“感知當下”，走向對時空和動態變化的“預測與推演”。在這條充滿想象力卻又極具挑戰的賽道上，技術突破與實踐應用走到了哪一步？

4 月 15 日 19:00-21:00，機器之心將聯手黃大年茶思屋，邀請 5 位產學研頂尖專家，從技術突破到產業實踐，深度解析世界模型的最前沿。

歡迎關注機器之心視頻號預約直播

*如有疑問，歡迎添加小助手微信，搜索：jiqizhixinsh

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.