網易首頁 > 網易號 > 正文申請入駐

斯坦福具身智能大佬看好的世界模型，竟出自英偉達Cosmos？

2026-02-15 12:02:37　來源: 機器人前瞻

北京舉報

分享至

讓機器人成為能主動想象、理解、行動的智能體。

作者 |許麗思

編輯 |漠影

前陣子，特斯拉釋放重磅消息，Optimus 3即將亮相，它將是一款通用人形機器人，也是特斯拉第一款走向量產的機器人，將在今年年底前啟動生產。同時，Optimus已經在特斯拉工廠執行一些簡單任務。

機器人行業的敘事，正從會跑會跳的技術演示轉向能落地干活的使用能力，距離走進人類生活似乎越來越近了。不過，在demo和規模化落地之間，還需要邁過安全、可靠性與功能成熟度等門檻。

在這道門檻前，數據問題變得更尖銳。以特斯拉Optimus的研發為例，早期團隊曾采用動作捕捉服和遠程操作方案，但在去年開始探索其他訓練方式。

這種困境并非個例，行業普遍面臨真實機器人數據昂貴、稀缺且強依賴硬件形態，進而導致訓練與評估難以規模化復制、場景泛化能力有限。

此前，英偉達打造了“三臺計算機”解決方案：DGX系列提供強勁算力支撐，Omniverse平臺與Cosmos世界基礎模型平臺高效生產仿真數據，AGX作為邊端完成部署和驗證，三者協同形成完整閉環，為物理AI開發提供全鏈條支持。

其中，Cosmos的角色，在于成為物理AI破解數據難題的關鍵工具。它能夠輕松生產大量符合物理規律的逼真合成數據，解決真實世界數據稀缺、模型測試風險高等挑戰，讓機器人在虛擬環境中先試錯、再實戰。

同時，開發者還可通過微調 Cosmos WFM構建自定義模型，大幅降低物理AI開發門檻。

01.

輕松生成大量逼真合成數據，

讓機器人更能適配真實場景挑戰

與只需要處理單一模態數據的傳統AI不同，物理AI需要支撐機器人在真實場景中完成復雜任務，比如工廠抓取零部件時的準確受力反饋、戶外場景移動時的復雜地形應對與行動策略調整等，對數據的真實性、多樣性、規模化需求極高。

物理AI模型的開發成本高且需要大量真實數據和測試，而Cosmos世界基礎模型使開發者能夠輕松生成大量符合物理規律的逼真合成數據，以用于訓練和評估其現有的模型。

具體來說，Cosmos世界基礎模型包括了三大部分：Cosmos Predict、Cosmos Transfer和Cosmos Reason。

Cosmos Predict讓機器人擁有一種堪稱提前看結局的能力，能夠預測動態環境的未來狀態。Cosmos Predict 2.5已將多種預測能力整合到單一模型中，實現了在單幀輸入條件下快速生成30秒預測視頻。

它為機器人復雜任務規劃提供了強大支撐，開發者可基于此對模型進行后期訓練，將視頻預測能力轉化為策略建模所需的動作生成能力。

比如，在機器人執行精密裝配任務前，先通過Cosmos Predict模擬不同操作路徑的結果，選擇最優方案，從而讓機器人在實戰中更精準、更安全，大幅減少試錯成本與操作風險。

Cosmos Transfer通過ControlNet架構，能基于輸入數據生成高保真世界場景，改變光照、天氣、物體材質等條件，生成同一場景的無數種可能。最新的Cosmos Transfer 2.5能夠生成更高質量、逼真的數據，且大小僅為Cosmos Transfer 1的三分之一。

對機器人來說，它可以在虛擬環境中體驗千變萬化的現實世界。無需依賴海量真實場景數據采集，就能有效提升機器人對不同場景的泛化能力，降低適配多場景應用的開發成本，加速規模化落地進程。

Cosmos Reason則是一個完全可定制的多模態AI推理模型，專為理解運動、物體交互和時空關系而構建。它讓機器人能夠理解空間、時間和物理特性，還能給Cosmos Predict生成多樣化、逼真的提示，并使用基于文本的控件從視頻中篩選高質量的合成數據。

當機器人擁有了像人類一樣推理的能力，它就不再只是執行預設指令的工具，而是能理解物理世界規律、進行有意識決策的智能體，提升了在復雜未知場景中的自主應對能力，打破規模化落地的場景適配局限。

除了這些基礎模型，Cosmos還包括由NVIDIA Cosmos Curate提供支持的數據處理和管理工作流，使開發者能夠在NVIDIA HopperGPU上僅用40天處理2000萬小時的數據，在NVIDIA BlackwellGPU上只需14天就能處理2000萬小時的數據。

Cosmos還配備一套視頻和圖像tokenizer，可以將視頻轉換為不同視頻壓縮比的標記，用于訓練各種Transformer模型。與現在先進的tokenizer相比，Cosmos tokenizer的總壓縮率高出8倍，處理速度快12倍，讓訓練成本大幅降低。

02.

基于Cosmos開發的WOW：

讓機器人看懂、理解并行動于世界

去年，北京人形機器人創新中心（以下簡稱“北京人形”）發布具身世界模型WoW，備受學術界、產業界關注。

不僅Huggingface官方留言“Excellent work”催更開源，斯坦福具身智能大佬、PI創始人Chelsea Finn還在與清華合作文章中引用了WoW技術報告。

值得一提的是，WoW正是北京人形研發團隊以Cosmos為基座，結合自身在機器人交互數據、算法優化等方面的積累打造而成，可以說是Cosmos在具身智能領域的最佳實踐之一，充分驗證了Cosmos平臺的靈活性與擴展性。

WOW是一個能讓機器人真正看見、理解并行動于世界的世界模型，提出了一個全新的框架，將世界生成、動作預測、視覺理解和自我反思融合為一個統一系統，使得AI不再只是看視頻或生成圖像，而能通過交互學習世界的物理規律，并在真實環境中自主操作。

模型怎么樣才能夠像人類一樣，通過實踐不斷進步，越來越聰明？WoW給出了答案：其提出的SOPHIA框架，把大語言模型與擴散Transformer結合起來，在語言引導下生成物理上合理的未來，讓AI形成"生成預測-批評-修正"的閉環，使得模型在執行任務時能不斷優化。

▲SOPHIA框架讓AI生成結果后自我評估、給出反饋，并通過Refiner Agent改進提示詞或推理鏈

WOW中還有一個基于Diffusion Transformer架構的世界生成引擎，它能夠根據環境狀態與智能體當前觀測，預測未來場景、推演物理演化、還原動態因果鏈。

光有視覺“想象”還不夠，WoW還能實現視頻生成和機器人動作執行的閉環。只要給定連續兩幀預測視頻，FM-IDM逆動力學模型就能夠計算出機器人末端執行器的動作變化量，將想象的視頻預測轉化為可執行動作，讓AI的想象真正落地。

▲FM-IDM讓模型實現從視頻到行動的閉環

在泛化能力上，WoW表現突出：無需微調，即可在UR5、Franka、AgileX等不同機器人平臺上執行任務，甚至能操作從未見過的物體，比如定制文化衫、氣球等柔性物體等，展現出強大的物理規律抽象能力。

總而言之，基于Cosmos，Wow實現了“想象世界-理解物理-生成視頻-執行動作-再學習”的完整閉環，推動AI擁有直覺物理的能力，加快通用機器人的規模化落地與泛化。

03.

結語：擁有對物理世界的想象力，

AI加快成為真正的具身智能體

Cosmos及開發者基于其構建的模型，讓機器人不再只是物理世界的被動觀察者，而是成為能主動想象、理解、行動的智能體，讓人看到了AI真正成為具身智能體的未來。

隨著機器人能像人類一樣通過互動學習物理規律，而不是依賴海量數據“死記硬背”，具身智能的終極目標，讓AI真正理解世界、在現實世界中行動就不再是遙不可及的未來。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

機器人打包運輸的正確方式

裝甲鏟史官 2026-02-22 10:41:15
21 跟貼 21
ICLR 2026 | 世界模型卡在多機器人協作？一個順序分解思路打通

機器之心Pro 2026-04-02 14:47:55
0 跟貼 0

AI開發者請就位！第二屆“數龍杯”新增智能體賽道，你的“龍蝦”準備好了嗎？

36氪 2026-04-03 08:41:06
0 跟貼 0

每天120萬億:Seedance 2.0和ArkClaw龍蝦,讓豆包大模型調用量炸了

機器之心Pro 2026-04-02 14:24:39
29 跟貼 29
每天燒 120 萬億 Token，這是 AI 圈最新的凡爾賽

愛范兒 2026-04-02 18:01:00
0 跟貼 0

美國開發六足機器人，跑起來堪比飛人博爾特

裝甲鏟史官 2026-01-03 11:19:04
822 跟貼 822

馬斯克：3年內機器人超越頂尖醫生

財聯社 2026-01-09 15:31:35
2 跟貼 2
機器人看不清，螞蟻給治好了

量子位 2026-01-27 14:41:46
1 跟貼 1

新穎鰭足機器人，水陸兩棲行動自如，適應各種地形

裝甲鏟史官 2025-12-25 10:58:04
0 跟貼 0
銀河通用機器人“表演”變“上崗”，端到端大模型銀河星腦有多強

量子位 2026-02-18 10:56:58
0 跟貼 0
Agent的苦澀覺醒：智能正從語言走向經驗

華爾街見聞官方 2026-03-02 09:43:30
0 跟貼 0
楊立昆發布史上最“輕”世界模型，單GPU可訓，規劃速度提升48倍

DeepTech深科技 2026-03-24 17:52:42
47 跟貼 47
宇樹科技王興興：給機器人行業多一點耐心

財聯社 2026-02-18 18:01:39
0 跟貼 0
千尋智能高陽團隊提出 Point-VLA

機器之心Pro 2026-03-31 12:27:30
0 跟貼 0
行業最大規模具身數據集：10Kh RealOmni-Open DataSet

量子位 2026-01-06 10:53:25
0 跟貼 0
機器人管家Figure 03來了，承包一切家務！

量子位 2025-10-11 10:13:00
0 跟貼 0
行業最大規模具身數據集！出自簡智機器人GenRobot.AI

量子位 2026-01-05 17:11:41
0 跟貼 0
斯坦福MIT天團出手！1美元養龍蝦，圖文視頻全包，打工人神外掛

新智元 2026-04-01 20:44:04
0 跟貼 0
MiniMax來承包你的桌面了-4

機器之心Pro 2026-01-20 20:19:42
0 跟貼 0
零樣本 Sim-to-Real ！2

機器之心Pro 2026-03-25 11:40:23
0 跟貼 0
大模型的下半場，屬于擁有云+AI全棧引擎的玩家

量子位 2026-01-30 03:29:45
0 跟貼 0
這家好萊塢公司提供了全新的影視工業AI解決方案

鈦媒體APP 2025-11-11 17:25:10
0 跟貼 0
聯想迎「史上最好一年」！成AI原生公司，天禧AI 4.0呼之欲出

雷科技 2026-04-02 14:39:28
0 跟貼 0
刷屏的機器人，還困在「數據流水線」里

36氪 2026-02-11 12:00:06
0 跟貼 0
王興興徹底殺瘋了

華商韜略 2026-02-18 13:30:37
236 跟貼 236
微軟、谷歌同日發布新AI模型：語音、圖像與本地開源能力齊上陣

華爾街見聞官方 2026-04-03 06:32:13
0 跟貼 0
支持遠程操控和通用GUI操作3

機器之心Pro 2026-03-02 13:36:13
0 跟貼 0
小心！你的AI正在一本正經地忽悠你

財聯社 2026-02-05 16:35:01
0 跟貼 0
人活著的唯一理由是善良

葉檀財經 2026-02-01 17:07:04
0 跟貼 0
荒野求生（機器狗全自主版），2025ATEC挑戰真實戶外無遙操

量子位 2025-12-08 19:24:34
0 跟貼 0
高通萬衛星談終端大模型優勢：個性化與數據推理

量子位 2025-12-11 03:38:41
0 跟貼 0
以人為本的AI對用戶而言才是最有用的AI

每日經濟新聞 2026-03-14 13:16:04
0 跟貼 0
MIT研究生用NotebookLM兩天學完一學期課程

量子位 2026-03-22 10:50:49
0 跟貼 0
博士生如何用龍蝦做知識管理？歡迎圍觀！

量子位 2026-03-26 23:23:30
0 跟貼 0
如何點亮小龍蝦的牛馬技能包?

量子位 2026-03-18 12:51:26
0 跟貼 0
陶哲軒：AI不能全用，深度思考不行

量子位 2026-03-19 01:35:49
0 跟貼 0
百度沈抖自曝：老忘吃藥，用AI做了個小程序

量子位 2026-03-27 11:25:23
0 跟貼 0
陶哲軒：AI看似在推理，其實是在背答案

量子位 2026-01-05 09:20:21
0 跟貼 0
中國首個醫生版“龍蝦”來了！百度造

智東西 2026-04-02 21:11:42
0 跟貼 0
就在今日，4月3號凌晨一點前15分鐘看32條新聞速覽！！！

馬俐管家 2026-04-03 03:53:51
0 跟貼 0

機器人前瞻

專注于機器人報道的媒體

451文章數 10關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

時尚

親子

數碼

軍事航空

家居要聞

手機 / 數碼

房產 / 家居

斯坦福具身智能大佬看好的世界模型，竟出自英偉達Cosmos？

戰火燒向科技公司！亞馬遜中東云計算中心遭襲

被中國外交部揭底的日本極右翼分子身份披露

被中國外交部揭底的日本極右翼分子身份披露

邵佳一的改革，從讓每個人踢舒服開始

《浪姐》人氣榜出爐！曾沛慈斷層第一

全球石油危機或將蔓延

軸距2米7/后排能蹺腿 試駕后驅小車QQ3 EV

態度原創

歲月靜好 典雅新章

為什么“這個顏色”成為今年頂流？這樣穿好看又治愈

洗頭的舒適區，讓爸爸想出更多帶娃創意

華為Mate X8折疊屏：8.15英寸巨幕+麒麟9040，最強折疊屏要來了

伊朗自殺無人機突進 逼退林肯號航母

軸距2米7/后排能蹺腿試駕后驅小車QQ3 EV

歲月靜好典雅新章

伊朗自殺無人機突進逼退林肯號航母