網易首頁 > 網易號 > 正文申請入駐

π0.7來了！涌現出組合泛化、跨本體遷移能力，VLA又行了？

2026-04-17 18:23:23　來源: 機器之心Pro

河北舉報

分享至

機器之心編輯部

在 Generalist AI 發布 Gen-1 兩周之后，具身賽道的另一位重量級玩家 ——Physical Intelligence 也亮劍了，發布了新模型 π 0.7，VLA 又往前走了一步。

這個模型的重大突破在于 —— 它不只是重復訓練中遇到的任務，而是展現出了組合泛化的初步跡象。什么叫組合泛化？舉個例子，你會切菜、會打開燃氣、會翻炒，當你想吃番茄炒蛋時，雖然你從來沒有做過，但只要看一眼菜譜，你也能把這些技能組合起來，把菜做出來。現在的大語言模型之所以那么強大，本質上也是因為具備這種能力。

但在機器人領域，這種能力還沒有大規模涌現。比如現在廣泛使用的 VLA（視覺 - 語言 - 動作）模型，雖然能聽懂各種指令和概念，但它們還不會把學過的技能靈活組合起來用。你給它一個新工具或者沒見過的廚房用具，它就不知道怎么用了。而且，就算是它學過的技能，通常也得專門再「調教」一下，效果才會好。這跟早期那些語言模型很像，處理不同的問題也得單獨做微調。

π (0.7) 看起來不一樣。Physical Intelligence 提到了一個空氣炸鍋的例子。他們從未讓 π0.7 學習過「用空氣炸鍋烤紅薯」這個具體任務。但是，當通過分步的語言指令（就像指導一個第一次使用空氣炸鍋的人那樣）來「輔導」它時，這個模型能夠理解并執行。它需要將「關閉炸籃」、「放置食物」等從不同數據片段中學到的概念組合起來，應用到一個全新的、完整的任務流程中。

更有趣的是，經過幾次這樣的語言輔導后，研究人員可以微調一個高層策略，讓模型完全自主地生成這些語言子目標，從而獨立完成整個空氣炸鍋任務。這說明 π0.7 能夠將觀察到的、零散的行為片段組合起來，形成全新的、連貫的行為序列，這就像大型語言模型組合文本片段一樣。

研究人員自己也很好奇，π0.7 到底是從哪里學會「空氣炸鍋」這個概念的。畢竟，訓練數據里并沒有直接演示「用空氣炸鍋烤紅薯」的完整過程。由于訓練集的規模很大且非常多樣，很難精確追蹤到是哪幾段數據賦予了模型這個知識。研究人員的推測是，它很可能來自機器人操作數據和大規模視覺語言預訓練的共同作用

他們花了不少力氣去搜尋，最終找到了兩段相關的家庭數據：一段是機器人關閉空氣炸鍋，標注為「把炸籃推進空氣炸鍋」；另一段是「把空氣炸鍋的炸籃放在臺面最左邊」。此外，他們還找到了開源 DROID 數據集中一臺 Franka 機械臂的相關操作片段。有趣的是，這些片段看起來與 π0.7 在實際實驗中用移動機器人執行空氣炸鍋任務時的行為差異很大。這說明 π0.7 并不是簡單模仿某一段數據，而是像大型語言模型組合網絡上不同文本片段那樣，把這些看似不同的、零散的行為片段重新組合起來，泛化成一個全新的、連貫的「向空氣炸鍋裝入紅薯」的任務。他們認為。這是組合泛化能力的生動體現。

除了組合泛化，π0.7 在跨本體遷移方面的表現也非常亮眼

在一個疊衣服的例子中，π0.7 被要求控制一個它從未訓練過的、形態差異很大的雙臂機器人（UR5e 系統）來疊衣服。UR5e 系統由兩臺 UR5e 工業機械臂搭配 Robotiq 平行夾爪組成。這臺機器人很難遙操作：機械臂很重，慣性很大，夾爪也相對不夠精確。研究人員之前完全沒有收集過這臺機器人做疊衣服任務的任何數據。

他們讓 π0.7 去控制這臺機器人折疊衣物。出乎意料的是，它能夠穩定地完成這一操作。值得注意的是，該機器人在折疊 T 恤時的物理動作，與他們最初采集訓練數據所用的那臺更小型機器人的動作存在顯著差異。最終，π0.7 在該任務上的成功率，與經驗豐富的遙操作員在同樣使用雙臂 UR5e 系統進行「零樣本」操作時的成功率持平。這些操作員平均擁有 375 小時的遙操作經驗，他們正是最初在原始機器人上采集訓練數據的同一批專家。

視頻鏈接：https://mp.weixin.qq.com/s/tYWiq0mR3Ohg-V1FxCfunA?click_id=128

除了廣泛的任務泛化能力，研究團隊還希望機器人干活又準又快。之前他們開發了一個叫 Recap 的算法，用強化學習專門優化特定任務的策略，讓機器人動作更穩、速度更快。

以前的做法是為每個任務單獨訓練一個 Recap 專家模型。但現在他們換了個思路：把 Recap 訓練過程中產生的經驗連同策略元數據一起喂給 π0.7。

通過這種知識蒸餾，π0.7 這一個通用模型就學會了 Recap 優化的所有技巧。結果是，無論是疊衣服、做咖啡還是折盒子，π0.7 的成功率和速度都達到了之前專門訓練的 Recap 專家模型水平，有時甚至更好

也就是說，現在他們不再需要為每個任務單獨維護一個專家模型，一個通用模型就能搞定所有活兒，這也是語言模型領域發生過的重要轉折。

視頻鏈接：https://mp.weixin.qq.com/s/tYWiq0mR3Ohg-V1FxCfunA?click_id=128

π0.7 是一個通用模型，因為它能夠控制各種不同的機器人執行各種不同的任務。前面提到的那些都是針對特定能力（比如泛化性、跨本體遷移）做的專門測試，除此之外他們還試了更多日常場景 —— 像削蔬菜、用清潔劑擦玻璃門這些活兒它都能干。

視頻鏈接：https://mp.weixin.qq.com/s/tYWiq0mR3Ohg-V1FxCfunA?click_id=128

π0.7 為何如此強大？

π0.7 為什么能泛化得這么開？核心在于數據要雜，但提示要細。

基礎模型想泛化好，本來就得多喂各種來源的數據—— 他們匯集了幾十種不同機器人的操作記錄、人類演示視頻，還有各種自主策略跑出來的實驗數據。

不過，光是把這些數據混在一起可不行。關鍵是要在「提示詞」上下功夫：不僅要告訴模型做什么，還要告訴它怎么做（steer）。

具體來說，研究人員給模型設計了一套多樣化的提示結構，包含多模態信息。比如，除了文字描述任務，還可以給一張「視覺子目標」圖片，告訴模型物體最終要擺成什么樣；也可以給一個期望的任務時長，告訴模型做快一點還是慢一點。這些額外信息能消除行為上的歧義，讓模型從不同策略、不同水平的數據中都能學到東西。

這套提示框架讓 π0.7 可以把以前難以合并的數據源統一利用起來，包括：

描述任務和每一步的語言指令；
描述操作方式（比如快慢、質量高低）的元數據；
控制模式標簽（用關節控制還是末端控制）；
視覺子目標圖片 —— 可以在測試時由世界模型實時生成，幫助模型理解「下一步長什么樣」。

有了這些豐富的標注信息，π0.7 就能放心地使用更多類型的數據。舉個例子，那些質量不高的自主數據，本來可能會「教壞」模型，讓模型學出低質量的動作。但只要給這類數據打上合適的標簽，比如「質量偏低」或「速度偏慢」，模型就能正確理解，不會照單全收。

在論文中，Physical Intelligence 還公布了 π0.7 的更多細節。

π0.7 基于 π0.6 的 VLA 架構與 MEM 記憶系統構建，并新增多模態上下文條件調制。模型包含以 Gemma3 4B 視覺語言模型初始化的 VLM 主干（含 0.4B 視覺編碼器），以及 0.8B 參數的流匹配動作專家，總參數約 5B。

下圖展示了模型架構的整體概況：

大家如果關心更多細節，可以去論文里找找看：

論文標題：π0.7: a Steerable Generalist Robotic Foundation Model with Emergent Capabilities
論文鏈接：https://www.pi.website/download/pi07.pdf

未來方向：數據和上下文才是關鍵？

π0.7 是一個統一的通用模型，它具備一種「組合式泛化」的能力 —— 不僅能聽懂各種指令、看懂視覺子目標，而且開箱即用，表現相當出色。即便是以前需要專門訓練、精細調優的「專家模型」才能完成的任務，它也能直接上手。

研究人員認為，像 π0.7 這樣能力強、可操控的模型，未來有可能解決更復雜、從未見過的任務。怎么做到呢？讓模型自己「想一想」，先思考可能用什么方法去完成任務，利用它遵循多種提示的能力，把這些想法落地成具體的動作，然后再根據執行結果反思、調整方案。

所以，高效的提示遵循和泛化能力，不僅讓人更方便地告訴機器人「我想讓你做什么」，還能讓現代基礎模型把它們的語義推理和問題解決能力「翻譯」成物理世界中的行動。換句話說，讓機器人真正理解并動手干活。

除了這些展望，Physical Intelligence 團隊還分享了他們關于世界模型以及未來 scale 方向的看法。團隊成員 Lucy Shi 提到，他們原本賭世界模型會是機器人泛化能力的關鍵，結果數據規模一拉大，VLA 基線就把 world model 吃掉了，而且架構簡單得多。

她把這個「苦中帶甜」的教訓寫成論文和 π0.7，結論是：大規模多樣數據 + 正確上下文，就能自然涌現出驚人的組合泛化能力，很多過去覺得「很難」的問題其實沒那么難。

不過，他們也沒有完全否定 world model。在 π0.7 中，他們仍然使用了輕量級 world model 來生成視覺子目標。

同時，Lucy Shi 也發現，現在模型能力是提上來了，但評估又成了新的瓶頸。數據那么多，你很難確定模型到底見沒見過某個任務相關的數據，因此泛化也很難定義。這也是未來值得發力的一個方向

參考鏈接：https://www.pi.website/blog/pi07

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.