henry 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
今天凌晨,Physical Intelligence發(fā)布了全新的VLA模型π0.7,狠狠敲了世界模型一記悶棍。
π0.7第一次在機(jī)器人領(lǐng)域證明了Compositional Generalization(組合泛化),且VLA。
在遇到新任務(wù)時(shí),模型可以組合以前學(xué)過(guò)的原子技能,自己拼出解法。
![]()
就像喬丹會(huì)跳投、會(huì)后仰,遇到新防守時(shí)自己琢磨出后仰跳投。
沒(méi)人專(zhuān)門(mén)教他這一招,他自己組出來(lái)了。
Demo里最炸的兩個(gè):
任務(wù)泛化:機(jī)器人沒(méi)見(jiàn)過(guò)空氣炸鍋,也能根據(jù)指令,組合機(jī)械臂動(dòng)作把紅薯烤出來(lái)。
本體泛化:把從一個(gè)機(jī)械臂學(xué)來(lái)的抓取策略,直接部署在另一臺(tái)機(jī)械臂上。
更離譜的是,Physical Intelligence的研究員自己也說(shuō)不清π0.7到底會(huì)什么。
他們還在探索邊界,玩起來(lái)很有趣,到目前為止效果相當(dāng)令人驚喜。
切黃瓜、削皮、倒垃圾、烤紅薯……都能干
用Physical Intelligence的研究員Ashwin Balakrishna說(shuō):
我過(guò)去總能根據(jù)訓(xùn)練數(shù)據(jù)猜出模型能做什么。這一次,我猜不到了。
π0.7:具有涌現(xiàn)能力的可控模型
π0.7最核心的洞見(jiàn)只有一句話,多樣化的數(shù)據(jù)需要多樣化的prompt。 但它帶來(lái)的結(jié)果,遠(yuǎn)比這句話本身要深遠(yuǎn)得多。
用多樣化的prompt,吃下多樣化的數(shù)據(jù)
過(guò)去VLA訓(xùn)練只喂一句清理冰箱,模型得到的信號(hào)是單一的。π0.7把prompt展開(kāi)成四層:
![]()
任務(wù)指令(清理廚房)+子任務(wù)指令(打開(kāi)冰箱)+子目標(biāo)圖像(下一秒畫(huà)面應(yīng)該長(zhǎng)什么樣)+episode元數(shù)據(jù)(這條數(shù)據(jù)質(zhì)量幾分、有沒(méi)有出錯(cuò)、速度多快)。
有了這些豐富的context,模型就能分得清訓(xùn)練數(shù)據(jù)里的好壞、快慢、對(duì)錯(cuò)。
然后它就能吃下以前吃不了的數(shù)據(jù)。失敗的rollouts,低質(zhì)量的演示,其他機(jī)器人的片段,人類(lèi)的egocentric視頻,全都變成有用的信號(hào)。
換句話說(shuō),多樣數(shù)據(jù)本身不是問(wèn)題,問(wèn)題是模型不知道自己在學(xué)什么。
π0.7加的那層prompt,就是讓模型知道“這段數(shù)據(jù)是什么質(zhì)量、用什么策略做的”。
于是,具身領(lǐng)域第一次出現(xiàn)通才追平專(zhuān)才的涌現(xiàn)時(shí)刻。
通才追平專(zhuān)才
在轉(zhuǎn)帖中,Physical Intelligence聯(lián)合創(chuàng)始人Chelsea Finn說(shuō)了一個(gè)很有意思的對(duì)比:
大語(yǔ)言模型的后訓(xùn)練,過(guò)去指的是針對(duì)下游任務(wù)做微調(diào)。一直以來(lái),機(jī)器人也卡在這個(gè)階段,想要最好的性能,就得針對(duì)具體任務(wù)微調(diào)。
π0.7改變了這一點(diǎn):開(kāi)箱即用,而且超過(guò)了fine-tuned的專(zhuān)家模型。
![]()
口說(shuō)無(wú)憑,實(shí)驗(yàn)數(shù)據(jù)是這樣的:
π0.7沒(méi)做任何專(zhuān)項(xiàng)訓(xùn)練,就能在做咖啡、疊衣服、裝箱三個(gè)復(fù)雜任務(wù)上,追平π0.6經(jīng)過(guò)微調(diào)的的專(zhuān)家模型。
![]()
這里說(shuō)的專(zhuān)家模型有兩種,一種是π*0.6的RL specialist,用RECAP方法針對(duì)咖啡、裝箱、疊衣服單獨(dú)訓(xùn)過(guò)。
另一種是π0.6上的SFT specialist,針對(duì)每個(gè)任務(wù)單獨(dú)微調(diào)過(guò)。
更離譜的是,在疊衣服裝箱這兩個(gè)最難的任務(wù)上,π0.7的比RL specialist單位時(shí)間完成的次數(shù)更多。
可以說(shuō),一個(gè)什么都沒(méi)專(zhuān)門(mén)訓(xùn)過(guò)的通才,打過(guò)了專(zhuān)門(mén)為某個(gè)任務(wù)訓(xùn)出來(lái)的專(zhuān)才。而這也是PI一直堅(jiān)定的方向之一。
組合泛化開(kāi)始涌現(xiàn)
π0.7的涌現(xiàn)能力分成四塊。
開(kāi)箱即用的dexterity:做咖啡、疊衣服、剝蔬菜、削西葫蘆、換垃圾袋。全部不做任務(wù)專(zhuān)項(xiàng)訓(xùn)練。
指令泛化:在4個(gè)沒(méi)見(jiàn)過(guò)的廚房和2個(gè)沒(méi)見(jiàn)過(guò)的臥室里,跟著3-6步開(kāi)放指令干活。
甚至能聽(tīng)懂拿起那個(gè)最大盤(pán)子里的水果、拿起我用來(lái)喝湯的那個(gè)東西這種復(fù)雜空間和語(yǔ)義指代。
跨本體泛化:在疊T恤等任務(wù)中,訓(xùn)練數(shù)據(jù)里一條UR5e疊衣服的樣本都沒(méi)有。
π0.7不但做出來(lái)了,任務(wù)完成度85.6%,和10個(gè)平均375小時(shí)teleoperation經(jīng)驗(yàn)的頂級(jí)人類(lèi)操作員的90.9%基本打平。
![]()
而且π0.7自己琢磨出了和source robot完全不同的抓取策略——
人類(lèi)操作員在源機(jī)器人上用傾斜夾爪貼住桌面抓,π0.7在UR5e上用的是垂直抓取,因?yàn)檫@更適合UR5e更長(zhǎng)的手臂運(yùn)動(dòng)學(xué)。
組合任務(wù)泛化
用空氣炸鍋?zhàn)黾t薯、烤貝果、按下按鈕、用抹布擦耳機(jī)和尺子、擰旋鈕和桌面風(fēng)扇,訓(xùn)練數(shù)據(jù)里一條都沒(méi)有。
![]()
這不是多做了幾個(gè)任務(wù)的增量,是機(jī)器人第一次像LLM那樣,從訓(xùn)練數(shù)據(jù)里涌現(xiàn)出新能力。
正如,Sergey Levine說(shuō)的:
一旦模型越過(guò)那個(gè)閾值,從「只能做收集過(guò)數(shù)據(jù)的事」變成「開(kāi)始重組出新事」,能力就會(huì)超線性地隨數(shù)據(jù)增長(zhǎng)。
數(shù)據(jù)過(guò)濾可能是個(gè)偽問(wèn)題
論文里藏著一個(gè)非常反直覺(jué)的實(shí)驗(yàn)。
![]()
研究把疊衣服的數(shù)據(jù)按質(zhì)量分四檔:top30%、top50%、top80%、全部數(shù)據(jù)。
然后分別訓(xùn)兩個(gè)版本的π0.7,一個(gè)加metadata(每條數(shù)據(jù)打上質(zhì)量幾分、有沒(méi)有出錯(cuò)、多快完成的標(biāo)簽),一個(gè)不加。
結(jié)果很有意思。
不加metadata的版本,數(shù)據(jù)越多,性能越差——因?yàn)榛烊肓说唾|(zhì)量數(shù)據(jù)把模型帶歪了。
加了metadata的版本,數(shù)據(jù)越多,性能越好——哪怕平均質(zhì)量在下降。
這意味著整個(gè)具身領(lǐng)域過(guò)去幾年都在做的“數(shù)據(jù)清洗”,可能是個(gè)偽問(wèn)題。
只要模型知道每條數(shù)據(jù)的質(zhì)量標(biāo)簽,它就能自己決定要學(xué)什么、不學(xué)什么。
垃圾數(shù)據(jù)不再是垃圾,是帶著quality=1/5標(biāo)簽的有用信號(hào)。失敗數(shù)據(jù)也不是要丟掉的東西,是告訴模型這么干會(huì)失敗的反面教材。
過(guò)去所有人都在小心翼翼地挑演示、刪失敗、洗數(shù)據(jù)。π0.7說(shuō),別洗了,告訴模型哪些臟就行。
π0.7是怎么做到的?
π0.7是一個(gè)5B參數(shù)的模型,分三塊。
![]()
- VLM骨干:4B參數(shù)的Gemma3,負(fù)責(zé)理解視覺(jué)和語(yǔ)言。
- Action expert:860M參數(shù)的transformer,用flow matching生成連續(xù)動(dòng)作chunk,50Hz高頻控制。
- World model:從14B的BAGEL圖像生成模型初始化,負(fù)責(zé)給π0.7畫(huà)出未來(lái)幾秒應(yīng)該是什么樣子。
在推理中,模型輸入包括:4路攝像頭(前視+兩個(gè)腕部+可選后視)、每路6幀歷史畫(huà)面、機(jī)器人關(guān)節(jié)狀態(tài)、再加上任務(wù)指令、子任務(wù)指令、元數(shù)據(jù)、以及world model實(shí)時(shí)畫(huà)出的次目標(biāo)圖像。
輸出是一段50步的action chunk,實(shí)際執(zhí)行15到25步,然后再推下一段。
說(shuō)到這里,可能有人會(huì)問(wèn),π0.7里塞了個(gè)world model,這算不算和世界模型派融合了?
半算,半不算。
世界模型派的核心是讓模型學(xué)會(huì)模擬物理演化:給一個(gè)動(dòng)作,預(yù)測(cè)世界變成什么樣。policy基于這個(gè)預(yù)測(cè)做決策。
π0.7里的world model不干這事。它只負(fù)責(zé)一件事,把任務(wù)指令翻譯成成功那一幀應(yīng)該長(zhǎng)啥樣。不預(yù)測(cè)動(dòng)作后果,不模擬物理,不參與決策鏈路。
它是個(gè)消歧器,不是個(gè)規(guī)劃器。
用世界模型派的武器,干了一件不是世界模型派想象的事。
![]()
此外,π0.7還站在兩篇前作的肩膀上,繼承了π0.6的架構(gòu)底子,以及MEM的多尺度記憶編碼器(短期視頻memory+長(zhǎng)期語(yǔ)義memory)。
訓(xùn)練上用了Knowledge Insulation
VLM骨干用FAST token做next-token prediction訓(xùn)練,action expert的梯度不回傳到VLM。這樣VLM從互聯(lián)網(wǎng)學(xué)來(lái)的語(yǔ)義知識(shí)被保護(hù)住,不被機(jī)器人動(dòng)作數(shù)據(jù)污染。
但架構(gòu)不是π0.7最重要的東西,論文中也說(shuō):
我們的貢獻(xiàn)不是提出新的架構(gòu)或模型設(shè)計(jì),而是一套讓VLA能使用更多樣化數(shù)據(jù)源的方法論。
VLM可以直接控制機(jī)器人,不需要先學(xué)會(huì)想象世界
在π0.7之前,具身圈最火的還是英偉達(dá)去年用Cosmos帶起來(lái)的世界模型風(fēng)潮。
讓機(jī)器人先學(xué)會(huì)想象未來(lái),再去操作現(xiàn)在
這個(gè)路線看起來(lái)很符合直覺(jué),人類(lèi)不就是這么干的嗎?閉上眼睛想一下要做什么,然后再動(dòng)手。
從2025年到現(xiàn)在,這條路線收了最多的注意力和投入。
今天,風(fēng)向又要變了——VLA回來(lái)了!
![]()
而說(shuō)到VLA,壓根沒(méi)人比Physical Intelligence更懂。
2023年,PI聯(lián)創(chuàng)Karol HausmanSergey LevineChelsea Finn三個(gè)人,在Google做RT-2的時(shí)候,就押注了一個(gè)判斷。
VLM可以直接控制機(jī)器人,不需要先學(xué)會(huì)想象世界。
意思是,你不用讓模型先學(xué)會(huì)預(yù)測(cè)下一幀畫(huà)面、不用讓它腦補(bǔ)物理規(guī)律、不用讓它建立一個(gè)內(nèi)部的世界模擬器。
你直接拿一個(gè)已經(jīng)見(jiàn)過(guò)互聯(lián)網(wǎng)的VLM,接一個(gè)動(dòng)作頭,端到端訓(xùn),就夠了。
從RT-2到π0.7,其實(shí)只有兩代VLA架構(gòu)。
第一代是RT-2,把機(jī)器人動(dòng)作離散化成token,塞進(jìn)VLM的next-token prediction里。
能動(dòng),但控制精度不高,而且自回歸預(yù)測(cè)生成慢,跟不上50Hz的高頻連續(xù)控制。
![]()
第二代是π0開(kāi)的頭,給VLM接一個(gè)專(zhuān)門(mén)的action expert,用flow matching直接生成連續(xù)動(dòng)作chunk。
![]()
中間那些模型——π0.5的open-world generalization、π0.6的RL自我練習(xí)、MEM的多尺度記憶——
都沒(méi)改這個(gè)基座。都是在VLM+action expert+flow matching這個(gè)結(jié)構(gòu)上往上加能力。
π0.7也是。架構(gòu)上它和π*0.6沒(méi)有本質(zhì)差別,它加的是prompt的多樣性。
這就是為什么論文里說(shuō)”我們的貢獻(xiàn)不是架構(gòu)”。
但,更有意思的是另一個(gè)人。
Lucy Shi,斯坦福博士生在讀,師從Chelsea Finn,π0.7的核心作者之一。
![]()
她在推特上發(fā)了一條thread,講了一個(gè)非常誠(chéng)實(shí)的故事。
![]()
之前,她跟著朱玉可、Jim Fan在英偉達(dá)做世界模型。
![]()
她押的注和Karol他們相反——
世界模型會(huì)是關(guān)鍵的鑰匙,會(huì)在任務(wù)泛化上顯著超過(guò)標(biāo)準(zhǔn)VLA方法。
一開(kāi)始,結(jié)果確實(shí)支持這個(gè)假設(shè)。她拿到了驚艷的組合泛化,機(jī)器人能遵循沒(méi)見(jiàn)過(guò)的指令,做訓(xùn)練數(shù)據(jù)里沒(méi)有的任務(wù),從其他機(jī)器人和人類(lèi)視頻遷移。
但有個(gè)奇怪的事情發(fā)生了。
他們拿來(lái)對(duì)比的VLA基線,一直在變強(qiáng)。
隨著數(shù)據(jù)越收越多,VLA越來(lái)越強(qiáng),直到有一天,VLA基線也開(kāi)始展示出組合泛化的信號(hào)。
而且,VLA的方法簡(jiǎn)單得多。
面對(duì)這一問(wèn)題,Lucy感到無(wú)可奈何:
當(dāng)你的基線吃掉了你的研究假設(shè),你能怎么辦?你寫(xiě)一篇論文,去搞清楚基線為什么這么強(qiáng)。
那篇論文,就是π0.7。
[1]https://www.pi.website/blog/pi07
[2]https://x.com/physical_int/status/2044841263254638862
[3]https://techcrunch.com/2026/04/16/physical-intelligence-a-hot-robotics-startup-says-its-new-robot-brain-can-figure-out-tasks-it-was-never-taught/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.