Jay 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
Generalist AI的GEN-1熱度,仍在發(fā)酵。
自節(jié)前那場引爆全網(wǎng)的Demo之后,昨日,創(chuàng)始人Pete Florence與團(tuán)隊(duì),正式釋出了GEN-1的技術(shù)博客。
與其說這是一篇技術(shù)分享,不如說這是一篇「教同行做事」的檄文。
一點(diǎn)甲不疊,上來就毫不留情地否定了當(dāng)前炙手可熱的世界模型與VLA之爭。
直言所有關(guān)于技術(shù)路線的爭論都是浪費(fèi)時間。
![]()
現(xiàn)在關(guān)于「世界模型」的討論,其實(shí)是由各種想法在驅(qū)動,確實(shí)很令人興奮。
但問題是,你的目標(biāo)是什么?
在他們看來,具身智能的關(guān)注點(diǎn),應(yīng)該回歸到「目標(biāo)」本身。
這正是Generalist選擇「離經(jīng)叛道」的根本原因。
完全不依賴任何已有路線。不走微調(diào)VLM加動作頭的捷徑,也不宣稱自己是世界模型。
直接基于真機(jī)數(shù)據(jù)從零開訓(xùn)。
GEN-1大約99%的參數(shù),都是從零開始訓(xùn)練的。
Generalist強(qiáng)調(diào),這才是促成GEN-1實(shí)現(xiàn)飛躍的核心機(jī)密,也是他們真正想與行業(yè)分享的洞見。
這是他們從第一性原理出發(fā),得出的最終答案:
想要實(shí)現(xiàn)物理AGI,最好的方式,或許就是「從零訓(xùn)練」這條看似不好走的路。
如果用原力靈機(jī)的話說,這叫「具身原生」。
![]()
△原力靈機(jī)CEO唐文斌在2026技術(shù)開放日現(xiàn)場
是的,這條路線其實(shí)并非GEN-1首創(chuàng)。
就在兩個月前,這家來自中國的具身智能新星,就已經(jīng)用同樣的邏輯,舉辦了一場「具身原生」主題的技術(shù)開放日,交出了一份驚艷的答卷。
原力靈機(jī),具身原生大模型DM0,RoboChallenge真機(jī)評測全球第一。
![]()
所以,具身原生,到底有什么魔力?
GEN-1引爆具身GPT-3時刻
GEN-1的發(fā)布,無疑是2026年春節(jié)后,具身智能行業(yè)的第一次「大地震」。
創(chuàng)始人Pete Florence將其稱為「GPT-3時刻」。
在多個任務(wù)中,該模型的成功率超過99%,完成任務(wù)的速度比此前最先進(jìn)的模型快了大概3倍,甚至涌現(xiàn)出Failure Recovery(故障恢復(fù))的能力。
用實(shí)際demo表現(xiàn),驗(yàn)證了機(jī)器人領(lǐng)域的Scaling Law。
![]()
而此次Generalist在技術(shù)博客中的「暴論」,又在行業(yè)中掀起了一波余震。
只要數(shù)據(jù)和算力夠,從零訓(xùn),永遠(yuǎn)是贏家。
![]()
這句話放在2024年說,大概率會被當(dāng)成瘋話。
彼時VLA風(fēng)潮席卷全球,拿一個預(yù)訓(xùn)練好的視覺語言模型,接上動作頭微調(diào)一下,是兼顧效率和效果的公認(rèn)最優(yōu)解。
到了2026年初,世界模型又成了新的流量密碼。
Generalist偏偏不站隊(duì)。
他們從來沒把自己的模型叫VLA,但也不宣揚(yáng)自己是世界模型。
事實(shí)上,他們至今也沒說自己是個什么技術(shù)路線,也不想去刻意貼標(biāo)簽。
但有一點(diǎn)卻是無比清楚:無論靠什么方式,即便是「離經(jīng)叛道」,他們也要徹底實(shí)現(xiàn)物理AGI。
GEN-1的博客引用了John Schulman的觀點(diǎn),犀利地劃分了「想法驅(qū)動」與「目標(biāo)驅(qū)動」兩種研究范式。
前者,是雇傭兵。追漲殺跌,哪個方法火就選哪個,只為眼前的戰(zhàn)功。
后者,是傳教士。選定一個終極目標(biāo),然后埋頭苦行,堅(jiān)定不移地前行,掃清擋在路上的一切障礙。
Generalist選了后者。
基于這個第一性原理,Generalist做出了那個看似瘋狂的決定——
不基于任何現(xiàn)有的基礎(chǔ)模型,直接拿原始數(shù)據(jù),冷啟動。
在這方面,Generalist表現(xiàn)出了近乎偏執(zhí)的「完美主義」。
在他們看來,微調(diào)別人的模型,意味著從第一行代碼開始,天花板就被別人鎖死了。
知識邊界、認(rèn)知能力、甚至底層的缺陷,都已注定,無法更改。
Generalist想要賭的,是明天。
而站在未來的時間節(jié)點(diǎn)回望,你會驚覺:
無論是VLM、VLA,還是世界模型,本質(zhì)上都只是標(biāo)簽,數(shù)據(jù)匱乏時期的「拐杖」。
關(guān)鍵問題在于,當(dāng)「身體」恢復(fù)健康、肌肉足夠強(qiáng)壯后,我們還需要拐杖嗎?
供給端的版圖永遠(yuǎn)在日新月異。
這正是這場比賽最驚心動魄的地方。
就像F1賽車,規(guī)則制定者會刻意限制車胎耐久標(biāo)準(zhǔn),正是在這些Trade-off(權(quán)衡)的極限施壓下,才催生出無數(shù)截然不同的奪冠策略。
在LLM領(lǐng)域,雖然互聯(lián)網(wǎng)數(shù)據(jù)不再是瓶頸,但算力成為了新的緊箍咒。
這才造就了OpenAI、Anthropic、DeepMind各自基于不同哲學(xué)思考,走出了截然不同的進(jìn)化路線,因?yàn)橘Y源只夠他們選一條去All in。
因此,基于第一性原理做出的長期主義戰(zhàn)略判斷,才會更顯得尤為珍貴。
最難的不是應(yīng)對變化,而是在風(fēng)云詭譎的環(huán)境中,找到那個屹立不變的錨點(diǎn)。
你不僅要計(jì)算當(dāng)前的限制,更要預(yù)判這些限制將如何不可避免地發(fā)生崩塌。限制變化得越快,這種預(yù)判就越重要。
而在Generalist看來,機(jī)器人數(shù)據(jù)不夠,僅僅是暫時的限制。
進(jìn)入2026年,事實(shí)證明,這項(xiàng)限制條件,確實(shí)被改寫了。
Generalist已經(jīng)積累了超過50萬小時的物理交互數(shù)據(jù)。
當(dāng)原生數(shù)據(jù)足夠豐富時,所有輔助手段終將被掃進(jìn)歷史的垃圾堆。
在他們看來,只有具身原生,從零開訓(xùn)這個「從無到有」的概念,是為那個即將到來的新世界而生的。
不過,GEN-1可能并非第一個具身原生模型。
在中國,同樣有家All in這個概念的明星具身公司,并且早在今年2月份便高調(diào)發(fā)布過。
DM0,首個具身原生模型
一起再來看看原力靈機(jī)的這份成績單吧。
DM0,RoboChallenge真機(jī)評測,雙項(xiàng)全球第一。
- 單任務(wù)成功率:62%
- 多任務(wù)成功率:37.3%
排在它身后的,是Pi0.5、Pi0等一眾明星模型。
而取得這一成績的,僅僅是一個2.4B參數(shù)的模型。并且已全面開源。
![]()
2.4B是什么概念?
在大模型的軍備競賽中,這個參數(shù)量幾乎可以被忽略不計(jì)。
但結(jié)果卻令人嘩然。
對于這個結(jié)果,原力靈機(jī)合伙人周而進(jìn)在與「智能相對論」的對話中,淡定地表示:
在機(jī)器人領(lǐng)域,無腦堆參數(shù)量這件事非常荒誕。
周而進(jìn)一針見血地指出,參數(shù)并非第一性原理。
事實(shí)上,一旦找到了真正「原生」的路線,現(xiàn)有具身數(shù)據(jù)量根本無法支撐起一個大參數(shù)模型。
那么,DM0所說的「原生」,到底「原生」在哪?
可以分為三個層面——
首先,是數(shù)據(jù)原生,這是拉開差距的關(guān)鍵。
當(dāng)前行業(yè)的普遍做法是:下載一個預(yù)訓(xùn)練好的VLM,然后外掛一些機(jī)器人操作數(shù)據(jù)進(jìn)行微調(diào)。
快是快,但問題同樣致命:模型壓根沒見過關(guān)節(jié)電機(jī)長什么樣。
它只是看過一些互聯(lián)網(wǎng)數(shù)據(jù),背誦了關(guān)于機(jī)械動作的文字描述。僅此而已。
這種「死記硬背」導(dǎo)致了大量無意義的訓(xùn)練,最終帶來參數(shù)膨脹。
這或許是一種參數(shù)層面的「幻覺」。
如果模型只是針對單一機(jī)型記憶「拿起瓶子」時,每個關(guān)節(jié)該轉(zhuǎn)多少度,那么一旦換一臺硬件,它將束手無策。
因此,DM0走了完全不同的路。
它的訓(xùn)練數(shù)據(jù)融合了三類來源:
- 多模態(tài)互聯(lián)網(wǎng)數(shù)據(jù):奠定語義理解和常識推理的基座能力。
- 駕駛數(shù)據(jù):賦予模型對物理世界的時空推理與動態(tài)感知。
- 具身傳感數(shù)據(jù):涵蓋視覺、觸覺、力覺等多維度信息,讓模型真正「觸摸」到這個世界。
模型的輸入端,不再僅僅是圖像和文字,更包含了機(jī)器人實(shí)操的具身軌跡數(shù)據(jù)。
兩類數(shù)據(jù)共同優(yōu)化,迫使模型同時學(xué)會「看懂世界」和「動手操作」。
![]()
這是一種極其聰明的做法,在讓數(shù)據(jù)結(jié)構(gòu)更立體的同時,也巧妙地實(shí)現(xiàn)了數(shù)據(jù)規(guī)模的Scaling。
在具體采集策略上,原力靈機(jī)的「原生」第一性原理同樣體現(xiàn)得淋漓盡致——
正是因?yàn)橥耆繕?biāo)導(dǎo)向,所以手段可以相當(dāng)靈活。
比如對仿真數(shù)據(jù)的態(tài)度。
仿真數(shù)據(jù)量大管飽,但在精細(xì)操作場景中價(jià)值有限。例如「裝水」任務(wù),液體一晃,整個瓶子的質(zhì)心就在變化,仿真環(huán)境難以準(zhǔn)確建模。
因此,原力靈機(jī)在室內(nèi)導(dǎo)航、剛性物體抓取等方面利用仿真數(shù)據(jù),但在精細(xì)操作層面,則堅(jiān)決側(cè)重真機(jī)。
追求Scaling,但不迷信數(shù)據(jù)量,而是讓每一份數(shù)據(jù)都發(fā)揮最大價(jià)值。
這恰好與Generalist在GEN-1博客中的判斷形成呼應(yīng):供給端是會變化的,你要為即將到來的世界而構(gòu)建。
其次是訓(xùn)練原生。
DM0將「理解世界」、「操作世界」、「預(yù)測世界」三種能力統(tǒng)一訓(xùn)練。
它不是先訓(xùn)練一個VLM,再接一個動作頭(Action Head),而是從第一天起,就讓這三種能力在同一個模型體內(nèi)共同生長、相互塑造。
模型的設(shè)計(jì)緊貼真實(shí)世界需求,評價(jià)標(biāo)準(zhǔn)是真機(jī)效果,獎勵函數(shù)來自真實(shí)場景的實(shí)踐反饋。
第三是架構(gòu)原生。
DM0采用天然支持多模態(tài)的架構(gòu)設(shè)計(jì),將力覺、觸覺等維度的信息直接融入模型核心,而非外掛式地拼接傳感器模塊。
同時,它具備原生記憶能力,為長序列任務(wù)的執(zhí)行提供堅(jiān)實(shí)支撐。
三個「原生」疊加在一起,指向一個反直覺結(jié)果:模型雖小,卻異常泛化。
對具身智能來說,泛化性是真正的試金石。
原力靈機(jī)將其拆解為四個維度:
- 對象泛化:同樣是抓取,換個形狀、材質(zhì)、大小,照樣能穩(wěn)穩(wěn)拿起。
- 場景泛化:在A車間能干活,搬到B車間也絕不掉鏈子。
- 任務(wù)泛化:不只局限于被教過的幾個動作,更能自主排列組合,將簡單動作串聯(lián)成復(fù)雜的長程任務(wù)。
- 機(jī)型泛化:即便換一臺胳膊更長、關(guān)節(jié)更多的機(jī)器人,也能直接驅(qū)動其上手干活。
四個維度,缺一不可。
而DM0,從第一天就在為這四個維度做準(zhǔn)備。
原力靈機(jī)沒有像行業(yè)里很多團(tuán)隊(duì)那樣,先針對一種機(jī)型訓(xùn)一個專用模型,跑通demo再說。
DM0在預(yù)訓(xùn)練階段就同時混合了操作、導(dǎo)航、全身控制三類任務(wù),覆蓋了8種構(gòu)型迥異的機(jī)器人硬件。
![]()
相當(dāng)「粗暴」。
這相當(dāng)于對模型說:你不是喜歡死記硬背嗎?
好,我把所有任務(wù)和所有本體混雜在一起扔給你——來,背!
事實(shí)證明,這一策略成功鎖死了模型想通過死記硬背走捷徑的念頭。
「混亂」中,原力靈機(jī)倒逼模型不再執(zhí)著于電機(jī)參數(shù),轉(zhuǎn)而去理解每次操作背后通用的邏輯和物理規(guī)律。
智能,就這樣從原生的物理交互中,自然而然地生長了出來。
2.4B參數(shù),RoboChallenge雙項(xiàng)全球榜首。
2026年,是具身原生元年
GEN-1的博客里有句話,目標(biāo)比方法更強(qiáng)大。
過去兩年,行業(yè)最高頻的問題是:機(jī)器人什么時候能進(jìn)廠干活?
但或許,比這個問題更值得關(guān)注的是:
機(jī)器人什么時候能找到進(jìn)廠干活的正確方法?
Generalist用GEN-1給出了答案。
從零訓(xùn)練原生模型,摒棄一切拐杖的「借力」,可能才是通往終局的唯一路線。
無獨(dú)有偶,原力靈機(jī)的DM0,同樣不約而同地在今年踏上了這條少有人走的路。
![]()
2026年或許不是具身智能的元年。但GEN-1和DM0的出現(xiàn),正在為2026年烙上一個新標(biāo)簽:
具身原生元年。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.