![]()
過去兩年,具身智能幾乎成了全球機(jī)器人領(lǐng)域最不缺討論、卻最難落地的方向。
在北美,Embodied AI被頻繁寫進(jìn)通往AGI的路線圖;在歐洲,實(shí)驗(yàn)室里的機(jī)器人已經(jīng)能完成越來越復(fù)雜的多步操作;而在中國,從大廠到創(chuàng)業(yè)公司,幾乎所有與智能有關(guān)的發(fā)布里都開始出現(xiàn)“embodied”“VLA”“世界模型”等關(guān)鍵詞。
IDC預(yù)測,2026年的全球人形機(jī)器人市場將翻倍,中國具身智能支出規(guī)模或?qū)⒊^110億美元,從千臺(tái)級(jí)向萬臺(tái)級(jí)躍遷。
2026春節(jié)前夕已經(jīng)傳出多家具身智能企業(yè)的機(jī)器人將集體上春晚斗舞的消息。
看上去,一切都在加速。但一個(gè)略顯尷尬的現(xiàn)實(shí)是,熱度雖高,真正能穩(wěn)定跑在真實(shí)場景里的系統(tǒng)卻寥寥無幾,大多數(shù)方案仍是在通用大模型上拼湊感知、控制和執(zhí)行模塊。
![]()
行業(yè)逐漸意識(shí)到,研發(fā)新技術(shù)并不意味著真實(shí)的量產(chǎn)能力,具身智能的瓶頸正從算力Infra轉(zhuǎn)向算法Infra,也就是支撐開發(fā)、驗(yàn)證和持續(xù)迭代的底層工具鏈。有沒有好用的開發(fā)框架?有沒有統(tǒng)一的評(píng)測標(biāo)準(zhǔn)?模型能不能在真實(shí)環(huán)境中越用越聰明?
換句話說,具身智能要走向大規(guī)模部署,需要的不是更多單點(diǎn)技術(shù),而是一套原生的、端到端的系統(tǒng)。
那么,這套系統(tǒng)應(yīng)該如何構(gòu)建?實(shí)驗(yàn)室到量產(chǎn)之間還有哪些鴻溝需要跨越?
![]()
在剛剛結(jié)束的Dexmal Open Day 2026上,原力靈機(jī)發(fā)布的系列產(chǎn)品給出了一些不同的答案。
![]()
明明技術(shù)和發(fā)布會(huì)層出不窮,大規(guī)模部署卻遲遲難以落地,具身智能究竟被困在了哪里?
如果回顧過去兩年具身智能的技術(shù)脈絡(luò),會(huì)發(fā)現(xiàn)幾乎所有玩家都走上了同一條路——拼湊主義。
簡單來說,拼湊主義就是從大模型出發(fā),引入視覺、語言,再試圖通過動(dòng)作頭或策略網(wǎng)絡(luò),把智能延伸到物理世界。這種方式能讓機(jī)器人快速學(xué)會(huì)看圖說話,卻難以讓它進(jìn)行常識(shí)推理。一旦現(xiàn)場環(huán)境發(fā)生變化,或遇到訓(xùn)練數(shù)據(jù)中未覆蓋的長尾場景,系統(tǒng)就會(huì)失效。
![]()
模型技術(shù)之外,另一個(gè)阻礙行業(yè)爆發(fā)的頑疾是行業(yè)碎片化。現(xiàn)在具身智能的開發(fā)就像是在原始森林里開路,各家的感知、規(guī)劃和控制模塊深度綁定。如果想給機(jī)器人換一個(gè)更好的視覺方案,就需要把整套控制邏輯重寫一遍。極高的重復(fù)造輪子成本讓很多初創(chuàng)團(tuán)隊(duì)還沒走到交付階段就耗盡了資源。在這個(gè)節(jié)點(diǎn)上,開發(fā)者們真正渴望的,其實(shí)是一個(gè)像PyTorch那樣統(tǒng)一、開放且解耦的開發(fā)底座。
除了技術(shù)和開發(fā)工具,目前行業(yè)還缺乏一套能夠?qū)⒓夹g(shù)轉(zhuǎn)化為經(jīng)濟(jì)價(jià)值的衡量標(biāo)準(zhǔn)。目前主流的具身智能公司都無法回答客戶最關(guān)心的指標(biāo)問題。而缺乏指標(biāo),自然難有客戶愿意為大規(guī)模量產(chǎn)買單。
正因如此,行業(yè)逐漸意識(shí)到:具身智能不能被視為大模型的下游應(yīng)用,而必須是一套具備原生技術(shù)、開發(fā)工具和商業(yè)評(píng)估標(biāo)準(zhǔn)的面向物理世界的系統(tǒng)工程。
![]()
面對(duì)碎片化的難題,誰能給出新解法?
一個(gè)值得注意的變化是,在這輪具身智能討論中,中國團(tuán)隊(duì)的身影愈發(fā)清晰。
早期,中國公司更多被視為快速部署和落地的代表,而具身智能的底層范式往往由海外實(shí)驗(yàn)室主導(dǎo)。但在最近一兩年,這種分工正在被打破。
從跨機(jī)型VLA訓(xùn)練到真機(jī)評(píng)測基準(zhǔn)、再到開源框架和數(shù)據(jù)標(biāo)準(zhǔn),越來越多中國團(tuán)隊(duì)開始直接參與到方法論層的構(gòu)建。
但這些構(gòu)建大多還停留在爭論用哪個(gè)大模型改,那么能不能直接跳出這個(gè)問題,從第一行代碼就直接為機(jī)器人而寫呢?
在剛剛結(jié)束的 Dexmal Open Day 2026 上,這個(gè)問題已經(jīng)有了一些新的思考。
Dexmal Open Day2026 是原力靈機(jī)成立之后首次面向行業(yè)專家、技術(shù)開發(fā)者、媒體等舉行的技術(shù)開放日。
![]()
開放日上,原力靈機(jī)給出的答案可以概括為一個(gè)關(guān)鍵點(diǎn)——以infra為底座構(gòu)建具身原生。該系統(tǒng)以DM0為原生智能內(nèi)核,以Dexbotic 2.0為算法開發(fā)Infra,以RoboChallenge為評(píng)測Infra,再以DFOL為持續(xù)進(jìn)化引擎,四者共同構(gòu)成一套自洽、可擴(kuò)展、可進(jìn)化的具身智能基礎(chǔ)設(shè)施體系。
![]()
這一思路最直接的體現(xiàn)是其具身原生大模型DM0。與行業(yè)中常見的單任務(wù)訓(xùn)練方式不同,DM0是從0開始訓(xùn)練的具身原生大模型。其在預(yù)訓(xùn)練階段就引入多任務(wù)、跨機(jī)型的混合訓(xùn)練,覆蓋抓取、導(dǎo)航、全身控制等核心能力,并橫跨8種結(jié)構(gòu)差異顯著的機(jī)器人本體。例如,在A平臺(tái)上學(xué)會(huì)處理易碎品的經(jīng)驗(yàn),能夠有效遷移到B平臺(tái)處理類似物體,無需重新標(biāo)注海量數(shù)據(jù)。
![]()
有意思的是,DM0只有2.4 B參數(shù),卻在真機(jī)測評(píng)里拿了單任務(wù)和多任務(wù)雙項(xiàng)第一。為什么?關(guān)鍵在于它用了一種叫空間推理思維鏈(Spatial CoT) 的方式來思考。
舉個(gè)例子,“把桌上的商品掃個(gè)碼計(jì)價(jià)”這句話其實(shí)很模糊,桌上可能有好幾個(gè)商品,有的被遮擋,有的反光,掃碼槍的角度也得對(duì)。DM0能夠像人一樣一步步拆解:先看清楚有哪些東西,判斷哪個(gè)是目標(biāo)商品,再想“我該從哪邊靠近?手怎么動(dòng)才能穩(wěn)穩(wěn)拿起它并轉(zhuǎn)到掃碼位置?”接著生成一條平滑的視覺軌跡,最后轉(zhuǎn)換成機(jī)械臂能執(zhí)行的三維動(dòng)作。正因如此,它不僅能完成特定任務(wù),還能內(nèi)化物理常識(shí),具備更強(qiáng)的泛化能力和魯棒性。
目前,DM0 2.4B版本代碼、模型已分別在GitHub、Hugging Face開源,模型測試任務(wù)RoboChallenge Table30的全部30個(gè)任務(wù)的參數(shù)和推理代碼也同步開源。
![]()
如果說DM0解決的是底層技術(shù),Dexbotic 2.0解決的就是如何讓能力被復(fù)用。
作為全球首個(gè)具身原生開發(fā)框架,Dexbotic 2.0的出現(xiàn)某種程度上解決了開發(fā)碎片化的難題。過去,感知、規(guī)劃與控制模塊往往深度耦合,換一個(gè)視覺模型可能就得重寫整套控制邏輯。而Dexbotic 2.0通過模塊化設(shè)計(jì),將整個(gè)系統(tǒng)清晰拆解為三大可插拔組件:V(Vision Encoder)、L(LLM )和A(Action Expert),實(shí)現(xiàn)真正的解耦。
![]()
在此基礎(chǔ)上,它還統(tǒng)一了數(shù)據(jù)格式、訓(xùn)練流程和評(píng)測標(biāo)準(zhǔn)。無論是模仿學(xué)習(xí)還是強(qiáng)化學(xué)習(xí),都能在同一個(gè)框架內(nèi)高效協(xié)同,仿真訓(xùn)練的結(jié)果也能無縫遷移到真機(jī)部署。這種端到端打通的思路顯著降低了具身智能系統(tǒng)的工程復(fù)雜度。
但研發(fā)與開發(fā)之后,什么能讓具身智能真正被大規(guī)模復(fù)制、走向?qū)嶋H生產(chǎn)生活場景?
真正將這一切推向商業(yè)語境的是具身原生應(yīng)用量產(chǎn)工作流DFOL(Distributed Field Online Learning)。傳統(tǒng)模式中,真實(shí)場景只是模型的考場,系統(tǒng)部署后,表現(xiàn)好就留下,表現(xiàn)差就退貨。DFOL構(gòu)建了一個(gè)“云端-現(xiàn)場”協(xié)同的持續(xù)學(xué)習(xí)閉環(huán),將成功率、動(dòng)作精度、節(jié)拍(吞吐效率)等工業(yè)客戶最關(guān)心的指標(biāo)直接嵌入學(xué)習(xí)目標(biāo)中。
![]()
這樣一來,具身智能不再是交付即終結(jié)的一次性產(chǎn)品,而變成一種可進(jìn)化、可度量、可解鎖具身應(yīng)用量產(chǎn)工作流。客戶按效果付費(fèi),廠商通過數(shù)據(jù)飛輪持續(xù)優(yōu)化體驗(yàn),形成正向商業(yè)循環(huán)。
當(dāng)然,要讓這一模式被廣泛采納,還需要行業(yè)共識(shí)。原力靈機(jī)聯(lián)合Hugging Face共同發(fā)起RoboChallenge,旨在建立全球首個(gè)聚焦真機(jī)性能的大規(guī)模評(píng)測平臺(tái)。未來,各家公司不再自說自話,而是用同一套標(biāo)準(zhǔn)衡量成功率、精度與節(jié)拍,推動(dòng)行業(yè)透明化與良性競爭。
這樣一來,從模型、研發(fā)到商業(yè)化、評(píng)測,具身智能就有了自己的一套原生系統(tǒng)。
![]()
站在今天回看具身智能,競爭焦點(diǎn)已經(jīng)發(fā)生了變化。
具身智能的上半場,拼的是單點(diǎn)突破,語言理解、視覺識(shí)別、運(yùn)動(dòng)控制輪番登場,每一項(xiàng)技術(shù)進(jìn)步都足以掀起一輪融資熱潮。
但熱潮褪去,客戶開始更加關(guān)注技術(shù)落地能力和算法層面的開發(fā)框架。
在下半場,具身智能不再比誰的單項(xiàng)技術(shù)最亮眼,而是比誰擁有更強(qiáng)的系統(tǒng)能力、誰有更強(qiáng)的開發(fā)基礎(chǔ)設(shè)施。所謂系統(tǒng)能力,不是模塊的簡單堆砌,而是感知、決策、執(zhí)行、反饋各環(huán)節(jié)能否在真實(shí)物理世界中形成高效、魯棒、可進(jìn)化的閉環(huán)。
2026年不是具身智能的元年,而是具身原生的元年。
所謂具身原生,意味著不再將通用AI“外掛”到機(jī)器人上,而是從第一行代碼起,就讓智能在物理交互中生長,理解重力、摩擦、碰撞,適應(yīng)光照變化、物料變異與環(huán)境擾動(dòng)。
![]()
在這一意義上,原力靈機(jī)的技術(shù)產(chǎn)品矩陣提供了一條值得被認(rèn)真審視的樣本路徑:用具身原生大模型彌合語義與動(dòng)作的鴻溝,用開源框架降低創(chuàng)新門檻,再通過DFOL這樣的閉環(huán)機(jī)制,將工業(yè)客戶關(guān)心的成功率、精度與節(jié)拍直接轉(zhuǎn)化為可優(yōu)化的學(xué)習(xí)目標(biāo)。而RoboChallenge作為真機(jī)評(píng)測Infra,用統(tǒng)一標(biāo)準(zhǔn)衡量實(shí)效,確保所有技術(shù)進(jìn)步可驗(yàn)證、可比較、可對(duì)齊商業(yè)需求。
歷史經(jīng)驗(yàn)表明,真正的技術(shù)革命往往始于Infra的成熟。深度學(xué)習(xí)因PyTorch而爆發(fā),自動(dòng)駕駛因CARLA而加速。如今,具身智能正站在自己的Infra拐點(diǎn)上。得Infra者,得天下。誰構(gòu)建了更開放、更高效、更貼近物理世界的基礎(chǔ)設(shè)施,誰就掌握了定義下一代智能體的能力。
而這,或許正是克服具身智能“最后一公里”難題的關(guān)鍵解法。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.