網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

具身智能的PyTorch時(shí)刻，還需要哪些“原力”？

2026-02-10 18:18:43　來源: 腦極體

天津舉報(bào)

分享至

過去兩年，具身智能幾乎成了全球機(jī)器人領(lǐng)域最不缺討論、卻最難落地的方向。

在北美，Embodied AI被頻繁寫進(jìn)通往AGI的路線圖；在歐洲，實(shí)驗(yàn)室里的機(jī)器人已經(jīng)能完成越來越復(fù)雜的多步操作；而在中國，從大廠到創(chuàng)業(yè)公司，幾乎所有與智能有關(guān)的發(fā)布里都開始出現(xiàn)“embodied”“VLA”“世界模型”等關(guān)鍵詞。

IDC預(yù)測，2026年的全球人形機(jī)器人市場將翻倍，中國具身智能支出規(guī)模或?qū)⒊^110億美元，從千臺(tái)級(jí)向萬臺(tái)級(jí)躍遷。

2026春節(jié)前夕已經(jīng)傳出多家具身智能企業(yè)的機(jī)器人將集體上春晚斗舞的消息。

看上去，一切都在加速。但一個(gè)略顯尷尬的現(xiàn)實(shí)是，熱度雖高，真正能穩(wěn)定跑在真實(shí)場景里的系統(tǒng)卻寥寥無幾，大多數(shù)方案仍是在通用大模型上拼湊感知、控制和執(zhí)行模塊。

行業(yè)逐漸意識(shí)到，研發(fā)新技術(shù)并不意味著真實(shí)的量產(chǎn)能力，具身智能的瓶頸正從算力Infra轉(zhuǎn)向算法Infra，也就是支撐開發(fā)、驗(yàn)證和持續(xù)迭代的底層工具鏈。有沒有好用的開發(fā)框架？有沒有統(tǒng)一的評(píng)測標(biāo)準(zhǔn)？模型能不能在真實(shí)環(huán)境中越用越聰明？

換句話說，具身智能要走向大規(guī)模部署，需要的不是更多單點(diǎn)技術(shù)，而是一套原生的、端到端的系統(tǒng)。

那么，這套系統(tǒng)應(yīng)該如何構(gòu)建？實(shí)驗(yàn)室到量產(chǎn)之間還有哪些鴻溝需要跨越？

在剛剛結(jié)束的Dexmal Open Day 2026上，原力靈機(jī)發(fā)布的系列產(chǎn)品給出了一些不同的答案。

明明技術(shù)和發(fā)布會(huì)層出不窮，大規(guī)模部署卻遲遲難以落地，具身智能究竟被困在了哪里？

如果回顧過去兩年具身智能的技術(shù)脈絡(luò)，會(huì)發(fā)現(xiàn)幾乎所有玩家都走上了同一條路——拼湊主義。

簡單來說，拼湊主義就是從大模型出發(fā)，引入視覺、語言，再試圖通過動(dòng)作頭或策略網(wǎng)絡(luò)，把智能延伸到物理世界。這種方式能讓機(jī)器人快速學(xué)會(huì)看圖說話，卻難以讓它進(jìn)行常識(shí)推理。一旦現(xiàn)場環(huán)境發(fā)生變化，或遇到訓(xùn)練數(shù)據(jù)中未覆蓋的長尾場景，系統(tǒng)就會(huì)失效。

模型技術(shù)之外，另一個(gè)阻礙行業(yè)爆發(fā)的頑疾是行業(yè)碎片化。現(xiàn)在具身智能的開發(fā)就像是在原始森林里開路，各家的感知、規(guī)劃和控制模塊深度綁定。如果想給機(jī)器人換一個(gè)更好的視覺方案，就需要把整套控制邏輯重寫一遍。極高的重復(fù)造輪子成本讓很多初創(chuàng)團(tuán)隊(duì)還沒走到交付階段就耗盡了資源。在這個(gè)節(jié)點(diǎn)上，開發(fā)者們真正渴望的，其實(shí)是一個(gè)像PyTorch那樣統(tǒng)一、開放且解耦的開發(fā)底座。

除了技術(shù)和開發(fā)工具，目前行業(yè)還缺乏一套能夠?qū)⒓夹g(shù)轉(zhuǎn)化為經(jīng)濟(jì)價(jià)值的衡量標(biāo)準(zhǔn)。目前主流的具身智能公司都無法回答客戶最關(guān)心的指標(biāo)問題。而缺乏指標(biāo)，自然難有客戶愿意為大規(guī)模量產(chǎn)買單。

正因如此，行業(yè)逐漸意識(shí)到：具身智能不能被視為大模型的下游應(yīng)用，而必須是一套具備原生技術(shù)、開發(fā)工具和商業(yè)評(píng)估標(biāo)準(zhǔn)的面向物理世界的系統(tǒng)工程。

面對(duì)碎片化的難題，誰能給出新解法？

一個(gè)值得注意的變化是，在這輪具身智能討論中，中國團(tuán)隊(duì)的身影愈發(fā)清晰。

早期，中國公司更多被視為快速部署和落地的代表，而具身智能的底層范式往往由海外實(shí)驗(yàn)室主導(dǎo)。但在最近一兩年，這種分工正在被打破。

從跨機(jī)型VLA訓(xùn)練到真機(jī)評(píng)測基準(zhǔn)、再到開源框架和數(shù)據(jù)標(biāo)準(zhǔn)，越來越多中國團(tuán)隊(duì)開始直接參與到方法論層的構(gòu)建。

但這些構(gòu)建大多還停留在爭論用哪個(gè)大模型改，那么能不能直接跳出這個(gè)問題，從第一行代碼就直接為機(jī)器人而寫呢？

在剛剛結(jié)束的 Dexmal Open Day 2026 上，這個(gè)問題已經(jīng)有了一些新的思考。

Dexmal Open Day2026 是原力靈機(jī)成立之后首次面向行業(yè)專家、技術(shù)開發(fā)者、媒體等舉行的技術(shù)開放日。

開放日上，原力靈機(jī)給出的答案可以概括為一個(gè)關(guān)鍵點(diǎn)——以infra為底座構(gòu)建具身原生。該系統(tǒng)以DM0為原生智能內(nèi)核，以Dexbotic 2.0為算法開發(fā)Infra，以RoboChallenge為評(píng)測Infra，再以DFOL為持續(xù)進(jìn)化引擎，四者共同構(gòu)成一套自洽、可擴(kuò)展、可進(jìn)化的具身智能基礎(chǔ)設(shè)施體系。

這一思路最直接的體現(xiàn)是其具身原生大模型DM0。與行業(yè)中常見的單任務(wù)訓(xùn)練方式不同，DM0是從0開始訓(xùn)練的具身原生大模型。其在預(yù)訓(xùn)練階段就引入多任務(wù)、跨機(jī)型的混合訓(xùn)練，覆蓋抓取、導(dǎo)航、全身控制等核心能力，并橫跨8種結(jié)構(gòu)差異顯著的機(jī)器人本體。例如，在A平臺(tái)上學(xué)會(huì)處理易碎品的經(jīng)驗(yàn)，能夠有效遷移到B平臺(tái)處理類似物體，無需重新標(biāo)注海量數(shù)據(jù)。

有意思的是，DM0只有2.4 B參數(shù)，卻在真機(jī)測評(píng)里拿了單任務(wù)和多任務(wù)雙項(xiàng)第一。為什么？關(guān)鍵在于它用了一種叫空間推理思維鏈（Spatial CoT）的方式來思考。

舉個(gè)例子，“把桌上的商品掃個(gè)碼計(jì)價(jià)”這句話其實(shí)很模糊，桌上可能有好幾個(gè)商品，有的被遮擋，有的反光，掃碼槍的角度也得對(duì)。DM0能夠像人一樣一步步拆解：先看清楚有哪些東西，判斷哪個(gè)是目標(biāo)商品，再想“我該從哪邊靠近？手怎么動(dòng)才能穩(wěn)穩(wěn)拿起它并轉(zhuǎn)到掃碼位置？”接著生成一條平滑的視覺軌跡，最后轉(zhuǎn)換成機(jī)械臂能執(zhí)行的三維動(dòng)作。正因如此，它不僅能完成特定任務(wù)，還能內(nèi)化物理常識(shí)，具備更強(qiáng)的泛化能力和魯棒性。

目前，DM0 2.4B版本代碼、模型已分別在GitHub、Hugging Face開源，模型測試任務(wù)RoboChallenge Table30的全部30個(gè)任務(wù)的參數(shù)和推理代碼也同步開源。

如果說DM0解決的是底層技術(shù)，Dexbotic 2.0解決的就是如何讓能力被復(fù)用。

作為全球首個(gè)具身原生開發(fā)框架，Dexbotic 2.0的出現(xiàn)某種程度上解決了開發(fā)碎片化的難題。過去，感知、規(guī)劃與控制模塊往往深度耦合，換一個(gè)視覺模型可能就得重寫整套控制邏輯。而Dexbotic 2.0通過模塊化設(shè)計(jì)，將整個(gè)系統(tǒng)清晰拆解為三大可插拔組件：V（Vision Encoder）、L（LLM ）和A（Action Expert），實(shí)現(xiàn)真正的解耦。

在此基礎(chǔ)上，它還統(tǒng)一了數(shù)據(jù)格式、訓(xùn)練流程和評(píng)測標(biāo)準(zhǔn)。無論是模仿學(xué)習(xí)還是強(qiáng)化學(xué)習(xí)，都能在同一個(gè)框架內(nèi)高效協(xié)同，仿真訓(xùn)練的結(jié)果也能無縫遷移到真機(jī)部署。這種端到端打通的思路顯著降低了具身智能系統(tǒng)的工程復(fù)雜度。

但研發(fā)與開發(fā)之后，什么能讓具身智能真正被大規(guī)模復(fù)制、走向?qū)嶋H生產(chǎn)生活場景？

真正將這一切推向商業(yè)語境的是具身原生應(yīng)用量產(chǎn)工作流DFOL（Distributed Field Online Learning）。傳統(tǒng)模式中，真實(shí)場景只是模型的考場，系統(tǒng)部署后，表現(xiàn)好就留下，表現(xiàn)差就退貨。DFOL構(gòu)建了一個(gè)“云端－現(xiàn)場”協(xié)同的持續(xù)學(xué)習(xí)閉環(huán)，將成功率、動(dòng)作精度、節(jié)拍（吞吐效率）等工業(yè)客戶最關(guān)心的指標(biāo)直接嵌入學(xué)習(xí)目標(biāo)中。

這樣一來，具身智能不再是交付即終結(jié)的一次性產(chǎn)品，而變成一種可進(jìn)化、可度量、可解鎖具身應(yīng)用量產(chǎn)工作流。客戶按效果付費(fèi)，廠商通過數(shù)據(jù)飛輪持續(xù)優(yōu)化體驗(yàn)，形成正向商業(yè)循環(huán)。

當(dāng)然，要讓這一模式被廣泛采納，還需要行業(yè)共識(shí)。原力靈機(jī)聯(lián)合Hugging Face共同發(fā)起RoboChallenge，旨在建立全球首個(gè)聚焦真機(jī)性能的大規(guī)模評(píng)測平臺(tái)。未來，各家公司不再自說自話，而是用同一套標(biāo)準(zhǔn)衡量成功率、精度與節(jié)拍，推動(dòng)行業(yè)透明化與良性競爭。

這樣一來，從模型、研發(fā)到商業(yè)化、評(píng)測，具身智能就有了自己的一套原生系統(tǒng)。

站在今天回看具身智能，競爭焦點(diǎn)已經(jīng)發(fā)生了變化。

具身智能的上半場，拼的是單點(diǎn)突破，語言理解、視覺識(shí)別、運(yùn)動(dòng)控制輪番登場，每一項(xiàng)技術(shù)進(jìn)步都足以掀起一輪融資熱潮。

但熱潮褪去，客戶開始更加關(guān)注技術(shù)落地能力和算法層面的開發(fā)框架。

在下半場，具身智能不再比誰的單項(xiàng)技術(shù)最亮眼，而是比誰擁有更強(qiáng)的系統(tǒng)能力、誰有更強(qiáng)的開發(fā)基礎(chǔ)設(shè)施。所謂系統(tǒng)能力，不是模塊的簡單堆砌，而是感知、決策、執(zhí)行、反饋各環(huán)節(jié)能否在真實(shí)物理世界中形成高效、魯棒、可進(jìn)化的閉環(huán)。

2026年不是具身智能的元年，而是具身原生的元年。

所謂具身原生，意味著不再將通用AI“外掛”到機(jī)器人上，而是從第一行代碼起，就讓智能在物理交互中生長，理解重力、摩擦、碰撞，適應(yīng)光照變化、物料變異與環(huán)境擾動(dòng)。

在這一意義上，原力靈機(jī)的技術(shù)產(chǎn)品矩陣提供了一條值得被認(rèn)真審視的樣本路徑：用具身原生大模型彌合語義與動(dòng)作的鴻溝，用開源框架降低創(chuàng)新門檻，再通過DFOL這樣的閉環(huán)機(jī)制，將工業(yè)客戶關(guān)心的成功率、精度與節(jié)拍直接轉(zhuǎn)化為可優(yōu)化的學(xué)習(xí)目標(biāo)。而RoboChallenge作為真機(jī)評(píng)測Infra，用統(tǒng)一標(biāo)準(zhǔn)衡量實(shí)效，確保所有技術(shù)進(jìn)步可驗(yàn)證、可比較、可對(duì)齊商業(yè)需求。

歷史經(jīng)驗(yàn)表明，真正的技術(shù)革命往往始于Infra的成熟。深度學(xué)習(xí)因PyTorch而爆發(fā)，自動(dòng)駕駛因CARLA而加速。如今，具身智能正站在自己的Infra拐點(diǎn)上。得Infra者，得天下。誰構(gòu)建了更開放、更高效、更貼近物理世界的基礎(chǔ)設(shè)施，誰就掌握了定義下一代智能體的能力。

而這，或許正是克服具身智能“最后一公里”難題的關(guān)鍵解法。

聲明：個(gè)人原創(chuàng)，僅供參考

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.