337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

具身大模型DM0硬核拆解:物理AI如何迎來自己的“原生”時代

0
分享至

責編 | 夢依丹

出品丨AI 科技大本營(ID:rgznai100)

當前,大語言模型(LLMs)和視覺語言模型(VLMs)在語義領域的成功未能直接遷移至物理機器人,歸根結底在于其互聯網原生的基因。主流的“預訓練-后適配”(Pretrain-then-Adapt)的范式依賴互聯網靜態數據,導致模型先天缺失物理基礎(Physical Grounding),在落地時往往顧此失彼:要么導致操作與導航的模塊割裂,要么引發災難性遺忘,在追求控制精度的過程中丟失了核心的通用推理能力。


圖1:DM0 在異構語料庫上進行預訓練——無縫整合互聯網、自動駕駛

為了打破這一局限,原力靈機聯合階躍星辰提出一種名為 DM0 的具身原生(Embodied-Native) VLA 模型,其工作核心在于「從0開始」:從訓練的最初階段,就采用統一的視角,將具身傳感器與運動數據視為與語言、視覺數據同等重要的一等公民。

作為一個端到端模型,DM0 可以無縫統一機器人的精細操作(Manipulation)與移動導航(Navigation)。在 RoboChallenge 真實世界基準測試 Table 30 中,DM0 在單任務(Specialist)和多任務(Generalist)兩種設置下均以顯著優勢領先現有 SOTA 模型,展現出極其強大的物理世界泛化與執行能力。

  • 論文名稱: DM0: An Embodied-Native Vision-Language-Action Model towards Physical AI
  • 論文鏈接:https://arxiv.org/html/2602.14974v1
  • DM0 GitHub : https://github.com/Dexmal/dexbotic
  • DM0 Hugging Face: https://huggingface.co/collections/Dexmal/dm0

方法與架構:多源混合訓練與空間腳手架

真正的通用機器人需要一個具身原生模型,這要求模型必須調和異構數據源——涵蓋互聯網語料、自動駕駛日志以及機器人操作軌跡,學習既具有豐富語義又具備物理可執行性的表征。為此,DM0 并未采用簡單的端到端多層感知機映射,而是設計了一套精妙的多源混合訓練與具身空間腳手架(Embodied Spatial Scaffolding)架構。

整體模型架構


圖 2:DM0 架構圖,包含 VLM 主干和基于流匹配(Flow Matching)

DM0 的核心架構由兩個主要組件構成:

  1. VLM 主干網絡: 基于 Qwen3-1.7B 大語言模型構建,并增加了一個強大的感知編碼器 PE,負責多模態感知、語義理解以及在機器人環境中的具身推理。輸入的多視角圖像會被調整為 728×728 的高分辨率,經過感知編碼器處理后,提取出細粒度的視覺特征。
  2. 動作專家:這是一個基于流匹配的連續控制模塊。它不直接從圖像提取特征,而是接收來自 VLM 主干網絡提取的鍵值(KV)緩存作為條件輸入,從而生成平滑、精確的連續控制動作。

在推理時,DM0 支持兩種模式:既可以直接從多模態觀察和指令中預測連續動作;也可以先通過 VLM 生成文本形式的具身推理過程,隨后將這些推理文本作為條件,引導動作專家輸出動作。

多源混合訓練

聯合優化語言目標與連續控制目標往往會破壞預訓練 VLM 中保存的語義表征。為了解決這個問題,DM0 采用了一種受知識隔離(Knowledge Insulation)啟發的混合梯度策略。

具體而言,在針對具身機器人數據進行訓練時,動作專家的梯度不會回傳給 VLM 主干網絡。這種解耦操作有效防止機器人動作數據對 VLM 通用常識的侵蝕。與此同時,VLM 仍然會繼續使用非具身數據進行更新,不斷優化其通用語言和視覺理解能力。此外,VLM 還被監督預測離散的動作 Token,促使它編碼出有利于下游連續動作預測的動作相關語義。

具身空間腳手架

為進一步彌合高級語言推理與低級動作控制之間的鴻溝,本文創新性提出一套分層預測框架——具身空間腳手架。在訓練中,模型被要求順序執行以下輔助任務,構建出空間維度的思維鏈(Spatial CoT):

  • 子任務預測:將復雜的總指令分解為一系列可解釋、易管理的子步驟。
  • 目標邊界框預測:在視覺觀察中預測出目標物體或目標區域的 2D 邊界框。
  • 末端執行器軌跡預測:預測機器臂末端在主攝像機視圖下的未來 2D 軌跡。
  • 離散動作預測:預測代表機器人控制命令的離散 Token。

這種設計如同為模型搭建一層層腳手架,引導其從抽象的語義意圖,逐步過渡到以物體為中心的空間定位,再到動作相關的幾何軌跡,最終落地為底層控制。這種信息瓶頸機制不僅過濾了任務無關的噪聲,還極大地限制了動作策略的解空間。

三階段訓練配方:從互聯網原生走向具身原生


圖3:預訓練、中期訓練、后期訓練的數據混合比例


DM0 的強大不僅源于架構,更歸功于其精心設計的三階段訓練 pipeline,總計消耗了高達 1.2T Token 的數據。預訓練階段在大規模的互聯網、自動駕駛和具身數據上建立強大的多模態感知;中訓練階段加入動作預測,并在跨多種機器人平臺的具身數據上把模型錨定為可執行的控制,同時保留通用對話能力;后訓練階段則收窄所使用的本體與數據范圍,以便在少數目標平臺上穩定視覺-運動對齊。

Pretraining

這個階段,模型在一套極其豐富的異構語料庫上進行聯合優化,參數全部解凍。數據不僅包含傳統的網頁文本、教育文獻、OCR 數據和通用 VQA,還極具前瞻性地引入 GUI 界面數據、自動駕駛深度檢測數據以及大量的具身數據。通過 1.13T Token 的大規模洗禮,模型在獲得語義知識的同時,隱式地掌握了物理先驗(如空間關系、深度結構、物理動力學)。

Mid-Training

中期訓練階段引入了動作預測模塊,數據規模約為 200M 樣本。此時,混合梯度策略(知識隔離)開始生效。數據混合了跨形態的單臂/雙臂機器人軌跡(如 Franka、UR5、ALOHA)、仿真環境數據以及視覺-語言指令微調數據(如 Cambrian-10M、LLaVA-OV)。為了增強模型的長程規劃能力,本文還專門構建了具身推理(ER)數據集,包含任務分解、進度估計等訓練項。

Post-Training

后期訓練階段旨在將模型對齊到實際部署的硬件上。使用約 50M 樣本,將目標縮小至少數特定的真實機器人平臺。減少不同形態機器人的分布方差,使得模型能在目標機械臂上建立極其穩定的視覺-運動映射。

實驗結果:在 RoboChallenge 上的碾壓級表現

為全面驗證 DM0 的物理世界交互能力,DM0 在極具挑戰性的 RoboChallenge 真實世界基準 Table30 上進行評估。該基準包含 30 個需要多步推理和精確連續控制的長視野桌面操作任務。

單任務(Specialist)評估


圖4:DM0 具備在具身場景中預測子任務的思維鏈(CoT)能力

除了卓越的動作執行能力,由于實施了知識隔離,處于 Mid-Training 階段的 DM0 依然完美保留了多模態對話能力。在具身場景的物體檢測、復雜圖表 OCR 識別、甚至是作為手機智能體(Mobile Agent)識別外賣按鈕的任務中,它也能對答如流。

結論與未來展望

DM0 從根本上重新思考了通用機器人策略的開發路徑。它證明了與其讓純語義的大語言模型在事后去適應機器人身體,不如在預訓練的萌芽期,就將物理世界的感知與多源數據相融合,構建一個真正意義上的具身原生 VLA 模型;其獨創的混合梯度訓練保護了認知不退化,而具身空間腳手架則賦予了模型三維空間的推理直覺。

盡管 DM0 已經樹立了一個強大的基準,但這僅僅是 Physical AI 邁出的一小步。論文的最后,作者團隊也指出了幾個極具潛力的演進方向:

  1. 具身原生的 Scaling Laws: DM0 目前依然是一個 2B 級別的輕量化模型。未來,團隊計劃將其擴展至 7B 甚至 30B 規模,并吞吐更為龐大的仿真+真實的混合數據集,以期觀察到在物理推理層面的涌現能力。
  2. 更廣闊的多模態感知:現實世界的物理交互絕不僅限于看和說。DM0 的預訓練階段未來有望直接整合觸覺反饋、音頻以及純深度信息,讓機器人即便在視野受限的動態環境中依然游刃有余。
  3. 長程推理與世界模型:現有的空間腳手架雖然解決了部分規劃問題,但跨越超長時間維度的任務仍是業界難題。未來,若能將世界模型整合進 DM0 ,賦予機器人在腦海中預演動作后果并進行長期規劃的能力,真正的全能型 Physical AI 將不再遙遠。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“吳京水腫”登熱搜:臉上一按一個坑驚呆網友

“吳京水腫”登熱搜:臉上一按一個坑驚呆網友

TVB的四小花
2026-03-27 16:53:30
1-1!槍手鐵衛破門+送點 皇馬隊長絕平 FIFA第4慘遭爆冷6連勝終結

1-1!槍手鐵衛破門+送點 皇馬隊長絕平 FIFA第4慘遭爆冷6連勝終結

狍子歪解體壇
2026-03-28 05:56:31
以色列沒水沒藥沒人管,導彈炸完基地癱瘓,世界集體裝瞎

以色列沒水沒藥沒人管,導彈炸完基地癱瘓,世界集體裝瞎

網絡易不易
2026-03-26 15:05:07
瘋狂甩賣球員種惡果!CBA一隊入座率不夠一成,球館上面空空蕩蕩

瘋狂甩賣球員種惡果!CBA一隊入座率不夠一成,球館上面空空蕩蕩

南海浪花
2026-03-27 09:31:56
打服錫安!5年2.9億美元!隊史最大合同來了

打服錫安!5年2.9億美元!隊史最大合同來了

籃球教學論壇
2026-03-27 16:46:21
朝陽初三女孩318分,家長無奈:老師建議去職高。

朝陽初三女孩318分,家長無奈:老師建議去職高。

特約前排觀眾
2026-03-28 00:20:03
猝死也會發生在健康人身上,請收下醫生的這10條建議

猝死也會發生在健康人身上,請收下醫生的這10條建議

知識分子
2026-03-27 12:18:08
我就不信張一山沒有后悔過嗎?這么美的前任拱手讓出去了

我就不信張一山沒有后悔過嗎?這么美的前任拱手讓出去了

陳意小可愛
2026-03-27 10:38:38
遠超東北?河南人口流失,全國第一 | 地球知識局

遠超東北?河南人口流失,全國第一 | 地球知識局

地球知識局
2026-03-27 20:13:27
“這次穿得算保守了”,女老師短裙配蕾絲襪,學生上課頭都不敢抬

“這次穿得算保守了”,女老師短裙配蕾絲襪,學生上課頭都不敢抬

妍妍教育日記
2026-03-21 10:05:03
王一博續約樂華炸鍋!粉絲大規模脫粉,這步棋真走對了?

王一博續約樂華炸鍋!粉絲大規模脫粉,這步棋真走對了?

鄉野小珥
2026-03-28 07:44:57
黃金能跌到500元/克嗎?

黃金能跌到500元/克嗎?

流蘇晚晴
2026-03-27 18:22:12
伊朗官媒發布《為眾人復仇》AI短片:一枚伊朗導彈在哈梅內伊等人注視下,精準炸毀幻化成羊頭惡魔的美國自由女神像

伊朗官媒發布《為眾人復仇》AI短片:一枚伊朗導彈在哈梅內伊等人注視下,精準炸毀幻化成羊頭惡魔的美國自由女神像

大象新聞
2026-03-26 09:45:03
出獄后的雷政富滄桑感襲面而來,前后對比引人唏噓

出獄后的雷政富滄桑感襲面而來,前后對比引人唏噓

霹靂炮
2026-03-14 22:49:47
越打越出驚喜!以色列傳來好消息,美軍徹底歇菜:8年無法再開戰

越打越出驚喜!以色列傳來好消息,美軍徹底歇菜:8年無法再開戰

知法而形
2026-03-26 17:28:20
破防!中國油輪硬闖霍爾木茲海峽,伊朗全程護航,看完太提氣

破防!中國油輪硬闖霍爾木茲海峽,伊朗全程護航,看完太提氣

戧詞奪理
2026-03-25 10:53:15
美股全線大跌,道指暴跌近800點!科技巨頭普跌,微軟較高點跌34%,國際油價大漲7%

美股全線大跌,道指暴跌近800點!科技巨頭普跌,微軟較高點跌34%,國際油價大漲7%

金融界
2026-03-28 08:23:16
江蘇如皋李昌鈺刑偵科學博物館正常開放,正在布置悼念場地,游客可以前往獻花,李昌鈺生前一直說:我是中國江蘇南通如皋人

江蘇如皋李昌鈺刑偵科學博物館正常開放,正在布置悼念場地,游客可以前往獻花,李昌鈺生前一直說:我是中國江蘇南通如皋人

極目新聞
2026-03-28 10:04:31
馬英九出席,馬英九基金會正式向鄭麗文交底,蕭旭岑回應亮了

馬英九出席,馬英九基金會正式向鄭麗文交底,蕭旭岑回應亮了

DS北風
2026-03-27 19:22:15
全新塞納實車曝光!2.4T混動+超250馬力

全新塞納實車曝光!2.4T混動+超250馬力

沙雕小琳琳
2026-03-26 01:58:11
2026-03-28 10:51:00
CSDN incentive-icons
CSDN
成就一億技術人
26413文章數 242250關注度
往期回顧 全部

科技要聞

遭中國學界"拉黑"后,這家AI頂會低頭道歉

頭條要聞

前大廠員工開"網絡賭場" 三個月吸金1900萬

頭條要聞

前大廠員工開"網絡賭場" 三個月吸金1900萬

體育要聞

“我是全家最差勁的運動員”

娛樂要聞

范瑋琪加盟,官宣《浪姐7》遭全網抵制

財經要聞

我在小吃培訓機構學習“科技與狠活”

汽車要聞

置換補貼價4.28萬起 第五代宏光MINIEV正式上市

態度原創

房產
家居
數碼
藝術
旅游

房產要聞

6.8萬方!天河員村再征地,金融城西區開發全面提速

家居要聞

曲線華爾茲 現代簡約

數碼要聞

全球存儲芯片短缺,索尼宣布暫停CFexpress及SD卡訂單

藝術要聞

華國鋒與耿飚的草書書信,你見過嗎?氣勢恢宏引發熱議!

旅游要聞

解鎖五大春日新玩法 2026年重慶大足石刻國際旅游文化節4月啟幕

無障礙瀏覽 進入關懷版