網易首頁 > 網易號 > 正文申請入駐

橫掃19項榜單！大曉機器人開源全球首創空間智能底座

2026-03-07 11:02:10　來源: AI科技評論

廣東舉報

分享至

跨不同具身本體的通用基礎模型“ACE-Brain-0”，正式面向全行業開源。

近日，大曉機器人聯合上海交通大學、南洋理工大學、香港中文大學、香港大學等研究機構共同推出以空間智能為底層框架、跨不同具身本體的通用基礎模型“ACE-Brain-0”，正式面向全行業開源。

ACE-Brain-0 首次打破汽車、機器人、無人機等不同本體壁壘，貫穿空間認知、自動駕駛、低空感知、機器人交互，重新定義了物理世界智能的技術底層邏輯。其性能表現在涵蓋空間認知、自動駕駛、低空感知、具身交互的24個核心 benchmark 中，有19個取得當前模型中的 SOTA（排名第一）成績，全面大幅領先市場主流具身模型。ACE-Brain-0主要對標GPT-4o、Gemini 2.5-Pro、Qwen2.5-VL-7B-Inst、RoboBrain2.0-7B、MiMo-Embodied-7B等16個知名模型，將19個Benchmark具身模型最強基線準確率相對提升5%-97.8%。在衡量三維認知的MindCube中，以82.1%的成績，較最好的開源模型（InternVL3-8B）提升了97.8%。

目前，上述模型已應用于大曉機器人具身超級大腦模組A1，使搭載具身超級大腦A1的機器狗具備行業首創的端到端自主導航能力，并且基于VLA架構實現云端智能交互，讓機器狗具備理解抽象指令、感知復雜環境、完成復雜任務的端到端閉環能力。

在城市人行道等復雜公共場景中，搭載 ACE-Brain 的機器狗展現出卓越的導航與VLA能力。以圖片場景為例，面對“估算行人和摩托車間距、判斷是否有足夠空間導航通過”的需求，ACE-Brain賦能機器狗精準完成三大核心動作：

依托空間認知能力，可精準量化行人和摩托車間距約0.5米，為導航決策提供可靠依據；通過視覺語言理解，清晰解析自然語言指令，實現“看—懂—判”的連貫交互，無需額外定制化指令；在導航決策中，既能判斷空間足夠通過，又主動提出“謹慎前行”的安全建議，兼顧效率與公共安全，適配復雜公共場景的移動需求。

搭載ACE-Brain 的機器狗，可精準識別前方車輛等障礙物，通過空間智能感知道路環境與目標位置，預判通行風險，主動判斷 “應停下并安全繞行”，實現空間識別與目標預測的高效協同，保障復雜路況下的移動安全。

這種能力讓機器狗在擁擠人行道、復雜路況等場景中，運用強大的空間智能技術底座，通過3D 場景建模、幾何關系推理、空間定位等核心能力，既能精準感知環境，又能通過自然語言交互理解任務，實現安全、高效的自主導航，為公共巡檢、應急響應等場景提供可靠支撐。

空間智能成為跨本體的“通用語言”

為了實現多任務，傳統的辦法是把所有任務數據混在一起，然后訓練模型，盼望模型能夠自己悟出來；但是ACE-Brain的思路則更像教育學：先讓它建立“空間感”，學會理解世界中的前后左右、遠近高低、視角變化和位置等空間幾何關系，然后再去學習不同任務中的具體技能。簡單來說，就是先學會“怎么看懂世界”，再學會“怎么完成相關的任務動作”。

大曉機器人團隊突破性發現，無論是自動駕駛車輛、低空無人機還是機器人，盡管形態差異巨大，但它們都依賴三大核心空間能力：三維空間結構建模、幾何關系推理、場景演化預測。

基于上述共性，大曉機器人首次提出以空間智能作為跨具身形態的 “通用語言”，成為連接不同物理域的統一認知支架，為通用具身智能找到統一底座。

ACE-Brain-0架構

為打造統一的空間智能認知支架，ACE-Brain-0以空間信息為多模態自回歸架構，實現了從單視角圖像到多視角視頻序列的認知統一處理。

在輸入層，兼容單圖、多圖、視頻等多模態視覺數據，搭配自然語言指令作為任務條件，覆蓋所有具身場景的輸入需求；

在表征層，通過通用視覺編碼器提取領域無關的空間特征，經 MLP 投影器映射為語言模型可理解的視覺令牌，并按 “通用、空間、駕駛、航空、具身” 分類組織，確保空間信息的結構化表達；

在推理層，由統一的LLM解碼器實現跨模態融合推理，將空間認知轉化為可遷移的統一表示，使不同具身場景的知識能基于空間邏輯自由流動。

這一設計的核心優勢在于，無需為特定場景定制專用模塊，僅通過空間智能的“通用表征”，就實現了跨域知識的自然遷移，徹底改變了“一個場景一套模型”的傳統具身研發模式。

打造全新范式，解決跨本體訓練困境

傳統跨域訓練面臨兩大困境，一是聯合訓練易引發梯度干擾，導致各領域能力 “稀釋”；二是序貫訓練則會出現災難性遺忘，學了新技能丟了舊能力。大曉機器人首創Scaffold-Specialize-Reconcile（SSR）三階段訓練范式，通過“先建共識、再練專長、后融知識”的路徑，完美解決了這一矛盾。

首先，Scaffold（框架構建）筑牢通用空間基礎。ACE-Brain-0利用大規模空間智能數據集訓練空間專家模型，建立域無關的三維認知先驗。這一步就像為所有具身能力打造“通用地基”，讓后續領域訓練都能基于統一的空間認知框架展開，避免了各領域“從零開始學空間”的重復勞動。

第二步，Specialize（域專精學習）實現隔離優化和強化專長。在空間框架上，ACE-Brain-0分別獨立訓練自動駕駛專家、機器人專家等領域模型。每個領域專家模型僅在自身專屬數據集上微調，避免不同本體數據帶來的梯度沖突，確保每個領域都能獲得充分的專業化能力。

最后一步，Reconcile（跨域知識調和）實現數據無關的參數級融合。ACE-Brain-0通過任務向量空間對齊技術，在無需原始訓練數據的條件下，將各領域專家的參數進行整合，從而同時很大程度減緩聯合訓練中的優化干擾和順序訓練導致的災難性遺忘。

四大能力首次統一，打造“一腦多形”樣本

ACE-Brain-0首次在單一模型框架中實現四大核心具身能力的統一：空間認知、自動駕駛、低空感知、機器人交互。這一突破并非簡單的能力 “拼接”，而是基于空間智能的深度融合，其技術關鍵在于“共享認知結構”的構建。

通過空間中心化建模，ACE-Brain-0讓不同具身場景的認知邏輯實現統一。自動駕駛中的“車距判斷”與機器人交互中的“抓取距離估算”，共享同一套空間距離推理機制；交通場景的“多視圖融合”與機器人的“多視角物體識別”，則依托相同的跨視角空間對齊技術。

這種 “共享認知結構” 使得模型能在不同觀察視角、運動尺度與任務語義之間自由切換，實現跨域理解與推理能力的自然遷移。

刷新19個榜單具身模型SOTA

ACE-Brain-0在涵蓋空間認知、自動駕駛、低空感知、具身交互的 24 個核心 benchmark 中，對標GPT-4o、Gemini 2.5-Pro、Qwen2.5-VL-7B-Inst、RoboBrain2.0-7B、MiMo-Embodied-7B等16個知名模型，取得了19 個當前具身模型中的 SOTA（排名第一）成績，同時將19個Benchmark具身模型最強基線準確率相對提升5%-97.8%，全面超越市場主流具身模型（如天工、北京智源、小米等）。

空間認知領域：ACE-Brain-0參與了7項空間認知領域的權威基準評測，在具身智能模型陣營中斬獲5項 SOTA， VSI（視覺空間智能）、MMSI（多模態空間智能）、SITE（空間語言理解）、SAT（空間視角變換）、Mindcube（受限視角三維建模）代表了不同維度的核心空間能力。

其中VSI（視覺空間智能）綜合評估模型對空間布局、物體關系和尺度的理解與推理能力，ACE-Brain-0以63.3%的成績領跑具身模型，驗證了其空間認知的通用性；SAT（空間視角變換）考察從不同視角重構空間布局的能力，ACE-Brain-0以92.0% 的成績，相較當前最好具身模型提升了16.9%，證明其在視角變換下的空間建模能力。

Mindcube（受限視角三維建模）評估有限視角下構建三維心理空間的能力，ACE 82.1%的表現碾壓其他具身模型，較閉源模型 Gemini-2.5-Pro相對提升了42.5%，較最好的開源模型（InternVL3-8B）相對提升了97.8%，突破了遮擋和視角限制。

*代表基于上述模型復現/下劃線代表次優表現/黑體代表最優表現

自動駕駛領域：ACE-Brain-0在5個自動駕駛 benchmark 上均取得領先表現，分別是MME-RealWorld（真實駕駛場景理解）、MAPLM（地圖與道路結構理解）、DriveAction（駕駛行為理解）、NuscenesQA（多視圖動態場景理解）、NuPlanQA（規劃與交通規則理解），尤其在真實駕駛場景理解（MME-RealWorld）和規劃推理能力（NuPlanQA）等關鍵能力上實現顯著提升。

其中MME-RealWorld（真實駕駛場景理解）主要評估模型在真實交通環境中的多模態駕駛場景理解能力。ACE-Brain-0以71.2%的成績，相比當前最強具身大腦模型相對提升18%。

NuPlanQA（規劃與交通規則理解）重點考察模型在自動駕駛規劃任務中的交通信號理解與車輛狀態推理能力。ACE-Brain-0取得91.7%的成績，決策正確率超越所有具身模型基線，較Pelican-VL-7B模型相對提升近10%。

*代表基于上述模型復現/下劃線代表次優表現/黑體代表最優表現

低空感知領域：ACE-Brain-0在5個低空視覺benchmark上均取得顯著領先表現，包括UrbanVideo-Bench（城市級無人機場景理解）、AirCopBench（空中交通關系理解和多無人機視角協同理解）、AVI-Math（空中幾何推理與數值計算）、Airspatial-VQA（低空空間視覺問答）、HIRVQA（遙感視覺問答），尤其在城市級無人機場景理解（UrbanVideo-Bench）和空中交通關系推理（AirCopBench）等關鍵能力上實現大幅提升。

其中UrbanVideo-Bench（城市級無人機場景理解）主要評估模型在城市級無人機視頻中的大尺度場景理解與地標識別能力。ACE-Brain-0以56.9%的成績，相比當前最強具身大腦模型相對提升51.7%。

AirCopBench（空中交通關系理解和多無人機視角協同理解）主要考察模型在復雜城市道路拓撲下的空中交通監控與車輛關系推理能力。ACE-Brain-0以70.3%領跑具身模型，相比當前最強具身大腦模型相對提升35.4%。

AVI-Math（空中幾何推理與數值計算）主要評估模型在無人機視角下進行幾何計算與結構化數值推理能力。ACE-Brain-0相比當前最強具身大腦模型提升1.3個百分點，達35.0%。

*代表基于上述模型復現/下劃線代表次優表現/黑體代表最優表現

具身交互領域：ACE-Brain-0在4個具身benchmark上均表現出穩定優勢，包括RoboVQA（機器人操作理解）、EmbSpatial（具身空間理解）、EgoPlan-Bench2（具身任務規劃）、EB-Habitat（具身導航理解），尤其在機器人操作理解（RoboVQA）等關鍵能力上實現顯著突破。

RoboVQA（機器人操作理解）主要評估模型對機器人操作行為與物體交互過程的理解能力。ACE-Brain-0以64.6%的成績遠超同類模型。

EmbSpatial（具身空間理解）主要評估模型在具身環境中的空間關系理解與環境結構認知能力。ACE-Brain-0成績達77.3%，相比當前最強具身大腦模型提升1個百分點。

EgoPlan-Bench2（具身任務規劃）主要考察模型在第一視角復雜任務中的長時序任務規劃能力。ACE-Brain-0成績達55.3%，相比當前最強具身大腦模型提升1.9個百分點。

EB-Habitat（具身導航理解）主要考察模型在仿真具身環境中的導航決策與完成完整任務的綜合能力。ACE-Brain-0成績達42.3%，相比當前最強具身大腦模型提升2.3個百分點。

*代表基于上述模型復現/下劃線代表次優表現/黑體代表最優表現

共享空間智能成為具身智能新世界觀

一個模型，一套參數同時在這些任務上的卓越表現非常有意義。它說明“空間優先”不是一句漂亮口號，而是會真實改變跨形態學習效果的設計原則。尤其是具身交互那條曲線更耐人尋味：為什么直接學會失敗，而先學空間再學會成功？直觀上看，因為當智能體面對真實世界時，動作策略往往依賴于對環境結構的正確理解。如果連空間關系都沒有穩定學會，那么所謂“具身能力”就很容易變成表面模仿；反過來，如果先掌握了共享的空間骨架，再去學具體動作，就像先學會看地圖再學開車，很多問題會突然迎刃而解。

更重要的是，報告并沒有滿足于“實驗上可行”，還試圖回答：為什么空間真的適合做共同底座？在附錄理論部分，報告把這個想法形式化為一個“可恢復的空間scaffold”：模型的內部表示中，應該存在一個形態無關的共享幾何變量，它承載三維布局、相對位姿、深度和拓撲等信息。如果訓練后這個共享變量能夠被穩定“解碼”出來，那么它就不再只是一個模糊特征，而會變成跨不同身體都能復用的空間核心。理論中進一步指出，后續不同系統需要學習的，更多會是各自身體特有的感知、動力學和控制部分，而不是反復從零學習幾何世界。

這套理論把一個深奧問題講清楚了：為什么是“空間”，而不是別的？因為空間不是一個普通任務，它更像是所有物理智能共同依賴的坐標系。無論是汽車在車道中判斷前后左右，無人機從鳥瞰視角推理道路關系，還是機器人在房間里判斷物體位置，它們都必須先擁有一種內部“空間地圖”。ACE-Brain-0就是把這種“內部地圖”從隱含假設提升成了方法設計的起點。

這一技術路徑的領先性，不僅在于解決了當前具身 AI 的核心痛點，更在于為未來通用物理世界智能的研發提供了可復用的底層框架。ACE-Brain 真正讓人興奮的地方，不是某一個分數超過了誰，而是它重新定義了“通用具身智能”應該從哪里開始。過去我們常常把“通用”理解為一個模型會做很多任務；而 ACE-Brain 讓人看到另一種可能：真正的“通用”，或許不是任務列表越來越長，而是先找到這些任務背后的共享結構。空間，就是它給出的答案。ACE-Brain提出了一種新的具身智能世界觀：不同身體不一定要從頭學起，它們可以先共享一個關于世界的空間理解，再在這個基礎上長出各自的能力。未來的具身智能體，無需再為單一形態定制模型，只需基于 ACE-Brain的空間智能底座，就能快速適配新的物理本體與應用場景。從自動駕駛到低空經濟，從工業機器人到家庭服務設備，展現出面向真實物理世界多場景的平臺潛力。

該技術成果已上傳：https://arxiv.org/abs/2603.03198

Project Page: https://ace-brain-team.github.io/ACE-Brain-0

Code: https://github.com/ACE-BRAIN-Team/ACE-Brain-0

Hugging Face: https://huggingface.co/ACE-Brain/ACE-Brain-0-8B

附注：

大曉機器人于2025年12月28日正式重磅推出具身超級大腦模組A1。憑借首創以端到端為核心的自主空間智能，依托模型的視覺理解和運動規劃能力，搭載具身超級模組A1的機器人能實現動態環境下魯棒、安全、合理的路徑生成，真正實現“自主行動”。

大曉機器人團隊基于純視覺感知與端到端的深厚技術積累，創新性地將高精度視覺感知能力遷移至具身智能場景，打造出行業領先的純視覺無圖端到端VLA模型，為具身智能超級大腦模組 A1 賦予了“看環境、想路徑、避障礙，換環境照樣行”的核心能力。

具身超級大腦模組A1具備擁有云端交互能力，依托云端模型平臺，能實時解析自然語言指令與圖像語義的意圖關系，像人一樣理解復雜的現實世界，生成可執行的中間指令（如“前進50厘米”“繞過障礙”“靠近目標”），再由底層控制器精確執行。這使得機器狗不僅能夠在復雜環境中完成自主巡檢、跟隨、避障等多樣任務，而且能根據自然語言指令精準完成任務。

基于以上優勢，具身超級大腦模組A1在安防、能源、交通、文旅等對設備可靠性要求極高的場景中，可實現長期穩定工作，讓具身智能真正具備了走進產業一線的實用價值。

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.