網易首頁 > 網易號 > 正文申請入駐

更全面具身智能真機評測!CVPR 2026 ManipArena挑戰賽邀你打榜

2026-03-18 16:04:03　來源: 機器之心Pro

北京舉報

分享至

編輯｜Panda

過去一年，具身智能領域迎來了爆發式增長。從后空翻到托馬斯回旋，從整理衣物到沖泡咖啡……各類令人驚艷的機器人演示視頻層出不窮。

然而，在這些技術繁榮的背后，行業正面臨一個愈發核心的拷問：我們到底應該如何判斷一個具身智能模型是真的取得了泛化能力的進步，還是僅僅針對特定任務與場景進行了精心優化？

在真實的物理世界中，評測一項操作任務的復雜性遠超 LLM 等純軟件領域。當前的許多測試往往依賴于預設環境中的 sweet spot 或是無數次的重試。具身智能產業正加速從技術研發向規?；涞厝孳S遷，而統一、高標準的真機評測體系長期缺位，已成為行業發展的核心痛點。

這一缺位不僅無法為產業樹立清晰的發展基準，更直接制約了模型的迭代效率。長此以往，研發資源極易過度流向容易出視覺效果的表演項目，使得整個具身智能行業面臨「劣幣驅逐良幣」的商業風險。

在具身智能走向規?；涞氐年P鍵節點，建立科學的可量化、可復現、高信度的真機評測標尺已成為亟待解決的行業共識。

為了破解這一困局，中山大學攜手自變量機器人、MBZUAI 等機構，在 CVPR 2026 的 Embodied AI Workshop 上正式推出了官方競賽：ManipArena

官網地址：https://maniparena.x2robot.com/
技術報告：ManipArena: Comprehensive Real-world Evaluation of Reasoning-Oriented Generalist Robot Manipulation
報告地址：https://maniparena.x2robot.com/maniparena.pdf
數據集：https://huggingface.co/datasets/ManipArena/maniparena-dataset

不同于傳統仿真評測或簡單桌面抓取測試，ManipArena 提供了20 個真機任務（包括 5 個初賽任務和 15 個決賽任務，涉及執行推理、語義推理、移動操作三種任務類型）、10812 條高質量遙操作軌跡，并通過獨特的綠幕可控環境和分層 OOD 評估設計，構建了一個可以精確診斷模型泛化能力的科學化評測框架。

ManipArena 的三種任務類型

作為目前規模最大的真機操作評測平臺之一，ManipArena 旨在通過極其嚴謹的實驗設計與科學化框架，精確診斷視覺-語言-動作模型（VLA）或世界模型（WAM）在真實世界中的通用推理與泛化能力，力求為行業樹立一個規范且公平的評測新標桿。

事實上，基于該平臺的首批基準測試已經給出了極具價值的行業洞察。ManipArena 團隊對代表 VLA 的 π?.? 與代表世界模型的 DreamZero 進行了大規模真機對比測試。

初步的評測數據清晰地勾勒出兩類模型互補的能力邊界：多任務 VLA模型具備更強的精細操作能力，但泛化表現脆弱，面對分布外物體易出現災難性退化；世界模型則展現出顯著的泛化魯棒性，但僅限于粗粒度操作，在精細任務上力不從心。兩種范式各有所長，未來的通用具身操作系統或需深度融合二者的優勢。

深度解析 ManipArena

精準診斷泛化瓶頸的科學框架

針對行業痛點，ManipArena 提出了三個核心的評測創新。這套體系旨在給模型做「全面的體檢」，讓真實的性能差異浮出水面。

分層 OOD 評估，精準診斷泛化瓶頸

以往的評測往往只給出一個最終的總分，很難反映模型的真實能力邊界。而ManipArena 會為每個任務進行 10 次測試，且每個任務的 10 次測試按難度進行了分層設計

其中，T1 至 T4 測試域內能力，例如讓機器人操作訓練集中見過的不同位置的不銹鋼勺。T5 至 T8 引入視覺偏移，要求模型處理形狀不同但仍在訓練分布內的物品，例如兒童勺。最困難的 T9 至 T10 則是語義 OOD 測試，平臺會引入訓練中從未見過的全新材質或類別，例如黑色的塑料勺。

「將勺子放入碗里」任務的勺子泛化示例

這種階梯狀的設計，使得單次評估就能為模型繪制出完整的泛化衰減曲線。

初步評測結果：揭示當前 VLA 模型的泛化邊界

技術報告披露了部分基線模型的初步評測數據。結果顯示，當前的主流視覺語言動作模型在面對多變量疊加的分布外測試時，依然存在嚴重的泛化軟肋。

在單一因素發生改變時，模型尚能保持一定的任務完成度。例如在耳機分類任務中，僅改變耳機類型時，模型平均能獲得 2.0 分。一旦面對復合型分布外測試，即同時改變耳機的類型和顏色，模型的表現會立刻出現災難性崩潰，平均得分直接降為 0 分。而在勺子放置任務中，當材質和顏色同時發生改變時，模型的得分呈現出極端的兩極分化，要么拿滿分，要么直接得 0 分。

此外，評測數據還揭示了一個重要現象：對于當前的模型而言，物體形狀的相似度比語義類別的歸屬更加重要。在眼鏡放置任務中，雖然測試物品在語義上都屬于「眼鏡」，但模型對不同物品的表現差異巨大。與訓練集形狀相同但尺寸更小的兒童眼鏡獲得了 10.0 分的滿分。形狀相似但風格不同的墨鏡獲得了 8.5 分。形狀完全不同的護目鏡得分則急劇下降至 5.0 分，并且方差極大。

這些真實的評測數據表明：當前的具身智能模型往往表現出一種脆弱的泛化能力。它們很難做到優雅地降級，往往只會在完美成功與徹底失敗之間橫跳。這進一步印證了 ManipArena 設立多層級、多變量評估體系的工程價值，即幫助研發人員看清模型學到的究竟是深層的語義概念，還僅僅是針對特定形狀的抓取策略。

綠幕可控環境與系統化多樣性，回歸科學嚴謹性

在真實的開放環境中，光線的細微偏移都會導致模型動作失敗。為了排除此類環境干擾，ManipArena 將所有的評估都放置在帶有固定光源的綠幕封閉工作站中進行。

這種設計可從物理源頭上徹底排除陰影移動、高光反射以及白平衡變化等視覺干擾，進而能保證模型性能差異純粹反映策略能力的強弱，滿足了科學實驗嚴謹性的基本要求。同時，在綠幕環境下，還可以進行更多可控的分層泛化的實驗，比如像影視制作一樣直接給機器人換個操作場景。

在這個純凈的視覺環境中，平臺進一步注入了三個層級的系統化多樣性參數：

三個層級的訓練多樣性

物理屬性層：涵蓋物品材質、顏色與尺寸的變化。
空間布局層：系統性地改變物體的位置與朝向組合。
針對語義推理任務的組合層：改變物品的序列和類別分配。

所有維度的分布都保持均勻，防止模型依靠頻率偏差走捷徑。

開放 56 維底層感知信號，補齊力覺控制拼圖

在數據維度上，ManipArena 提供了每幀高達56維的本體感覺數據。除了常規的關節位置、末端位姿以及夾爪狀態，數據集特別收錄了電機電流數據和關節速度數據。

完整的 56 維本體感受規范。所有模式的采樣頻率均為 20 Hz

這 56 維信號遠超常規的機器人學習數據集，它不僅涵蓋了雙臂各自 7 DOF 的關節位置、末端位姿、夾爪狀態以及 3 路同步視頻流，更重點保留了電機電流數據和關節速度數據。

要知道，電機電流可以作為底層力矩的代理信號，而關節速度則能捕捉動態運動軌跡，補充靜態位置信息。對于倒水感知液體重量、插線感知物理接觸阻力等任務來說，這些信息極其關鍵。

目前主流的視覺語言動作模型均未充分利用這些信號。這些底層感知信號的加入，直接鼓勵了力敏感（force-sensitive）策略的研究，可助力智能體更好地學會掌握抓取物品的力道。

任務設置：極高含金量與全場景覆蓋

在 ManipArena 的任務庫中，沒有任何毫無挑戰的簡單抓取測試。這 20 個真機任務（分為 15 個桌面任務和 5 個需要空間導航的移動操作任務）全部以推理為核心考量，區別僅僅在于推理的瓶頸發生在哪里。

桌面任務與移動操作任務的機器人平臺和評估環境

為了支撐起如此高難度的評測體系，團隊構建了龐大的高質量數據集，共計包含 10812 條遙操作軌跡，總時長約 188 小時，累計幀數超過 1350 萬幀。這批數據由 5 臺真機平臺并行采集完成，以扎實的規模確保了評測的有效性。

不同任務類別的任務統計數據

全方位推理：跨越感知與執行的鴻溝

賽事將桌面任務細分為兩個維度。

其中 10 個任務側重于執行推理。它們要求機器人在明確目標后，去解決具體的動作執行難題，例如完成亞厘米級的精準插入、感知液體動力學進行力控倒水，以及進行雙臂協作遞交插線等。

一個將水壺的水倒入杯子任務，這里可以同時看到三個視角的畫面，右側還提供了任務描述以及場景細節

另外 5 個桌面任務則聚焦語義推理。機器人需要先理解復雜的語義關系才能采取行動，比如從雜物堆中識別出特定類型的耳機并進行分類，在多個食物中找到水果，或者讀取打印好的顏色序列并按照對應順序按下按鈕。這種設定有效地檢驗了模型對物體類別與屬性的真實理解程度，篩選出真正具備認知能力的智能體。

一個將水果放入籃子任務

走向空間導航：移動操作任務的深度拓展

為了覆蓋更完整的操作場景，ManipArena 在同類賽事中引入了 5 個移動操作任務，包括收納衣物、掛畫以及整理鞋子等。這些任務將評測范圍從有限的桌面延展到了 3×3 米的真實物理空間。

移動任務要求機器人具備出色的導航與操作協同能力。根據統計，移動任務的平均執行時長達到 144 秒左右（20 fps 幀率下平均 2878 幀），大約是桌面任務時長的 4.3 倍。

以最具挑戰性的衣物收納任務為例，機器人需要完成 3 次往返，經歷 14 個連續的子步驟，平均耗時高達 194 秒。這種長序列的設定，對當前視覺語言動作模型在固定上下文窗口下的時序建模能力提出了極大的考驗。

一個衣物收納任務

「單一模型」規則：杜絕過度擬合的捷徑

尤為嚴苛的是，賽事官方制定了「一個模型應對所有任務」的核心規則：參賽隊伍必須提交一個統一的推理端點來應對決賽階段的所有 20 個挑戰，不被允許針對單一任務去訓練專門的專家模型

這意味著同一套策略體系必須同時精通倒水、插線、分揀耳機以及按按鈕等截然不同的操作。這一規則強行封死了針對特定任務過度擬合的捷徑，迫使參賽者將研發重心回歸到打造真正具備通用推理與泛化能力的基礎模型上。

這場具身操作的大考

等你接招！

對于廣大研究者而言，參與真機評測的最大阻礙往往是極其高昂的硬件成本。ManipArena 創新性地采用了Server-Side 遠程真機評測架構：參賽隊伍完全不需要購買或者調試任何真實的機器人硬件，僅僅需要擁有一臺 GPU 服務器并暴露一個 HTTP 推理端點即可。

這種架構為學術界和工業界提供了一個極低成本的「真機實驗室」。賽事的官方基礎設施會接管所有的硬件控制與數據采集工作。這確保了所有模型都能在完全相同的物理條件下進行公平比較。

值得一提的是，ManipArena 的所有 20 個任務均統一采用自變量機器人（X Square Robot）的雙臂系統進行評測。這套專為 AI 而生的硬件結構設計能夠更好地完成模型復現，從根本上消除了不同硬件平臺帶來的物理差異。這意味著在這里，最終的性能差異將純粹反映參賽團隊策略能力的強弱，真正實現了「評測從未如此簡單」的愿景。

同時，參賽者的模型權重和核心代碼始終保留在本地服務器上，實現了嚴格的知識產權保護

官方也非常鼓勵參賽者將 ManipArena 作為一個研究平臺，基于真實的評測結果去驗證新算法并發表學術論文。

為了進一步激勵整個技術社區的參與， ManipArena 官方還為賽事設置了實質性獎勵。

在初賽階段，第 1 名至第 3 名的隊伍將獲得 500 美元，第 4 名至第 9 名將獲得 300 美元，第 10 名至第 20 名將獲得 200 美元。而在最終的決賽階段，冠軍隊伍將斬獲 5000 美元以及 2 臺 6 軸機械臂，亞軍和季軍也將分別獲得 3000 美元 + 2 臺 6 軸機械臂，以及 2000 美元 + 2 臺 6 軸機械臂的獎勵。

在評分機制上，ManipArena 摒棄了傳統的二元成功率標準，引入了子任務部分得分制。具體而言，每個任務包含 10 次測試（trial），每次滿分為 10 分。系統會根據子任務的完成度給出對應分數。目前開放評測的 15 個桌面任務總分為 1500 分，最終排名將嚴格按照總分高低進行排序。

每個任務的子任務統計數據

例如在倒水任務中，如果模型成功抓取并舉起了水壺，即使最后倒水失敗，依然可以獲得相應的過程分數。這種精細化的評分體系提供了更豐富的診斷信號。它能夠準確揭示模型到底在任務流水線的哪一個具體環節出現了失誤，從而為研發人員提供極具指導意義的工程反饋。

倒水任務的描述以及詳細操作和評分

那么，當前的具身大模型的表現如何呢？ManipArena 目前已經測試了π?.?-Single（為每個任務獨立微調）、π?.?-OneModel（統一處理全部 15 個任務）和DreamZero三個模型（通過自回歸視頻擴散先「想象」未來畫面再從中提取動作），涵蓋視覺-語言-動作模型（VLA）和世界動作模型（WAM）這兩條當前具身領域備受矚目的技術路線，得到了一組基準成績。

從總分來看，在滿分 1500 分的挑戰中，π?.?-OneModel 以 640.5 分領跑，π?.?-Single 緊隨其后獲得 626.3 分，DreamZero 則為 500.3 分。觀察成功率（SR）可以發現，大量任務的成功率為 0%。這充分說明了該評測體系具有極高的挑戰性。詳見下表：

同時，這些結果也揭示了這兩種技術路線截然不同的能力邊界：

VLA 具備跨任務遷移潛力，但存在程序性遺忘。π?.?-OneModel 的成績證明了多任務聯合訓練的有效性，其在語義推理上實現了顯著的跨任務遷移。但代價是模型在需要讀取場景指示并執行特定程序的任務中，出現了明顯的程序性知識遺忘，暴露出多任務訓練的本質取舍。
世界模型在空間泛化上極具優勢，但精細操作存在軟肋。DreamZero 在純粹的抓取放置任務（pick_items_basket 任務上拿下了 97.8 的高分與 90% 的成功率）以及分布外泛化上表現出極強的魯棒性（在 pick_items_into_basket 任務中，籃子位置從右側逐步移到左側。π?.?-OneModel 的成績從 4.05 分暴跌到 2.25 分（-44%），π?.?-Single 更是從 4.25 跌到 1.83（-57%）。而 DreamZero 從 10.0 分到 9.25 分，僅下降 8%。），抗干擾能力遠超 VLA。但面對需要毫米級精度或雙臂協同的精細操作時，它往往只能完成粗粒度的初始步驟。這反映出世界模型在粗粒度視頻預測與精細動作控制之間存在天然的精度瓶頸，單步推理耗時極長（比 VLA 慢 50 至 70 倍）。

基于子任務評分體系提煉出的 5 維能力邊界圖譜進一步印證了這一點。

VLA 擅長精度控制和語義理解，世界模型在空間泛化和粗粒度規劃上更勝一籌。這清楚地揭示出，未來的通用操作模型需要深度融合 VLA 和 WAM 這兩種范式的優勢。完整的測試數據與評測視頻均可在官方網站獲取，這為行業探索能力邊界提供了極具價值的實證基礎。

從更宏觀的行業視角來看，ManipArena 的出現恰逢其時。它不僅僅是一場單純的比賽，更是一個高標準的開放研發平臺。其構建的分層 OOD 評估體系、多元化場景設計以及子任務部分得分機制，具備天然的學術實驗適配性，完全可以作為廣大研究者日常研發成果的 benchmark。

官方全力歡迎并支持參賽者依托 ManipArena 的權威評測成果發表高水平學術論文。未來，當各個頂尖團隊想要展示最前沿的模型能力以及想測試對不同模型的改進時，完全可以在 ManipArena 這個公開的平臺上同臺競技。

通過科研創新與產業驗證的雙向賦能，ManipArena 將為視覺語言動作模型和世界模型的持續迭代提供堅實的基礎，加速整個具身智能產業向真實世界的大規模部署邁進。

報名方式

參賽者可通過官方平臺注冊并獲取訓練數據，訓練統一模型后提交評測接口參與比賽。

更多信息請訪問：https://maniparena.x2robot.com/
聯系方式：maniparena@gmail.com

文中視頻鏈接：https://mp.weixin.qq.com/s/greKLeayuGqSYmVFdOBSFA

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.