337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

RoboChallenge發(fā)布年度報告:評測標尺夠權(quán)威嗎?

0
分享至


具身模型在榜單里卷起來了。

作者丨劉欣

編輯丨馬曉寧 高景輝

當下的具身智能行業(yè)可謂陷入了“Demo”的怪圈,大家驚呼于視頻內(nèi)機器人的流暢操作,但視頻中的機器人卻又在現(xiàn)實世界中頻繁失誤。

這種虛假繁榮的背后,其實是行業(yè)長期缺乏真實場景驗證、評測標準模糊等問題。機器人從實驗室走到現(xiàn)實世界,始終被仿真到現(xiàn)實世界等難題所制約。

模擬器的評估無法完美復現(xiàn)真實世界中的物理擾動、環(huán)境變異等關(guān)鍵因素,在此背景下,2025年10月原力靈機Dexmal與Hugging Face聯(lián)合推出了全球首個具身智能大規(guī)模評測平臺——RoboChallenge。

緊隨其后,原力靈機又與Hugging Face聯(lián)合智源研究院、智元機器人、Qwen、星海圖、自變量、清華大學、西安交通大學及GOSIM等機構(gòu),于2025年11月20日正式成立RoboChallenge組委會。

2026年1月11日,RoboChallenge榜單更新,前三名依次為Spirit v1.5、pi0.5、WALL-OSS。其中,Spirit v1.5是出自中國千尋智能自研的模型,而WALL-OSS則是自變量機器人的全自研開源操作大模型。

這個榜單釋放出了一個重磅信號:中國自主研發(fā)的具身智能模型,已具備與國外頂級模型同臺對打的實力,甚至還打贏了。

不過,作為推出還沒多久的新興評測平臺,尚處發(fā)展完善階段,網(wǎng)絡(luò)上的態(tài)度也充滿爭議,所以AI科技評論打算從技術(shù)和核心設(shè)計的角度,對RoboChallenge進行深度拆解與解讀。

01
RoboChallenge系統(tǒng)核心設(shè)計

在具身智能領(lǐng)域,真機評測的標準化與公平性?期以來一直是制約技術(shù)橫向?qū)Ρ鹊年P(guān)鍵瓶頸。而缺乏統(tǒng)一的評測標尺,更讓不同團隊的技術(shù)成果難以形成有效對比,嚴重影響了行業(yè)迭代效率。

但提供機器人在線服務并非表面看上去那么簡單,首要問題是如何向提交算法的用戶開放機器人訪問權(quán)限。

原力靈機最開始考慮了三種主要的模式,分別是模型級提交、系統(tǒng)級提交、模型API調(diào)用,但這三種模式最后都沒有采用,原因在于:

? 計算兼容性:提交模型并使其在其他環(huán)境中正確運行極為復雜。軟件棧和硬件配置難以匹配,除非提供完全訪問權(quán)限,否則幾乎無法調(diào)試。

? 靈活性:原力靈機不希望將用戶限制在以往系統(tǒng)中默認的 “觀測 - 動作” 映射所隱含的 “暫停 - 推理” 控制模式中。

? 可訪問性:并非所有人都擁有公網(wǎng)IP,尤其是在網(wǎng)絡(luò)地址轉(zhuǎn)換(NAT)主導的現(xiàn)代互聯(lián)網(wǎng)環(huán)境中。

于是,原力靈機采用 “遠程機器人” 交互范式,摒棄傳統(tǒng)模型提交、Docker鏡像部署等方案,讓用戶無需上傳模型文件或推理代碼,通過標準化低層級API即可實現(xiàn)全異步交互。

不同于仿真測試,RoboChallenge擁有UR5、Franka、ARX5、ALOHA等主流機型在內(nèi)的20臺真機測試集群,對這些機器人的選擇上,還有幾條準則:耐用性、普及性、安全性以及性能良好。

所有機器人均搭載Intel RealSense深度相機,包含俯視工作區(qū)域的主相機、機械臂末端的腕部相機及單臂設(shè)備專用的側(cè)面相機,為VLA模型提供多視角觀測數(shù)據(jù)。

前期的準備完善后,RoboChallenge又發(fā)現(xiàn)測試中的各種因素會導致最后的結(jié)果巨大,難以成為客觀、公正的測評體系。因此,需要一套規(guī)范的方法來控制測試中的各種因素。

首先,對于測試人員導致的差異,RoboChallenge對有經(jīng)驗、無經(jīng)驗、適應性的測試人員進行了測試,發(fā)現(xiàn)了一種 “最佳區(qū)域效應”(Sweet-spot Effect),如下圖所示,存在特定的物體位置組合,在這些位置上任務更有可能成功。根據(jù)這些經(jīng)驗,RoboChallenge設(shè)計出了更完善的評估協(xié)議,特別是更穩(wěn)定的物體重置方法。


RoboChallenge還對環(huán)境中的各種因素進行了研究,比如光照條件,但進行的概念驗證實驗發(fā)現(xiàn),背景或環(huán)境的變化不會對測試結(jié)果產(chǎn)生太大影響。


02
Table30基準測試集

Table30基準測試集包含30項圍繞固定工作臺執(zhí)行的任務,涵蓋家庭、廚房、辦公、校園等多元場景,任務類型包括物體整理、機械操作、分類分揀、軟體處理等,全面覆蓋了VLA模型的核心技術(shù)挑戰(zhàn)。

這些任務衡量了通用機器人控制算法應具備的多種能力,乍看下來很簡單,但即使是最先進的基礎(chǔ)模型也無法達到較高的總體成功率。



任務的選擇也不是毫無根據(jù)的,主要遵循難度覆蓋全面、算法挑戰(zhàn)覆蓋全面、貼近現(xiàn)實生活以及簡潔性這四個原則。



RoboChallenge認為,基準測試集是衡量通用機器人技術(shù)方法的必要測試。并且,隨著評估數(shù)據(jù)的積累可以發(fā)現(xiàn)更多趨勢:

首先是,模型的單任務與多任務模型的能力差距顯著。

RoboChallenge的評測區(qū)分了單任務模型和多任務模型,單任務模型是對特定任務進行優(yōu)化,多任務模型能夠使適配不同類型的任務,泛化能力較好。

對比同一基座模型在單任務與多任務設(shè)定下的表現(xiàn),pi0.5的多任務模型成功率相較于單任務模型下滑了25%。這一數(shù)據(jù)變相印證了模型需要提高多任務泛化能力。


至于如何平衡“單項精準度”與“多任務適配性”,這或許將會成為通往通用具身智能的關(guān)鍵課題。

其次,任務難度梯隊清晰,部分任務成行業(yè)共性難題。

Table30的每一個任務都是賦予了機型、構(gòu)型、能力類型這三個維度,共15個標簽。


通過對頭部模型成功率的分布,可以將30個標準化任務分為三個不同能力梯隊。

第一梯隊是hello world級任務,這類人任務對于頭部模型而言沒有任何難度。第二梯隊是簡單的任務,對于頭部模型比較友好,難度較低。而第三梯隊則是特定模型的特長,此類任務呈現(xiàn)極端的兩級分化。

更值得關(guān)注的是,有部分任務呈現(xiàn)“零突破”的困境——所有參測模型成功率均為0%,典型案例包括“做素三明治”“給盆栽澆水”等任務:


復盤任務后發(fā)現(xiàn),“做素三明治”任務的核心難點在于時序性,做三明治需要按照嚴格的順序來做,模型往往在第一步就容易出現(xiàn)數(shù)量錯誤和失敗,所以容錯率極低,一步錯步步錯。

“給盆栽澆水”任務則暴露了模型的時序依賴缺失問題,長程任務要求模型維持對歷史狀態(tài)的記憶。一旦中間階段出現(xiàn)狀態(tài)丟失,模型就會陷入邏輯混亂,產(chǎn)生類似“幻覺”的隨機動作。


此外,整理書籍、疊抹布、排列紙杯等任務,也成為參測模型的高頻失敗場景。

除了Table30測試集中的30項任務,RoboChallenge指出,當前具身智能領(lǐng)域典型的“卡脖子”任務可以從靈巧性、泛化性、智能以及性能這四個維度梳理。靈巧性是指輸出不同的動作、駕馭不同的身體;泛化性是指即使測評對象不同也能成功;智能是面對沒做過的任務也能嘗試做成功;性能是指機器人的效率。

總的來說,這些失敗案例共同指向一個核心結(jié)論:當前VLA模型仍未突破“感知-理解-決策-執(zhí)行”的全閉環(huán)協(xié)同難題,距離真實場景的規(guī)?;瘧萌杂休^大差距。

可見,當下的VLA參測模型仍然存在一些本質(zhì)上難以解決的因素,現(xiàn)有模型還有巨大的提升空間。

03
落地效果良好

RoboChallenge的報告中指出,平臺用戶注冊數(shù)與評測提交量在過去三個月呈指數(shù)級增長。并且活躍用戶區(qū)域也不僅限于中國開發(fā)者,美國、新加坡等地的開發(fā)者正在逐漸涌入。


平臺累計執(zhí)行的真機測試總數(shù)甚至超過了4萬次,單日真機測試峰值達到834次,Table30測試集在Hugging Face平臺上的累計下載量已達17k次。

從上述前期的準備和后期的效果上來看,RoboChallenge的確精準衡量了VLA模型在真實場景中的綜合能力,為市場提供了一個較為客觀的評測標尺。

同時,也讓業(yè)內(nèi)人士發(fā)現(xiàn),VLA模型仍在攻克人類的本能級操作,參測模型雖具備較強的指令語義理解能力,但在精細操作任務中成功率不高。

而這些尚未解決的技術(shù)難題,也正是模型未來的核心發(fā)展方向。而當當前的技術(shù)難題被模型完美解決后,平臺未來將設(shè)計出更有區(qū)分度的Benchmark,持續(xù)引領(lǐng)模型技術(shù)迭代。

基于良好的發(fā)展基礎(chǔ),RoboChallenge進一步釋放開放協(xié)作的信號,明確表示希望能吸引更多研究機構(gòu)、科技企業(yè)、初創(chuàng)團隊及高校力量加入。

RoboChallenge的早期發(fā)起人之一范浩強在回憶建立RoboChallenge的心路歷程時,也迫切地表示想弄出下一個Benchmark,涵蓋更多更難的任務,更長程的、更廣泛的任務,而打造有價值的真實任務、向真實場景靠攏,也是RoboChallenge 2026年的核心發(fā)展方向。他還真誠地向全社會喊話,希望大家加入他們的社區(qū)一起討論、一起分享。

未來,隨著更多新鮮任務場景的注入、創(chuàng)新評估方法的融合及基準測試集的持續(xù)迭代,或許能揭示具身智能模型更多的特性和不足,推動具身智能模型向更通用、更實用的方向穩(wěn)步發(fā)展。

未經(jīng)「AI科技評論」授權(quán),嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標注來源并插入本公眾號名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
內(nèi)塔尼亞胡:推翻伊朗政權(quán)需“地面”戰(zhàn)爭;特朗普:不會把美軍部署到任何地方

內(nèi)塔尼亞胡:推翻伊朗政權(quán)需“地面”戰(zhàn)爭;特朗普:不會把美軍部署到任何地方

上觀新聞
2026-03-22 12:26:07
注意,特斯拉 Model Y 又要迎來改款!

注意,特斯拉 Model Y 又要迎來改款!

XCiOS俱樂部
2026-03-22 18:34:49
這輩子大概率孤獨終老!00后江西小伙直言,讓母親發(fā)帖稱滿心冰涼

這輩子大概率孤獨終老!00后江西小伙直言,讓母親發(fā)帖稱滿心冰涼

火山詩話
2026-03-22 10:17:08
22歲男孩拒絕出錢給后媽治病,親爸起訴兒子,法官一句話眾人愣住

22歲男孩拒絕出錢給后媽治病,親爸起訴兒子,法官一句話眾人愣住

奶茶麥子
2026-03-22 16:46:17
終于要補強大外援了?曝廣東簽下2米13防守大閘,朱芳雨放手一搏

終于要補強大外援了?曝廣東簽下2米13防守大閘,朱芳雨放手一搏

老葉評球
2026-03-22 18:05:04
吃完香椿炒雞蛋后,男子多器官衰竭!這起悲劇,給所有人敲響警鐘

吃完香椿炒雞蛋后,男子多器官衰竭!這起悲劇,給所有人敲響警鐘

DrX說
2026-03-20 14:00:07
CBA公司給迪亞洛開出罰單:停賽+罰款

CBA公司給迪亞洛開出罰單:停賽+罰款

體育哲人
2026-03-22 16:13:27
開戰(zhàn)以來首次,以色列承認被打痛了,內(nèi)塔尼亞胡度過最痛苦的一夜

開戰(zhàn)以來首次,以色列承認被打痛了,內(nèi)塔尼亞胡度過最痛苦的一夜

壹只灰鴿子
2026-03-22 11:44:23
丹麥男友去世后,東北姑娘仍為他生下遺腹子,還為了公婆定居丹麥

丹麥男友去世后,東北姑娘仍為他生下遺腹子,還為了公婆定居丹麥

星星沒有你亮
2026-03-22 08:48:35
傳德黑蘭遭大規(guī)模夜間打擊,約300名巴斯基指揮官被指身亡

傳德黑蘭遭大規(guī)模夜間打擊,約300名巴斯基指揮官被指身亡

桂系007
2026-03-17 22:14:18
抓緊加油!油價最新調(diào)整通知!

抓緊加油!油價最新調(diào)整通知!

阜陽發(fā)布
2026-03-22 09:56:22
徹底翻臉!沙特、土耳其等六國聯(lián)合圍剿以色列,美國也攔不??!

多多愛探索
2026-03-22 11:25:20

“‘梅姨’在廣州三元里落網(wǎng)”為不實信息!相關(guān)部門辟謠

“‘梅姨’在廣州三元里落網(wǎng)”為不實信息!相關(guān)部門辟謠

南方都市報
2026-03-22 10:42:23
重慶大學1死3傷后續(xù)!知情人透露死者是研究生,原因曝光不簡單

重慶大學1死3傷后續(xù)!知情人透露死者是研究生,原因曝光不簡單

朗威談星座
2026-03-22 07:23:26
含劇毒,無解藥,這種東西不能吃,加熱120也沒用,已有人中招!

含劇毒,無解藥,這種東西不能吃,加熱120也沒用,已有人中招!

離離言幾許
2026-03-19 11:55:12
家長注意了!這些全是“假牛奶”!別再整箱往家搬了!花錢還坑娃

家長注意了!這些全是“假牛奶”!別再整箱往家搬了!花錢還坑娃

觀察鑒娛
2026-03-21 12:39:12
為股市懸著的心,終于死了

為股市懸著的心,終于死了

金牛遠望號
2026-03-20 21:00:52
已經(jīng)抵達東莞?曝廣東宏遠大外援到位,NBA首輪秀,身高2米13

已經(jīng)抵達東莞?曝廣東宏遠大外援到位,NBA首輪秀,身高2米13

去山野間追風
2026-03-22 17:39:40
A股:下周穩(wěn)了?突發(fā)“王炸利好”,這幾個板塊將直接起飛?

A股:下周穩(wěn)了?突發(fā)“王炸利好”,這幾個板塊將直接起飛?

虎哥閑聊
2026-03-22 12:47:27
68年開除劉少奇黨籍,會議上舉手表決時,唯獨一名傳奇女性不表態(tài)

68年開除劉少奇黨籍,會議上舉手表決時,唯獨一名傳奇女性不表態(tài)

雍親王府
2026-03-17 11:30:05
2026-03-22 20:07:00
AI科技評論 incentive-icons
AI科技評論
點評學術(shù),服務AI
7136文章數(shù) 20742關(guān)注度
往期回顧 全部

科技要聞

嫌臺積電太慢 馬斯克要把芯片產(chǎn)能飆升50倍

頭條要聞

以色列防空神話被擊穿損失慘重核圈失守 伊朗表態(tài)

頭條要聞

以色列防空神話被擊穿損失慘重核圈失守 伊朗表態(tài)

體育要聞

鄭欽文連續(xù)迎戰(zhàn)大滿貫冠軍 “雙教練”團隊正式亮相

娛樂要聞

今晚首播!央視年代劇《冬去春來》來了

財經(jīng)要聞

睡夢中欠債1.2萬?這只“蝦”殺瘋了

汽車要聞

14.28萬元起 吉利銀河星耀8遠航家開啟預售

態(tài)度原創(chuàng)

藝術(shù)
教育
家居
公開課
軍事航空

藝術(shù)要聞

Alexander Bobrov | 印象風景寫生(二)

教育要聞

神奇的父子定律,準到讓人驚嘆

家居要聞

時空交織 空間綺夢

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊導彈擊中以核設(shè)施附近 爆炸視頻公布

無障礙瀏覽 進入關(guān)懷版