337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

RoboChallenge Table30 V2 正式發布,泛化時代開幕

0
分享至

具身智能,正在經歷一場靜悄悄的"祛魅"。

過去兩年,VLA(視覺-語言-動作)與 WMA(世界模型-動作)模型研究論文快速增長,各類技術演示令人目不暇接,行業熱度空前高漲。然而,在光鮮的 demo 背后,一個系統性的尷尬正在蔓延:大量在仿真環境中表現出色的模型,一旦被部署至真實物理場景,便迅速失效。桌面高度差了5毫米,操作物體從剛性換成了軟布,背景光線發生了變化——這些在人類眼中微不足道的擾動,足以讓一個精心訓練的具身模型當場翻車。

這不是偶發現象,而是具身智能領域的系統性頑疾:模型學會了記憶,卻還沒學會真正的理解。



帶著這一核心追問,由原力靈機與 Hugging Face 聯合發起的全球首個大規模真機評測平臺RoboChallenge,正式發布Table30 V2。這是對上一代評測體系的深度重構,也是行業第一次將模型泛化能力納入系統性量化考核的嚴肅嘗試。它以“面向下一代模型的大規模真機原生泛化評測”為核心標準,從任務升級、評測升級到系統升級三個維度深度重構:通過引入更嚴苛的軟體、工具使用及雙臂協作任務,支持零樣本與域外泛化測試,并實現3倍于往屆的系統吞吐量,為全球具身智能研究者打造一把精準的"泛化標尺"與公平、開放的真機競技場。同時Table30 V2預覽版將作為 RoboChallenge CVPR 2026 Workshop 競賽的首秀上線發布。

01.

為什么舊的評測體系不夠用了?

在深入 Table30 V2 之前,有必要先厘清一個問題:現有的具身智能評測,究竟差在哪里?

答案指向一個本質缺陷:它們太容易被攻克了。在傳統評測框架中,研究團隊普遍針對特定任務進行單獨精調(Fine-tuning),催生了大批考試型模型——在固定場景下表現優異,換個角度或物體便立刻失靈。與此同時,真機測試長期面臨成本高昂、難以復現、缺乏統一標準等核心痛點,導致模型評估往往停留在仿真器或高度受控的實驗室環境中,其現實世界智能成色幾何,始終難以量化評判。

這意味著,當一個模型在排行榜上占據高位時,我們實際上并不知道它在真實家庭或工廠場景中是否同樣可靠。這種認知盲區,正是制約具身智能從實驗室走向大規模應用的隱性障礙。

Table30 V2 的邏輯起點,正是打破這道障礙。

02.

任務升級:讓真實世界的復雜性無處遁形


Table30 V2任務集


泛化能力的缺失,往往根植于對簡單任務的過擬合。Table30 V2 的第一維升級,直指任務集本身。

在保留 12 個經典任務的基礎上,平臺新增 18 個全新雙臂靈巧操作任務,將總任務數擴展至 30 個高難度場景。這些新任務并非隨意堆砌,而是圍繞三個方向精心設計,每一個方向都對應著當前 VLA 模型的現實短板。

從硬到軟的跨越,是本次任務升級頗具代表性的突破。Table30 V2 引入了對繩索、布料等軟連續體物體的操作任務。與剛性物體不同,這類物體形變無限、狀態不固定,任何預設的幾何假設都將失效。模型必須在實時感知中動態建模物體狀態,并持續自適應地調整控制策略——這直接將挑戰拉升至空間推理與自適應控制能力的極限。

工具與空間的深度交互,則考驗的是模型對物理世界的因果推理。新增任務要求機器人準確使用工具,并實時理解工具與目標物體之間復雜的物理依賴關系。這不僅是精度控制的工程問題,更是對模型是否真正掌握物理常識的深度摸底——它能否理解施力方向、接觸面積與操作結果之間的因果鏈條,而非僅僅復現一套固定的動作序列?

雙臂協作的剛性約束,則將時序建模與多模態協調推向新高度。大量新任務要求雙手在動態受限的環境下實現高精度同步控制,左右手之間的實時配合對模型的全局規劃與局部精細控制同時提出了嚴格要求。

另外,在硬件層面,Table30 V2 還引入了新一代移動雙臂操縱平臺 DOS-W1(配備三角尖端夾具),與經典 Aloha 系統并存,構建雙機型并行評測機制。這一安排在降低參與門檻的同時,通過跨硬件配置的對比測試,嚴格驗證了模型在不同物理實體上的跨平臺魯棒性。

03.

評測升級:終結為比賽而調參的舊游戲



任務變難了,但如果評測協議本身存在漏洞,聰明的研究者總能找到鉆空子的方式。Table30 V2 的第二維升級,從根本上封堵了這些漏洞。

多任務范式的強制推行是第一道閘門。平臺明確禁止為每個任務單獨訓練專用模型的作弊式優化,強制要求參評者提交具備通用理解能力的單一模型。這一規則與構建通用具身大模型的行業大趨勢高度一致,也讓評測結果真正反映模型的泛化能力,而非針對性調參的技巧。

零樣本(Zero-shot)測試,是本次升級最具顛覆意義的改變。Table30 V2 在物體級和環境級兩個層面系統性地引入零樣本測試:模型必須面對訓練集中從未出現過的物體外觀,從未見過的場景背景,乃至動態變化的干擾條件——例如桌面高度被隨機微調。這一設計的深層邏輯在于:真正的智能,是推斷階段實時生成的,而非在訓練階段提前記憶的。無法通過零樣本測試的模型,不論在單任務指標上多么亮眼,都不能被稱為真正具備泛化能力。

分層泛化矩陣(In-Domain vs. Out-of-Domain),則將壓力測試推向極致。除傳統域內(In-Domain)評估外,Table30 V2 新增包含域外(OOD)場景的高階測試——極端情況下,測試臺甚至會被替換為沙發等完全不可控的家居表面。這不再是一場分數游戲,而是一次對模型"智能本質"的直接追問:它理解的是任務本身,還是特定視覺配置下的條件反射?

04.

系統升級:速度也是科研競爭力

在算法研究中,迭代速度即生產力。等待真機測試結果所消耗的時間,是制約研究節奏的一道隱性瓶頸。Table30 V2 的第三維升級,將這道瓶頸徹底打通。

通過大規模增購主流機器人硬件并優化調度算法,Table30 V2 實現了3倍于往屆的系統吞吐量。與此同時,任務準備方式從"像素級嚴苛對齊"調整為更貼近現實的"粗略對齊",大幅壓縮了任務間的空轉時間,確保研究團隊能夠高頻次地獲取測試反饋,將"訓練-測試-迭代"的研發飛輪真正轉起來。

排行榜中新增的完成時間(Time to Complete)評分維度,則賦予了這一升級更深的戰略意義。它倒逼研究者在追求成功率的同時,優化策略的實際執行效率——一個需要30秒推理才能完成一次抓取的模型,在真實部署場景中毫無價值可言。這一指標的加入,讓評測結果與真實落地需求之間的對齊度大幅提升。

05.

數據說話:50%的天花板與接近零的地板


RoboChallenge 最新榜單(截止至2026.03.24)


Table30 V2 并非憑空而來,它的設計背后有一份來自真實世界的清醒報告作為支撐。

基于 2025 Q4 至 2026 Q1 期間平臺完成的數萬次嚴苛遠程真機測試,RoboChallenge 年度報告呈現了當前具身智能模型的真實能力邊界。當前表現最佳的模型DM0,整體成功率62%;GigaBrain-0.1,成功率約 52%;Pi0.5 為 42.67%;第10名 RDT-1B 僅為 15%。“疊碗”和“物體移入盒子”成為多數模型首選的驗證任務,堪稱具身智能領域的“Hello World”;而涉及多步驟序列推理與精細操作的任務,如“制作三明治”成功率至今接近于零。

尤其值得關注的是,盡管參測模型在語義指令理解上已表現出一定能力,但在精細操作任務中的成功率普遍低于 15%。這揭示了當前 VLA 模型普遍存在的“理解-執行”斷層:聽得懂,做不到。這些平臺上沉淀的大量真機失敗數據,構成了一份公開的錯題集,是推動模型迭代的寶貴參考資產,也是 Table30 V2 設計思路的現實依據。

06.

開放社區,凝聚行業共識



RoboChallenge 不是一家公司的產品,而是行業共識的結晶。自 2025 年 11 月組委會成立以來,原力靈機、Hugging Face 聯合集結了智源研究院、智元機器人、Qwen、星海圖、自變量、清華大學、西安交通大學及 GOSIM,共同推動具身智能真機評測走向規范化與標準化。DM0、GigaBrain-0.1、Spirit-v1.5、Pi0、Pi0.5、RDT-1B、CogACT、OpenVLA-OFT 等主流開源模型已完成測試上榜,極佳視界、智源研究院、中移杭研、星海圖、地平線等機構的模型正在緊鑼密鼓地推進真機實測。平臺活躍用戶已覆蓋中國(58.3%)、美國(22%)、新加坡(10.1%)等多個國家和地區,國際化社區生態正在迅速成形。

07.

CVPR 2026:泛化時代的第一場真機競技

Table30 V2 的預覽版,將作為RoboChallenge CVPR 2026 Workshop 競賽的首秀正式亮相。這是具身智能領域首次將大規模真機評測競賽帶上頂級計算機視覺學術會議的舞臺,最多 10 支隊伍將在真實機器人集群上與全球頂尖算法同臺較量,以真實數據說話。



關鍵時間節點:報名截止 4 月 25 日;評測基準四月中旬上線;最終競賽 5 月 15 日。競賽結束后,平臺將持續向全球研究者開放評測基礎設施,讓每一個有想法的團隊都能在真實機器人上驗證自己的模型。

泛化,是具身智能通往物理世界通用性的必由之路,也是下一座需要全球研究者共同攀登的山峰。Table30 V2,已經開路。

報名及詳情:

https://robochallenge.cn/competition

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
Kimi、Minimax 們的算力荒:智能白菜價,你買不到

Kimi、Minimax 們的算力荒:智能白菜價,你買不到

象先志
2026-03-26 20:00:28
東契奇創4大紀錄仍無緣日最佳,抱歉約基奇打出前無古人的數據

東契奇創4大紀錄仍無緣日最佳,抱歉約基奇打出前無古人的數據

毒舌NBA
2026-03-26 13:11:59
蘋果 Max 新品正式開售,3999 元起!

蘋果 Max 新品正式開售,3999 元起!

科技堡壘
2026-03-26 11:36:39
25年來首次,WTO更改臺灣稱呼,美國也改變涉臺表述,賴清德破防

25年來首次,WTO更改臺灣稱呼,美國也改變涉臺表述,賴清德破防

聞香閣
2026-03-27 01:12:49
屢犯不改!足協內部處罰變一紙空文,麥麥提江復出又制造爭議判罰

屢犯不改!足協內部處罰變一紙空文,麥麥提江復出又制造爭議判罰

格斗聯盟
2026-03-26 10:11:05
曼聯哭暈!500萬賤賣的青訓,竟是卡塞米羅完美替身

曼聯哭暈!500萬賤賣的青訓,竟是卡塞米羅完美替身

瀾歸序
2026-03-27 04:09:03
第26日中東戰況:第82空降師真要來了,胡塞卻還在“裝死”

第26日中東戰況:第82空降師真要來了,胡塞卻還在“裝死”

裝甲鏟史官
2026-03-26 10:09:03
武書連2026年中國大學排名一覽!一起來看看你的高校排在第幾!

武書連2026年中國大學排名一覽!一起來看看你的高校排在第幾!

誰為錦年織彩衣
2026-03-27 07:05:04
見證歷史,中國讓Open AI絕望了!

見證歷史,中國讓Open AI絕望了!

君臨財富
2026-03-25 23:36:26
2026中超聯賽第4輪,浙江隊主場迎戰重慶銅梁龍比賽結果前瞻

2026中超聯賽第4輪,浙江隊主場迎戰重慶銅梁龍比賽結果前瞻

老垯科普
2026-03-27 07:04:58
精銳空降師抵中東,五萬大軍壓境,美伊地面戰一觸即發?

精銳空降師抵中東,五萬大軍壓境,美伊地面戰一觸即發?

高博新視野
2026-03-26 08:00:26
谷維素加維生素B12,可改善老年人4大常見問題,建議收藏!

谷維素加維生素B12,可改善老年人4大常見問題,建議收藏!

醫學原創故事會
2026-03-19 23:42:04
長的太漂亮了,真正的珠圓玉潤,標準的東方美

長的太漂亮了,真正的珠圓玉潤,標準的東方美

生活新鮮市
2026-03-27 07:21:32
原來她是張雪峰妻子,高校副教授歷史博士,相差7歲認識40天閃婚

原來她是張雪峰妻子,高校副教授歷史博士,相差7歲認識40天閃婚

奇思妙想草葉君
2026-03-26 14:01:49
日本不再歡迎中國人?3月起日本簽證“一刀切”,華人進退兩難!

日本不再歡迎中國人?3月起日本簽證“一刀切”,華人進退兩難!

有范又有料
2026-03-25 14:08:39
盤點那些年熱搜榜上的島國女老師

盤點那些年熱搜榜上的島國女老師

碧波萬覽
2026-03-27 00:45:03
大局已定,以全境遭轟炸,美方緊急宣布求和,中方:一錘定音

大局已定,以全境遭轟炸,美方緊急宣布求和,中方:一錘定音

健身狂人
2026-03-27 00:07:58
不限瘤種!我國自主研發廣譜抗癌藥落地臨床,患者總緩解率高達89.1%【附諾誠健華企業分析】

不限瘤種!我國自主研發廣譜抗癌藥落地臨床,患者總緩解率高達89.1%【附諾誠健華企業分析】

前瞻網
2026-03-24 16:34:12
意大利2-0北愛進決賽!托納利傳射助藍衣軍團取勝,接班加圖索

意大利2-0北愛進決賽!托納利傳射助藍衣軍團取勝,接班加圖索

里芃芃體育
2026-03-27 07:54:57
美軍前高官發出警告:以色列可不是中美俄,打急眼了它真敢丟核彈

美軍前高官發出警告:以色列可不是中美俄,打急眼了它真敢丟核彈

阿校談史
2026-03-27 07:52:10
2026-03-27 09:32:49
機器人大講堂 incentive-icons
機器人大講堂
立德機器人平臺,是一個集媒體品牌、智庫咨詢、投資孵化、引智招商為一體的機器人垂直領域服務平臺
6401文章數 4579關注度
往期回顧 全部

科技要聞

OpenAI果斷砍掉"成人模式",死磕生產力

頭條要聞

牛彈琴:一直贏的特朗普心里更慌了 又給自己續了10天

頭條要聞

牛彈琴:一直贏的特朗普心里更慌了 又給自己續了10天

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發聲!稱姐姐受身邊人挑撥

財經要聞

很反常!油價向上,黃金向下

汽車要聞

一汽奧迪A6L e-tron開啟預售 CLTC最大續航815km

態度原創

房產
健康
教育
數碼
時尚

房產要聞

突發,三亞又有大批征遷補償方案出爐!

轉頭就暈的耳石癥,能開車上班嗎?

教育要聞

老師最大的管理能力,是處理情緒的能力!

數碼要聞

Mac Pro退場后蘋果官網同步停售配套滾輪套件,曾售5249元

張雪峰曾經“5次談猝死”

無障礙瀏覽 進入關懷版