機器之心發布
過去兩年,從 Sora 到 Veo,再到 Cosmos,視頻生成模型在「視覺逼真」這條路上飛速狂奔,生成的畫面已經足以以假亂真。但一個根本性的問題始終懸而未決:這些模型真的「理解」了物理世界嗎?這個問題目前還沒有一個答案。
事實上,當這些模型去生成機器人操作的視頻,「夾爪穿模、物體憑空消失、時序錯亂」等物理違規現象比比皆是。從「看起來像」到「真能干活」,一直橫亙著一條技術實現的鴻溝。
究竟什么樣的模型才可以真能干活?圍繞這個問題,一場全球性的技術競賽正在打響 ——CVPR 2026 WorldArena Challenge
![]()
- 賽事官網:http://cvpr2026challenge.world-arena.ai/
- WorldArena 排行榜:https://world-arena.ai/
- WorldArena GitHub:https://github.com/tsinghua-fib-lab/WorldArena
- ABot-PhysWorld GitHub:https://github.com/amap-cvlab/ABot-PhysWorld
- ABot-PhysWorld 論文:https://github.com/amap-cvlab/ABot-PhysWorld/blob/main/tech_report/ABot-PhysWorld.pdf
- Workshop 官網:https://videoworldmodel-workshop.github.io/
- 官方交流群(微信):https://github.com/tsinghua-fib-lab/WorldArena/assets/WeChat.jpg
- 官方交流群(Discord):https://discord.gg/ZMrJJD55
- 官方郵箱:WorldArena1@outlook.com
一、WorldArena Challenge:世界模型的「大考」來了
WorldArena Challenge 是依托 CVPR 2026 Video World Model Workshop 舉辦的國際挑戰賽,由高德地圖視覺技術中心(AMAP CV Lab)、流形空間(Manifold.ai)和清華大學牽頭,聯合普林斯頓大學、新加坡國立大學、香港大學等全球頂尖學術機構共同主辦。
與此前的世界模型評測不同,WorldArena 的核心理念可以用四個字概括:「真能干活」。評測體系不僅關注視頻「好不好看」,更聚焦于生成的內容是否遵循物理規律、是否能支撐機器人的實際操作。比賽基于清華大學等 8 所頂尖高校聯合研發的 WorldArena Benchmark,涵蓋 16 大核心指標和 3 大真實應用任務,旨在推動世界模型從「視覺逼真」向「功能可用」轉型。此次比賽設置了以下兩個賽道,參賽團隊可根據研究方向選擇單一賽道或雙賽道并行參與。
賽道一評估世界模型在視頻生成層面的綜合感知質量 —— 不是簡單地看「畫面漂不漂亮」,而是從視覺質量、動作質量、內容一致性、物理法則遵循度、可控性和 3D 準確性六大維度,通過 16 項量化指標展開全方位評測。最終通過 EWMScore 整合為統一的綜合分數排名。簡單說,不是比誰的視頻最好看,而是比誰的視頻最「合理」。
![]()
賽道二為具身任務功能性賽道。這是 WorldArena 的核心創新方向,首次將評測延伸至真實的具身任務執行層面,圍繞世界模型在具身智能中的三大核心使用價值展開評估:作為數據合成引擎,能否生成有效提升策略模型性能的合成數據;作為策略評估器,能否替代物理仿真器準確評估策略;作為行動規劃器,能否直接規劃出可執行的動作序列。賽道二將率先開放數據合成引擎與策略評估器的提交通道,對于排名靠前的方案,后續將引入行動規劃器進行額外加權打分,以全面驗證模型的實用價值。
![]()
二、即刻上手,高性能開源世界模型已就位
賽事主辦方之一的高德為提升創新活躍、降低參賽門檻,已將其世界模型ABot-PhysWorld完全開源 —— 這個模型目前在 WorldArena Leaderboard 上排名領先,參賽者可以直接在此基礎上訓練和優化。
ABot-PhysWorld 是高德即將發布的 ABot-World 系列的首個子工作,聚焦于具身場景下的物理一致性視頻生成。與現有模型追求「視覺合理性」不同,ABot-PhysWorld 的核心目標是「物理真實性」—— 讓 AI 生成的不僅是連續幀,而是符合物理規律的可行操作序列。
![]()
在技術實現上,該模型取得了多項關鍵突破:
四維泛化數據:從 300 萬原始數據清洗至 30 萬高質量 SFT 數據,覆蓋本體泛化(不同機器人形態)、任務泛化(50+ 任務類型)、場景泛化(10+ 場景)和物體泛化(1000+ 物體類別),確保模型不偏向特定場景。
DPO 偏好對齊:通過 VLM-as-Judge 構造 1 萬條偏好數據對,使用 Direct Preference Optimization 讓模型在「物理正確」和「物理錯誤」之間做出正確選擇,顯著減少穿模、變形等物理違規現象。
Dense Action Map 精細控制:11 萬條動作控制數據,將機器人動作編碼為空間稠密的控制信號,通過 Context Blocks 分支與視頻 latent 融合,實現精細化動作注入。
在獨立的 PAI-Bench 基準上,ABot-PhysWorld 以0.8491 的綜合得分0.9306 的領域得分刷新 SOTA,顯著超越 GigaWorld、Wanx-2.5、Veo 3.1、Sora 2 等開源和閉源模型。更重要的是,它成功打破了業界長期存在的「視覺質量與物理合規性」之間的 Trade-off—— 在保持極具競爭力的視覺質量的同時,實現了領域得分的大幅領先。
在 WorldArena Leaderboard 上,ABot-PhysWorld 同樣表現優異,名列前茅。這一成績充分證明了高德在具身世界模型方向的技術實力。
為保障賽事公平性并加速社區創新,主辦方明確 ABot-PhysWorld 不參與最終評獎。該模型已開放完整模型權重、訓練代碼及數據處理流程,參賽團隊可直接在此高起點基線上進行微調、數據策略優化或技術創新。
值得一提的是,今年以來高德在具身智能領域動作頻頻,先后發布多款具身模型,并在多項權威基準測試中取得 SOTA。結合此次 ABot-PhysWorld 的開源及 ABot-World 系列的預告,高德在具身世界模型領域的產業布局正持續深化。
三、賽程安排與參賽指南
賽事總獎金池超過 14,000 美元,各賽道分設一、二、三等獎。獲獎團隊將獲得 CVPR Workshop 報告展示機會,頂尖隊伍可跨賽道獲獎。目前提交通道已開放并支持實時刷榜,最終提交截止時間為 2026 年 5 月 25 日,結果將于 6 月 1 日公布,并于 6 月 4 日在 CVPR 期間舉行頒獎典禮。
參賽流程非常簡潔,預計半天即可跑通第一個提交:
- 準備數據:從 Hugging Face 下載 val_dataset /test_dataset。
- 生成視頻:用您的模型輸出 ≥640×480、121 幀 @24fps 視頻(輸入:初始幀 + 文本 / 動作)。
- 打包提交:壓縮成 zip(視頻文件夾 + model_README.md),在官網注冊提交或發送至官方郵箱。
目前已有眾多頂尖學術團隊與產業機構報名參賽,賽事詳情與報名入口請訪問官網。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.