網易首頁 > 網易號 > 正文申請入駐

CVPR 2026 WorldArena挑戰賽啟動，高德開源高性能世界模型基線

2026-04-12 21:26:10　來源: 機器之心Pro

北京舉報

分享至

機器之心發布

過去兩年，從 Sora 到 Veo，再到 Cosmos，視頻生成模型在「視覺逼真」這條路上飛速狂奔，生成的畫面已經足以以假亂真。但一個根本性的問題始終懸而未決：這些模型真的「理解」了物理世界嗎？這個問題目前還沒有一個答案。

事實上，當這些模型去生成機器人操作的視頻，「夾爪穿模、物體憑空消失、時序錯亂」等物理違規現象比比皆是。從「看起來像」到「真能干活」，一直橫亙著一條技術實現的鴻溝。

究竟什么樣的模型才可以真能干活？圍繞這個問題，一場全球性的技術競賽正在打響 ——CVPR 2026 WorldArena Challenge

賽事官網：http://cvpr2026challenge.world-arena.ai/
WorldArena 排行榜：https://world-arena.ai/
WorldArena GitHub：https://github.com/tsinghua-fib-lab/WorldArena
ABot-PhysWorld GitHub：https://github.com/amap-cvlab/ABot-PhysWorld
ABot-PhysWorld 論文：https://github.com/amap-cvlab/ABot-PhysWorld/blob/main/tech_report/ABot-PhysWorld.pdf
Workshop 官網：https://videoworldmodel-workshop.github.io/
官方交流群（微信）：https://github.com/tsinghua-fib-lab/WorldArena/assets/WeChat.jpg
官方交流群（Discord）：https://discord.gg/ZMrJJD55
官方郵箱：WorldArena1@outlook.com

一、WorldArena Challenge：世界模型的「大考」來了

WorldArena Challenge 是依托 CVPR 2026 Video World Model Workshop 舉辦的國際挑戰賽，由高德地圖視覺技術中心（AMAP CV Lab）、流形空間（Manifold.ai）和清華大學牽頭，聯合普林斯頓大學、新加坡國立大學、香港大學等全球頂尖學術機構共同主辦。

與此前的世界模型評測不同，WorldArena 的核心理念可以用四個字概括：「真能干活」。評測體系不僅關注視頻「好不好看」，更聚焦于生成的內容是否遵循物理規律、是否能支撐機器人的實際操作。比賽基于清華大學等 8 所頂尖高校聯合研發的 WorldArena Benchmark，涵蓋 16 大核心指標和 3 大真實應用任務，旨在推動世界模型從「視覺逼真」向「功能可用」轉型。此次比賽設置了以下兩個賽道，參賽團隊可根據研究方向選擇單一賽道或雙賽道并行參與。

賽道一評估世界模型在視頻生成層面的綜合感知質量 —— 不是簡單地看「畫面漂不漂亮」，而是從視覺質量、動作質量、內容一致性、物理法則遵循度、可控性和 3D 準確性六大維度，通過 16 項量化指標展開全方位評測。最終通過 EWMScore 整合為統一的綜合分數排名。簡單說，不是比誰的視頻最好看，而是比誰的視頻最「合理」。

賽道二為具身任務功能性賽道。這是 WorldArena 的核心創新方向，首次將評測延伸至真實的具身任務執行層面，圍繞世界模型在具身智能中的三大核心使用價值展開評估：作為數據合成引擎，能否生成有效提升策略模型性能的合成數據；作為策略評估器，能否替代物理仿真器準確評估策略；作為行動規劃器，能否直接規劃出可執行的動作序列。賽道二將率先開放數據合成引擎與策略評估器的提交通道，對于排名靠前的方案，后續將引入行動規劃器進行額外加權打分，以全面驗證模型的實用價值。

二、即刻上手，高性能開源世界模型已就位

賽事主辦方之一的高德為提升創新活躍、降低參賽門檻，已將其世界模型ABot-PhysWorld完全開源 —— 這個模型目前在 WorldArena Leaderboard 上排名領先，參賽者可以直接在此基礎上訓練和優化。

ABot-PhysWorld 是高德即將發布的 ABot-World 系列的首個子工作，聚焦于具身場景下的物理一致性視頻生成。與現有模型追求「視覺合理性」不同，ABot-PhysWorld 的核心目標是「物理真實性」—— 讓 AI 生成的不僅是連續幀，而是符合物理規律的可行操作序列。

在技術實現上，該模型取得了多項關鍵突破：

四維泛化數據：從 300 萬原始數據清洗至 30 萬高質量 SFT 數據，覆蓋本體泛化（不同機器人形態）、任務泛化（50+ 任務類型）、場景泛化（10+ 場景）和物體泛化（1000+ 物體類別），確保模型不偏向特定場景。

DPO 偏好對齊：通過 VLM-as-Judge 構造 1 萬條偏好數據對，使用 Direct Preference Optimization 讓模型在「物理正確」和「物理錯誤」之間做出正確選擇，顯著減少穿模、變形等物理違規現象。

Dense Action Map 精細控制：11 萬條動作控制數據，將機器人動作編碼為空間稠密的控制信號，通過 Context Blocks 分支與視頻 latent 融合，實現精細化動作注入。

在獨立的 PAI-Bench 基準上，ABot-PhysWorld 以0.8491 的綜合得分0.9306 的領域得分刷新 SOTA，顯著超越 GigaWorld、Wanx-2.5、Veo 3.1、Sora 2 等開源和閉源模型。更重要的是，它成功打破了業界長期存在的「視覺質量與物理合規性」之間的 Trade-off—— 在保持極具競爭力的視覺質量的同時，實現了領域得分的大幅領先。

在 WorldArena Leaderboard 上，ABot-PhysWorld 同樣表現優異，名列前茅。這一成績充分證明了高德在具身世界模型方向的技術實力。

為保障賽事公平性并加速社區創新，主辦方明確 ABot-PhysWorld 不參與最終評獎。該模型已開放完整模型權重、訓練代碼及數據處理流程，參賽團隊可直接在此高起點基線上進行微調、數據策略優化或技術創新。

值得一提的是，今年以來高德在具身智能領域動作頻頻，先后發布多款具身模型，并在多項權威基準測試中取得 SOTA。結合此次 ABot-PhysWorld 的開源及 ABot-World 系列的預告，高德在具身世界模型領域的產業布局正持續深化。

三、賽程安排與參賽指南

賽事總獎金池超過 14,000 美元，各賽道分設一、二、三等獎。獲獎團隊將獲得 CVPR Workshop 報告展示機會，頂尖隊伍可跨賽道獲獎。目前提交通道已開放并支持實時刷榜，最終提交截止時間為 2026 年 5 月 25 日，結果將于 6 月 1 日公布，并于 6 月 4 日在 CVPR 期間舉行頒獎典禮。

參賽流程非常簡潔，預計半天即可跑通第一個提交：

準備數據：從 Hugging Face 下載 val_dataset /test_dataset。
生成視頻：用您的模型輸出 ≥640×480、121 幀 @24fps 視頻（輸入：初始幀 + 文本 / 動作）。
打包提交：壓縮成 zip（視頻文件夾 + model_README.md），在官網注冊提交或發送至官方郵箱。

目前已有眾多頂尖學術團隊與產業機構報名參賽，賽事詳情與報名入口請訪問官網。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.