![]()
這項由新加坡國立大學與牛津大學聯合開展的研究,發布于2026年4月,以技術報告形式提交至arXiv,編號為arXiv:2604.07429,有興趣深入了解的讀者可通過該編號查閱完整論文。
說到測試一個人是否真的聰明,光靠筆試遠遠不夠。你得看他能不能在復雜、快節奏、充滿突發狀況的環境里隨機應變。道理放到AI身上同樣成立。研究團隊提出了一個核心問題:如果我們真的想知道那些功能強大的多模態大語言模型(也就是能同時看圖、讀文字、做推理的AI)到底有多厲害,是不是應該把它們扔進游戲世界里,讓它們真刀真槍地打一局?
于是,這個被命名為**GameWorld**的基準測試平臺就此誕生——一個專門為AI游戲玩家設計的"考場",涵蓋34款瀏覽器游戲和170個任務,要求AI在動態變化的畫面里做出判斷、規劃路線、操控角色、完成目標。它的與眾不同在于:每一場考試的成績,都不依賴人的主觀判斷,而是直接從游戲內部數據里讀取,絕對客觀,可復現,可驗證。
研究團隊為這套平臺設計了兩種不同的"參賽方式",并邀請了13個主流AI模型上場接受檢驗,最終形成18組模型與接口的搭配組合。結果頗為耐人尋味——即便是表現最好的AI選手,離一個沒有特別準備的普通人類玩家還有相當距離。這不是一個讓人沾沾自喜的結論,而是一個清醒的提醒:真實世界的復雜交互,對AI而言依然是一座尚未翻越的高山。
一、為什么游戲是測試AI的理想考場
談到測試AI能力,學術界已經積累了相當多的方法。有些測試讓AI回答問題,有些讓AI描述圖片,還有些讓AI寫代碼或者翻譯文字。這些測試都有一個共同的局限:它們大多是"一問一答"式的,AI給出答案,考試就結束了。但現實世界的任務往往不是這樣運作的。
游戲則完全不同。在游戲里,AI必須反復觀察當前畫面、做出決策、執行操作、再觀察畫面變化,如此循環,每一步的錯誤都會影響下一步的處境。這種"看一眼、想一下、做一個動作、再看結果"的循環,和我們人類在現實中解決問題的方式高度相似。更重要的是,游戲結果是即時反饋的——撞墻了就是撞墻了,掉進坑里就是掉進坑里,沒有模糊地帶。
研究團隊特別選擇了瀏覽器游戲作為載體,這背后有很實際的考量。瀏覽器游戲不需要安裝復雜的游戲引擎,重置方便,可以快速啟動多個獨立實例同時運行,非常適合大規模自動化測試。相比需要模擬器或專用硬件的傳統游戲AI研究,這種方式輕量得多,擴展性也更強。
在GameWorld之前,其實已經有一些團隊嘗試過用游戲來測試AI。比如有的研究只覆蓋了6款游戲,有的依賴人工肉眼判斷成績,有的無法區分AI是因為"想得慢"還是"想得差"而輸掉比賽。GameWorld針對這些痛點逐一提出了解法,后面我們會詳細展開。
二、游戲場館的34個賽道
GameWorld的游戲庫按照玩法類型被分成五大類,每一類都在考驗AI的不同能力。
第一大類叫做"跑酷類",共8款游戲,包括大名鼎鼎的Chrome恐龍跳躍、神廟逃亡2、Flappy Bird等。這類游戲的特點是場景永遠在向前推進,AI必須以極高的頻率做出反應——跳躍、閃避、轉彎,一旦慢了半拍,游戲就結束了。它考驗的是AI的"即時反應"能力,類似于人類在高速公路上駕駛時需要的那種快速判斷。
第二大類是"街機類",共7款,比如吃豆人、打磚塊、貪吃蛇。這類游戲同樣節奏較快,但增加了多個移動實體需要同時追蹤的難度——AI不僅要控制自己的角色,還要同時關注多個敵人或目標的位置和動向,就像同時盯著棋盤上多顆棋子一樣。
第三大類是"平臺跳躍類",共8款,代表作是馬里奧游戲、Vex 3等。這類游戲要求AI對物理規律有精準的理解——跳躍的時機、落點的判斷、與平臺邊緣的距離控制,差一點點就會掉下去,考驗的是空間感和精細操控能力。
第四大類是"解謎類",共7款,包括2048、掃雷、Wordle、俄羅斯方塊、Hextris等。這類游戲的節奏慢得多,不要求快速反應,但要求AI能夠進行邏輯推理、規劃多步棋局、在有限信息下做出最優決策。對于那些以推理能力見長的AI來說,這里是它們最有可能表現出色的領域。
第五大類是"模擬經營類",共4款,有Minecraft克隆版、猴子超市、火男水女等。這類游戲最為開放,沒有單一明確的目標,AI需要協調多個子任務、管理資源、在較長的時間跨度內保持策略一致性,是對AI綜合能力的最高考驗。
34款游戲里,每款都配備了5個不同的任務,共170個任務。這些任務都有精確的量化目標,比如"在這一關收集3枚硬幣"或者"在Wordle里用6次以內猜出答案"。任務說明用自然語言寫就,但執行全靠AI自己觀察畫面來決定下一步動作,沒有任何人工提示。
三、兩種參賽方式:高手與通才的對決
這個考場設計了兩種截然不同的"參賽資格",對應兩類AI選手。
第一種叫做"電腦操控型",專業術語是Computer-Use Agent,簡稱CUA。這類AI的能力就像一個真正操控電腦的人——它能直接發出鼠標點擊指令(點擊屏幕上某個坐標位置)和鍵盤按鍵指令(按下某個方向鍵或者組合鍵)。這種方式最接近人類玩游戲的方式,靈活性高,但對AI的精準度要求也極高。AI必須從畫面里判斷出該點哪里、該按什么鍵,差一個像素位置可能就是天壤之別。
第二種叫做"通用多模態型",即Generalist Multimodal Agent。這類AI不直接處理鼠標坐標和具體按鍵,而是通過一套事先定義好的"語義動作"來控制游戲。舉個例子,在馬里奧游戲里,這類AI可以調用"向右走"、"跳躍"、"向右跳"等預設動作,系統會自動把這些語義動作轉換成對應的鍵盤操作。這樣的設計讓那些擅長理解語言和制定策略、但不擅長精確點擊坐標的AI也能參與測試。
兩種參賽方式在最底層使用的是同一套操控系統——所有動作最終都會被轉換成鼠標移動、鼠標按下/抬起、鍵盤按下/抬起、等待這幾種最基本的電腦操作指令。這確保了兩種AI在同一套標準下被比較,公平性得到保證。
為了讓AI能夠在較長時間內保持連貫的策略,研究團隊還為每個參賽AI配備了一套"工具箱",包括結構化的提示模板(告訴AI當前在玩什么游戲、規則是什么、任務目標是什么)、滾動記憶模塊(記住最近幾輪的操作歷史)、推理能力,以及與各AI提供商原生接口對接的工具調用機制。
四、"暫停鍵"的妙用:讓評分更公平
游戲測試面臨一個棘手的現實問題:不同AI的"思考速度"差異巨大。一個小模型可能0.5秒就能給出下一步動作,而一個需要深度推理的大模型可能要花6秒甚至更長。在真實游戲里,這意味著大模型面對的游戲狀態已經比小模型更糟糕——因為游戲在它思考的那幾秒里仍然在繼續運行。這就好比讓一個反應快的人和一個反應慢的人比賽拍蒼蠅,卻在慢的人想動作的時候,讓蒼蠅多飛了幾圈——這顯然不公平。
GameWorld通過一個巧妙的機制解決了這個問題:沙盒暫停。當AI在處理當前畫面、進行推理、準備下一步動作時,游戲會自動暫停,等到AI給出指令后再繼續運行。這樣,每個AI面對的游戲狀態都是平等的,最終的得分反映的是"這個AI做了什么決策",而不是"這個AI有多快"。
當然,研究團隊也意識到,真實世界里的AI應用不可能永遠有暫停鍵。于是他們另外設計了一個補充版本叫做GameWorld-RT(RT代表Real-Time,實時),在這個版本里游戲不會暫停,AI的思考速度本身就成為了影響成績的因素之一。兩個版本各有側重,主版本測試決策質量,RT版本測試綜合反應能力。
五、成績單怎么打分:從游戲內部讀數據
傳統游戲AI測試的評分方式有不少坑。有的直接截圖后用另一個AI來判斷"這步走得好不好",這等于是讓一個可能犯錯的裁判去評判一場可能犯錯的比賽,誤差疊加,結果可信度大打折扣。有的用圖像識別技術來讀取畫面上的數字,但文字識別本身就有一定錯誤率。
GameWorld的做法是從游戲源代碼層面直接獲取數據。研究團隊為34款游戲分別注入了一段JavaScript橋接代碼,這段代碼能實時讀取游戲內部的狀態變量,比如當前得分、剩余生命、已收集硬幣數、角色坐標、關卡進度等,然后把這些數據以結構化格式直接提供給評分系統。在馬里奧游戲里,這些數據包括分數、關卡編號、進度百分比、玩家坐標、生命數、金幣數、剩余時間等十幾個精確數值,整個評分系統不需要"看"畫面,而是直接"讀"游戲內部數據,準確度接近100%。
每個任務對應兩個評分指標。第一個是"成功率",是一個非0即1的指標——這次任務是否完成了目標。第二個是"進度",是一個0到100%之間的連續數值,表示AI在這次任務里走了多遠。比如任務是"收集10枚硬幣",AI收集了5枚就掛掉了,進度就是50%。引入進度這個指標非常重要,因為它能區分"什么都沒做就失敗"和"做到一半才失敗"這兩種截然不同的情況,給AI能力的刻畫提供了更細膩的維度。
當AI在游戲中觸發失敗條件(比如在馬里奧里掉進深淵),游戲不會立即結束整個測試,而是重置到任務起點,讓AI在剩余的操作步數預算里繼續嘗試,并保留這次嘗試中已經達到的最佳進度記錄。這意味著一次早期失誤不會把AI整場表現全部清零,評分更能反映AI的真實能力。
六、18支隊伍上場:成績出爐
研究團隊選擇了13個當前最具代表性的AI模型,形成18組模型與接口的搭配。其中包括來自Anthropic的Claude-Sonnet-4.6、谷歌的Gemini-2.5-Computer-Use和Gemini-3-Flash-Preview、Z.ai的GLM-4.6V、OpenAI的GPT-5.2和專屬電腦操控版、xAI的Grok-4.1-Fast-Reasoning、Moonshot的Kimi-K2.5、阿里巴巴的Qwen3-VL-Plus、字節跳動的Seed-1.8,以及三款開源模型Qwen3-VL-235B-A22B、Qwen3-VL-30B-A3B和UI-TARS-1.5-7B。
測試結果顯示,通用多模態型中成績最好的是谷歌的Gemini-3-Flash-Preview,整體進度得分達到41.9%,緊隨其后的是GPT-5.2(40.6%)、Claude-Sonnet-4.6(39.3%)和Seed-1.8(39.0%)。電腦操控型中成績最好的是Seed-1.8,進度得分為39.8%,Claude-Sonnet-4.6以38.3%緊跟其后。
這些數字乍看不低,但和人類玩家一比就相形見絀了。研究團隊找來了兩位計算機專業的研究生進行對照測試,在相同的操作步數限制下,完全沒有接觸過這些游戲和任務的新手玩家平均進度達到64.1%,成功率達到55.3%;而事先研究過游戲規則和任務細節的熟練玩家則達到了82.6%的進度和77.1%的成功率。最好的AI模型和最差的人類玩家之間,仍然存在約22個百分點的進度差距。
從游戲類型來看,AI在跑酷類游戲上的進度普遍相對較高,而在模擬經營類游戲上幾乎所有模型都表現糟糕——后者要求長期規劃和多目標協調,正好戳中了當前AI的軟肋。解謎類游戲成績參差不齊,邏輯推理強的模型表現相對較好,但遇到需要精準視覺判斷的場景(比如掃雷里讀取數字格局)仍然頻頻出錯。
七、五個能力等級的剖析
光看總分還不夠,研究團隊進一步把34款游戲按照它們主要考驗的能力類型,排列成一個五層的能力階梯,來診斷AI到底敗在哪里。
第一層叫做"基礎操控與時機把握",對應的是最簡單的動作——在正確的時候按下正確的鍵。打磚塊、Core Ball、Stack這類游戲屬于這一層,戰略負擔輕,主要考察AI能不能把視覺判斷轉化為準確的操控動作。
第二層叫做"系統一式即時反應"(借用了心理學里的"系統一"概念,指的是快速、直覺性的判斷),對應持續高頻的動作決策,比如Chrome恐龍、Flappy Bird、神廟逃亡2等。這層考的是純粹的反應速度和動作穩定性。
第三層叫做"系統二式空間導航",對應需要思考路徑、規劃行進方向的游戲,比如吃豆人、馬里奧、Wolfenstein 3D等。這里不只需要快,還需要在腦子里維持一個空間地圖。
第四層叫做"符號推理與策略",對應解謎類游戲,需要AI理解規則、規劃多步棋局、在抽象狀態空間里做決策。Wordle、掃雷、2048、俄羅斯方塊屬于這一層。
第五層叫做"開放世界協調與管理",對應模擬經營類游戲,是最復雜的,要求AI同時追蹤多個目標、管理資源、在長時間跨度里保持策略一致性。
測試結果揭示了一個清晰的能力圖譜:無論是通用型還是電腦操控型AI,在第四層(策略推理)和第二層(即時反應)的成績相對較好,而在第一層(基礎時機把握)和第五層(長期協調)的成績則明顯偏低。換句話說,AI在做"想清楚該做什么"這件事上已經有了相當水平,但在"恰好在對的時刻做"和"幾十步之后還能記得最初目標"這兩點上,仍然存在顯著短板。
八、重復測試:這個考場靠譜嗎
一套評測系統要有價值,首先要穩定——同一個AI今天考和明天考,成績應該大差不差,否則這個成績就沒有參考意義。研究團隊對此進行了嚴格驗證,選取了Qwen3-VL-30B-A3B和Qwen3-VL-235B-A22B兩個開源模型,每個模型在電腦操控和通用兩種接口下各運行10次完整的全量測試,合計覆蓋170個任務的10輪重復。
結果顯示,四種搭配的整體進度得分標準差都在1.1個百分點左右,成功率的波動也同樣有限。這意味著GameWorld確實能夠作為一個穩定的測量平臺來使用,而不是一次性的快照。當然,也有少數游戲(比如Hextris、Cubefield、Wordle)表現出了更明顯的輪次間波動,這恰恰說明這些游戲是真正有挑戰性、有區分度的項目,能夠捕捉到AI能力的細微差異。
九、記憶長短的權衡:上下文越多越好?
研究團隊還專門研究了AI的"記憶量"對成績的影響。每一步操作時,AI可以選擇攜帶多少輪歷史記錄。記0輪意味著AI每次都像第一次看到游戲一樣,忘記了之前所有操作;記2輪意味著AI能看到最近兩輪的操作歷史。
測試結果揭示了一個有趣的分歧:對于通用型AI,記憶輪數從0增加到2時,進度得分有小幅提升;但對于電腦操控型AI,隨著記憶輪數增加,成績反而持續下降。背后的原因也不難理解——通用型AI的歷史記錄是語義化的("我上次向右走了"),信息密度高,有助于避免重復錯誤;而電腦操控型AI的歷史記錄是底層坐標和按鍵序列("我上次點擊了坐標(512, 384)"),信息量雖大但語義稀疏,大量低價值的歷史信息反而成了干擾。
與此同時,記憶量增加帶來的推理時間代價非常顯著。通用型AI從0輪記憶到2輪記憶,每步的平均時間從5.5秒增加到8.6秒,輸入的token數量從約1300增加到約3000;電腦操控型則從約1900 token增加到約5600 token,每步時間從7.2秒增加到12.8秒。記憶不是免費的,使用時需要權衡。
十、指令遵守率:AI有時候會"忘記規則"
游戲測試里還有一個微妙但重要的指標:AI發出的動作是否在游戲允許的范圍之內。研究團隊統計了每個模型的"無效動作率",也就是那些不符合規則、無法被執行的動作占所有動作的比例。
結果顯示,大多數頂尖模型的無效動作率極低,接近于零。但也有例外——GLM-4.6V的無效動作率高達8.3%,主要問題是它發出了自然語言文字而不是工具調用格式的指令,意思說得清楚,但格式不對;Qwen3-VL-30B-A3B的無效動作率為2.7%,主要是在長時間對話后"忘記"了當前游戲允許的動作范圍,調用了不存在的指令。UI-TARS-1.5-7B則有0.4%的動作落在了游戲規定的操控范圍之外。這些數據揭示了一個實際問題:在長時間的交互序列中,模型有一定概率出現"指令漂移",忘記約束條件或者格式要求,這在實際應用中是必須被重視的可靠性問題。
十一、實時版的挑戰:思考和行動必須同時在線
GameWorld-RT版本的測試給出了一個清醒的提示。在不暫停的實時環境下,Qwen3-VL-30B-A3B平均每步只需要2.4秒(通用型)或2.4秒(電腦操控型),而Qwen3-VL-235B-A22B則需要6秒以上。速度快的小模型整體進度約為33%,速度慢但更聰明的大模型整體進度約為33-34%,兩者成績接近,說明在實時環境里,單純的"想得快"或者"想得對"都不足以拉開差距,真正的挑戰是同時做到兩者。
值得注意的是,實時版的成績不能和暫停版直接比較,因為在實時版里,AI思考的那幾秒游戲仍在繼續運行,實際上等于給了AI更長的"游戲時間"但更短的"有效決策窗口"。這兩個版本測量的是不同維度的能力,相輔相成。
十二、失敗的四種面孔
研究團隊通過仔細分析失敗案例,歸納出了AI在游戲里失敗的四類典型模式,像是四種不同類型的"考試失分點"。
第一類是感知失誤:AI看錯了畫面,把障礙物認成了空地,或者誤判了自己角色的位置,導致錯誤的決策。這類錯誤在畫面復雜或者信息密集的場景里尤為突出。
第二類是精細動作失誤:AI理解了該做什么,但在執行層面出了問題——跳晚了半拍、按鍵時間太短或太長、組合鍵的時序不對。策略正確,執行偏差。
第三類是指令遵循失誤:AI在長時間交互后逐漸偏離了任務目標,開始執行一些無關動作,或者嘗試調用不存在的操控指令,甚至忽視了任務的核心要求。
第四類是長期記憶失誤:AI在多步任務里丟失了關鍵的歷史信息,陷入重復循環——比如一直走同一條路、一遍又一遍地做同樣的無效動作,卻無法意識到自己在打轉,更無法自我糾正。
這四類失敗模式提供了清晰的改進方向:更好的視覺理解、更精準的動作控制、更強的長期記憶,以及更穩健的指令遵循能力。
歸根結底,GameWorld想要回答的問題是:我們的AI,真的準備好應對復雜的現實世界了嗎?答案是:還沒有,但我們終于有了一把能夠精確量尺來持續丈量這段距離。
當前最好的AI模型在游戲里的表現,和一個沒有特別準備的普通人相比,仍然有將近22個百分點的進度差距。這個差距既存在于需要快速反應的動作層面,也存在于需要長時間規劃的策略層面,更存在于在數十步操作之后仍然記得"我的最終目標是什么"的記憶層面。
對于普通人來說,這項研究意味著:當你聽說某個AI"能玩游戲"的時候,不妨多問一句——它能完成任務嗎,還是只是在隨機按鍵?而GameWorld這把尺子,正是為了讓這個問題有一個清晰、可重復、可驗證的答案而存在的。有興趣深入了解技術細節的讀者,可以通過arXiv:2604.07429查閱完整研究報告。
Q&A
Q1:GameWorld基準測試和其他AI游戲測試平臺有什么區別?
A:GameWorld最核心的區別在于評分方式。它不依賴截圖識別或另一個AI來判斷成績,而是直接從游戲源代碼內部讀取數據,比如得分、坐標、硬幣數等,評分結果完全確定、可重現。此外,它通過暫停機制把AI的思考速度和決策質量分開考察,確保評分公平,而不是讓反應快的AI天然占優。
Q2:GameWorld里哪類游戲對AI來說最難?
A:模擬經營類游戲對幾乎所有AI來說都是最大的挑戰,因為這類游戲需要同時協調多個目標、管理資源,并在幾十步操作后仍然記得最初的策略方向。測試結果顯示,大多數模型在猴子超市、Minecraft這類游戲上的成功率接近于零,進度得分也普遍偏低。
Q3:GameWorld測試用的是哪些AI模型,開源模型表現怎么樣?
A:測試涵蓋了Claude、Gemini、GPT-5.2、Grok、Kimi等主流商業模型,以及Qwen3-VL-235B-A22B、Qwen3-VL-30B-A3B和UI-TARS-1.5-7B三款開源模型。開源模型的總體進度得分在30%至31%之間,低于表現最好的商業模型約10個百分點,但穩定性經過10輪重復測試驗證,波動在1.1%以內,表現具有可重現性。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.