網易首頁 > 網易號 > 正文申請入駐

新加坡國立大學等機構打造的游戲AI考場

2026-04-17 23:48:03　來源: 科技行者

天津舉報

分享至

這項由新加坡國立大學與牛津大學聯合開展的研究，發布于2026年4月，以技術報告形式提交至arXiv，編號為arXiv:2604.07429，有興趣深入了解的讀者可通過該編號查閱完整論文。

說到測試一個人是否真的聰明，光靠筆試遠遠不夠。你得看他能不能在復雜、快節奏、充滿突發狀況的環境里隨機應變。道理放到AI身上同樣成立。研究團隊提出了一個核心問題：如果我們真的想知道那些功能強大的多模態大語言模型（也就是能同時看圖、讀文字、做推理的AI）到底有多厲害，是不是應該把它們扔進游戲世界里，讓它們真刀真槍地打一局？

于是，這個被命名為**GameWorld**的基準測試平臺就此誕生——一個專門為AI游戲玩家設計的"考場"，涵蓋34款瀏覽器游戲和170個任務，要求AI在動態變化的畫面里做出判斷、規劃路線、操控角色、完成目標。它的與眾不同在于：每一場考試的成績，都不依賴人的主觀判斷，而是直接從游戲內部數據里讀取，絕對客觀，可復現，可驗證。

研究團隊為這套平臺設計了兩種不同的"參賽方式"，并邀請了13個主流AI模型上場接受檢驗，最終形成18組模型與接口的搭配組合。結果頗為耐人尋味——即便是表現最好的AI選手，離一個沒有特別準備的普通人類玩家還有相當距離。這不是一個讓人沾沾自喜的結論，而是一個清醒的提醒：真實世界的復雜交互，對AI而言依然是一座尚未翻越的高山。

一、為什么游戲是測試AI的理想考場

談到測試AI能力，學術界已經積累了相當多的方法。有些測試讓AI回答問題，有些讓AI描述圖片，還有些讓AI寫代碼或者翻譯文字。這些測試都有一個共同的局限：它們大多是"一問一答"式的，AI給出答案，考試就結束了。但現實世界的任務往往不是這樣運作的。

游戲則完全不同。在游戲里，AI必須反復觀察當前畫面、做出決策、執行操作、再觀察畫面變化，如此循環，每一步的錯誤都會影響下一步的處境。這種"看一眼、想一下、做一個動作、再看結果"的循環，和我們人類在現實中解決問題的方式高度相似。更重要的是，游戲結果是即時反饋的——撞墻了就是撞墻了，掉進坑里就是掉進坑里，沒有模糊地帶。

研究團隊特別選擇了瀏覽器游戲作為載體，這背后有很實際的考量。瀏覽器游戲不需要安裝復雜的游戲引擎，重置方便，可以快速啟動多個獨立實例同時運行，非常適合大規模自動化測試。相比需要模擬器或專用硬件的傳統游戲AI研究，這種方式輕量得多，擴展性也更強。

在GameWorld之前，其實已經有一些團隊嘗試過用游戲來測試AI。比如有的研究只覆蓋了6款游戲，有的依賴人工肉眼判斷成績，有的無法區分AI是因為"想得慢"還是"想得差"而輸掉比賽。GameWorld針對這些痛點逐一提出了解法，后面我們會詳細展開。

二、游戲場館的34個賽道

GameWorld的游戲庫按照玩法類型被分成五大類，每一類都在考驗AI的不同能力。

第一大類叫做"跑酷類"，共8款游戲，包括大名鼎鼎的Chrome恐龍跳躍、神廟逃亡2、Flappy Bird等。這類游戲的特點是場景永遠在向前推進，AI必須以極高的頻率做出反應——跳躍、閃避、轉彎，一旦慢了半拍，游戲就結束了。它考驗的是AI的"即時反應"能力，類似于人類在高速公路上駕駛時需要的那種快速判斷。

第二大類是"街機類"，共7款，比如吃豆人、打磚塊、貪吃蛇。這類游戲同樣節奏較快，但增加了多個移動實體需要同時追蹤的難度——AI不僅要控制自己的角色，還要同時關注多個敵人或目標的位置和動向，就像同時盯著棋盤上多顆棋子一樣。

第三大類是"平臺跳躍類"，共8款，代表作是馬里奧游戲、Vex 3等。這類游戲要求AI對物理規律有精準的理解——跳躍的時機、落點的判斷、與平臺邊緣的距離控制，差一點點就會掉下去，考驗的是空間感和精細操控能力。

第四大類是"解謎類"，共7款，包括2048、掃雷、Wordle、俄羅斯方塊、Hextris等。這類游戲的節奏慢得多，不要求快速反應，但要求AI能夠進行邏輯推理、規劃多步棋局、在有限信息下做出最優決策。對于那些以推理能力見長的AI來說，這里是它們最有可能表現出色的領域。

第五大類是"模擬經營類"，共4款，有Minecraft克隆版、猴子超市、火男水女等。這類游戲最為開放，沒有單一明確的目標，AI需要協調多個子任務、管理資源、在較長的時間跨度內保持策略一致性，是對AI綜合能力的最高考驗。

34款游戲里，每款都配備了5個不同的任務，共170個任務。這些任務都有精確的量化目標，比如"在這一關收集3枚硬幣"或者"在Wordle里用6次以內猜出答案"。任務說明用自然語言寫就，但執行全靠AI自己觀察畫面來決定下一步動作，沒有任何人工提示。

三、兩種參賽方式：高手與通才的對決

這個考場設計了兩種截然不同的"參賽資格"，對應兩類AI選手。

第一種叫做"電腦操控型"，專業術語是Computer-Use Agent，簡稱CUA。這類AI的能力就像一個真正操控電腦的人——它能直接發出鼠標點擊指令（點擊屏幕上某個坐標位置）和鍵盤按鍵指令（按下某個方向鍵或者組合鍵）。這種方式最接近人類玩游戲的方式，靈活性高，但對AI的精準度要求也極高。AI必須從畫面里判斷出該點哪里、該按什么鍵，差一個像素位置可能就是天壤之別。

第二種叫做"通用多模態型"，即Generalist Multimodal Agent。這類AI不直接處理鼠標坐標和具體按鍵，而是通過一套事先定義好的"語義動作"來控制游戲。舉個例子，在馬里奧游戲里，這類AI可以調用"向右走"、"跳躍"、"向右跳"等預設動作，系統會自動把這些語義動作轉換成對應的鍵盤操作。這樣的設計讓那些擅長理解語言和制定策略、但不擅長精確點擊坐標的AI也能參與測試。

兩種參賽方式在最底層使用的是同一套操控系統——所有動作最終都會被轉換成鼠標移動、鼠標按下/抬起、鍵盤按下/抬起、等待這幾種最基本的電腦操作指令。這確保了兩種AI在同一套標準下被比較，公平性得到保證。

為了讓AI能夠在較長時間內保持連貫的策略，研究團隊還為每個參賽AI配備了一套"工具箱"，包括結構化的提示模板（告訴AI當前在玩什么游戲、規則是什么、任務目標是什么）、滾動記憶模塊（記住最近幾輪的操作歷史）、推理能力，以及與各AI提供商原生接口對接的工具調用機制。

四、"暫停鍵"的妙用：讓評分更公平

游戲測試面臨一個棘手的現實問題：不同AI的"思考速度"差異巨大。一個小模型可能0.5秒就能給出下一步動作，而一個需要深度推理的大模型可能要花6秒甚至更長。在真實游戲里，這意味著大模型面對的游戲狀態已經比小模型更糟糕——因為游戲在它思考的那幾秒里仍然在繼續運行。這就好比讓一個反應快的人和一個反應慢的人比賽拍蒼蠅，卻在慢的人想動作的時候，讓蒼蠅多飛了幾圈——這顯然不公平。

GameWorld通過一個巧妙的機制解決了這個問題：沙盒暫停。當AI在處理當前畫面、進行推理、準備下一步動作時，游戲會自動暫停，等到AI給出指令后再繼續運行。這樣，每個AI面對的游戲狀態都是平等的，最終的得分反映的是"這個AI做了什么決策"，而不是"這個AI有多快"。

當然，研究團隊也意識到，真實世界里的AI應用不可能永遠有暫停鍵。于是他們另外設計了一個補充版本叫做GameWorld-RT（RT代表Real-Time，實時），在這個版本里游戲不會暫停，AI的思考速度本身就成為了影響成績的因素之一。兩個版本各有側重，主版本測試決策質量，RT版本測試綜合反應能力。

五、成績單怎么打分：從游戲內部讀數據

傳統游戲AI測試的評分方式有不少坑。有的直接截圖后用另一個AI來判斷"這步走得好不好"，這等于是讓一個可能犯錯的裁判去評判一場可能犯錯的比賽，誤差疊加，結果可信度大打折扣。有的用圖像識別技術來讀取畫面上的數字，但文字識別本身就有一定錯誤率。

GameWorld的做法是從游戲源代碼層面直接獲取數據。研究團隊為34款游戲分別注入了一段JavaScript橋接代碼，這段代碼能實時讀取游戲內部的狀態變量，比如當前得分、剩余生命、已收集硬幣數、角色坐標、關卡進度等，然后把這些數據以結構化格式直接提供給評分系統。在馬里奧游戲里，這些數據包括分數、關卡編號、進度百分比、玩家坐標、生命數、金幣數、剩余時間等十幾個精確數值，整個評分系統不需要"看"畫面，而是直接"讀"游戲內部數據，準確度接近100%。

每個任務對應兩個評分指標。第一個是"成功率"，是一個非0即1的指標——這次任務是否完成了目標。第二個是"進度"，是一個0到100%之間的連續數值，表示AI在這次任務里走了多遠。比如任務是"收集10枚硬幣"，AI收集了5枚就掛掉了，進度就是50%。引入進度這個指標非常重要，因為它能區分"什么都沒做就失敗"和"做到一半才失敗"這兩種截然不同的情況，給AI能力的刻畫提供了更細膩的維度。

當AI在游戲中觸發失敗條件（比如在馬里奧里掉進深淵），游戲不會立即結束整個測試，而是重置到任務起點，讓AI在剩余的操作步數預算里繼續嘗試，并保留這次嘗試中已經達到的最佳進度記錄。這意味著一次早期失誤不會把AI整場表現全部清零，評分更能反映AI的真實能力。

六、18支隊伍上場：成績出爐

研究團隊選擇了13個當前最具代表性的AI模型，形成18組模型與接口的搭配。其中包括來自Anthropic的Claude-Sonnet-4.6、谷歌的Gemini-2.5-Computer-Use和Gemini-3-Flash-Preview、Z.ai的GLM-4.6V、OpenAI的GPT-5.2和專屬電腦操控版、xAI的Grok-4.1-Fast-Reasoning、Moonshot的Kimi-K2.5、阿里巴巴的Qwen3-VL-Plus、字節跳動的Seed-1.8，以及三款開源模型Qwen3-VL-235B-A22B、Qwen3-VL-30B-A3B和UI-TARS-1.5-7B。

測試結果顯示，通用多模態型中成績最好的是谷歌的Gemini-3-Flash-Preview，整體進度得分達到41.9%，緊隨其后的是GPT-5.2（40.6%）、Claude-Sonnet-4.6（39.3%）和Seed-1.8（39.0%）。電腦操控型中成績最好的是Seed-1.8，進度得分為39.8%，Claude-Sonnet-4.6以38.3%緊跟其后。

這些數字乍看不低，但和人類玩家一比就相形見絀了。研究團隊找來了兩位計算機專業的研究生進行對照測試，在相同的操作步數限制下，完全沒有接觸過這些游戲和任務的新手玩家平均進度達到64.1%，成功率達到55.3%；而事先研究過游戲規則和任務細節的熟練玩家則達到了82.6%的進度和77.1%的成功率。最好的AI模型和最差的人類玩家之間，仍然存在約22個百分點的進度差距。

從游戲類型來看，AI在跑酷類游戲上的進度普遍相對較高，而在模擬經營類游戲上幾乎所有模型都表現糟糕——后者要求長期規劃和多目標協調，正好戳中了當前AI的軟肋。解謎類游戲成績參差不齊，邏輯推理強的模型表現相對較好，但遇到需要精準視覺判斷的場景（比如掃雷里讀取數字格局）仍然頻頻出錯。

七、五個能力等級的剖析

光看總分還不夠，研究團隊進一步把34款游戲按照它們主要考驗的能力類型，排列成一個五層的能力階梯，來診斷AI到底敗在哪里。

第一層叫做"基礎操控與時機把握"，對應的是最簡單的動作——在正確的時候按下正確的鍵。打磚塊、Core Ball、Stack這類游戲屬于這一層，戰略負擔輕，主要考察AI能不能把視覺判斷轉化為準確的操控動作。

第二層叫做"系統一式即時反應"（借用了心理學里的"系統一"概念，指的是快速、直覺性的判斷），對應持續高頻的動作決策，比如Chrome恐龍、Flappy Bird、神廟逃亡2等。這層考的是純粹的反應速度和動作穩定性。

第三層叫做"系統二式空間導航"，對應需要思考路徑、規劃行進方向的游戲，比如吃豆人、馬里奧、Wolfenstein 3D等。這里不只需要快，還需要在腦子里維持一個空間地圖。

第四層叫做"符號推理與策略"，對應解謎類游戲，需要AI理解規則、規劃多步棋局、在抽象狀態空間里做決策。Wordle、掃雷、2048、俄羅斯方塊屬于這一層。

第五層叫做"開放世界協調與管理"，對應模擬經營類游戲，是最復雜的，要求AI同時追蹤多個目標、管理資源、在長時間跨度里保持策略一致性。

測試結果揭示了一個清晰的能力圖譜：無論是通用型還是電腦操控型AI，在第四層（策略推理）和第二層（即時反應）的成績相對較好，而在第一層（基礎時機把握）和第五層（長期協調）的成績則明顯偏低。換句話說，AI在做"想清楚該做什么"這件事上已經有了相當水平，但在"恰好在對的時刻做"和"幾十步之后還能記得最初目標"這兩點上，仍然存在顯著短板。

八、重復測試：這個考場靠譜嗎

一套評測系統要有價值，首先要穩定——同一個AI今天考和明天考，成績應該大差不差，否則這個成績就沒有參考意義。研究團隊對此進行了嚴格驗證，選取了Qwen3-VL-30B-A3B和Qwen3-VL-235B-A22B兩個開源模型，每個模型在電腦操控和通用兩種接口下各運行10次完整的全量測試，合計覆蓋170個任務的10輪重復。

結果顯示，四種搭配的整體進度得分標準差都在1.1個百分點左右，成功率的波動也同樣有限。這意味著GameWorld確實能夠作為一個穩定的測量平臺來使用，而不是一次性的快照。當然，也有少數游戲（比如Hextris、Cubefield、Wordle）表現出了更明顯的輪次間波動，這恰恰說明這些游戲是真正有挑戰性、有區分度的項目，能夠捕捉到AI能力的細微差異。

九、記憶長短的權衡：上下文越多越好？

研究團隊還專門研究了AI的"記憶量"對成績的影響。每一步操作時，AI可以選擇攜帶多少輪歷史記錄。記0輪意味著AI每次都像第一次看到游戲一樣，忘記了之前所有操作；記2輪意味著AI能看到最近兩輪的操作歷史。

測試結果揭示了一個有趣的分歧：對于通用型AI，記憶輪數從0增加到2時，進度得分有小幅提升；但對于電腦操控型AI，隨著記憶輪數增加，成績反而持續下降。背后的原因也不難理解——通用型AI的歷史記錄是語義化的（"我上次向右走了"），信息密度高，有助于避免重復錯誤；而電腦操控型AI的歷史記錄是底層坐標和按鍵序列（"我上次點擊了坐標(512, 384)"），信息量雖大但語義稀疏，大量低價值的歷史信息反而成了干擾。

與此同時，記憶量增加帶來的推理時間代價非常顯著。通用型AI從0輪記憶到2輪記憶，每步的平均時間從5.5秒增加到8.6秒，輸入的token數量從約1300增加到約3000；電腦操控型則從約1900 token增加到約5600 token，每步時間從7.2秒增加到12.8秒。記憶不是免費的，使用時需要權衡。

十、指令遵守率：AI有時候會"忘記規則"

游戲測試里還有一個微妙但重要的指標：AI發出的動作是否在游戲允許的范圍之內。研究團隊統計了每個模型的"無效動作率"，也就是那些不符合規則、無法被執行的動作占所有動作的比例。

結果顯示，大多數頂尖模型的無效動作率極低，接近于零。但也有例外——GLM-4.6V的無效動作率高達8.3%，主要問題是它發出了自然語言文字而不是工具調用格式的指令，意思說得清楚，但格式不對；Qwen3-VL-30B-A3B的無效動作率為2.7%，主要是在長時間對話后"忘記"了當前游戲允許的動作范圍，調用了不存在的指令。UI-TARS-1.5-7B則有0.4%的動作落在了游戲規定的操控范圍之外。這些數據揭示了一個實際問題：在長時間的交互序列中，模型有一定概率出現"指令漂移"，忘記約束條件或者格式要求，這在實際應用中是必須被重視的可靠性問題。

十一、實時版的挑戰：思考和行動必須同時在線

GameWorld-RT版本的測試給出了一個清醒的提示。在不暫停的實時環境下，Qwen3-VL-30B-A3B平均每步只需要2.4秒（通用型）或2.4秒（電腦操控型），而Qwen3-VL-235B-A22B則需要6秒以上。速度快的小模型整體進度約為33%，速度慢但更聰明的大模型整體進度約為33-34%，兩者成績接近，說明在實時環境里，單純的"想得快"或者"想得對"都不足以拉開差距，真正的挑戰是同時做到兩者。

值得注意的是，實時版的成績不能和暫停版直接比較，因為在實時版里，AI思考的那幾秒游戲仍在繼續運行，實際上等于給了AI更長的"游戲時間"但更短的"有效決策窗口"。這兩個版本測量的是不同維度的能力，相輔相成。

十二、失敗的四種面孔

研究團隊通過仔細分析失敗案例，歸納出了AI在游戲里失敗的四類典型模式，像是四種不同類型的"考試失分點"。

第一類是感知失誤：AI看錯了畫面，把障礙物認成了空地，或者誤判了自己角色的位置，導致錯誤的決策。這類錯誤在畫面復雜或者信息密集的場景里尤為突出。

第二類是精細動作失誤：AI理解了該做什么，但在執行層面出了問題——跳晚了半拍、按鍵時間太短或太長、組合鍵的時序不對。策略正確，執行偏差。

第三類是指令遵循失誤：AI在長時間交互后逐漸偏離了任務目標，開始執行一些無關動作，或者嘗試調用不存在的操控指令，甚至忽視了任務的核心要求。

第四類是長期記憶失誤：AI在多步任務里丟失了關鍵的歷史信息，陷入重復循環——比如一直走同一條路、一遍又一遍地做同樣的無效動作，卻無法意識到自己在打轉，更無法自我糾正。

這四類失敗模式提供了清晰的改進方向：更好的視覺理解、更精準的動作控制、更強的長期記憶，以及更穩健的指令遵循能力。

歸根結底，GameWorld想要回答的問題是：我們的AI，真的準備好應對復雜的現實世界了嗎？答案是：還沒有，但我們終于有了一把能夠精確量尺來持續丈量這段距離。

當前最好的AI模型在游戲里的表現，和一個沒有特別準備的普通人相比，仍然有將近22個百分點的進度差距。這個差距既存在于需要快速反應的動作層面，也存在于需要長時間規劃的策略層面，更存在于在數十步操作之后仍然記得"我的最終目標是什么"的記憶層面。

對于普通人來說，這項研究意味著：當你聽說某個AI"能玩游戲"的時候，不妨多問一句——它能完成任務嗎，還是只是在隨機按鍵？而GameWorld這把尺子，正是為了讓這個問題有一個清晰、可重復、可驗證的答案而存在的。有興趣深入了解技術細節的讀者，可以通過arXiv:2604.07429查閱完整研究報告。

Q&A

Q1：GameWorld基準測試和其他AI游戲測試平臺有什么區別？

A：GameWorld最核心的區別在于評分方式。它不依賴截圖識別或另一個AI來判斷成績，而是直接從游戲源代碼內部讀取數據，比如得分、坐標、硬幣數等，評分結果完全確定、可重現。此外，它通過暫停機制把AI的思考速度和決策質量分開考察，確保評分公平，而不是讓反應快的AI天然占優。

Q2：GameWorld里哪類游戲對AI來說最難？

A：模擬經營類游戲對幾乎所有AI來說都是最大的挑戰，因為這類游戲需要同時協調多個目標、管理資源，并在幾十步操作后仍然記得最初的策略方向。測試結果顯示，大多數模型在猴子超市、Minecraft這類游戲上的成功率接近于零，進度得分也普遍偏低。

Q3：GameWorld測試用的是哪些AI模型，開源模型表現怎么樣？

A：測試涵蓋了Claude、Gemini、GPT-5.2、Grok、Kimi等主流商業模型，以及Qwen3-VL-235B-A22B、Qwen3-VL-30B-A3B和UI-TARS-1.5-7B三款開源模型。開源模型的總體進度得分在30%至31%之間，低于表現最好的商業模型約10個百分點，但穩定性經過10輪重復測試驗證，波動在1.1%以內，表現具有可重現性。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.