網易首頁 > 網易號 > 正文申請入駐

復旦Game-RL用游戲數據解鎖增強VLM通用推理新路徑

2025-10-21 18:33:19　來源: wisemodel開源社區

北京舉報

分享至

始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在，歡迎加入共同成長。

現有工作利用RL提升了視覺語言模型（VLM）的推理能力，但其任務場景往往是幾何或者圖表推理。這種領域上的局限，制約了VLM的探索和學習。如何拓展VLM的RL訓練領域呢？

電子游戲視覺元素豐富，且規則明確而可驗證，因而是理想的多模態推理數據源。由此，復旦大學NLP實驗室的研究團隊提出了Game-RL——構造多模態可驗證的游戲任務來強化訓練VLM。為獲得訓練數據（如圖1的示例），研究人員還提出了新穎的Code2Logic方法，通過游戲代碼系統化合成數據。

圖1：GameQA數據集中各游戲類別的代表性游戲：3D重建、七巧板（變體）、數獨和推箱子。各游戲展示兩個視覺問答示例，包含當前游戲狀態圖片，相應的問題，以及逐步推理過程和答案。

Code2Logic方法創新性地基于游戲代碼合成多模態可驗證游戲任務數據。如圖2，利用強LLM生成游戲代碼、設計任務及其模板、構建數據引擎代碼，最后只要執行代碼便能自動生成數據。

圖2：Code2Logic方法，借助LLM通過三個核心步驟將游戲代碼轉換為推理數據。第一步：游戲代碼構建；第二步：游戲任務及其QA模板設計；第三步：數據引擎構建，基于前兩步構建自動化程序，然后只要執行代碼就能自動批量生成數據。

目前研究成果均已上線始智AI-wisemodel開源社區，歡迎體驗。

模型和數據集地址

https://www.wisemodel.cn/organization/Code2Logic

01.

GameQA豐富的游戲任務數據集

利用Code2Logic方法構建了GameQA數據集，這些多模態可驗證游戲數據可以用于VLM推理能力的訓練和評測。

GameQA有：4大認知能力類別、30個游戲（如圖3）、158個推理任務、14萬個問答對。

難度分級：任務按難度分三級；樣本按視覺輸入復雜度分三級。

圖3：GameQA的30個游戲，分為4個認知能力類別，涵蓋3D空間推理、模式識別與匹配、多步推理、策略規劃。20個域內游戲用于訓練和測試，而10個域外游戲不參與訓練，用于測試模型在未見游戲場景下的泛化能力。

02.

Game-RL可提升VLM的通用推理

在GameQA上使用GRPO訓練，4個開源VLM在7個完全域外的通用視覺語言推理基準上均取得提升（Qwen2.5-VL-7B平均提升2.33%），展現出跨領域泛化，如表1。

表1：通用視覺語言推理基準上的評測結果

03.

GameQA匹敵幾何數據集

研究團隊用GameQA和幾何與圖表推理數據集進行對比訓練，發現GameQA可與之匹敵。

如表2，盡管訓練數據量更少且領域不匹配，但GameQA訓的模型在通用基準上總體表現很有競爭力。而且在MathVista與MathVerse這兩個和幾何與函數推理有關的基準上，Game竟能匹敵更「對口」的幾何推理數據訓練。

這表明游戲中的認知多樣性和推理復雜性，具有通用性和遷移能力。

表2：對比訓練，5K GameQA樣本 vs. 8K MAVIS（幾何與函數視覺推理）vs. 8K Multimodal-Open-R1（以幾何推理為主）vs. 8K MultiMath（綜合的數學領域多模態推理），GameQA訓練的模型總體很有競爭力，實驗也顯示混合訓練（MultiMath中加入GameQA數據）能助力模型提得更多。

04.

訓練數據量和游戲個數的影響

數據量的Scaling Effect：加大訓練的GameQA數據量至20K，實驗顯示，模型在通用推理基準上的表現總體呈持續提升，如圖4。

圖4：訓練數據量的Scaling Effect

游戲個數的Scaling Effect：隨著訓練的游戲種類變多，域外泛化效果增強，如圖5。

圖5：使用20種游戲的任務訓練，模型在域外通用基準上的提升優于使用4種或10種游戲的配置。

05.

Game-RL后模型能力提升在哪？

為更好理解Game-RL對VLM推理能力的提升，研究團隊隨機采樣了案例進行了細致的人工分析。結果顯示，Game-RL后，模型在視覺感知和文本推理兩個方面都有提升，如圖6。

圖6：人工定性分析得知模型的視覺感知和文本推理能力均有提升。上方的兩個餅圖分別是域外通用基準上，視覺感知和文本推理能力的變化情況，下方是視覺感知能力提升的一個案例。

研究提出了Game-RL以及游戲數據合成方法Code2Logic，構建了GameQA數據集，將VLM強化訓練領域拓展到游戲場景。通過實驗，研究團隊驗證了Game-RL能提升VLM的通用推理。進一步而言，也揭示了游戲場景可以提供多模態、可控、可驗證數據，具有重要價值。

----- END -----

wisemodel相關：

系列模型：

關于wisemodel更多

歡迎持續關注和支持

開源社區建設需要長期堅持和投入，更需要廣大用戶的積極參與、貢獻和維護，歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果，包括模型、數據集和代碼等發布到 wisemodel.cn 社區，共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信，申請加入wisemodel社群，持續關注wisemodel.cn開源社區動態。

歡迎加盟wisemodel開源社區

始智AI wisemodel社區自2023年9月上線以來，逐漸成為影響力日益擴大的中立開放的AI開源社區，為了加快公司發展，我們長期需要技術、運營等人才加盟，技術側重在AI infra、后端開發，熟悉K8S、模型訓練和推理等技術，以及熟悉開發者生態運營的成員，歡迎感興趣的朋友加盟，可以通過添加wisemodel微信，或者將簡歷投遞到郵箱：liudaoquan@wisemodel.cn

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果，鼓勵高校實驗室、大企業研究團隊、個人等，在wisemodel平臺上分享各類優質內容，可以是AI領域最新論文解讀、最新開源成果介紹，也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn，也可以掃碼添加wisemodel微信。

關于wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立，旨在打造和建設中立開放的AI開源創新社區，將打造成“HuggingFace”之外最活躍的AI開源社區，匯聚主要AI開源模型、數據集和代碼等，歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者，以及政府部門、學會協會、聯盟、基金會等，還有投資機構、科技媒體等，共同參與建設AI開源創新生態。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.