![]()
始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在,歡迎加入共同成長。
現有工作利用RL提升了視覺語言模型(VLM)的推理能力,但其任務場景往往是幾何或者圖表推理。這種領域上的局限,制約了VLM的探索和學習。如何拓展VLM的RL訓練領域呢?
電子游戲視覺元素豐富,且規則明確而可驗證,因而是理想的多模態推理數據源。由此,復旦大學NLP實驗室的研究團隊提出了Game-RL——構造多模態可驗證的游戲任務來強化訓練VLM。為獲得訓練數據(如圖1的示例),研究人員還提出了新穎的Code2Logic方法,通過游戲代碼系統化合成數據。
![]()
圖1:GameQA數據集中各游戲類別的代表性游戲:3D重建、七巧板(變體)、數獨和推箱子。各游戲展示兩個視覺問答示例,包含當前游戲狀態圖片,相應的問題,以及逐步推理過程和答案。
Code2Logic方法創新性地基于游戲代碼合成多模態可驗證游戲任務數據。如圖2,利用強LLM生成游戲代碼、設計任務及其模板、構建數據引擎代碼,最后只要執行代碼便能自動生成數據。
![]()
圖2:Code2Logic方法,借助LLM通過三個核心步驟將游戲代碼轉換為推理數據。第一步:游戲代碼構建;第二步:游戲任務及其QA模板設計;第三步:數據引擎構建,基于前兩步構建自動化程序,然后只要執行代碼就能自動批量生成數據。
目前研究成果均已上線始智AI-wisemodel開源社區,歡迎體驗。
![]()
模型和數據集地址
https://www.wisemodel.cn/organization/Code2Logic
01.
GameQA豐富的游戲任務數據集
利用Code2Logic方法構建了GameQA數據集,這些多模態可驗證游戲數據可以用于VLM推理能力的訓練和評測。
GameQA有:4大認知能力類別、30個游戲(如圖3)、158個推理任務、14萬個問答對。
難度分級:任務按難度分三級;樣本按視覺輸入復雜度分三級。
![]()
圖3:GameQA的30個游戲,分為4個認知能力類別,涵蓋3D空間推理、模式識別與匹配、多步推理、策略規劃。20個域內游戲用于訓練和測試,而10個域外游戲不參與訓練,用于測試模型在未見游戲場景下的泛化能力。
02.
Game-RL可提升VLM的通用推理
在GameQA上使用GRPO訓練,4個開源VLM在7個完全域外的通用視覺語言推理基準上均取得提升(Qwen2.5-VL-7B平均提升2.33%),展現出跨領域泛化,如表1。
![]()
表1:通用視覺語言推理基準上的評測結果
03.
GameQA匹敵幾何數據集
研究團隊用GameQA和幾何與圖表推理數據集進行對比訓練,發現GameQA可與之匹敵。
如表2,盡管訓練數據量更少且領域不匹配,但GameQA訓的模型在通用基準上總體表現很有競爭力。而且在MathVista與MathVerse這兩個和幾何與函數推理有關的基準上,Game竟能匹敵更「對口」的幾何推理數據訓練。
這表明游戲中的認知多樣性和推理復雜性,具有通用性和遷移能力。
![]()
表2:對比訓練,5K GameQA樣本 vs. 8K MAVIS(幾何與函數視覺推理)vs. 8K Multimodal-Open-R1(以幾何推理為主)vs. 8K MultiMath(綜合的數學領域多模態推理),GameQA訓練的模型總體很有競爭力,實驗也顯示混合訓練(MultiMath中加入GameQA數據)能助力模型提得更多。
04.
訓練數據量和游戲個數的影響
數據量的Scaling Effect:加大訓練的GameQA數據量至20K,實驗顯示,模型在通用推理基準上的表現總體呈持續提升,如圖4。
![]()
圖4:訓練數據量的Scaling Effect
游戲個數的Scaling Effect:隨著訓練的游戲種類變多,域外泛化效果增強,如圖5。
![]()
圖5:使用20種游戲的任務訓練,模型在域外通用基準上的提升優于使用4種或10種游戲的配置。
05.
Game-RL后模型能力提升在哪?
為更好理解Game-RL對VLM推理能力的提升,研究團隊隨機采樣了案例進行了細致的人工分析。結果顯示,Game-RL后,模型在視覺感知和文本推理兩個方面都有提升,如圖6。
![]()
圖6:人工定性分析得知模型的視覺感知和文本推理能力均有提升。上方的兩個餅圖分別是域外通用基準上,視覺感知和文本推理能力的變化情況,下方是視覺感知能力提升的一個案例。
研究提出了Game-RL以及游戲數據合成方法Code2Logic,構建了GameQA數據集,將VLM強化訓練領域拓展到游戲場景。通過實驗,研究團隊驗證了Game-RL能提升VLM的通用推理。進一步而言,也揭示了游戲場景可以提供多模態、可控、可驗證數據,具有重要價值。
----- END -----
![]()
wisemodel相關:
系列模型:
關于wisemodel更多
1
歡迎持續關注和支持
開源社區建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果,包括模型、數據集和代碼等發布到 wisemodel.cn 社區,共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續關注wisemodel.cn開源社區動態。
2
歡迎加盟wisemodel開源社區
始智AI wisemodel社區自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區,為了加快公司發展,我們長期需要技術、運營等人才加盟,技術側重在AI infra、后端開發,熟悉K8S、模型訓練和推理等技術, 以及熟悉開發者生態運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn
3
歡迎投稿優質內容
歡迎投稿分享人工智能領域相關的優秀研究成果,鼓勵高校實驗室、大企業研究團隊、個人等,在wisemodel平臺上分享各類優質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。
4
關于wisemodel開源社區
始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立,旨在打造和建設中立開放的AI開源創新社區,將打造成“HuggingFace”之外最活躍的AI開源社區,匯聚主要AI開源模型、數據集和代碼等,歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者,以及政府部門、學會協會、聯盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創新生態。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.