337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

復旦Game-RL用游戲數據解鎖增強VLM通用推理新路徑

0
分享至


始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在,歡迎加入共同成長。

現有工作利用RL提升了視覺語言模型(VLM)的推理能力,但其任務場景往往是幾何或者圖表推理。這種領域上的局限,制約了VLM的探索和學習。如何拓展VLM的RL訓練領域呢?

電子游戲視覺元素豐富,且規則明確而可驗證,因而是理想的多模態推理數據源。由此,復旦大學NLP實驗室的研究團隊提出了Game-RL——構造多模態可驗證的游戲任務來強化訓練VLM。為獲得訓練數據(如圖1的示例),研究人員還提出了新穎的Code2Logic方法,通過游戲代碼系統化合成數據。


圖1:GameQA數據集中各游戲類別的代表性游戲:3D重建、七巧板(變體)、數獨和推箱子。各游戲展示兩個視覺問答示例,包含當前游戲狀態圖片,相應的問題,以及逐步推理過程和答案。

Code2Logic方法創新性地基于游戲代碼合成多模態可驗證游戲任務數據。如圖2,利用強LLM生成游戲代碼、設計任務及其模板、構建數據引擎代碼,最后只要執行代碼便能自動生成數據。


圖2:Code2Logic方法,借助LLM通過三個核心步驟將游戲代碼轉換為推理數據。第一步:游戲代碼構建;第二步:游戲任務及其QA模板設計;第三步:數據引擎構建,基于前兩步構建自動化程序,然后只要執行代碼就能自動批量生成數據。

目前研究成果均已上線始智AI-wisemodel開源社區,歡迎體驗。


模型和數據集地址

https://www.wisemodel.cn/organization/Code2Logic

01.

GameQA豐富的游戲任務數據集

利用Code2Logic方法構建了GameQA數據集,這些多模態可驗證游戲數據可以用于VLM推理能力的訓練和評測。

GameQA有:4大認知能力類別、30個游戲(如圖3)、158個推理任務、14萬個問答對。

難度分級:任務按難度分三級;樣本按視覺輸入復雜度分三級。


圖3:GameQA的30個游戲,分為4個認知能力類別,涵蓋3D空間推理、模式識別與匹配、多步推理、策略規劃。20個域內游戲用于訓練和測試,而10個域外游戲不參與訓練,用于測試模型在未見游戲場景下的泛化能力。

02.

Game-RL可提升VLM的通用推理

在GameQA上使用GRPO訓練,4個開源VLM在7個完全域外的通用視覺語言推理基準上均取得提升(Qwen2.5-VL-7B平均提升2.33%),展現出跨領域泛化,如表1。


表1:通用視覺語言推理基準上的評測結果

03.

GameQA匹敵幾何數據集

研究團隊用GameQA和幾何與圖表推理數據集進行對比訓練,發現GameQA可與之匹敵

如表2,盡管訓練數據量更少且領域不匹配,但GameQA訓的模型在通用基準上總體表現很有競爭力。而且在MathVista與MathVerse這兩個和幾何與函數推理有關的基準上,Game竟能匹敵更「對口」的幾何推理數據訓練。

這表明游戲中的認知多樣性和推理復雜性,具有通用性和遷移能力。


表2:對比訓練,5K GameQA樣本 vs. 8K MAVIS(幾何與函數視覺推理)vs. 8K Multimodal-Open-R1(以幾何推理為主)vs. 8K MultiMath(綜合的數學領域多模態推理),GameQA訓練的模型總體很有競爭力,實驗也顯示混合訓練(MultiMath中加入GameQA數據)能助力模型提得更多。

04.

訓練數據量和游戲個數的影響

數據量的Scaling Effect:加大訓練的GameQA數據量至20K,實驗顯示,模型在通用推理基準上的表現總體呈持續提升,如圖4。


圖4:訓練數據量的Scaling Effect

游戲個數的Scaling Effect:隨著訓練的游戲種類變多,域外泛化效果增強,如圖5。


圖5:使用20種游戲的任務訓練,模型在域外通用基準上的提升優于使用4種或10種游戲的配置。

05.

Game-RL后模型能力提升在哪?

為更好理解Game-RL對VLM推理能力的提升,研究團隊隨機采樣了案例進行了細致的人工分析。結果顯示,Game-RL后,模型在視覺感知和文本推理兩個方面都有提升,如圖6。


圖6:人工定性分析得知模型的視覺感知和文本推理能力均有提升。上方的兩個餅圖分別是域外通用基準上,視覺感知和文本推理能力的變化情況,下方是視覺感知能力提升的一個案例。

研究提出了Game-RL以及游戲數據合成方法Code2Logic,構建了GameQA數據集,將VLM強化訓練領域拓展到游戲場景。通過實驗,研究團隊驗證了Game-RL能提升VLM的通用推理。進一步而言,也揭示了游戲場景可以提供多模態、可控、可驗證數據,具有重要價值。

----- END -----


wisemodel相關:

系列模型:

關于wisemodel更多

1

歡迎持續關注和支持

開源社區建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果,包括模型、數據集和代碼等發布到 wisemodel.cn 社區,共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續關注wisemodel.cn開源社區動態。

2

歡迎加盟wisemodel開源社區

始智AI wisemodel社區自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區,為了加快公司發展,我們長期需要技術、運營等人才加盟,技術側重在AI infra、后端開發,熟悉K8S、模型訓練和推理等技術, 以及熟悉開發者生態運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果,鼓勵高校實驗室、大企業研究團隊、個人等,在wisemodel平臺上分享各類優質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關于wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立,旨在打造和建設中立開放的AI開源創新社區,將打造成“HuggingFace”之外最活躍的AI開源社區,匯聚主要AI開源模型、數據集和代碼等,歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者,以及政府部門、學會協會、聯盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創新生態。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
以牙還牙!俄羅斯和伊朗背水一戰,出手就是殺招,美軍吃了大苦頭

以牙還牙!俄羅斯和伊朗背水一戰,出手就是殺招,美軍吃了大苦頭

戀人視角
2026-03-31 08:56:14
日本警察廳就自衛隊員強闖中國使館事件召開會議,日本警察廳長:該事件“極為特殊且性質嚴重”

日本警察廳就自衛隊員強闖中國使館事件召開會議,日本警察廳長:該事件“極為特殊且性質嚴重”

每日經濟新聞
2026-03-30 18:03:24
樓市跌、股市割、消費降,中國中產的體面,徹底碎了!

樓市跌、股市割、消費降,中國中產的體面,徹底碎了!

新浪財經
2026-03-30 13:06:32
被迫床上試戲?33號遠征隊"女主"曝自己重大失誤

被迫床上試戲?33號遠征隊"女主"曝自己重大失誤

游民星空
2026-03-29 22:04:14
意大利媳婦被中國企業裁員,心灰意冷帶著山東丈夫回到意大利

意大利媳婦被中國企業裁員,心灰意冷帶著山東丈夫回到意大利

北緯的咖啡豆
2026-03-30 19:32:43
5-4擊敗南美勁旅,烏茲別克斯坦連克強敵,取得FIFA系列賽冠軍

5-4擊敗南美勁旅,烏茲別克斯坦連克強敵,取得FIFA系列賽冠軍

俯身沖頂
2026-03-31 02:48:12
7年敗光數億,55歲王中磊落魄,被迫拍短視頻還債,兒子在美瀟灑

7年敗光數億,55歲王中磊落魄,被迫拍短視頻還債,兒子在美瀟灑

以茶帶書
2026-03-30 18:03:47
鳳凰傳奇淋雨沖上熱搜,官媒火速批評,背后真相讓人背后一涼

鳳凰傳奇淋雨沖上熱搜,官媒火速批評,背后真相讓人背后一涼

一盅情懷
2026-03-30 22:55:27
一個扎心的真相:大多數普通家庭的孩子,12歲前天賦就被耗盡了

一個扎心的真相:大多數普通家庭的孩子,12歲前天賦就被耗盡了

戶外阿毽
2026-03-30 12:01:47
NBA官宣!楊瀚森生涯首個技犯正式被撤銷 成功省下2000美元

NBA官宣!楊瀚森生涯首個技犯正式被撤銷 成功省下2000美元

追球者
2026-03-31 08:50:52
上海跨國律所合伙人60萬買瀘州老窖,25年狂賺超500萬

上海跨國律所合伙人60萬買瀘州老窖,25年狂賺超500萬

真實人物采訪
2026-03-30 08:40:03
“生女兒的,再厲害也是給我兒子服務!”家長低認知發言,被群嘲

“生女兒的,再厲害也是給我兒子服務!”家長低認知發言,被群嘲

妍妍教育日記
2026-03-30 18:56:05
俄羅斯不賣油了!普京禁令一下,最慘的不是歐洲,而是兩個鄰國

俄羅斯不賣油了!普京禁令一下,最慘的不是歐洲,而是兩個鄰國

人類的關注
2026-03-31 07:14:31
淚目!全紅嬋哽咽揭秘體重增加:每天只吃1頓,接受不了這么胖

淚目!全紅嬋哽咽揭秘體重增加:每天只吃1頓,接受不了這么胖

李喜林籃球絕殺
2026-03-30 11:48:54
李毅教授這樣說牢A,有點太過分了,讓沈逸教授情何以堪

李毅教授這樣說牢A,有點太過分了,讓沈逸教授情何以堪

讀鬼筆記
2026-03-30 20:32:04
手機錄入車牌30天有效 江蘇高速沒ETC也能“無感”通行

手機錄入車牌30天有效 江蘇高速沒ETC也能“無感”通行

金臺資訊
2026-03-31 07:25:40
斯諾克重大變革:世錦賽母球變綠,威爾遜點贊討論

斯諾克重大變革:世錦賽母球變綠,威爾遜點贊討論

譚顳愛搞笑
2026-03-31 09:32:50
杜月笙的手段有多毒辣?得知小妾對他不忠,他的處理方式讓人害怕

杜月笙的手段有多毒辣?得知小妾對他不忠,他的處理方式讓人害怕

千秋文化
2026-03-27 20:20:26
屢屢伏擊之后,黎巴嫩真主黨攻入以色列境內!

屢屢伏擊之后,黎巴嫩真主黨攻入以色列境內!

勝研集
2026-03-31 00:01:36
三國與伊朗達成協議

三國與伊朗達成協議

陸棄
2026-03-30 09:28:22
2026-03-31 10:15:00
wisemodel開源社區 incentive-icons
wisemodel開源社區
始智AI wisemodel.cn開源社區,打造中國版“huggingface”
466文章數 14關注度
往期回顧 全部

科技要聞

尚未正式宣發,國行蘋果AI半夜"意外閃現"

頭條要聞

媒體:鄭麗文"欣然接受大陸邀請" 實則承受著各種壓力

頭條要聞

媒體:鄭麗文"欣然接受大陸邀請" 實則承受著各種壓力

體育要聞

想進世界杯,意大利還要過他這一關

娛樂要聞

全紅嬋聊到體重哭了,每天只吃一頓飯

財經要聞

助貸被約談背后:誰在「吞噬」你的借款?

汽車要聞

限時12.58萬起 銀河星耀8遠航家系列上市

態度原創

手機
藝術
本地
時尚
房產

手機要聞

蘋果iOS 26.5 Beta版系統仍缺少全新Siri,預計iOS 27上線

藝術要聞

毛主席手稿真偽成焦點!你還在用錯紙練書法嗎?

本地新聞

用Color Walk的方式解鎖城市春日

媽媽們的人生,不該只有一個選項

房產要聞

信號!三亞官方,大規模收房!

無障礙瀏覽 進入關懷版