337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

OmniGAIA: 全模態(tài)AI智能體新基準,最強開源模型僅13分!

0
分享至


人大&小紅書推出OmniGAIA基準和OmniAtlas智能體。

人類的智能是自然交織的——我們不僅同時用眼睛看、用耳朵聽、用語言交流,還能進行復(fù)雜的長邏輯鏈推理,并在遇到難題時熟練使用搜索引擎等外部工具來輔助自己完成任務(wù)。

然而,當前爆火的“多模態(tài)大模型(MLLM)”大多仍局限于“圖文”或“音文”的雙模態(tài)交互。它們嚴重缺乏作為“通用AI助手”所必需的全模態(tài)統(tǒng)籌、長程推理與工具調(diào)用能力。

為了填補這一空白,中國人民大學(xué)聯(lián)合小紅書、東南大學(xué)、浙江大學(xué)和清華大學(xué)的研究團隊重磅推出了 OmniGAIA——一個專為評估“原生全模態(tài)AI智能體”而設(shè)計的新基準,并同時開源了配套的基礎(chǔ)智能體訓(xùn)練秘籍 OmniAtlas!

該工作不僅揭示了當前開源模型與頂尖閉源模型之間的巨大“智能鴻溝”,更給出了一套讓大模型真正學(xué)會“看、聽、想與用工具”的實戰(zhàn)配方。目前代碼、數(shù)據(jù)、模型已全面開源!


論文鏈接: https://arxiv.org/pdf/2602.22897

代碼&Demo:https://github.com/RUC-NLPIR/OmniGAIA

數(shù)據(jù)集&模型:https://huggingface.co/collections/RUC-NLPIR/omnigaia

排行榜:https://huggingface.co/spaces/RUC-NLPIR/OmniGAIA-LeaderBoard

01


Demo

1. 圖片+音頻任務(wù):計算圖片和音頻中兩個事件發(fā)生時間相隔多久?

2. 帶音頻的視頻任務(wù):視頻中講者提到了一個某電影中的橋,請幫我調(diào)研其背景。

02


痛點直擊:現(xiàn)有的評測為什么不夠看

隨著 Qwen3-Omni、Gemini-3 等全模態(tài)大模型的涌現(xiàn),模型已經(jīng)能在單一網(wǎng)絡(luò)內(nèi)統(tǒng)一處理文本、視覺和音頻。但現(xiàn)有的評測基準(如 OmniBench、WorldSense 等)大多基于極短的音視頻,且題型多為重“感知”的多項選擇題。

在真實世界中,我們需要 AI 解決的問題是這樣的:

“視頻里導(dǎo)游指著遠處的那座活動橋,解說提到這讓他想起了電影《福祿雙霸天》。請問這座橋到底叫什么名字?在1979年電影開拍時,這座橋已經(jīng)建成了多少年?”


這就要求 AI 不能只會“看圖說話”,它必須面對幾十分鐘的長視頻,從中錨定地理位置,主動去搜索引擎查證橋的真實名字和建成年份,最后進行相關(guān)計算。

現(xiàn)有的評測測不出這種能力,OmniGAIA因此應(yīng)運而生!

03


OmniGAIA:全模態(tài)智能體的新基準

OmniGAIA 包含360個源自真實世界的高難度任務(wù),覆蓋地理、歷史、科技等 9 大垂直領(lǐng)域。輸入不僅包含時長數(shù)十分鐘的“視頻+音頻”,還有復(fù)雜的“圖片+音頻”組合。模型不能靠盲猜,必須多次調(diào)用外部工具才能得出唯一可驗證的開放式最終答案。

它是如何構(gòu)建出來的?——首創(chuàng)全模態(tài)事件圖譜驅(qū)動法


為了自動合成邏輯嚴密且防作弊的高難度QA,團隊設(shè)計了一套極其精妙的流水線:

1.數(shù)據(jù)收集從 FineVideo、LongVideoBench、LongVideo-Reason、COCO 2017 以及HuggingFace 中篩選并整理視頻(含音頻)及“圖像+音頻”數(shù)據(jù)源,覆蓋 100 多個不同的垂直領(lǐng)域。

2.高價值信息挖掘使用Gemini-3-Flash 提取事件、進行環(huán)境分析、音頻分析(包含自動語音識別 ASR、說話人身份識別 Speaker ID)以及圖像理解(包含光學(xué)字符識別 OCR、物體識別、人臉識別)。

3.智能體全模態(tài)事件圖譜構(gòu)建DeepSeek-V3.2通過規(guī)劃后續(xù)步驟、利用工具獲取新信息,并結(jié)合大語言模型 (LLM) 的自我反思(self-reflexion) 與人工審查來驗證事實準確性,從而迭代式地擴展初始事件圖譜。

4.問答生成與質(zhì)量審查通過事件模糊化(fuzzification) 生成高難度的多跳(multi-hop) 問答對,隨后由 LLM 和人工共同驗證其準確性、任務(wù)難度以及答案的唯一性。

04


OmniAtlas:原生全模態(tài)智能體基座模型

在嚴苛的測試下,早期的開源模型表現(xiàn)較差。為了提升開源全模態(tài)模型的 Agent 能力,團隊不僅提出了基準,更給出了一套開源解法與完整的“訓(xùn)練秘籍”——OmniAtlas。


它遵循工具集成推理范式,包含三大核心殺手锏:

1.主動全模態(tài)感知(Active Perception)

面對超長視頻或高清大圖,傳統(tǒng)的“全局降采樣”會丟失大量細節(jié)。OmniAtlas 賦予了模型“指哪看哪、聽哪”的特技!它可以通過內(nèi)置工具(read_video / read_audio / read_image)精準截取特定時間段的視頻或裁剪特定區(qū)域的圖片,實現(xiàn)高保真的按需感知。

2.高質(zhì)量軌跡合成與監(jiān)督微調(diào)

團隊利用強大的推理模型進行“后見之明引導(dǎo)的樹探索”,在已知正確答案的引導(dǎo)下,剪枝掉錯誤分支,合成出完美的“思考+工具調(diào)用”成功軌跡。在監(jiān)督微調(diào)階段,采用掩碼監(jiān)督(Masked SFT),只對模型生成的“思考和動作”算 Loss,屏蔽掉外部工具返回的冗長噪音,讓模型真正學(xué)會“如何思考”。

3. OmniDPO細粒度糾錯

全模態(tài)任務(wù)極易“一步錯,步步錯”。團隊首創(chuàng)了OmniDPO,能夠精準定位失敗軌跡中的第一處錯誤點(到底是沒看清、聽漏了,還是搜索關(guān)鍵詞用錯了?),并生成糾正后的正確前綴,構(gòu)建正負樣本對進行偏好優(yōu)化,實現(xiàn)真正的“對癥下藥”!。

05


實驗結(jié)果:性能鴻溝與成因

1.主實驗結(jié)果:在OmniGAIA上對比全模態(tài)模型的性能


團隊在統(tǒng)一提供外部工具(搜索、瀏覽器、代碼)的嚴苛環(huán)境下評測了各大前沿模型,我們可以發(fā)現(xiàn):

1.閉源王者斷崖領(lǐng)先:最強的閉源模型 Gemini-3-Pro 拿下了62.5% 的一次通過率(Pass@1),展現(xiàn)出極其成熟的規(guī)劃與驗證能力。而最強的開源基線 Qwen-3-Omni (30B) 僅有13.3%,差距近乎 4.7 倍!

2.大力出奇跡失效:擁有高達5600億 (560B) 龐大參數(shù)量的 LongCat-Flash-Omni 得分甚至不如 30B 的小模型!這證明了:在全模態(tài)Agent領(lǐng)域,優(yōu)秀的“智能體工具調(diào)用策略”比單純的參數(shù)規(guī)模更關(guān)鍵。

3.OmniAtlas療效顯著:經(jīng)過OmniAtlas 訓(xùn)練配方優(yōu)化的 Qwen-3-Omni,準確率從 13.3% 暴漲至 20.8% (+7.5)!在較小的 7B 模型上,更是提升了近 4 倍(3.6% ?? 13.3%)。

2.細粒度錯誤分析:AI到底在了哪一步?


通過對模型失敗軌跡的解剖,研究發(fā)現(xiàn):在困難任務(wù)中,開源模型有高達 90% 以上的失敗源于沒有正確使用工具(比如沒有調(diào)用工具,陷入搜索死循環(huán)、查錯方向),這直接導(dǎo)致了下游任務(wù)完成的全面崩潰。

3.工具調(diào)用行為分析


AI 到底該調(diào)用幾次工具?散點分布圖(Violin Plot)揭示了有趣的現(xiàn)象:

工具冷漠癥完全不用工具的模型(集中在 0 次),成功率很低。這證實了僅靠模型腦內(nèi)的先驗知識,根本搞不定復(fù)雜的真實環(huán)境。

調(diào)得多就一定好嗎?錯!部分失敗軌跡調(diào)用了 10~20 次以上工具,但全在做低效重復(fù)的無用功,無法有效解決不確定性。

從被動到主動:OmniAtlas 的工具調(diào)用分布更加主動,有效探索率的大幅提升直接拉動了過關(guān)率,但也帶來了工具調(diào)用冗余的問題,希望后續(xù)工作可以更好的平衡性能與效率。

4.原生全模態(tài)感知vs外掛感知工具,哪個更好


我們真的需要原生全模態(tài)大模型嗎?能不能用純文本大模型,外掛一個“識圖/聽音 API”來代替?消融實驗給出了答案:

1.對強模型來說,原生才是王道:Gemini-3-Flash依靠原生感知拿到最高分 51.7,且工具調(diào)用僅需 4.4 次。如果把感知拆分成外部工具,不僅成績下降,API調(diào)用成本更是翻倍(增至 9.4 次)。

2.外掛工具打不了硬仗對于較弱的開源模型,外掛感知工具雖然能在簡單題上提點分,但在需要復(fù)雜跨模態(tài)推理的 Hard 難題中,成績直接崩盤(從 9.0 跌至 3.9)。

結(jié)論:外掛工具會切斷模態(tài)間的內(nèi)在聯(lián)系,原生全模態(tài)融合,才是拔高AI智能上限的唯一正解!

06


總結(jié)與未來展望

看得清、聽得懂只是起點,會思考、善用工具、能行動才是邁向通用人工智能(AGI)的試金石。

OmniGAIA 揭開了現(xiàn)有全模態(tài)大模型在“長程推理與多輪工具使用”上的缺陷,而OmniAtlas 的全套硬核實驗剖析則為開源社區(qū)指明了一條極具潛力的演進路線。研究團隊指出,通往真正原生全模態(tài) AI 助手的道路上,未來有三大黃金賽道:

1.全模態(tài)智能體強化學(xué)習(xí)(Agentic RL):在真實全模態(tài)反饋下直接優(yōu)化長視野決策策略。

2.全模態(tài)MCP生態(tài):為全模態(tài)智能體接入更多工具,打造可擴展的MCP工具集。

3.全模態(tài)具身智能(Embodied Agents):將擁有“全模態(tài)大腦”的智能體引入物理世界,完成真實世界的交互,來打造我們生活中的AI助手。

07


作者信息


本工作第一作者李曉熙,目前就讀于中國人民大學(xué)高瓴人工智能學(xué)院,博士三年級,研究方向主要包括Agentic AI、Deep Research、大模型推理、強化學(xué)習(xí)等。在國際頂級會議NeurIPS,ICLR,ACL等發(fā)表7篇一作工作,代表工作包括DeepAgent, WebThinker, Search-o1, RetroLLM等。2025 年起,他在小紅書參加 RedStar 實習(xí)項目,進行Agentic AI和Deep Research領(lǐng)域的研究工作。


本文的通信作者竇志成,中國人民大學(xué)高瓴人工智能學(xué)院長聘教授、博士生導(dǎo)師、副院長。主要研究方向為信息檢索、大模型、智能體、大模型檢索增強、AI搜索、司法智能等。在國際知名學(xué)術(shù)會議和期刊上發(fā)表論文200余篇,帶領(lǐng)團隊研發(fā)涉外法治大模型,開源大模型檢索增強工具包FlashRAG、iAgent系列信息智能體(WebThinker、ARPO、DeepAgent等)累計獲得GitHub星標1萬余枚。

未經(jīng)「AI科技評論」授權(quán),嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標注來源并插入本公眾號名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
驚心動魄!這一幕讓我們更明白中國為什么必須強大

驚心動魄!這一幕讓我們更明白中國為什么必須強大

補壹刀
2026-03-21 22:27:48
成品油價即將迎來“五連漲”,下周一加滿一箱油可能將多花80元,周末記得加滿油

成品油價即將迎來“五連漲”,下周一加滿一箱油可能將多花80元,周末記得加滿油

揚子晚報
2026-03-21 07:37:10
鄭州一公司使用AI后立馬大規(guī)模裁員,只留下前臺和銷售

鄭州一公司使用AI后立馬大規(guī)模裁員,只留下前臺和銷售

映射生活的身影
2026-03-21 20:36:56
正部級高官任上落馬,此前曾受過黨內(nèi)處分

正部級高官任上落馬,此前曾受過黨內(nèi)處分

中國新聞周刊
2026-03-21 17:11:03
災(zāi)難!伊朗50天連印兩張“天文鈔”,1000萬里亞爾只值7美元

災(zāi)難!伊朗50天連印兩張“天文鈔”,1000萬里亞爾只值7美元

老馬拉車莫少裝
2026-03-21 20:16:24
價格飆漲6000%!原研藥集體撤離中國的影響,開始出現(xiàn)了...

價格飆漲6000%!原研藥集體撤離中國的影響,開始出現(xiàn)了...

牛鍋巴小釩
2026-03-21 19:20:35
伊朗摔跤冠軍被絞刑,罪名是“真主的敵人”

伊朗摔跤冠軍被絞刑,罪名是“真主的敵人”

濤哥銳評
2026-03-21 17:54:05
路虎別停奔馳后續(xù):曝更多內(nèi)幕,路虎哥“底褲”被扒,果然不一般

路虎別停奔馳后續(xù):曝更多內(nèi)幕,路虎哥“底褲”被扒,果然不一般

社會日日鮮
2026-03-21 21:43:51
雷軍回應(yīng)60加60爭議:口誤多講了一句,“相當于120km/h時速撞墻”,確實說錯了,感謝網(wǎng)友們指正

雷軍回應(yīng)60加60爭議:口誤多講了一句,“相當于120km/h時速撞墻”,確實說錯了,感謝網(wǎng)友們指正

揚子晚報
2026-03-21 13:16:42
謝婷婷帶混血兒子回香港,飛機上曬兒子正臉照,長相俊俏像極父親

謝婷婷帶混血兒子回香港,飛機上曬兒子正臉照,長相俊俏像極父親

叨嘮
2026-03-20 23:22:35
匈牙利大選為何會成為全球焦點?兩大陣營生死對決

匈牙利大選為何會成為全球焦點?兩大陣營生死對決

史政先鋒
2026-03-21 12:25:57
家長注意了!這些全是“假牛奶”!別再整箱往家搬了!花錢還坑娃

家長注意了!這些全是“假牛奶”!別再整箱往家搬了!花錢還坑娃

觀察鑒娛
2026-03-21 12:39:12
北美觀察丨美稱“將不再守衛(wèi)霍爾木茲海峽” 說退就退還是逼盟友接手

北美觀察丨美稱“將不再守衛(wèi)霍爾木茲海峽” 說退就退還是逼盟友接手

極目新聞
2026-03-21 13:17:17
阿拉伯國家譴責以色列

阿拉伯國家譴責以色列

參考消息
2026-03-21 21:46:09
鹿晗關(guān)曉彤再爆猛料,熱搜都炸了

鹿晗關(guān)曉彤再爆猛料,熱搜都炸了

美芽
2026-03-21 18:02:41
游資大佬集體認輸,散戶的至暗時刻來了?揭開量化交易的收割邏輯

游資大佬集體認輸,散戶的至暗時刻來了?揭開量化交易的收割邏輯

清流財記
2026-03-21 14:41:02
何時結(jié)束戰(zhàn)爭?內(nèi)塔尼亞胡表態(tài)!

何時結(jié)束戰(zhàn)爭?內(nèi)塔尼亞胡表態(tài)!

占豪
2026-03-21 01:58:32
蹭飯260次后續(xù):龐先生已后悔,發(fā)視頻道歉,4S店態(tài)度堅決不和解

蹭飯260次后續(xù):龐先生已后悔,發(fā)視頻道歉,4S店態(tài)度堅決不和解

奇思妙想草葉君
2026-03-21 19:57:27
讀懂人群戰(zhàn)報:一場2026年手機廠商的“用戶爭奪戰(zhàn)”

讀懂人群戰(zhàn)報:一場2026年手機廠商的“用戶爭奪戰(zhàn)”

極果酷玩
2026-01-16 15:05:27
女兒相中599元的鞋,娘仨在店門口糾結(jié)半小時咬牙買下,母親回應(yīng):女兒很懂事,舊鞋已穿到開膠,如果不買會很愧疚

女兒相中599元的鞋,娘仨在店門口糾結(jié)半小時咬牙買下,母親回應(yīng):女兒很懂事,舊鞋已穿到開膠,如果不買會很愧疚

揚子晚報
2026-03-21 17:07:50
2026-03-22 00:35:00
AI科技評論 incentive-icons
AI科技評論
點評學(xué)術(shù),服務(wù)AI
7134文章數(shù) 20742關(guān)注度
往期回顧 全部

科技要聞

宇樹招股書拆解,人形機器人出貨量第一!

頭條要聞

伊朗發(fā)射3800公里射程的導(dǎo)彈 最令美軍戰(zhàn)栗的細節(jié)披露

頭條要聞

伊朗發(fā)射3800公里射程的導(dǎo)彈 最令美軍戰(zhàn)栗的細節(jié)披露

體育要聞

誰在決定字母哥未來?

娛樂要聞

田栩?qū)幗K于涼了?出軌風波影響惡劣

財經(jīng)要聞

通脹警報拉響,加息潮要來了?

汽車要聞

小鵬汽車2025年Q4盈利凈賺3.8億 全年營收767億

態(tài)度原創(chuàng)

藝術(shù)
游戲
家居
手機
房產(chǎn)

藝術(shù)要聞

221.5米!利物浦未來第一高樓,效果圖公布

《戰(zhàn)艦世界》15.2版本隨機禮包上線,能放空襲的10級潛艇來了!

家居要聞

時空交織 空間綺夢

手機要聞

終端市場集體喊“漲” 手機面板持續(xù)走“跌”

房產(chǎn)要聞

全城狂送1000杯咖啡!網(wǎng)易房產(chǎn)【早C計劃】,即刻啟動!

無障礙瀏覽 進入關(guān)懷版