![]()
人大&小紅書推出OmniGAIA基準和OmniAtlas智能體。
人類的智能是自然交織的——我們不僅同時用眼睛看、用耳朵聽、用語言交流,還能進行復(fù)雜的長邏輯鏈推理,并在遇到難題時熟練使用搜索引擎等外部工具來輔助自己完成任務(wù)。
然而,當前爆火的“多模態(tài)大模型(MLLM)”大多仍局限于“圖文”或“音文”的雙模態(tài)交互。它們嚴重缺乏作為“通用AI助手”所必需的全模態(tài)統(tǒng)籌、長程推理與工具調(diào)用能力。
為了填補這一空白,中國人民大學(xué)聯(lián)合小紅書、東南大學(xué)、浙江大學(xué)和清華大學(xué)的研究團隊重磅推出了 OmniGAIA——一個專為評估“原生全模態(tài)AI智能體”而設(shè)計的新基準,并同時開源了配套的基礎(chǔ)智能體訓(xùn)練秘籍 OmniAtlas!
該工作不僅揭示了當前開源模型與頂尖閉源模型之間的巨大“智能鴻溝”,更給出了一套讓大模型真正學(xué)會“看、聽、想與用工具”的實戰(zhàn)配方。目前代碼、數(shù)據(jù)、模型已全面開源!
![]()
論文鏈接: https://arxiv.org/pdf/2602.22897
代碼&Demo:https://github.com/RUC-NLPIR/OmniGAIA
數(shù)據(jù)集&模型:https://huggingface.co/collections/RUC-NLPIR/omnigaia
排行榜:https://huggingface.co/spaces/RUC-NLPIR/OmniGAIA-LeaderBoard
01
Demo
1. 圖片+音頻任務(wù):計算圖片和音頻中兩個事件發(fā)生時間相隔多久?
2. 帶音頻的視頻任務(wù):視頻中講者提到了一個某電影中的橋,請幫我調(diào)研其背景。
02
痛點直擊:現(xiàn)有的評測為什么不夠看
隨著 Qwen3-Omni、Gemini-3 等全模態(tài)大模型的涌現(xiàn),模型已經(jīng)能在單一網(wǎng)絡(luò)內(nèi)統(tǒng)一處理文本、視覺和音頻。但現(xiàn)有的評測基準(如 OmniBench、WorldSense 等)大多基于極短的音視頻,且題型多為重“感知”的多項選擇題。
在真實世界中,我們需要 AI 解決的問題是這樣的:
“視頻里導(dǎo)游指著遠處的那座活動橋,解說提到這讓他想起了電影《福祿雙霸天》。請問這座橋到底叫什么名字?在1979年電影開拍時,這座橋已經(jīng)建成了多少年?”
![]()
這就要求 AI 不能只會“看圖說話”,它必須面對幾十分鐘的長視頻,從中錨定地理位置,主動去搜索引擎查證橋的真實名字和建成年份,最后進行相關(guān)計算。
現(xiàn)有的評測測不出這種能力,OmniGAIA因此應(yīng)運而生!
03
OmniGAIA:全模態(tài)智能體的新基準
OmniGAIA 包含360個源自真實世界的高難度任務(wù),覆蓋地理、歷史、科技等 9 大垂直領(lǐng)域。輸入不僅包含時長數(shù)十分鐘的“視頻+音頻”,還有復(fù)雜的“圖片+音頻”組合。模型不能靠盲猜,必須多次調(diào)用外部工具才能得出唯一可驗證的開放式最終答案。
它是如何構(gòu)建出來的?——首創(chuàng)“全模態(tài)事件圖譜”驅(qū)動法
![]()
為了自動合成邏輯嚴密且防作弊的高難度QA,團隊設(shè)計了一套極其精妙的流水線:
1.數(shù)據(jù)收集:從 FineVideo、LongVideoBench、LongVideo-Reason、COCO 2017 以及HuggingFace 中篩選并整理視頻(含音頻)及“圖像+音頻”數(shù)據(jù)源,覆蓋 100 多個不同的垂直領(lǐng)域。
2.高價值信息挖掘:使用Gemini-3-Flash 提取事件、進行環(huán)境分析、音頻分析(包含自動語音識別 ASR、說話人身份識別 Speaker ID)以及圖像理解(包含光學(xué)字符識別 OCR、物體識別、人臉識別)。
3.智能體全模態(tài)事件圖譜構(gòu)建:DeepSeek-V3.2通過規(guī)劃后續(xù)步驟、利用工具獲取新信息,并結(jié)合大語言模型 (LLM) 的自我反思(self-reflexion) 與人工審查來驗證事實準確性,從而迭代式地擴展初始事件圖譜。
4.問答生成與質(zhì)量審查:通過事件模糊化(fuzzification) 生成高難度的多跳(multi-hop) 問答對,隨后由 LLM 和人工共同驗證其準確性、任務(wù)難度以及答案的唯一性。
04
OmniAtlas:原生全模態(tài)智能體基座模型
在嚴苛的測試下,早期的開源模型表現(xiàn)較差。為了提升開源全模態(tài)模型的 Agent 能力,團隊不僅提出了基準,更給出了一套開源解法與完整的“訓(xùn)練秘籍”——OmniAtlas。
![]()
它遵循工具集成推理范式,包含三大核心殺手锏:
1.主動全模態(tài)感知(Active Perception)
面對超長視頻或高清大圖,傳統(tǒng)的“全局降采樣”會丟失大量細節(jié)。OmniAtlas 賦予了模型“指哪看哪、聽哪”的特技!它可以通過內(nèi)置工具(read_video / read_audio / read_image)精準截取特定時間段的視頻或裁剪特定區(qū)域的圖片,實現(xiàn)高保真的按需感知。
2.高質(zhì)量軌跡合成與監(jiān)督微調(diào)
團隊利用強大的推理模型進行“后見之明引導(dǎo)的樹探索”,在已知正確答案的引導(dǎo)下,剪枝掉錯誤分支,合成出完美的“思考+工具調(diào)用”成功軌跡。在監(jiān)督微調(diào)階段,采用掩碼監(jiān)督(Masked SFT),只對模型生成的“思考和動作”算 Loss,屏蔽掉外部工具返回的冗長噪音,讓模型真正學(xué)會“如何思考”。
3. OmniDPO細粒度糾錯
全模態(tài)任務(wù)極易“一步錯,步步錯”。團隊首創(chuàng)了OmniDPO,能夠精準定位失敗軌跡中的“第一處錯誤點”(到底是沒看清、聽漏了,還是搜索關(guān)鍵詞用錯了?),并生成糾正后的正確前綴,構(gòu)建正負樣本對進行偏好優(yōu)化,實現(xiàn)真正的“對癥下藥”!。
05
實驗結(jié)果:性能鴻溝與成因
1.主實驗結(jié)果:在OmniGAIA上對比全模態(tài)模型的性能
![]()
團隊在統(tǒng)一提供外部工具(搜索、瀏覽器、代碼)的嚴苛環(huán)境下評測了各大前沿模型,我們可以發(fā)現(xiàn):
1.閉源王者斷崖領(lǐng)先:最強的閉源模型 Gemini-3-Pro 拿下了62.5% 的一次通過率(Pass@1),展現(xiàn)出極其成熟的規(guī)劃與驗證能力。而最強的開源基線 Qwen-3-Omni (30B) 僅有13.3%,差距近乎 4.7 倍!
2.“大力出奇跡”失效:擁有高達5600億 (560B) 龐大參數(shù)量的 LongCat-Flash-Omni 得分甚至不如 30B 的小模型!這證明了:在全模態(tài)Agent領(lǐng)域,優(yōu)秀的“智能體工具調(diào)用策略”比單純的參數(shù)規(guī)模更關(guān)鍵。
3.OmniAtlas療效顯著:經(jīng)過OmniAtlas 訓(xùn)練配方優(yōu)化的 Qwen-3-Omni,準確率從 13.3% 暴漲至 20.8% (+7.5)!在較小的 7B 模型上,更是提升了近 4 倍(3.6% ?? 13.3%)。
2.細粒度錯誤分析:AI到底錯在了哪一步?
![]()
通過對模型失敗軌跡的解剖,研究發(fā)現(xiàn):在困難任務(wù)中,開源模型有高達 90% 以上的失敗源于“沒有正確使用工具”(比如沒有調(diào)用工具,陷入搜索死循環(huán)、查錯方向),這直接導(dǎo)致了下游任務(wù)完成的全面崩潰。
3.工具調(diào)用行為分析
![]()
AI 到底該調(diào)用幾次工具?散點分布圖(Violin Plot)揭示了有趣的現(xiàn)象:
“工具冷漠癥”:完全不用工具的模型(集中在 0 次),成功率很低。這證實了僅靠模型腦內(nèi)的先驗知識,根本搞不定復(fù)雜的真實環(huán)境。
調(diào)得多就一定好嗎?錯!部分失敗軌跡調(diào)用了 10~20 次以上工具,但全在做低效重復(fù)的無用功,無法有效解決不確定性。
從被動到主動:OmniAtlas 的工具調(diào)用分布更加主動,有效探索率的大幅提升直接拉動了過關(guān)率,但也帶來了工具調(diào)用冗余的問題,希望后續(xù)工作可以更好的平衡性能與效率。
4.原生全模態(tài)感知vs外掛感知工具,哪個更好?
![]()
我們真的需要原生全模態(tài)大模型嗎?能不能用純文本大模型,外掛一個“識圖/聽音 API”來代替?消融實驗給出了答案:
1.對強模型來說,原生才是王道:Gemini-3-Flash依靠原生感知拿到最高分 51.7,且工具調(diào)用僅需 4.4 次。如果把感知拆分成外部工具,不僅成績下降,API調(diào)用成本更是翻倍(增至 9.4 次)。
2.外掛工具打不了“硬仗”:對于較弱的開源模型,外掛感知工具雖然能在簡單題上提點分,但在需要復(fù)雜跨模態(tài)推理的 Hard 難題中,成績直接崩盤(從 9.0 跌至 3.9)。
結(jié)論:外掛工具會切斷模態(tài)間的內(nèi)在聯(lián)系,原生全模態(tài)融合,才是拔高AI智能上限的唯一正解!
06
總結(jié)與未來展望
看得清、聽得懂只是起點,會思考、善用工具、能行動才是邁向通用人工智能(AGI)的試金石。
OmniGAIA 揭開了現(xiàn)有全模態(tài)大模型在“長程推理與多輪工具使用”上的缺陷,而OmniAtlas 的全套硬核實驗剖析則為開源社區(qū)指明了一條極具潛力的演進路線。研究團隊指出,通往真正原生全模態(tài) AI 助手的道路上,未來有三大黃金賽道:
1.全模態(tài)智能體強化學(xué)習(xí)(Agentic RL):在真實全模態(tài)反饋下直接優(yōu)化長視野決策策略。
2.全模態(tài)MCP生態(tài):為全模態(tài)智能體接入更多工具,打造可擴展的MCP工具集。
3.全模態(tài)具身智能(Embodied Agents):將擁有“全模態(tài)大腦”的智能體引入物理世界,完成真實世界的交互,來打造我們生活中的AI助手。
07
作者信息
![]()
本工作第一作者李曉熙,目前就讀于中國人民大學(xué)高瓴人工智能學(xué)院,博士三年級,研究方向主要包括Agentic AI、Deep Research、大模型推理、強化學(xué)習(xí)等。在國際頂級會議NeurIPS,ICLR,ACL等發(fā)表7篇一作工作,代表工作包括DeepAgent, WebThinker, Search-o1, RetroLLM等。2025 年起,他在小紅書參加 RedStar 實習(xí)項目,進行Agentic AI和Deep Research領(lǐng)域的研究工作。
![]()
本文的通信作者竇志成,中國人民大學(xué)高瓴人工智能學(xué)院長聘教授、博士生導(dǎo)師、副院長。主要研究方向為信息檢索、大模型、智能體、大模型檢索增強、AI搜索、司法智能等。在國際知名學(xué)術(shù)會議和期刊上發(fā)表論文200余篇,帶領(lǐng)團隊研發(fā)涉外法治大模型,開源大模型檢索增強工具包FlashRAG、iAgent系列信息智能體(WebThinker、ARPO、DeepAgent等)累計獲得GitHub星標1萬余枚。
未經(jīng)「AI科技評論」授權(quán),嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載!
公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標注來源并插入本公眾號名片。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.