337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

清華、無問芯穹發布多智能體WideSeek-R1,4B模型比肩671B模型!

0
分享至



DeepSeek-R1 的成功證明了「深度擴展(Depth Scaling)」在解決復雜邏輯推理上的巨大潛力。AI 社區開始思考另一個維度的可能性:當任務不僅需要深度的推理,更需要極寬廣度的信息搜集時,單一的大模型還是最優解嗎?

設想這樣一個場景:你需要整理 “2025 年全球前 50 大科技公司的營收、凈利潤及研發投入對比表”。這是一個典型的廣度信息搜索任務。對于單個大模型而言,哪怕它是擁有 671B 參數的超大模型,面對這種需要數十次檢索,往往會陷入上下文信息干擾和串行效率低的問題,而顯得力不從心。

近日,來自清華大學與無問芯穹的 RLinf 團隊提出了一種全新的互補維度 ——「廣度擴展(Width Scaling)」,并以此發布了多智能體系統WideSeek-R1。不同于以往依賴人工設計工作流的多智能體系統,該工作采用了一種「Lead-agent-Subagent」的分層多智能體框架 ,并通過多智能體強化學習(MARL)進行端到端訓練,展現出靈活的規模化調度高效的并發處理能力。

實驗結果顯示,4B 參數的 WideSeek-R1 在廣度搜索任務上的表現達到了40%的 Item F1指標,不僅看齊 671B 參數的 DeepSeek-R1 單智能體,更大幅超越了同參數規模的基線模型。



  • 論文標題:WideSeek-R1: Exploring Width Scaling for Broad Information Seeking via Multi-Agent Reinforcement Learning
  • 論文鏈接:https://arxiv.org/abs/2602.04634
  • 項目主頁:https://wideseek-r1.github.io
  • 代碼文檔:https://rlinf.readthedocs.io/en/latest/rst_source/examples/agentic/wideseek_r1/index.html
  • Hugging Face 模型和數據:https://huggingface.co/collections/RLinf/wideseek-r1

1. 只有「深度」還不夠,

搜索需要「廣度」

過去一年,大模型的進步主要集中在深度擴展上。像 OpenAI o1 或 DeepSeek-R1 這樣的模型,通過增加推理步數來解決復雜難題。

然而,隨著任務廣度的增加,瓶頸從 “個體能力” 轉移到了 “組織能力”。

在廣度信息搜索任務中,單智能體面臨兩大痛點:

1.上下文干擾:隨著檢索信息的堆積,無關信息會干擾模型對后續子任務的判斷。

2.串行效率低:依次處理數十個獨立的子任務不僅慢,而且容易因序列過長而遺忘有用信息,導致任務失敗。

對此,WideSeek-R1 給出的答案是:用多智能體系統 + MARL 實現廣度擴展。



圖1:深度擴展與廣度擴展的對比

當傳統的深度擴展(藍色曲線)依賴單智能體多輪串行推理而逐漸遭遇性能瓶頸時,廣度擴展(粉色曲線)通過增加智能體個數,通過多智能體并行執行開辟了新的增長路徑;而我們提出的WideSeek-R1(紅色星號),通過多智能體強化學習(MARL)進一步實現了調度與執行的協同優化,證明了在廣度信息搜索任務中,協同的 “寬度” 擴展能帶來比 “深度” 更顯著的性能飛躍。

2. WideSeek-R1:采用端到端 MARL

訓練 “編排” 和 “執行” 能力

現有的多智能體系統大多依賴手動設計的工作流(Hand-crafted workflows)或簡單的輪流對話,難以實現真正的并行高效協作。

WideSeek-R1 引入了一個「Lead-agent-Subagent」的層級框架,并用多智能體強化學習(MARL)端到端訓練:

  • Lead-agent:負責將一個寬泛的復雜問題分解為獨立的子任務,可調度多個 Subagents 并行執行。同時也需要對 Subagent 返回的結果進行總結歸納,判斷應該直接返回最終答案,還是進行下一回合的任務分解。
  • Subagent:在隔離的上下文中并行工作,利用搜索和瀏覽等工具獲取特定信息。

為了訓練這個系統,研究團隊在 GRPO 算法基礎上,針對多智能體、多回合場景進行了兩項關鍵改進:

  • 多智能體優勢分配(Multi-Agent Advantage Assignment):多智能體協作中,最大的難題是 “功勞歸誰”。WideSeek-R1 將同一個樣本的最終獎勵共享給所有參與的 Agent,確立 “榮辱與共” 的協作目標,避免復雜的信用分配導致的 Reward Hacking 。
  • 優勢雙重加權歸一(Dual-Level Advantage Reweighting):
  • Token 級加權歸一: 類似于 DAPO,確保長思維鏈的 Turn 在某一智能體里獲得足夠高的權重;
  • Agent 級加權歸一: 確保增加 Agent 數量是為了真正提高質量,而非僅僅為了 “湊人頭”。



圖2:WideSeek-R1 推理與訓練流程概述

3. 構造廣度信息搜索任務訓練數據:

彌補開源社區領域空白

當前開源數據集通常關注深度搜索任務,盡管已有一些廣度搜索訓練集,但是數據量較小,無法滿足大規模 RL 訓練。研究團隊填補了社區空白,開發了一套全自動的數據構建流水線,基于 HybridQA 數據集,合成了20,000 條高質量的廣度信息搜索任務

這一流水線包含三個階段 :

1.問題生成:提取用戶意圖并轉化為具有特定約束的廣度信息搜索問題;

2.答案生成:利用 Gemini-3-Pro 獨立生成兩個答案及唯一標識列;

3.QA 對過濾:通過對兩個答案的一致性校驗和難度過濾,得到最終高質量數據集。



圖3: 三階段自動化數據構建流程概述

4. 實驗結果

(1) 多智能體 4B 模型在 WideSearch 上追平單智能體 671B 模型



表1: WideSearch 主實驗結果

研究團隊在公開的廣度信息搜索測評任務 WideSearch 上,對現有單智能體、多智能體 baseline 進行測試,實驗數據顯示,WideSeek-R1-4B 取得了 40.0% 的 Item F1 分數

  • 相比未訓練的 Qwen3-4B 多智能體基線提升了 8.8% 。
  • 相比同參數的單智能體版本 SingleSeek-R1-4B 提升了 11.9% 。
  • 最重要的是,這一成績與單智能體 DeepSeek-R1-671B 幾乎持平,而參數量僅為后者的 1/170 。

(2) 驗證「廣度擴展」定律



圖4: 面向測試時計算資源的深度與廣度擴展性能對比

文章最核心的發現之一在于 Scaling 行為的對比:

  • 深度擴展(Depth Scaling):隨著推理步數增加,單智能體性能很快飽和,甚至因上下文過長而下降。
  • 廣度擴展(Width Scaling):在單智能體性能飽和情況下,增加并行 Subagent 的數量(從 1 到 10)展現了持續的性能增長潛力。在此基礎上,MARL 訓練通過優化協作機制,進一步顯著提升了系統的性能上限。

(3) 在標準 QA 上保持性能



表2: 在傳統單跳與多跳QA任務上的實驗結果

在 NQ、HotpotQA 等 7 個標準問答數據集上,WideSeek-R1-4B 同樣表現出色,平均分達到 59.0%,優于部分 7B/8B 的多智能體基線(如 AgentFlow, OWL 等),證明了模型并未因專注于廣度搜索而犧牲通用搜索能力。

(4) 消融實驗



圖5: 智能體模型的消融實驗(左圖),訓練數據的消融實驗(右圖)

左圖:我們發現只有當 Lead-agent 和 Subagent 同時使用 WideSeek-R1-4B 時才能達到最佳性能,這驗證了端到端多智能體強化學習訓練的重要性。

右圖:在相同數據集規模的前提下,在混合數據集(廣度 + 深度)上訓練的模型表現始終優于僅在單一類型數據集上訓練的模型,表明廣度數據與深度數據提供了互補的增益。

5. 算法背后的工程哲學:

RLinf 的關鍵支撐



圖6: RLinf 多智能體強化學習訓練架構圖

WideSeek-R1 傳達的核心結論是:在廣度信息搜索場景里,Width Scaling + MARL確實能帶來進一步收益。這一結論除了需要“算法層面”的創新,更需要“系統層面”的強力支撐。例如:多智能體的調度、多工具的統一接入與管理、多會話的調度與隔離、動態會話與長尾問題的緩解,以及訓練與推理間的高效切換與資源分配等。

為應對上述系統挑戰,團隊將自研單智能體強化學習框架 RLinf 進一步擴展至多智能體強化學習場景。系統結構如圖6所示,包含三個粒度:MARL 邏輯流、 Agent 工作流、以及工具庫、推理庫、訓練庫等服務化組件。 MARL 邏輯流包含 Rollout 、訓練與權重同步,由 RLinf Runner 實現。相較單智能體,多智能體強化學習的復雜邏輯主要體現在 Rollout 部分, RLinf 新增 AgentLoop 模塊負責執行多智能體核心推理邏輯,即各智能體基于大模型進行交替的推理與工具調用。最細粒度的服務組件均繼承自 RLinf Worker ,從而可以靈活調用 RLinf 提供的通信接口,極大降低了開發復雜度。在多智能體場景中,如 lead-agent 與多個 Subagent ,可通過多個 SGLang 實例進行推理,僅需簡單配置即可拉起整套多組件交互流程。

在訓練效率方面,框架引入了多項優化:

  • 樣本打包(Sample Packing):將不同長度的樣本動態打包,使訓練 token 更集中于有效計算,減少 padding 開銷,提升 GPU 利用率;在長序列、多輪 Agent 軌跡訓練中,可顯著減少無效算力消耗并縮短單步時間。
  • 多輪前綴合并(Multi-Turn Prefix Merging):針對 Agent 多輪生成中后一輪 prompt 包含前一輪 prompt 與響應的結構特點,RLinf 可合并可復用前綴,避免重復前向與反向計算,在多輪工具調用場景中尤為有效。
  • 面向Session的親和性請求分發:在通信層實現基于親和性的請求分發,保障多會話的合理調度。
  • 高效權重同步:支持訓練并行配置到推理并行配置的就地轉換,結合 NCCL / CUDAIPC 高帶寬同步路徑,降低頻繁同步的開銷,同時減少冗余權重拼接與中間態內存占用,緩解同步階段的性能瓶頸與 OOM 風險。
  • 組件自動擴縮容:支持各組件的自動擴縮容,有效應對動態性與長尾問題。

系統性能效果:WideSeek-R1通過廣度拓展有效拓展信息獲取的范圍,而廣度的拓展是通過更多的并行subagents完成的。從下圖實驗數據可見,通過高效的系統實現與并發優化,拓展一倍的subagents的數量并沒有帶來明顯的eval時間的增加,充分說明系統在scaling上的有效性。



圖7: Agent scaling性能對比

6. 結語

WideSeek-R1 表明搜索不僅要Deep,還要Wide,同時也表明新一代科研的形態需要“算法創新 + 系統支撐”雙管齊下。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
震驚!網傳武漢一酒店2205房,公示多位知名藝人曾入住,引發熱議

震驚!網傳武漢一酒店2205房,公示多位知名藝人曾入住,引發熱議

火山詩話
2026-03-28 07:30:57
“一夫一妻制”或將消失?開放式婚姻逐漸流行,背后的原因很現實

“一夫一妻制”或將消失?開放式婚姻逐漸流行,背后的原因很現實

荷蘭豆愛健康
2026-03-27 17:46:48
美國最大的失誤就是一上來就把宋江給干掉了

美國最大的失誤就是一上來就把宋江給干掉了

仰望星空的一粒沙子
2026-03-14 16:25:14
末節劈扣+三分+絕殺2+1!楊瀚森今天太硬了!

末節劈扣+三分+絕殺2+1!楊瀚森今天太硬了!

柚子說球
2026-03-28 10:53:00
程瀟不愧是“奶瀟”

程瀟不愧是“奶瀟”

情感大頭說說
2026-03-16 00:19:50
周恩來看完核爆照片,立刻下令:把蘑菇云高度改掉,這數據絕不能讓外國知道

周恩來看完核爆照片,立刻下令:把蘑菇云高度改掉,這數據絕不能讓外國知道

文史明鑒
2026-03-23 17:29:14
她曾擔任中紀委副書記,離休16年后仍驕傲的說:我辦的案都是鐵案

她曾擔任中紀委副書記,離休16年后仍驕傲的說:我辦的案都是鐵案

明月清風閣
2026-03-28 13:25:06
做教培的閨蜜:張雪峰身價8億,為啥還吃外賣?她的回答讓我沉默

做教培的閨蜜:張雪峰身價8億,為啥還吃外賣?她的回答讓我沉默

藍色海邊
2026-03-27 18:08:02
美國的大炮一響,伊朗賣給中國的石油,為什么反而比以前更多了?

美國的大炮一響,伊朗賣給中國的石油,為什么反而比以前更多了?

壹知眠羊
2026-03-27 07:43:07
20人的山東“老頭樂”小廠,給小米汽車上了一課?

20人的山東“老頭樂”小廠,給小米汽車上了一課?

道哥說車
2026-03-27 09:54:47
特斯拉網約車停車場被曝光,大量 Model Y 標配后攝像頭清洗裝置!

特斯拉網約車停車場被曝光,大量 Model Y 標配后攝像頭清洗裝置!

新浪財經
2026-03-27 15:53:03
千萬不要小看F-35,雖然打不過殲-20,卻是東風快遞、紅旗導彈的巨大威脅

千萬不要小看F-35,雖然打不過殲-20,卻是東風快遞、紅旗導彈的巨大威脅

利刃號
2026-02-02 19:07:20
伊朗會越打越厲害!

伊朗會越打越厲害!

新浪財經
2026-03-26 19:10:23
央視主持人集體大哭,朱迅流淚康輝掩面痛哭,真相是什么?

央視主持人集體大哭,朱迅流淚康輝掩面痛哭,真相是什么?

落雪聽梅a
2026-03-28 09:14:37
《危險關系》東方衛視 3月31日19:30 開播!

《危險關系》東方衛視 3月31日19:30 開播!

東方娛樂
2026-03-28 11:09:12
登場20戰15勝!哈登29分鐘17+14早早打卡 前隊友:歷史最佳之一

登場20戰15勝!哈登29分鐘17+14早早打卡 前隊友:歷史最佳之一

顏小白的籃球夢
2026-03-28 09:57:45
張雪峰離世2天,前女友曝分手真相,女兒首度發聲,句句讓人心疼

張雪峰離世2天,前女友曝分手真相,女兒首度發聲,句句讓人心疼

離離言幾許
2026-03-27 11:26:29
地面戰打響!以色列,慘敗破防了!

地面戰打響!以色列,慘敗破防了!

大嘴說天下
2026-03-27 19:40:27
深夜公布,股價僅5元的龍頭,暴跌80%,牛散張素芬抄底被套

深夜公布,股價僅5元的龍頭,暴跌80%,牛散張素芬抄底被套

鵬哥投研
2026-03-28 08:54:02
擁有30多個博士學位,李昌鈺談被稱為“當代福爾摩斯”:我不是神探是科學家,以華人身份感到驕傲

擁有30多個博士學位,李昌鈺談被稱為“當代福爾摩斯”:我不是神探是科學家,以華人身份感到驕傲

極目新聞
2026-03-28 08:40:33
2026-03-28 16:47:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12620文章數 142597關注度
往期回顧 全部

科技要聞

遭中國學界"拉黑"后,這家AI頂會低頭道歉

頭條要聞

月租7000元的"廢土風"房子火了 房東自稱花了10萬裝修

頭條要聞

月租7000元的"廢土風"房子火了 房東自稱花了10萬裝修

體育要聞

“我是全家最差勁的運動員”

娛樂要聞

王一博改名上熱搜!個人時代正式開啟!

財經要聞

我在小吃培訓機構學習“科技與狠活”

汽車要聞

置換補貼價4.28萬起 第五代宏光MINIEV正式上市

態度原創

手機
親子
旅游
家居
教育

手機要聞

OPPO Find N6、榮耀Magic V6,同樣是6首銷比比看

親子要聞

為什么說人這輩子一定要生個孩子?

旅游要聞

老年人友好型旅游正走俏,各國探索適老旅游

家居要聞

曲線華爾茲 現代簡約

教育要聞

把 “玩” 卷成天花板!十一系這所成員校的優質秘訣藏不住了

無障礙瀏覽 進入關懷版