337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

TAMU/Waterloo團隊把研究智能體的訓練做成了開源流水線

0
分享至



訓練一個能像人類研究員一樣「搜索→瀏覽→推理」的深度研究智能體 (Deep Research Agent),最大的瓶頸往往不是模型能力,而是高質量長程研究軌跡數據的嚴重匱乏?,F有的軌跡采集方案要么依賴昂貴且不穩定的在線搜索 API,要么只能生成 2-5 輪的淺層交互,遠不足以覆蓋真實深度研究中動輒數十輪甚至上百輪的復雜推理需求。

針對這一痛點,來自Texas A&M University、University of Waterloo、UC San Diego 等機構的研究團隊提出了OpenResearcher:一條完全開源、可復現的離線深度研究軌跡合成流水線。這是首個能夠訓練出在長程研究任務上與專用系統相媲美模型的開源流水線,合成的數據也已經在 NVIDIA 的基座模型訓練中被采用。該方法的核心思路是:通過一次性收集在線語料構建包含 1500 萬篇候選文檔的本地搜索引擎,隨后由教師模型在完全離線的環境中,憑借調用 search、open、find 三種工具合成了超過9.7 萬條長程研究軌跡,其中大量軌跡包含100 次以上的工具調用。

利用這些軌跡對一個 30B 參數的模型進行監督微調,即可在離線深度研究的基準數據集 BrowseComp-Plus 上達到54.8%的準確率,較基座模型實現34.0個百分點的絕對提升,并一舉超越 GPT-4.1(36.4%)、Claude-4-Opus(36.8%)等強大的閉源模型!對于在線深度研究的基準數據集,該模型同樣全面超越現有開源系統,且全部增益均來自離線合成數據,無需任何在線訓練。



圖 1:BrowseComp-Plus 基準數據集上的性能 - 參數量對比。OpenResearcher(30B)以 54.8% 的準確率高居左上角,在性能 / 參數比維度上顯著領先 GPT-4.1、Claude-4-Opus、Gemini-2.5-Pro 等強大的閉源模型,同時超越通義 DeepResearch(44.5%)等專用深度研究系統。



  • 論文鏈接:https://arxiv.org/abs/2603.20278
  • 博客鏈接:https://boiled-honeycup-4c7.notion.site/OpenResearcher-A-Fully-Open-Pipeline-for-Long-Horizon-Deep-Research-Trajectory-Synthesis-2f7e290627b5800cb3a0cd7e8d6ec0ea
  • 代碼鏈接:https://github.com/TIGER-AI-Lab/OpenResearcher
  • 模型鏈接:https://huggingface.co/OpenResearcher/OpenResearcher-30B-A3B
  • 數據集鏈接:https://huggingface.co/datasets/OpenResearcher/OpenResearcher-Dataset
  • Demo鏈接:https://huggingface.co/spaces/OpenResearcher/OpenResearcher

深度研究軌跡的合成,難在哪?

隨著 DeepSeek-R1 等工作的推出,從大型推理模型中蒸餾長程推理軌跡并用于后訓練已成為主流范式,OpenThoughts、OpenMathReasoning 等項目相繼涌現。然而,當訓練目標從「數學推理」拓展到「深度研究」—— 即智能體需要迭代搜索、聚合異構證據、進行多步推理 —— 高質量軌跡的獲取就變得尤為棘手。

現有方案受制于三重瓶頸:

  • 成本高昂:每一條失敗的搜索路徑都要消耗 API 調用配額,大規模合成意味著數萬美元級別的開支。
  • 不可復現:互聯網上的內容隨時在變化,同一查詢在不同時刻可能返回截然不同的結果,使得獲取的軌跡難以穩定復現。
  • 不可分析:在線搜索環境本質上是黑盒,研究者無法精確追蹤「關鍵證據在哪一步被發現」、「搜索策略的偏差出在哪里」等等關鍵問題,嚴重限制了對智能體行為的系統性研究。

這促使團隊提出一個核心問題:能否將「搜索→瀏覽→推理」循環中昂貴的前兩步從在線環境搬到更可控的離線環境中,以零邊際成本、完全可復現的方式大規模合成高質量深度研究軌跡?

OpenResearcher:離線深度研究軌跡合成流水線

OpenResearcher 的核心設計理念是將語料構建與軌跡生成徹底解耦:先通過一次性在線收集含有研究信息的文檔構建離線語料庫與搜索引擎,然后在完全離線的本地環境中規模化合成研究軌跡。具體而言,流水線包含以下三個階段。



圖 2:OpenResearcher 總覽。整條流水線分三個階段推進:(1) 從 MiroVerse 篩選約 6,000 個高難度 QA 問題;(2) 一次性在線收集約 1 萬篇含有研究信息的文檔 (gold documents),并與 1,500 萬篇 FineWeb 干擾文檔合并構成帶 FAISS 索引的離線語料庫;(3) 教師模型 GPT-OSS-120B 在離線環境中通過 search、open、find 三種瀏覽器原語生成超 9.7 萬條長程研究軌跡。

階段一:高難度問題收集。深度研究軌跡的質量起點是問題的質量。傳統 QA 數據集如 2WikiMultiHopQA 和 NQ 的問題通常只需 2-5 步檢索即可回答,遠達不到深度研究所需的復雜度。研究團隊選擇從 MiroVerse-v0.1 中隨機采樣 10%,得到約 6,000 個問答對。這些問題天然要求長程多跳推理與異構證據整合,實測中即便是很強大的教師模型也往往需要數十次工具調用才能作答,其中相當一部分需要超過 100 次。

階段二:離線搜索引擎構建。軌跡合成有一個硬性前提:目標證據必須可檢索。否則,教師模型的合成失敗可能是搜索策略的問題,也可能僅僅是語料中缺少相關文檔,而這種歧義會嚴重干擾下游分析。為消除這一歧義,團隊采取了「答案引導的在線文檔收集」策略:對每個問答對,將問題與參考答案拼接構造 query,經 Serper API 一次性檢索并清洗去重,獲得約 1 萬篇含有研究信息的文檔 (gold documents)。隨后將 gold documents 與從 FineWeb 中采樣的約 1,500 萬篇干擾文檔(約 10 萬億 tokens)合并構成離線語料庫,全部文檔使用 Qwen3-Embedding-8B 向量化,并通過 FAISS 建立索引。這一設計的精妙之處在于:gold documents 保證了「答案確實存在于語料中」,海量干擾文檔則忠實模擬了真實網絡的噪聲與復雜度,使合成軌跡兼具可控性與真實感。



圖 3:OpenResearcher 使用的三種工具。以「哪些 MIT 研究者獲得了 INFORMS 獎項」為例:智能體可先調用 Search 工具獲取搜索摘要列表(左欄),再調用 Open 工具拉取目標 URL 的文檔全文(中欄),最后調用 Find 工具在文檔內精確定位關鍵字符串「MIT」(右欄,高亮顯示)。三種工具實現多尺度漸進式信息發現。

階段三:瀏覽建模與軌跡合成。OpenResearcher 利用三種工具對智能體的在線瀏覽行為進行抽象,完整建模了人類的研究行為模式:

  • Search:向離線搜索引擎發出自然語言查詢,返回 top-K 結果(含標題、URL、摘要片段),對應人類「廣泛搜索、識別候選來源」的行為
  • Open:根據 URL 獲取文檔全文內容,對應人類「點開網頁、通讀全文」的行為
  • Find:在當前已打開的文檔中執行精確字符串匹配,對應人類「Ctrl+F 頁面內查找」的行為,用于命名實體查找、事實核驗和證據錨定

在此基礎上,研究團隊以 GPT-OSS-120B 為教師模型,對每個問題生成 16 條不同的軌跡以捕獲多樣化推理路徑。經輕量過濾后,最終獲得超過9.7 萬條軌跡,推理深度涵蓋了十余步到百余步。

30B 模型超越多個閉源大模型

訓練設置:研究團隊以 NVIDIA Nemotron-3-Nano-30B-A3B(混合 Mamba-Transformer MoE 架構,激活參數僅 3.2B)為基座,篩選出約 5.5 萬條答案正確的軌跡進行監督微調。訓練在 8 張 NVIDIA H100 GPU 上完成,耗時約 8 小時,是中小團隊也能具備的算力。

離線深度研究的評測:在離線深度研究的基準數據集 BrowseComp-Plus 上,OpenResearcher-30B-A3B 取得54.8%的準確率,大幅領先 GPT-4.1(36.4%)、Claude-4-Opus(36.8%)、Gemini-2.5-Pro(29.5%)、DeepSeek-R1(16.4%)及通義 DeepResearch(44.5%)。較基座模型絕對提升 34.0 個百分點!僅憑離線合成軌跡的監督微調,無需強化學習或在線交互,即可在深度研究任務上釋放顯著的性能增益。

在線深度研究的評測:在三個依賴在線搜索 API 的基準數據集上,OpenResearcher 同樣亮眼:BrowseComp 26.3%,GAIA 64.1%,xbench-DeepSearch 65.0%,全面超越 ASearcher-QwQ-32B 和 WebDancer-QwQ-32B 等開源系統。更關鍵的是,所有這些增益完全來自離線環境合成的軌跡!模型從未在在線深度研究數據上訓練過,卻能有效遷移到真實、動態的搜索環境。



圖 4:深度研究基準測試性能對比。左表(離線,BrowseComp-Plus):OpenResearcher 以 54.8% 位居榜首,大幅超過 GPT-4.1(36.4%)和通義 DeepResearch(44.5%),較基座模型絕對提升 34.0 個百分點。右表(在線,BrowseComp / GAIA /xbench-DeepSearch):OpenResearcher 取得 26.3% / 64.1% / 65.0%,全面超越同量級開源系統。

搭建 OpenResearcher 的過程能教會我們什么?

失敗不在步數,在策略:失敗軌跡的平均工具調用次數(71.7 次)幾乎是成功軌跡(38.4 次)的兩倍,且額外調用主要集中在 search 操作上。失敗并非源于「探索不充分」,而是陷入了反復重新構造查詢卻始終無法收斂的困境。查詢構造能力和搜索策略的質量,才是決定深度研究成敗的關鍵。



圖 5:工具調用次數分布與正確 / 錯誤軌跡對比。左圖(成功):調用次數集中在 10-40 次,均值 38.4,中位數 24.0。中圖(失敗):呈雙峰形態,均值 71.7,中位數 79.0,反映反復無效的搜索。右圖:失敗軌跡的 search 調用均值(48.7)遠超成功軌跡(22.1),而 find 使用頻率兩組相近,說明癥結在搜索策略而非文檔內定位。

「答案正確性」并非唯一有價值的訓練信號:僅用正確軌跡訓練的模型得到 54.81% 的準確率,僅用錯誤軌跡訓練得到 55.06%,混合全量軌跡得到 54.46%。三者差異不超過 0.6 個百分點。由此可知,軌跡中蘊含的搜索結構、工具調用模式、證據檢查策略等過程性信號的價值并不遜色于最終答案的正確性。研究者無需過于激進地過濾訓練數據。另一方面,移除 gold document 的收集過程后,下游準確率從 54.81% 驟降至 6.35%。所以,一次性在線收集是整條離線合成流水線得以運轉的關鍵步驟。



圖 6:左表:僅用正確(54.81%)/ 錯誤(55.06%)/ 全部軌跡(54.46%)訓練,在 BrowseComp-Plus 上的準確率相差不超過 0.6 個百分點,說明過程性信號價值不亞于答案正確性。右表:移除 gold documents 的收集過程后下游準確率從 54.81% 降至 6.35%,證明一次性在線文章收集這一步不可或缺。

智能體的最大可探索輪數預算在 100 輪后邊際收益遞減:準確率和檢索 gold documents 的命中率隨最大可探索輪數預算增加穩步上升,但在 100 輪附近開始趨于平緩。這說明長程探索確實有益,但在智能體獲得充分的檢索和定位機會之后,單純延長推理鏈的邊際收益明顯遞減。



圖 7:準確率(藍線)和檢索 gold documents 的命中率(橙線)隨最大可探索輪數預算增加持續上升,但在約 100 輪后趨于飽和(準確率~58.3%,命中率~49.3%),表明長程探索有益但存在邊際遞減效應。

三種瀏覽器工具缺一不可:消融實驗清楚地展示了三種工具的遞進價值。智能體在僅能調用 search 時準確率為 43.86%,加入 open 后升至 56.39%,再引入 find 進一步達到62.17%,同時工具調用總次數和 token 消耗均下降。這表明,文檔級訪問是深度研究的「剛需」,頁面內證據定位則在提升精度的同時降低了冗余瀏覽。



圖 8:左表:準確率從僅能調用 search(43.86%)→ 可以調用 open(56.39%)→ 還可以調用 find(62.17%)穩步提升,同時工具調用次數和 token 消耗持續下降。右表:P (correct|open-hit) = 86.72% 遠高于 P (correct|search-hit) = 61.84%,表明「搜到」與「看到」對于準確率的幫助是有很大差異的。

檢索時機與最終準確率的關系:只要智能體打開過至少一篇 gold document,無論這一命中發生在第幾輪,最終準確率都能穩定維持在 85% 以上;從未打開過 gold document 的軌跡準確率則僅有 7.9%。因此「看到」與研究相關的證據通常是正確回答的必要條件,但并非充分條件。



圖 9:首次打開 gold document 的時機與最終準確率的關系。只要打開過至少一篇 gold document,準確率均穩定在 85% 以上;完全未命中的 303 條軌跡準確率則僅有 7.9%。

成本:從數萬美元到零



合成這 9.7 萬條軌跡共涉及約 576 萬次搜索請求。若使用在線的 Serper API,花費約 $5,760;若改用 SerpAPI 則高達 $28,800。而 OpenResearcher 的離線檢索器將這一成本降至$0。離線方案還額外提供:無速率限制(支持大規模并行合成)、完全確定性(確保長程研究軌跡完美可復現)、零外部依賴(便于開放共享與社區復現)。

總結與展望


OpenResearcher 為深度研究智能體的訓練數據問題提供了一條務實且高效的解決路徑:與其在昂貴、不穩定的在線環境中反復試錯,不如將「搜索→瀏覽→推理」循環中昂貴的前兩步從在線環境搬到更可控的離線環境中,以可復現、零邊際成本的方式大規模合成訓練軌跡。在方法層面,三種工具對智能體的在線瀏覽行為的抽象(search + open + find)忠實模擬了人類的研究行為,使合成軌跡不僅包含搜索查詢,還包含文檔閱讀和證據定位的完整行為鏈。在實證層面,一個僅有 30B 參數(3.2B 激活)的模型通過監督微調即可在多個基準上超越參數量數倍于己的閉源模型,且全部增益來自離線合成數據。更具長遠價值的是,離線環境的完全可控性為系統性地分析深度研究流水線各設計維度 (例如數據過濾策略、語料覆蓋、智能體配置、工具空間設計、檢索與推理的交互關系等)提供了實驗平臺,為這一領域的未來優化指明了方向。

本文主要作者為:德州農工大學博士生李卓風,滑鐵盧大學博士生姜東甫,德州農工大學助理教授張彧,以及滑鐵盧大學助理教授陳文虎。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
可口可樂CEO辭職,因為無法面對AI轉型的需要,沃爾瑪前CEO也是因此在去年底卸任

可口可樂CEO辭職,因為無法面對AI轉型的需要,沃爾瑪前CEO也是因此在去年底卸任

新浪財經
2026-03-29 22:07:40
演員李尚寶去世終年45歲,曾患抑郁癥街頭狂奔精神異常,公司回應

演員李尚寶去世終年45歲,曾患抑郁癥街頭狂奔精神異常,公司回應

韓小娛
2026-03-28 13:31:17
史詩級慘案!31-0+慘敗52分,直接創歷史,5年2.5億先生9分5失誤

史詩級慘案!31-0+慘敗52分,直接創歷史,5年2.5億先生9分5失誤

球童無忌
2026-03-30 14:28:52
烏度卡終于悟了!被棄用后球隊全勝!斯通5200萬簽詐騙犯坑苦火箭

烏度卡終于悟了!被棄用后球隊全勝!斯通5200萬簽詐騙犯坑苦火箭

你的籃球頻道
2026-03-30 11:48:44
乒乓球世界杯:周啟豪逆轉失敗!挽救局點仍輸9-11,1-1被追平!

乒乓球世界杯:周啟豪逆轉失敗!挽救局點仍輸9-11,1-1被追平!

劉姚堯的文字城堡
2026-03-30 11:06:37
我嫁給不能生育的迪拜富商,不到3個月我竟孕吐不止,醫生:恭喜

我嫁給不能生育的迪拜富商,不到3個月我竟孕吐不止,醫生:恭喜

千秋文化
2026-03-25 21:42:08
闊別國家隊10個月 全紅嬋并未退役:是我主動離開的 因無法堅持了

闊別國家隊10個月 全紅嬋并未退役:是我主動離開的 因無法堅持了

風過鄉
2026-03-30 12:52:06
著名專家預言:試管嬰兒壽命僅40年,那首例試管嬰兒如今怎樣了?

著名專家預言:試管嬰兒壽命僅40年,那首例試管嬰兒如今怎樣了?

青梅侃史啊
2026-03-28 19:22:24
漢馬驚現“腿精天花板”!網傳195cm,本人:我才186,別夸張!

漢馬驚現“腿精天花板”!網傳195cm,本人:我才186,別夸張!

觀察鑒娛
2026-03-29 09:41:19
楊瀚森自曝比去年重一些!回應首次技犯:知道要罰兩千下次不再犯

楊瀚森自曝比去年重一些!回應首次技犯:知道要罰兩千下次不再犯

羅說NBA
2026-03-30 10:00:11
我查了張雪峰多年捐款,看完真的沉默了。

我查了張雪峰多年捐款,看完真的沉默了。

歲月有情1314
2026-03-30 10:52:27
1955 年饒漱石遭開除黨籍,歷多年關押服刑,晚年于農場度余生

1955 年饒漱石遭開除黨籍,歷多年關押服刑,晚年于農場度余生

嘮叨說歷史
2026-03-24 11:17:11
央國企降薪第一刀:取消證書補貼

央國企降薪第一刀:取消證書補貼

新浪財經
2026-03-30 04:41:15
當不成總統了?美國迎三大噩耗,百萬人逼宮,他承認對中國上頭了

當不成總統了?美國迎三大噩耗,百萬人逼宮,他承認對中國上頭了

知法而形
2026-03-29 11:53:37
保密期限終到期,中央首長透露:毛岸英真相,可以向外界公開了

保密期限終到期,中央首長透露:毛岸英真相,可以向外界公開了

歷史點行
2026-03-29 13:38:28
普通人存100萬要多久?

普通人存100萬要多久?

黎兜兜
2026-03-30 10:50:43
殲20總設計師被除名:頂頭上司受賄7億判死緩,事發全過程被還原

殲20總設計師被除名:頂頭上司受賄7億判死緩,事發全過程被還原

博士觀察
2026-03-28 21:02:35
松贊干布死后,無子的文成公主,在西藏生活30年,她是怎么度過的

松贊干布死后,無子的文成公主,在西藏生活30年,她是怎么度過的

歷史人文2
2026-03-28 16:30:03
她41歲嫁庾澄慶,兩年生一兒一女,比伊能靜幸運的點在于婆婆老了

她41歲嫁庾澄慶,兩年生一兒一女,比伊能靜幸運的點在于婆婆老了

以茶帶書
2026-03-29 20:58:52
無情碾壓!猛龍七分鐘狂轟31-0攻擊波,創造NBA歷史新紀錄

無情碾壓!猛龍七分鐘狂轟31-0攻擊波,創造NBA歷史新紀錄

懂球帝
2026-03-30 14:58:37
2026-03-30 16:04:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12640文章數 142599關注度
往期回顧 全部

科技要聞

DeepSeek性能異常問題已解決,服務恢復

頭條要聞

太原高樓起火致3死23傷 居民:曾提醒燒烤店不安全

頭條要聞

太原高樓起火致3死23傷 居民:曾提醒燒烤店不安全

體育要聞

想進世界杯,意大利還要過他這一關

娛樂要聞

單依純凌晨發長文道歉!李榮浩再回應

財經要聞

油價沖擊,有些亞洲貨幣先扛不住了!

汽車要聞

理想i9要來了!外形似小號MEGA 能沖擊高端純電市場?

態度原創

親子
游戲
健康
手機
本地

親子要聞

女兒今天來找爸爸,讓女兒改口叫后媽

100G的"3A"新游2096年發售!開發者子孫后代完成

干細胞抗衰4大誤區,90%的人都中招

手機要聞

OPPO K15 Pro「賽博光翼」真機實拍

本地新聞

用Color Walk的方式解鎖城市春日

無障礙瀏覽 進入關懷版