網易首頁 > 網易號 > 正文申請入駐

TAMU/Waterloo團隊把研究智能體的訓練做成了開源流水線

2026-03-30 11:08:49　來源: 機器之心Pro

河北舉報

分享至

訓練一個能像人類研究員一樣「搜索→瀏覽→推理」的深度研究智能體 (Deep Research Agent)，最大的瓶頸往往不是模型能力，而是高質量長程研究軌跡數據的嚴重匱乏?，F有的軌跡采集方案要么依賴昂貴且不穩定的在線搜索 API，要么只能生成 2-5 輪的淺層交互，遠不足以覆蓋真實深度研究中動輒數十輪甚至上百輪的復雜推理需求。

針對這一痛點，來自Texas A&M University、University of Waterloo、UC San Diego 等機構的研究團隊提出了OpenResearcher：一條完全開源、可復現的離線深度研究軌跡合成流水線。這是首個能夠訓練出在長程研究任務上與專用系統相媲美模型的開源流水線，合成的數據也已經在 NVIDIA 的基座模型訓練中被采用。該方法的核心思路是：通過一次性收集在線語料構建包含 1500 萬篇候選文檔的本地搜索引擎，隨后由教師模型在完全離線的環境中，憑借調用 search、open、find 三種工具合成了超過9.7 萬條長程研究軌跡，其中大量軌跡包含100 次以上的工具調用。

利用這些軌跡對一個 30B 參數的模型進行監督微調，即可在離線深度研究的基準數據集 BrowseComp-Plus 上達到54.8%的準確率，較基座模型實現34.0個百分點的絕對提升，并一舉超越 GPT-4.1（36.4%）、Claude-4-Opus（36.8%）等強大的閉源模型！對于在線深度研究的基準數據集，該模型同樣全面超越現有開源系統，且全部增益均來自離線合成數據，無需任何在線訓練。

圖 1：BrowseComp-Plus 基準數據集上的性能 - 參數量對比。OpenResearcher（30B）以 54.8% 的準確率高居左上角，在性能 / 參數比維度上顯著領先 GPT-4.1、Claude-4-Opus、Gemini-2.5-Pro 等強大的閉源模型，同時超越通義 DeepResearch（44.5%）等專用深度研究系統。

論文鏈接：https://arxiv.org/abs/2603.20278
博客鏈接：https://boiled-honeycup-4c7.notion.site/OpenResearcher-A-Fully-Open-Pipeline-for-Long-Horizon-Deep-Research-Trajectory-Synthesis-2f7e290627b5800cb3a0cd7e8d6ec0ea
代碼鏈接：https://github.com/TIGER-AI-Lab/OpenResearcher
模型鏈接：https://huggingface.co/OpenResearcher/OpenResearcher-30B-A3B
數據集鏈接：https://huggingface.co/datasets/OpenResearcher/OpenResearcher-Dataset
Demo鏈接：https://huggingface.co/spaces/OpenResearcher/OpenResearcher

深度研究軌跡的合成，難在哪？

隨著 DeepSeek-R1 等工作的推出，從大型推理模型中蒸餾長程推理軌跡并用于后訓練已成為主流范式，OpenThoughts、OpenMathReasoning 等項目相繼涌現。然而，當訓練目標從「數學推理」拓展到「深度研究」—— 即智能體需要迭代搜索、聚合異構證據、進行多步推理 —— 高質量軌跡的獲取就變得尤為棘手。

現有方案受制于三重瓶頸：

成本高昂：每一條失敗的搜索路徑都要消耗 API 調用配額，大規模合成意味著數萬美元級別的開支。
不可復現：互聯網上的內容隨時在變化，同一查詢在不同時刻可能返回截然不同的結果，使得獲取的軌跡難以穩定復現。
不可分析：在線搜索環境本質上是黑盒，研究者無法精確追蹤「關鍵證據在哪一步被發現」、「搜索策略的偏差出在哪里」等等關鍵問題，嚴重限制了對智能體行為的系統性研究。

這促使團隊提出一個核心問題：能否將「搜索→瀏覽→推理」循環中昂貴的前兩步從在線環境搬到更可控的離線環境中，以零邊際成本、完全可復現的方式大規模合成高質量深度研究軌跡？

OpenResearcher：離線深度研究軌跡合成流水線

OpenResearcher 的核心設計理念是將語料構建與軌跡生成徹底解耦：先通過一次性在線收集含有研究信息的文檔構建離線語料庫與搜索引擎，然后在完全離線的本地環境中規模化合成研究軌跡。具體而言，流水線包含以下三個階段。

圖 2：OpenResearcher 總覽。整條流水線分三個階段推進：(1) 從 MiroVerse 篩選約 6,000 個高難度 QA 問題；(2) 一次性在線收集約 1 萬篇含有研究信息的文檔 (gold documents)，并與 1,500 萬篇 FineWeb 干擾文檔合并構成帶 FAISS 索引的離線語料庫；(3) 教師模型 GPT-OSS-120B 在離線環境中通過 search、open、find 三種瀏覽器原語生成超 9.7 萬條長程研究軌跡。

階段一：高難度問題收集。深度研究軌跡的質量起點是問題的質量。傳統 QA 數據集如 2WikiMultiHopQA 和 NQ 的問題通常只需 2-5 步檢索即可回答，遠達不到深度研究所需的復雜度。研究團隊選擇從 MiroVerse-v0.1 中隨機采樣 10%，得到約 6,000 個問答對。這些問題天然要求長程多跳推理與異構證據整合，實測中即便是很強大的教師模型也往往需要數十次工具調用才能作答，其中相當一部分需要超過 100 次。

階段二：離線搜索引擎構建。軌跡合成有一個硬性前提：目標證據必須可檢索。否則，教師模型的合成失敗可能是搜索策略的問題，也可能僅僅是語料中缺少相關文檔，而這種歧義會嚴重干擾下游分析。為消除這一歧義，團隊采取了「答案引導的在線文檔收集」策略：對每個問答對，將問題與參考答案拼接構造 query，經 Serper API 一次性檢索并清洗去重，獲得約 1 萬篇含有研究信息的文檔 (gold documents)。隨后將 gold documents 與從 FineWeb 中采樣的約 1,500 萬篇干擾文檔（約 10 萬億 tokens）合并構成離線語料庫，全部文檔使用 Qwen3-Embedding-8B 向量化，并通過 FAISS 建立索引。這一設計的精妙之處在于：gold documents 保證了「答案確實存在于語料中」，海量干擾文檔則忠實模擬了真實網絡的噪聲與復雜度，使合成軌跡兼具可控性與真實感。

圖 3：OpenResearcher 使用的三種工具。以「哪些 MIT 研究者獲得了 INFORMS 獎項」為例：智能體可先調用 Search 工具獲取搜索摘要列表（左欄），再調用 Open 工具拉取目標 URL 的文檔全文（中欄），最后調用 Find 工具在文檔內精確定位關鍵字符串「MIT」（右欄，高亮顯示）。三種工具實現多尺度漸進式信息發現。

階段三：瀏覽建模與軌跡合成。OpenResearcher 利用三種工具對智能體的在線瀏覽行為進行抽象，完整建模了人類的研究行為模式：

Search：向離線搜索引擎發出自然語言查詢，返回 top-K 結果（含標題、URL、摘要片段），對應人類「廣泛搜索、識別候選來源」的行為
Open：根據 URL 獲取文檔全文內容，對應人類「點開網頁、通讀全文」的行為
Find：在當前已打開的文檔中執行精確字符串匹配，對應人類「Ctrl+F 頁面內查找」的行為，用于命名實體查找、事實核驗和證據錨定

在此基礎上，研究團隊以 GPT-OSS-120B 為教師模型，對每個問題生成 16 條不同的軌跡以捕獲多樣化推理路徑。經輕量過濾后，最終獲得超過9.7 萬條軌跡，推理深度涵蓋了十余步到百余步。

30B 模型超越多個閉源大模型

訓練設置：研究團隊以 NVIDIA Nemotron-3-Nano-30B-A3B（混合 Mamba-Transformer MoE 架構，激活參數僅 3.2B）為基座，篩選出約 5.5 萬條答案正確的軌跡進行監督微調。訓練在 8 張 NVIDIA H100 GPU 上完成，耗時約 8 小時，是中小團隊也能具備的算力。

離線深度研究的評測：在離線深度研究的基準數據集 BrowseComp-Plus 上，OpenResearcher-30B-A3B 取得54.8%的準確率，大幅領先 GPT-4.1（36.4%）、Claude-4-Opus（36.8%）、Gemini-2.5-Pro（29.5%）、DeepSeek-R1（16.4%）及通義 DeepResearch（44.5%）。較基座模型絕對提升 34.0 個百分點！僅憑離線合成軌跡的監督微調，無需強化學習或在線交互，即可在深度研究任務上釋放顯著的性能增益。

在線深度研究的評測：在三個依賴在線搜索 API 的基準數據集上，OpenResearcher 同樣亮眼：BrowseComp 26.3%，GAIA 64.1%，xbench-DeepSearch 65.0%，全面超越 ASearcher-QwQ-32B 和 WebDancer-QwQ-32B 等開源系統。更關鍵的是，所有這些增益完全來自離線環境合成的軌跡！模型從未在在線深度研究數據上訓練過，卻能有效遷移到真實、動態的搜索環境。

圖 4：深度研究基準測試性能對比。左表（離線，BrowseComp-Plus）：OpenResearcher 以 54.8% 位居榜首，大幅超過 GPT-4.1（36.4%）和通義 DeepResearch（44.5%），較基座模型絕對提升 34.0 個百分點。右表（在線，BrowseComp / GAIA /xbench-DeepSearch）：OpenResearcher 取得 26.3% / 64.1% / 65.0%，全面超越同量級開源系統。

搭建 OpenResearcher 的過程能教會我們什么？

失敗不在步數，在策略：失敗軌跡的平均工具調用次數（71.7 次）幾乎是成功軌跡（38.4 次）的兩倍，且額外調用主要集中在 search 操作上。失敗并非源于「探索不充分」，而是陷入了反復重新構造查詢卻始終無法收斂的困境。查詢構造能力和搜索策略的質量，才是決定深度研究成敗的關鍵。

圖 5：工具調用次數分布與正確 / 錯誤軌跡對比。左圖（成功）：調用次數集中在 10-40 次，均值 38.4，中位數 24.0。中圖（失敗）：呈雙峰形態，均值 71.7，中位數 79.0，反映反復無效的搜索。右圖：失敗軌跡的 search 調用均值（48.7）遠超成功軌跡（22.1），而 find 使用頻率兩組相近，說明癥結在搜索策略而非文檔內定位。

「答案正確性」并非唯一有價值的訓練信號：僅用正確軌跡訓練的模型得到 54.81% 的準確率，僅用錯誤軌跡訓練得到 55.06%，混合全量軌跡得到 54.46%。三者差異不超過 0.6 個百分點。由此可知，軌跡中蘊含的搜索結構、工具調用模式、證據檢查策略等過程性信號的價值并不遜色于最終答案的正確性。研究者無需過于激進地過濾訓練數據。另一方面，移除 gold document 的收集過程后，下游準確率從 54.81% 驟降至 6.35%。所以，一次性在線收集是整條離線合成流水線得以運轉的關鍵步驟。

圖 6：左表：僅用正確（54.81%）/ 錯誤（55.06%）/ 全部軌跡（54.46%）訓練，在 BrowseComp-Plus 上的準確率相差不超過 0.6 個百分點，說明過程性信號價值不亞于答案正確性。右表：移除 gold documents 的收集過程后下游準確率從 54.81% 降至 6.35%，證明一次性在線文章收集這一步不可或缺。

智能體的最大可探索輪數預算在 100 輪后邊際收益遞減：準確率和檢索 gold documents 的命中率隨最大可探索輪數預算增加穩步上升，但在 100 輪附近開始趨于平緩。這說明長程探索確實有益，但在智能體獲得充分的檢索和定位機會之后，單純延長推理鏈的邊際收益明顯遞減。

圖 7：準確率（藍線）和檢索 gold documents 的命中率（橙線）隨最大可探索輪數預算增加持續上升，但在約 100 輪后趨于飽和（準確率～58.3%，命中率～49.3%），表明長程探索有益但存在邊際遞減效應。

三種瀏覽器工具缺一不可：消融實驗清楚地展示了三種工具的遞進價值。智能體在僅能調用 search 時準確率為 43.86%，加入 open 后升至 56.39%，再引入 find 進一步達到62.17%，同時工具調用總次數和 token 消耗均下降。這表明，文檔級訪問是深度研究的「剛需」，頁面內證據定位則在提升精度的同時降低了冗余瀏覽。

圖 8：左表：準確率從僅能調用 search（43.86%）→ 可以調用 open（56.39%）→ 還可以調用 find（62.17%）穩步提升，同時工具調用次數和 token 消耗持續下降。右表：P (correct|open-hit) = 86.72% 遠高于 P (correct|search-hit) = 61.84%，表明「搜到」與「看到」對于準確率的幫助是有很大差異的。

檢索時機與最終準確率的關系：只要智能體打開過至少一篇 gold document，無論這一命中發生在第幾輪，最終準確率都能穩定維持在 85% 以上；從未打開過 gold document 的軌跡準確率則僅有 7.9%。因此「看到」與研究相關的證據通常是正確回答的必要條件，但并非充分條件。

圖 9：首次打開 gold document 的時機與最終準確率的關系。只要打開過至少一篇 gold document，準確率均穩定在 85% 以上；完全未命中的 303 條軌跡準確率則僅有 7.9%。

成本：從數萬美元到零

合成這 9.7 萬條軌跡共涉及約 576 萬次搜索請求。若使用在線的 Serper API，花費約 $5,760；若改用 SerpAPI 則高達 $28,800。而 OpenResearcher 的離線檢索器將這一成本降至$0。離線方案還額外提供：無速率限制（支持大規模并行合成）、完全確定性（確保長程研究軌跡完美可復現）、零外部依賴（便于開放共享與社區復現）。

總結與展望

OpenResearcher 為深度研究智能體的訓練數據問題提供了一條務實且高效的解決路徑：與其在昂貴、不穩定的在線環境中反復試錯，不如將「搜索→瀏覽→推理」循環中昂貴的前兩步從在線環境搬到更可控的離線環境中，以可復現、零邊際成本的方式大規模合成訓練軌跡。在方法層面，三種工具對智能體的在線瀏覽行為的抽象（search + open + find）忠實模擬了人類的研究行為，使合成軌跡不僅包含搜索查詢，還包含文檔閱讀和證據定位的完整行為鏈。在實證層面，一個僅有 30B 參數（3.2B 激活）的模型通過監督微調即可在多個基準上超越參數量數倍于己的閉源模型，且全部增益來自離線合成數據。更具長遠價值的是，離線環境的完全可控性為系統性地分析深度研究流水線各設計維度 (例如數據過濾策略、語料覆蓋、智能體配置、工具空間設計、檢索與推理的交互關系等）提供了實驗平臺，為這一領域的未來優化指明了方向。

本文主要作者為：德州農工大學博士生李卓風，滑鐵盧大學博士生姜東甫，德州農工大學助理教授張彧，以及滑鐵盧大學助理教授陳文虎。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.