![]()
一直以來,高性能 Search Agent 都像是 “大廠的專屬游戲”。雖然業界涌現了許多開源模型,但真正決定 Agent 能力上限的 “高質量訓練數據” 卻始終被各大企業嚴格保密,形成了一道堅固的數據護城河。這種持續的數據稀缺,極大地阻礙了廣大研究社區在這一領域的創新與發展。
今天,由上海交通大學研究團隊推出的OpenSeeker徹底打破這一現狀!
作為首個純學術團隊打造,完整開源模型 + 100% 全量訓練數據的前沿深度搜索 Agent,OpenSeeker 證明了:不靠堆砌算力資源,依靠極高的數據合成質量,學術界同樣能跑出 SOTA!在同等條件下(約 30B 參數量、純 ReAct 架構),OpenSeeker 僅需11.7k 合成樣本進行單輪 SFT(監督微調),便在多個前沿榜單上取得了 SOTA 成績。
![]()
- GitHub: https://github.com/rui-ye/OpenSeeker
- 全量訓練數據: https://huggingface.co/datasets/OpenSeeker/OpenSeeker-v1-Data
- 模型權重: https://huggingface.co/OpenSeeker/OpenSeeker-v1-30B-SFT
- Huggingface Paper: https://huggingface.co/papers/2603.15594
- 論文直達: https://arxiv.org/pdf/2603.15594
核心亮點速覽
- 純學術團隊打造,打破大廠壟斷:完全開源所有訓練數據(QA + 軌跡)和模型,為研究人員提供高質量數據基礎,無需依賴企業級規模資源,也能探索與構建下一代 Search Agent。
- 跨榜單 SOTA,越級挑戰強化學習模型:在 BrowseComp-ZH 榜單上取得48.4%的成績,直接超越了阿里 Tongyi DeepResearch 通過采用 CPT(持續預訓練)、SFT(監督微調)和 RL(強化學習)多輪復雜訓練得出的 46.7%。在約 30B 級純 SFT 模型中,全面斬獲第一(BrowseComp 29.5 /xbench 74.0 / WideSearch 59.4)
核心技術揭秘:
突破大廠數據瓶頸的高質量數據合成方案
要有效訓練深度搜索 Agent,核心在于解決兩個關鍵問題:首先,必須構建足夠高難度的問答任務,以激發模型“推理 → 工具調用 → 工具反饋”的多輪工具調用能力,從而形成包含明確決策節點和長工具調用鏈的長程交互軌跡;其次,需要通過穩定且可復現的方法生成高質量解題軌跡,確保訓練信號學習到的是正確且可泛化的策略,而非依賴隨機采樣產生的偶然成功。
為此,OpenSeeker 進一步提出基于真實網頁結構的事實錨定問答構建與動態去噪軌跡合成方法,以系統性提升多跳推理能力與信息提取能力。
1. 基于事實錨定的問答構建:基于真實網頁圖譜構造高難度多跳問題
![]()
現有的檢索任務往往容易被模型通過簡單的模式匹配 “走捷徑”。為了逼迫模型進行真正的多跳推理,OpenSeeker 直接從海量真實網頁的圖結構出發進行逆向工程。
- 從隨機種子頁面出發進行拓撲圖擴展,尋找互聯的信息簇并提取出實體子圖。
- 引入實體混淆機制,將具體實體模糊化,把簡單的事實轉化為復雜的推理謎題。
OpenSeek QA 合成的方法,不僅保證了數據的真實可信,還從結構上強制模型必須進行多步導航與深度推理。
2. 動態去噪軌跡合成:基于非對稱上下文構建,強化嘈雜環境下的核心信息提取
![]()
真實的網頁環境充滿了冗長且無關的噪音。為了合成高質量的動作軌跡,OpenSeeker 設計了一套非對稱的 “動態上下文去噪” 策略:
- 生成階段(Teacher):引入回顧性總結機制,將上一步的嘈雜工具返回結果壓縮為干凈摘要,讓 Teacher 模型在無噪的上下文中生成專家級的推理和工具調用。
- 訓練階段(Student):在訓練時撤掉摘要,給模型喂入原始的、未經壓縮的嘈雜工具返回結果,倒逼其預測 Teacher 的高質量決策
該方法激發 OpenSeeker 從嘈雜的真實網頁環境中學習到了強大的信息提取與去噪能力。
實驗結果:11.7k 數據的越級挑戰
11.7k 數據單輪 SFT,媲美大廠表現:OpenSeeker 僅使用 11.7k 樣本和 SFT 進行單輪訓練,便展現出媲美甚至超越大廠資源密集型模型的競爭力。令人矚目的是,在 BrowseComp-ZH 榜單上,僅采用單輪簡單 SFT 訓練的 OpenSeeker-v1-30B-SFT 取得了48.4%的高分,超越經歷了持續預訓練 (CPT)、SFT 和強化學習 (RL) 多階段訓練的 Tongyi DeepResearch (46.7%)。
![]()
純 SFT 與 ReAct 架構下的 SOTA 表現:在同為 SFT 訓練的 ReAct Agent 競爭中,OpenSeeker 取得 SOTA。僅憑借 11.7k 數據,OpenSeeker 在 BrowseComp (29.5)、BrowseComp-ZH (48.4)、xbench (74.0) 和 WideSearch-EN (59.4) 四大榜單上均取得最優成績,顯著拉開了與阿里巴巴通義實驗室提出的 WebSailor-V2、WebLeaper 等同類開源模型的差距。
![]()
同等數據規模下的顯著優勢,凸顯極高數據質量:在控制數據量規模可比的情況下(10k-15k 級別),OpenSeeker 的數據質量明顯優于阿里巴巴通義實驗室的 WebSailer-V2 和 WebLeaper 的各類組合版本,在各項指標上均保持顯著優勢。
![]()
遠超 Benchmark 的數據難度:為了量化數據難度,研究團隊使用相同的模型對合成數據和標準 Benchmark 進行了推理對比。結果顯示:
- 合成的中文數據難度遠超 BrowseComp-ZH:每條軌跡平均需要進行46.35 次工具調用,平均 token 長度高達76.1k;而 BrowseComp-ZH 分別僅為 26.98 次和 15.1k tokens。
- 英文數據的難度也達到了與 BrowseComp-EN 相媲美的水平。
![]()
社區反響:真正推動領域發展的底層開源支撐
OpenSeeker 一經發布,便在海外社交平臺和開源社區引發了熱烈反響。許多研究者與開發者紛紛表示,這正是目前學術界最迫切需要的破局之作:
![]()
- 明確科研與數據的邊界:“這才是真正能推動領域發展的開源發布。全量訓練數據加上 30B 模型,讓研究人員終于能區分出,性能的提升到底是來自真正的方法創新,還是僅僅因為吃了閉源數據的紅利。”
- 打破數據壟斷:“現在,大家終于可以在沒有‘數據守門人’限制的情況下,自由構建多步智能體了!”
- 呼喚已久的透明度:“AI Agent 終于迎來了數據透明,太令人振奮了!”、“開源再次勝利!”
這不僅是一個 SOTA 模型,更是賦能整個學術界探索下一代 Search Agent 的堅實基座。
全面開源,即刻體驗!
OpenSeeker 作為首個由純學術團隊打造、模型與全量訓練數據完全開源的深度搜索 Agent,從根本上打破了長期以來由大廠構筑的數據護城河,真正為科研人員提供了可直接使用、可復現、可擴展的高質量研究數據基礎。這一開放不僅降低了前沿 Search Agent 研究的門檻,更讓研究者能夠專注于方法創新本身,而不再受限于數據。打破閉源壟斷,讓前沿研究不再遙不可及。也期待更多開發者與研究者加入,共同探索下一代 Agent 的可能性,歡迎 Star 關注并上手體驗!
作者介紹:
本文共同第一作者為上海交通大學博士生杜鈺文與葉銳,其中葉銳為項目負責人,指導老師為上海交通大學人工智能學院陳思衡教授,主要研究方向為 AI Agents、Agentic Science 等領域。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.