337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

大廠數據護城河打破!上交全開源Search Agent OpenSeeker登場

0
分享至



一直以來,高性能 Search Agent 都像是 “大廠的專屬游戲”。雖然業界涌現了許多開源模型,但真正決定 Agent 能力上限的 “高質量訓練數據” 卻始終被各大企業嚴格保密,形成了一道堅固的數據護城河。這種持續的數據稀缺,極大地阻礙了廣大研究社區在這一領域的創新與發展。

今天,由上海交通大學研究團隊推出的OpenSeeker徹底打破這一現狀!

作為首個純學術團隊打造,完整開源模型 + 100% 全量訓練數據的前沿深度搜索 Agent,OpenSeeker 證明了:不靠堆砌算力資源,依靠極高的數據合成質量,學術界同樣能跑出 SOTA!在同等條件下(約 30B 參數量、純 ReAct 架構),OpenSeeker 僅需11.7k 合成樣本進行單輪 SFT(監督微調),便在多個前沿榜單上取得了 SOTA 成績。



  • GitHub: https://github.com/rui-ye/OpenSeeker
  • 全量訓練數據: https://huggingface.co/datasets/OpenSeeker/OpenSeeker-v1-Data
  • 模型權重: https://huggingface.co/OpenSeeker/OpenSeeker-v1-30B-SFT
  • Huggingface Paper: https://huggingface.co/papers/2603.15594
  • 論文直達: https://arxiv.org/pdf/2603.15594

核心亮點速覽

  • 純學術團隊打造,打破大廠壟斷:完全開源所有訓練數據(QA + 軌跡)和模型,為研究人員提供高質量數據基礎,無需依賴企業級規模資源,也能探索與構建下一代 Search Agent。
  • 跨榜單 SOTA,越級挑戰強化學習模型:在 BrowseComp-ZH 榜單上取得48.4%的成績,直接超越了阿里 Tongyi DeepResearch 通過采用 CPT(持續預訓練)、SFT(監督微調)和 RL(強化學習)多輪復雜訓練得出的 46.7%。在約 30B 級純 SFT 模型中,全面斬獲第一(BrowseComp 29.5 /xbench 74.0 / WideSearch 59.4)

核心技術揭秘:

突破大廠數據瓶頸的高質量數據合成方案

要有效訓練深度搜索 Agent,核心在于解決兩個關鍵問題:首先,必須構建足夠高難度的問答任務,以激發模型“推理 → 工具調用 → 工具反饋”的多輪工具調用能力,從而形成包含明確決策節點和長工具調用鏈的長程交互軌跡;其次,需要通過穩定且可復現的方法生成高質量解題軌跡,確保訓練信號學習到的是正確且可泛化的策略,而非依賴隨機采樣產生的偶然成功。

為此,OpenSeeker 進一步提出基于真實網頁結構的事實錨定問答構建動態去噪軌跡合成方法,以系統性提升多跳推理能力與信息提取能力。

1. 基于事實錨定的問答構建:基于真實網頁圖譜構造高難度多跳問題



現有的檢索任務往往容易被模型通過簡單的模式匹配 “走捷徑”。為了逼迫模型進行真正的多跳推理,OpenSeeker 直接從海量真實網頁的圖結構出發進行逆向工程。

  • 從隨機種子頁面出發進行拓撲圖擴展,尋找互聯的信息簇并提取出實體子圖。
  • 引入實體混淆機制,將具體實體模糊化,把簡單的事實轉化為復雜的推理謎題。

OpenSeek QA 合成的方法,不僅保證了數據的真實可信,還從結構上強制模型必須進行多步導航與深度推理。

2. 動態去噪軌跡合成:基于非對稱上下文構建,強化嘈雜環境下的核心信息提取



真實的網頁環境充滿了冗長且無關的噪音。為了合成高質量的動作軌跡,OpenSeeker 設計了一套非對稱的 “動態上下文去噪” 策略:

  • 生成階段(Teacher):引入回顧性總結機制,將上一步的嘈雜工具返回結果壓縮為干凈摘要,讓 Teacher 模型在無噪的上下文中生成專家級的推理和工具調用。
  • 訓練階段(Student):在訓練時撤掉摘要,給模型喂入原始的、未經壓縮的嘈雜工具返回結果,倒逼其預測 Teacher 的高質量決策

該方法激發 OpenSeeker 從嘈雜的真實網頁環境中學習到了強大的信息提取與去噪能力。

實驗結果:11.7k 數據的越級挑戰


11.7k 數據單輪 SFT,媲美大廠表現:OpenSeeker 僅使用 11.7k 樣本和 SFT 進行單輪訓練,便展現出媲美甚至超越大廠資源密集型模型的競爭力。令人矚目的是,在 BrowseComp-ZH 榜單上,僅采用單輪簡單 SFT 訓練的 OpenSeeker-v1-30B-SFT 取得了48.4%的高分,超越經歷了持續預訓練 (CPT)、SFT 和強化學習 (RL) 多階段訓練的 Tongyi DeepResearch (46.7%)。



純 SFT 與 ReAct 架構下的 SOTA 表現:在同為 SFT 訓練的 ReAct Agent 競爭中,OpenSeeker 取得 SOTA。僅憑借 11.7k 數據,OpenSeeker 在 BrowseComp (29.5)、BrowseComp-ZH (48.4)、xbench (74.0) 和 WideSearch-EN (59.4) 四大榜單上均取得最優成績,顯著拉開了與阿里巴巴通義實驗室提出的 WebSailor-V2、WebLeaper 等同類開源模型的差距。



同等數據規模下的顯著優勢,凸顯極高數據質量:在控制數據量規模可比的情況下(10k-15k 級別),OpenSeeker 的數據質量明顯優于阿里巴巴通義實驗室的 WebSailer-V2 和 WebLeaper 的各類組合版本,在各項指標上均保持顯著優勢。



遠超 Benchmark 的數據難度:為了量化數據難度,研究團隊使用相同的模型對合成數據和標準 Benchmark 進行了推理對比。結果顯示:

  • 合成的中文數據難度遠超 BrowseComp-ZH:每條軌跡平均需要進行46.35 次工具調用,平均 token 長度高達76.1k;而 BrowseComp-ZH 分別僅為 26.98 次和 15.1k tokens。
  • 英文數據的難度也達到了與 BrowseComp-EN 相媲美的水平。



社區反響:真正推動領域發展的底層開源支撐

OpenSeeker 一經發布,便在海外社交平臺和開源社區引發了熱烈反響。許多研究者與開發者紛紛表示,這正是目前學術界最迫切需要的破局之作:



  • 明確科研與數據的邊界:“這才是真正能推動領域發展的開源發布。全量訓練數據加上 30B 模型,讓研究人員終于能區分出,性能的提升到底是來自真正的方法創新,還是僅僅因為吃了閉源數據的紅利。”
  • 打破數據壟斷:“現在,大家終于可以在沒有‘數據守門人’限制的情況下,自由構建多步智能體了!”
  • 呼喚已久的透明度:“AI Agent 終于迎來了數據透明,太令人振奮了!”、“開源再次勝利!”

這不僅是一個 SOTA 模型,更是賦能整個學術界探索下一代 Search Agent 的堅實基座。


全面開源,即刻體驗!


OpenSeeker 作為首個由純學術團隊打造、模型與全量訓練數據完全開源的深度搜索 Agent,從根本上打破了長期以來由大廠構筑的數據護城河,真正為科研人員提供了可直接使用、可復現、可擴展的高質量研究數據基礎。這一開放不僅降低了前沿 Search Agent 研究的門檻,更讓研究者能夠專注于方法創新本身,而不再受限于數據。打破閉源壟斷,讓前沿研究不再遙不可及。也期待更多開發者與研究者加入,共同探索下一代 Agent 的可能性,歡迎 Star 關注并上手體驗!

作者介紹:

本文共同第一作者為上海交通大學博士生杜鈺文與葉銳,其中葉銳為項目負責人,指導老師為上海交通大學人工智能學院陳思衡教授,主要研究方向為 AI Agents、Agentic Science 等領域。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
隨著一場2-1絕殺,亞洲杯24強基本出爐,國足世界排名被泰國反超

隨著一場2-1絕殺,亞洲杯24強基本出爐,國足世界排名被泰國反超

侃球熊弟
2026-04-01 03:48:31
坐上談判桌后,中方提出一個要求,臺灣問題,菲律賓終于交了底

坐上談判桌后,中方提出一個要求,臺灣問題,菲律賓終于交了底

興史興談
2026-03-31 16:44:00
為什么秦嵐的身材不協調 胸很大 腰很細 臀部很大 身材有點像芭比娃娃

為什么秦嵐的身材不協調 胸很大 腰很細 臀部很大 身材有點像芭比娃娃

手工制作阿殲
2026-04-01 14:16:49
19中4!連續三場失準!NBA三分王保不住了

19中4!連續三場失準!NBA三分王保不住了

籃球教學論壇
2026-04-01 19:20:10
淚目!全紅嬋哽咽揭秘體重增加:每天只吃1頓,接受不了這么胖

淚目!全紅嬋哽咽揭秘體重增加:每天只吃1頓,接受不了這么胖

李喜林籃球絕殺
2026-03-30 11:48:54
廣州舊村猛拆!廣佛線擠爆,成“牛馬專列”了...

廣州舊村猛拆!廣佛線擠爆,成“牛馬專列”了...

佛山樓市發布
2026-03-31 14:13:37
武漢多輛百度蘿卜快跑行駛中突然停車,交警通報:系統故障導致

武漢多輛百度蘿卜快跑行駛中突然停車,交警通報:系統故障導致

識礁Farsight
2026-04-01 09:34:04
銀行不會明說的潛規則:存款超55萬,你就有資格談條件!

銀行不會明說的潛規則:存款超55萬,你就有資格談條件!

墜入二次元的海洋
2026-04-01 12:04:21
同事蹭我車回家,當出發時全家4口都擠上來,我冷笑:讓你們坐

同事蹭我車回家,當出發時全家4口都擠上來,我冷笑:讓你們坐

奶茶麥子
2026-03-31 12:33:06
國臺辦:將與國民黨方面就鄭麗文主席來訪事宜進行溝通 作出妥善安排

國臺辦:將與國民黨方面就鄭麗文主席來訪事宜進行溝通 作出妥善安排

新京報
2026-04-01 11:09:06
陶漢林16+12總籃板升歷史第八 高詩巖被驅逐山東力克福建

陶漢林16+12總籃板升歷史第八 高詩巖被驅逐山東力克福建

醉臥浮生
2026-04-01 21:58:47
4秒領先,杜卡迪工程師集體沉默,這車到底誰在造。

4秒領先,杜卡迪工程師集體沉默,這車到底誰在造。

三農老歷
2026-04-01 06:57:35
一直被模仿,但從未被超越?新款奔馳GLS官圖正式發布

一直被模仿,但從未被超越?新款奔馳GLS官圖正式發布

優視汽車
2026-04-01 16:26:28
老板娘問我她的泳衣好看嗎?我該怎么回答?

老板娘問我她的泳衣好看嗎?我該怎么回答?

太急張三瘋
2026-04-01 14:27:33
誰也沒想到,曾與宋祖英齊名,9登春晚的祖海,如今竟活成了這樣

誰也沒想到,曾與宋祖英齊名,9登春晚的祖海,如今竟活成了這樣

以茶帶書
2026-04-01 14:02:52
特朗普剛表態認輸,不到24小時,美債遭遇大規模拋售,美國失算了

特朗普剛表態認輸,不到24小時,美債遭遇大規模拋售,美國失算了

霽寒飄雪
2026-04-01 11:39:40
輕斷食再次封神!復旦大學研究證實,讓肝臟脂肪在5個月內少20.5%

輕斷食再次封神!復旦大學研究證實,讓肝臟脂肪在5個月內少20.5%

健康之光
2026-03-24 08:46:34
山東男籃逆轉福建,高詩巖被驅逐出場 郭凱7中7 新外援24+7高效

山東男籃逆轉福建,高詩巖被驅逐出場 郭凱7中7 新外援24+7高效

替補席看球
2026-04-01 21:47:35
為什么大家都說這個熱巴是假的?細思極恐,真的熱巴去哪里了?

為什么大家都說這個熱巴是假的?細思極恐,真的熱巴去哪里了?

娛樂小丸子
2026-03-30 09:53:37
憑什么讓我滾出中國?張本智和回老家祭祖遭村民抵制,差點打起來

憑什么讓我滾出中國?張本智和回老家祭祖遭村民抵制,差點打起來

拳擊時空
2026-04-01 03:30:19
2026-04-01 23:00:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12657文章數 142602關注度
往期回顧 全部

科技要聞

甲骨文血洗3萬人,47人團隊僅留3人

頭條要聞

中國為何能在能源動亂中處變不驚 路透社公布一組數據

頭條要聞

中國為何能在能源動亂中處變不驚 路透社公布一組數據

體育要聞

NBA擴軍,和籃球無關?

娛樂要聞

張婉婷已決定離婚 找律師討論婚變事宜

財經要聞

電商售械三水光針 機構倒貨or假貨猖獗?

汽車要聞

三電可靠 用料下本 百萬公里的蔚來ES6 拆開看

態度原創

旅游
數碼
健康
公開課
軍事航空

旅游要聞

網紅櫻花“遲到”,15年來最晚一次

數碼要聞

樹莓派再度漲價:推3GB版Pi 4 部分高配型號價格逼近迷你PC

干細胞抗衰4大誤區,90%的人都中招

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:將很快撤出伊朗戰事

無障礙瀏覽 進入關懷版