![]()
來自中國人民大學的研究團隊在2026年1月向學術界提交了一項關于AI搜索代理優化的重要研究成果。這篇論文將在2026年7月20-24日于澳大利亞墨爾本舉行的第49屆ACM SIGIR信息檢索研究與發展國際會議上正式發表。感興趣的讀者可以通過arXiv預印本平臺的編號2601.04888查閱完整論文內容。
假設你正在網上搜索一個復雜問題的答案,比如"1955年電影《安納波利斯的故事》中那位出生于1914年2月15日的美國演員是誰?"你的AI助手開始搜索,第一次它查詢"凱文·麥卡錫的出生日期",結果卻找到了一位美國政客的信息,而不是你要找的那位演員。這個小小的失誤,就像走錯了一個路口,導致整個搜索旅程偏離了正確方向,最終給出了錯誤答案。
這正是當前AI搜索系統面臨的核心困境。盡管這些系統能夠自動調用搜索引擎、處理復雜問題,但它們生成的中間搜索查詢往往不夠精準。一個關鍵詞的遺漏、一個限定條件的缺失,都可能讓搜索結果偏離預期,進而導致后續推理過程全部走偏。更令人擔憂的是,現有的AI訓練方法主要關注最終答案是否正確,卻忽略了搜索過程中每一步查詢的質量。這就好比只在意學生考試成績,卻不關心他們做題時的思考過程是否合理。
人大團隊開發的SmartSearch框架正是為了解決這一痛點。研究團隊的核心洞察是:與其事后修正錯誤答案,不如從源頭上優化每一次搜索查詢的質量。他們構建了一套完整的"查詢質量評估-優化-學習"循環系統,讓AI搜索代理在訓練過程中就學會如何提出更精準的問題。
這套系統的工作原理可以用一個熟悉的場景來理解。當你向圖書管理員詢問一本書的位置時,如果你只說"我要找一本關于凱文的書",管理員可能會困惑——是哪個凱文?是傳記類、小說類還是其他?但如果你說"我要找演員凱文·麥卡錫的傳記,他出生于1914年",管理員就能迅速幫你定位。SmartSearch正是在教AI搜索代理學會后者那樣的提問方式。
研究團隊設計了兩個相互配合的核心機制。第一個是"過程獎勵"機制,它為每一次搜索查詢打分并提供改進建議。這個機制包含兩個互補的評估維度。其中一個維度通過規則來檢查查詢是否與之前的搜索重復,避免AI反復查詢相同的內容浪費時間。另一個維度則通過模型來判斷查詢意圖是否必要、檢索結果是否包含了期望的答案。當AI提出一個搜索查詢后,這套評估系統會給出0分或1分的評價,同時生成文字反饋,詳細解釋該查詢存在的問題。
第二個核心機制是"查詢優化"。當系統識別出某個搜索查詢質量不佳時,會根據評估反饋對其進行改進,然后讓AI從改進后的查詢點重新開始搜索。回到剛才的例子,當AI查詢"凱文·麥卡錫的出生日期"卻得到政客信息時,系統會提示"查詢意圖是必要的,但檢索結果沒有包含演員凱文·麥卡錫的信息,而是找到了政客"。基于這個反饋,查詢會被優化為"演員凱文·麥卡錫的出生日期",加上"演員"這個關鍵限定詞后,搜索引擎就能返回正確的信息了。
為了讓AI真正內化這種優化能力,研究團隊沒有采用一步到位的訓練方式,而是設計了一個循序漸進的三階段學習框架。這個框架的設計理念類似于學習駕駛的過程:先跟著教練學習基本操作,再在陪練指導下練習復雜路況,最后獨立駕駛并不斷積累經驗。
第一階段稱為"篩選式模仿學習"。在這個階段,研究團隊精心篩選了一批高質量的示范數據。這些數據不僅要求最終答案正確,更重要的是整個搜索過程中的每一個查詢都必須質量優良。通過過程獎勵機制,團隊過濾掉了那些雖然最終答案正確、但搜索過程存在低質量查詢的樣本。只保留那些從頭到尾每一步查詢都精準有效的示范。AI模型在這些精選樣本上進行訓練,就像學生跟著優秀教師的標準示范來學習。這個階段雖然只用了原始數據的60%,但模型的性能反而顯著提升,證明了高質量過程示范的重要性。
第二階段是"查詢生成對齊"。這個階段的核心是讓AI學會區分好查詢和壞查詢。研究團隊采用了一種對比學習的方法:讓AI先生成一個完整的搜索過程,然后系統會識別出其中質量較低的查詢,并使用查詢優化機制生成改進版本。這樣就產生了多個不同的搜索軌跡,它們在某些查詢上存在差異。接下來,系統會根據兩個標準來判斷哪個軌跡更優:如果最終答案都正確,那么包含低質量查詢更少的軌跡更好;如果最終答案都錯誤,那么包含高質量查詢更多的軌跡更好。AI通過不斷比較這些軌跡對,逐漸學會了什么樣的查詢策略更有效。這個階段的訓練方式,讓AI不僅知道"應該怎么做",更明白"為什么這樣做更好"。
第三階段是"查詢感知策略優化"。經過前兩個階段的學習,AI已經掌握了基本的查詢優化能力,但還需要在更具挑戰性的問題上磨練。研究團隊挑選了一批經過多次嘗試仍未解決的難題,讓AI在這些問題上繼續訓練。這個階段采用了強化學習的方法,但與傳統做法不同,訓練過程中融入了查詢優化機制。當AI生成一個搜索軌跡后,系統不是簡單地生成多個獨立軌跡,而是會識別出當前軌跡中的低質量查詢,進行優化,然后從優化點繼續生成新的搜索路徑。這樣既保證了訓練樣本的多樣性,又確保優化重點始終聚焦在查詢質量上。
在獎勵設計上,研究團隊也做了精心考量。傳統的強化學習主要根據最終答案是否正確來給獎勵,但SmartSearch的獎勵函數同時考慮了搜索過程中每個查詢的質量。具體來說,如果AI給出了正確答案,系統會根據搜索過程中低質量查詢的數量適當降低獎勵分數,激勵AI用更少、更精準的查詢達成目標。即使AI沒能給出正確答案,系統也會根據其生成的高質量查詢數量給予部分獎勵,鼓勵AI至少朝著正確方向探索。這種獎勵設計避免了AI為了獲得高分而忽視搜索過程質量的情況。
值得一提的是,為了提高效率,研究團隊訓練了一個輕量級的輔助模型來執行查詢質量評估和優化任務。這個小模型首先由一個更強大的"教師模型"提供標注數據,然后通過學習這些標注來掌握評估和優化能力。實驗證明,這個輕量級模型在查詢評分上與人工標注的一致性超過80%,與教師模型的一致性超過85%,但運行速度快了近五倍。這個設計在保證效果的同時,大幅降低了系統的計算成本。
研究團隊在多個具有挑戰性的數據集上驗證了SmartSearch的效果。這些數據集涵蓋了兩類任務:一類是基于維基百科的知識密集型問答,包括2WikiMultihopQA、HotpotQA、Bamboogle和Musique四個數據集;另一類是開放網絡環境下的探索任務,包括GAIA和WebWalker。前者需要AI從海量結構化知識中精準檢索信息并進行多步推理,后者則要求AI在真實網絡環境中導航搜索。
實驗結果令人印象深刻。在知識密集型問答任務上,SmartSearch在所有四個數據集上都取得了最佳表現。平均而言,它的精確匹配率(EM)達到37.5%,F1分數達到47.2%,相比第二名分別提升了25%和19%。具體到各個數據集,在2WikiMultihopQA上,SmartSearch的EM達到45.3%,比第二名高出24%;在HotpotQA上提升7%;在Bamboogle上提升22%;在Musique上提升15%。這些提升幅度都相當可觀,證明了優化查詢質量對整體性能的巨大影響。
更值得關注的是SmartSearch的泛化能力。盡管它完全在維基百科的本地搜索環境中訓練,但當研究團隊將其應用到開放網絡搜索任務時,它依然表現出色。在GAIA數據集上,SmartSearch的EM達到13.4%,F1達到16.7%;在WebWalker上,EM為11.5%,F1為31.0%。平均而言,相比于在這些數據集上表現次優的方法,SmartSearch的F1分數提升了近5個百分點。這說明SmartSearch學到的查詢優化能力具有很強的通用性,不局限于特定的搜索環境。
研究團隊還進行了詳細的對比實驗,驗證了各個組成部分的貢獻。他們發現,在第一階段的模仿學習中,加入查詢質量篩選后,即使訓練數據減少到原來的60%,模型的平均EM依然從28.7%提升到31.7%。這清楚地證明了高質量過程示范比單純增加數據量更重要。在第二階段,如果去掉查詢優化機制,只是簡單地生成多個獨立軌跡進行對比學習,平均EM會從33.5%下降到31.4%。如果去掉過程獎勵,只根據最終答案正確性來判斷軌跡優劣,平均EM則下降到32.2%。這些數字表明,查詢優化和過程獎勵兩個機制缺一不可,它們共同作用才能實現最佳效果。
在第三階段的強化學習中,對比實驗揭示了更多細節。如果使用標準的強化學習算法,不引入查詢優化機制,平均EM為34.8%;如果只引入查詢優化但不使用過程獎勵,平均EM為35.8%;如果只引入過程獎勵但不使用查詢優化,平均EM為35.1%。而SmartSearch同時使用兩個機制后,平均EM達到37.5%,顯著超過了各個變體版本。研究團隊還繪制了訓練過程中性能變化的曲線圖,清晰地展示了SmartSearch在訓練過程中如何穩定提升,最終收斂到最高性能水平。
除了準確率,研究團隊還評估了搜索效率。他們定義了一個"搜索效率"指標,計算方式是將每個問題的答案質量除以搜索調用次數,然后取平均值。這個指標反映了AI用多少次搜索能達到什么樣的答案質量。結果顯示,SmartSearch不僅答案質量最高,搜索效率也最優。這意味著它用更少的搜索次數就能找到正確答案,避免了無效搜索帶來的時間和資源浪費。
為了更直觀地展示查詢質量的提升,研究團隊還引入了"搜索質量"指標。這個指標衡量的是多少搜索過程完全由高質量查詢組成(稱為"完美率"),以及多少搜索過程雖然最終答案錯誤但包含高質量查詢(稱為"部分率")。SmartSearch在完美率和部分率兩方面都明顯領先其他方法。完美率高意味著AI能夠持續生成精準查詢,避免中途出錯;部分率高則說明即使最終沒能解決問題,AI的探索方向也是正確的,為后續改進奠定了基礎。
研究團隊還特別驗證了那個輕量級輔助模型的有效性。他們隨機選取了100個搜索軌跡,讓人工標注員、教師模型和學生模型分別對每個查詢打分。統計發現,教師模型與人工標注的一致性接近90%,學生模型與教師模型的一致性超過85%,學生模型與人工標注的直接一致性也超過80%。這些數字證明,輕量級模型在保持高準確率的同時大幅降低了計算成本。進一步的實驗表明,如果用教師模型替代學生模型來執行評估和優化,性能提升不到1個百分點,但每個樣本的處理時間卻增加了近5倍。這清楚地說明,使用輕量級模型是一個明智的權衡選擇。
通過一個具體案例,可以更生動地理解SmartSearch的工作方式。面對問題"美國考古學家道格拉斯·D·斯科特因其在某個戰場遺址的工作而著名,這場戰役發生在哪一年?",SmartSearch首先分析問題,理解需要找到這位考古學家最著名的工作地點,然后確定那場戰役的年份。接著,它生成第一個搜索查詢"道格拉斯·D·斯科特著名的考古遺址",成功檢索到相關信息,發現他因在小大角戰場的工作而聞名。過程獎勵系統為這個查詢打1分,因為查詢意圖明確且檢索結果包含了期望信息。隨后,AI利用其內部知識,直接推斷出小大角戰役發生在1876年,無需進一步搜索。這個例子展示了SmartSearch如何通過精準查詢快速鎖定關鍵信息,同時避免了不必要的搜索步驟。
相比之下,如果查詢質量不佳會導致什么后果呢?在前面提到的電影演員問題中,如果AI查詢"凱文·麥卡錫的出生日期",搜索引擎可能返回政客凱文·麥卡錫的信息(出生于1965年1月26日)。過程獎勵系統會給這個查詢打0分,并提供反饋:"查詢意圖是必要的,但檢索結果包含的是政客凱文·麥卡錫的信息,而非演員。"基于這個反饋,查詢優化機制會將查詢改為"演員凱文·麥卡錫的出生日期",添加了"演員"這個關鍵限定詞。改進后的查詢能夠準確檢索到演員凱文·麥卡錫的信息(出生于1914年2月15日),從而引導AI得出正確答案。這個對比清楚地說明了查詢質量的微小差異可能導致截然不同的結果。
當前學術界在AI搜索代理領域的研究主要分為三類方向。第一類是基于提示詞工程的方法,通過精心設計的提示詞和結構化工作流來引導AI的行為,但這類方法沒有從根本上提升模型的底層能力。第二類是基于監督學習的方法,讓AI通過模仿專家示范來學習,這能顯著提升性能,但往往忽略了示范數據中可能存在的低質量查詢。第三類是基于強化學習的方法,通過獎勵機制引導AI自主探索更好的策略。近期一些研究開始在強化學習中引入過程獎勵,但大多聚焦于優化推理過程本身,較少關注中間搜索查詢的質量。SmartSearch的創新之處在于明確將查詢質量作為核心優化目標,并設計了完整的評估、優化和學習循環來實現這一目標。
從技術實現的角度,SmartSearch的訓練過程包含三個遞進階段。第一階段使用了一個名為ARPO-14B的模型來生成初始軌跡,然后用這些軌跡對Qwen2.5-3B-Instruct模型進行監督微調。訓練采用了7e-6的學習率,運行3個輪次,使用DeepSpeed ZeRO-3和FlashAttention2技術加速訓練過程,總批量大小為64,輸入長度上限為16384個詞元。第二階段在第一階段得到的模型基礎上進行DPO訓練,使用LoRA微調技術,學習率保持7e-6,同樣運行3個輪次,輸入長度上限減至10000個詞元,總批量大小為32。第三階段針對那些經過4次采樣仍未解決的難題進行強化學習,學習率調整為1e-6,每個樣本生成8條軌跡,總批量大小為64,PPO小批量大小為16,輸出長度上限為8192個詞元,每次推理過程中最多調用5次搜索工具。在最終推理時,系統允許最多10次搜索調用,輸出長度上限擴展到16384個詞元。
整個研究的意義不僅在于性能的顯著提升,更在于它揭示了一個重要原則:在復雜的多步驟任務中,優化中間過程的質量與優化最終結果同樣重要,甚至更為關鍵。這個原則不僅適用于AI搜索代理,也可能啟發其他需要多步決策的AI系統的設計。比如在自動駕駛中,關注每一個轉向決策的質量可能比只關注是否安全到達目的地更有價值;在醫療診斷AI中,優化每一步檢查建議的準確性可能比只評估最終診斷結果更能提升系統可靠性。
當然,這項研究也存在一些局限性和未來可以改進的方向。當前的過程獎勵機制主要依賴兩個維度的評估,未來可以考慮引入更多維度,比如查詢的創造性、信息覆蓋的全面性等。查詢優化機制目前主要基于小模型的改寫,未來可以探索更復雜的優化策略,比如從多個候選優化方案中選擇最佳的一個。三階段學習框架雖然有效,但也增加了訓練的復雜度,未來研究可以探索如何簡化流程或實現端到端的聯合優化。
從更廣闊的視角來看,SmartSearch代表了AI研究中一個重要的范式轉變:從"結果導向"到"過程導向"。傳統的AI訓練往往只關心最終輸出是否正確,就像只看學生的考試成績而忽略其解題思路。但SmartSearch告訴我們,如果想要AI真正掌握一項復雜技能,必須深入到過程的每一個環節,確保每一步都符合高質量標準。這種"過程質量優先"的理念,可能會影響未來更多AI系統的設計思路。
說到底,信息檢索的本質是提出正確的問題。在傳統搜索引擎時代,人類用戶負責提問,搜索引擎負責查找。而在AI搜索代理時代,AI既要理解用戶的復雜意圖,又要自己拆解問題、提出一系列精準查詢,最后整合信息給出答案。這對AI的要求遠高于傳統系統。SmartSearch通過系統化的訓練方法,讓AI學會了這種"提問的藝術",顯著提升了其解決復雜問題的能力。隨著這類技術的不斷成熟,我們或許能夠期待一個更智能的信息獲取時代:AI助手不再因為理解偏差而給出錯誤答案,而是能像經驗豐富的研究員一樣,準確把握每個問題的關鍵,高效定位所需信息,最終為用戶呈現可靠的答案。這不僅會改變我們獲取知識的方式,也可能深刻影響教育、科研、商業決策等眾多領域的信息處理模式。
對于那些想要深入了解技術細節或在自己的研究中應用這些方法的讀者,完整的論文已經在arXiv平臺上公開,編號為2601.04888。研究團隊還在GitHub上開源了相關代碼,倉庫地址為MYVAE/SmartSearch,方便學術界和工業界進一步探索和改進這項技術。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.