網易首頁 > 網易號 > 正文申請入駐

OpenAI把搜索做成決策引擎，90%團隊卻還在當爬蟲用

2026-03-26 09:01:15　來源: 全棧遛狗員

北京舉報

分享至

一個調研任務，AI搜了47個網頁，輸出3000字報告，產品經理看完直接扔回收站。不是信息不夠，是看完更不知道怎么決策了。這場景在2024年反復上演，直到有人意識到：研究型智能體（Research Agent）的根本價值從來不是"搜得多"，而是"判得準"。

當前行業有個荒誕的分裂。一方面，Perplexity、OpenAI的Deep Research、Google的Gemini Deep Research把搜索+推理的鏈路跑通，用戶開始習慣"問復雜問題，拿結構化答案"；另一方面，企業內部落地的"研究Agent"大多淪為高級爬蟲——輸入關鍵詞，輸出摘要，中間零判斷。某頭部云廠商的內部調研顯示，其客戶部署的研究類Agent中，73%的查詢停留在單輪檢索，沒有證據比對環節。

檢索便宜，合成才是價值。

原文作者畫了一張流程圖，把生產級研究Agent的骨架拆成8個函數：澄清問題、分解子問題、搜索來源、過濾來源、提取主張、比對證據、解決沖突、引用式總結。這串動作對應一個被忽視的真相——資深分析師的研究流程本身就是Agentic的，只是過去用Excel和咖啡模擬，現在用代碼自動化。

但自動化不等于智能化。多數失敗案例栽在同一個坑：把"能訪問網頁"當成"能做好研究"。

研究Agent的兩種死法

第一種死法是幻覺型自信。沒有工具調用的研究Agent，面對"2025年企業級Agentic AI客服落地案例"這類時效性問題，會基于訓練數據編造客戶名稱和部署規模。某AIinfra創業公司的內部測試顯示，純LLM在回答"LangGraph vs CrewAI生產環境架構取舍"時，32%的"事實陳述"存在版本號錯誤或功能描述過時。

第二種死法是信息淹沒。某咨詢公司給研究Agent的評估指標是"單任務處理網頁數"和"報告字數"，結果Agent為了刷指標，把reddit討論和官方文檔同等權重塞進答案。產品經理拿到20頁PDF，里面夾著3條高價值洞察和17頁噪音。

原文作者提了一個尖銳的區分：決策支持型研究 vs 內容工廠型研究。前者輸出可行動的洞察（actionable insight），后者輸出趨勢摘要（trend summary）。這個區分直接指向評估標準的重構——別再問"總結了多少頁"，要問"呈現了多少反方證據"。

沖突不是故障，是洞察的來源。

生產級研究Agent必須內置"合成循環"（Synthesis Loop）：比對→權衡→精煉。當兩個信源對"AutoGen是否適合金融級合規場景"給出相反結論時，Agent的任務不是選邊站，而是標注分歧、評估信源可信度、給出置信度評分。這要求Agent具備一種反直覺的設計：主動暴露自己的不確定。

原文列了信源評估的四個維度：作者資質、引用網絡、時效性、利益相關度。聽起來像圖書館學基礎課，但90%的"AI搜索"產品沒做這層過濾。Perplexity的早期版本曾因過度依賴Medium博客文章而被嘲諷"用自媒體寫論文"，后來的迭代重點正是信源分層——學術期刊、官方文檔、一手財報優先，觀點類內容降級。

工具調用是放大器，不是替代判斷。研究Agent需要對接搜索引擎、數據庫、API，但工具返回的原始數據必須經過"證據提取層"處理。一個典型反模式是：Agent拿到SEC文件全文，直接塞進上下文窗口讓LLM"總結一下"，結果關鍵風險披露被淹沒在200頁法律文本中。

信任靠克制建立

原文作者畫了條紅線：永遠不要讓Agent自主決定"什么信息重要"，永遠不要讓Agent在沒有引用的情況下陳述事實，永遠不要相信沒有置信度評分的結論。這三條禁令指向同一個設計原則——研究Agent的輸出必須是可審計的，每個主張都能追溯到具體信源。

某金融科技公司的實踐案例很說明問題。他們的研究Agent在分析"某東南亞數字銀行牌照申請進展"時，系統強制要求對每個關鍵節點標注信息源類型：監管機構公告（Tier 1）、當地媒體報道（Tier 2）、LinkedIn員工動態（Tier 3）。Tier 2/3的信息可以被納入分析，但必須在輸出中明確標注可靠性折扣。這個設計讓合規團隊敢于采用Agent輸出，而不是像對待黑箱一樣反復人工復核。

評估指標同樣需要重構。原文建議關注：決策速度提升、人工復核率變化、下游決策準確率。與之相對，"處理網頁數""報告字數""用戶滿意度評分"都是誤導性指標——用戶可能因為報告看起來專業而打高分，盡管它根本沒回答核心問題。

研究Agent的本質是判斷外包，不是勞動外包。

這個區分決定了產品形態。勞動外包型Agent追求端到端自動化，用戶輸入問題、拿到答案、流程結束。判斷外包型Agent則在關鍵節點強制引入人類：問題澄清階段確認邊界條件，證據沖突階段選擇處理策略，置信度不足時標注"建議人工深入"。

原文作者用了一個產品經理熟悉的類比：好的研究Agent像資深分析師的初稿，壞的研究Agent像實習生剪貼的資料堆。兩者的差距不在信息量，而在"這里有個矛盾，我需要告訴你"的判斷力。

2024年下半年，多個團隊開始公開討論研究Agent的"認知架構"設計。Anthropic的Claude在系統提示中強調"先思考再回答"，OpenAI的Deep Research展示多輪搜索的推理痕跡，這些產品的共同點是讓用戶看到"思考過程"而非僅展示"結論"。這不僅是可解釋性需求，更是建立信任的必要條件——當用戶能看到Agent為什么相信A而不相信B，才敢把決策權部分讓渡。

從搜索工具到決策基礎設施

研究Agent的終局形態可能是企業知識流的重新布線。當前多數企業的決策鏈條是：業務問題→人工調研→專家會議→決策。研究Agent的插入點不是替代人工調研，而是壓縮"從問題到可討論假設"的周期。某跨國藥企的試點項目中，研究Agent把"某適應癥競爭格局分析"的前置準備時間從3周降到3天，專家會議從"信息同步"變成"基于共同假設的辯論"。

但這個價值實現有嚴格的前提條件。原文反復強調：研究Agent的問題是認識論問題，不是技術問題。團隊如果沒想清楚"什么算好證據""如何處理沖突""如何表達不確定"，堆再多工程能力也是南轅北轍。

一個值得關注的細節是原文的結尾設計——沒有總結升華，只有一句"幫助人類更快做出更好決策，且保持清醒"。這本身就是產品哲學的體現：研究Agent的KPI不是替代人類判斷，而是讓人類在更充分的信息基礎上做判斷。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.