百度千帆深度研究Agent登頂權(quán)威評測榜單DeepResearch Bench

2026-02-04 17:45:42　來源: 派財經(jīng)

北京舉報

分享至

2月4日消息，深度研究智能體權(quán)威評測榜單DeepResearch Bench公布最新結(jié)果，百度千帆深度研究Agent（Qianfan-DeepResearch Pro）憑借卓越的端到端研究能力和極高的報告產(chǎn)出質(zhì)量，登上測評榜單榜首。在衡量研究報告含金量的四大核心維度——全面性、洞察力、指令遵循度和可讀性上，千帆深度研究Agent均實現(xiàn)了行業(yè)領(lǐng)先。

當(dāng)前，深度研究（DeepResearch）正成為人工智能進(jìn)化的關(guān)鍵分水嶺。不同于傳統(tǒng)文本生成，深度研究任務(wù)要求系統(tǒng)能夠像人類專家一樣，自主執(zhí)行多步驟、可迭代的認(rèn)知任務(wù)，涵蓋了從復(fù)雜需求理解、廣泛信息獲取到深度洞察產(chǎn)出的全過程。深度研究Agent目前已廣泛應(yīng)用于學(xué)術(shù)綜述、金融投研、商業(yè)分析等領(lǐng)域，能夠?qū)鹘y(tǒng)需數(shù)日的手動研究工作壓縮至分鐘級完成，顯著提升研究與決策效率。

作為評價這一前沿賽道能力的“金標(biāo)準(zhǔn)”，DeepResearch Bench填補(bǔ)了通用 AI 評測在端到端深度研究任務(wù)上的空白。現(xiàn)有的Benchmark多聚焦于單一能力，難以覆蓋長程推理與檢索合成的復(fù)雜性。該榜單由領(lǐng)域?qū)＜以O(shè)計了100個博士級別的研究任務(wù)，覆蓋22個學(xué)科，并引入RACE報告質(zhì)量評價框架與引文準(zhǔn)確性評估，是目前全球范圍內(nèi)衡量 DeepResearch Agent生產(chǎn)力水平最硬核、最真實的評價體系。

千帆深度研究Agent能夠在此次評測中脫穎而出，得益于優(yōu)異的技術(shù)設(shè)計，它采用Agentic架構(gòu)，通過“任務(wù)理解-規(guī)劃-執(zhí)行”循環(huán)機(jī)制實現(xiàn)端到端研究交付，依托百度搜索與RAG技術(shù)保障信息獲取的廣度、可信度與相關(guān)性。兩大重要設(shè)計確保了任務(wù)執(zhí)行的準(zhǔn)確性，首先采用“由粗到細(xì)”的研究路徑展開方式應(yīng)對任務(wù)不確定性；其次，通過深度執(zhí)行路徑規(guī)劃與實時反思機(jī)制，系統(tǒng)能在每個研究節(jié)點動態(tài)評估進(jìn)展、調(diào)整策略，從而有效避免幻覺與路徑偏離，并確保復(fù)雜研究任務(wù)的高質(zhì)量完成。

此外，在報告生成階段，千帆深度研究Agent采用獨(dú)立的兩階段報告渲染機(jī)制：首先產(chǎn)出pivot報告，通過優(yōu)化相關(guān)推理能力，來保證邏輯一致性和內(nèi)容全面性；之后使用不同的渲染工具，基于pivot報告渲染出最終的markdown、html、ppt等多形態(tài)報告，從而實現(xiàn)“一次研究，多形態(tài)報告”的交付。

目前，該深度研究Agent已上線百度千帆平臺，用戶只需輸入復(fù)雜調(diào)研需求，系統(tǒng)即可在十幾分鐘內(nèi)生成帶引用的專業(yè)級研究報告，真正實現(xiàn)“分鐘級”的深度洞察交付。

此次登榜是百度千帆 Agent Infra強(qiáng)大支撐能力的集中體現(xiàn)。千帆 Agent Infra提供模型、工具、Agent開發(fā)、數(shù)據(jù)及Agent運(yùn)行環(huán)境等一站式開發(fā)服務(wù)。平臺已累計開發(fā)超130萬個Agents，以百度獨(dú)家能力“百度AI搜索”為代表的工具日均調(diào)用量已突破數(shù)千萬次。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.