2月4日消息,深度研究智能體權(quán)威評測榜單DeepResearch Bench公布最新結(jié)果,百度千帆深度研究Agent(Qianfan-DeepResearch Pro)憑借卓越的端到端研究能力和極高的報告產(chǎn)出質(zhì)量,登上測評榜單榜首。在衡量研究報告含金量的四大核心維度——全面性、洞察力、指令遵循度和可讀性上,千帆深度研究Agent均實現(xiàn)了行業(yè)領(lǐng)先。
![]()
當(dāng)前,深度研究(DeepResearch)正成為人工智能進(jìn)化的關(guān)鍵分水嶺。不同于傳統(tǒng)文本生成,深度研究任務(wù)要求系統(tǒng)能夠像人類專家一樣,自主執(zhí)行多步驟、可迭代的認(rèn)知任務(wù),涵蓋了從復(fù)雜需求理解、廣泛信息獲取到深度洞察產(chǎn)出的全過程。深度研究Agent目前已廣泛應(yīng)用于學(xué)術(shù)綜述、金融投研、商業(yè)分析等領(lǐng)域,能夠?qū)鹘y(tǒng)需數(shù)日的手動研究工作壓縮至分鐘級完成,顯著提升研究與決策效率。
作為評價這一前沿賽道能力的“金標(biāo)準(zhǔn)”,DeepResearch Bench填補(bǔ)了通用 AI 評測在端到端深度研究任務(wù)上的空白。現(xiàn)有的Benchmark多聚焦于單一能力,難以覆蓋長程推理與檢索合成的復(fù)雜性。該榜單由領(lǐng)域?qū)<以O(shè)計了100個博士級別的研究任務(wù),覆蓋22個學(xué)科,并引入RACE報告質(zhì)量評價框架與引文準(zhǔn)確性評估,是目前全球范圍內(nèi)衡量 DeepResearch Agent生產(chǎn)力水平最硬核、最真實的評價體系。
千帆深度研究Agent能夠在此次評測中脫穎而出,得益于優(yōu)異的技術(shù)設(shè)計,它采用Agentic架構(gòu),通過“任務(wù)理解-規(guī)劃-執(zhí)行”循環(huán)機(jī)制實現(xiàn)端到端研究交付,依托百度搜索與RAG技術(shù)保障信息獲取的廣度、可信度與相關(guān)性。兩大重要設(shè)計確保了任務(wù)執(zhí)行的準(zhǔn)確性,首先采用“由粗到細(xì)”的研究路徑展開方式應(yīng)對任務(wù)不確定性;其次,通過深度執(zhí)行路徑規(guī)劃與實時反思機(jī)制,系統(tǒng)能在每個研究節(jié)點動態(tài)評估進(jìn)展、調(diào)整策略,從而有效避免幻覺與路徑偏離,并確保復(fù)雜研究任務(wù)的高質(zhì)量完成。
此外,在報告生成階段,千帆深度研究Agent采用獨(dú)立的兩階段報告渲染機(jī)制:首先產(chǎn)出pivot報告,通過優(yōu)化相關(guān)推理能力,來保證邏輯一致性和內(nèi)容全面性;之后使用不同的渲染工具,基于pivot報告渲染出最終的markdown、html、ppt等多形態(tài)報告,從而實現(xiàn)“一次研究,多形態(tài)報告”的交付。
目前,該深度研究Agent已上線百度千帆平臺,用戶只需輸入復(fù)雜調(diào)研需求,系統(tǒng)即可在十幾分鐘內(nèi)生成帶引用的專業(yè)級研究報告,真正實現(xiàn)“分鐘級”的深度洞察交付。
此次登榜是百度千帆 Agent Infra強(qiáng)大支撐能力的集中體現(xiàn)。千帆 Agent Infra提供模型、工具、Agent開發(fā)、數(shù)據(jù)及Agent運(yùn)行環(huán)境等一站式開發(fā)服務(wù)。平臺已累計開發(fā)超130萬個Agents,以百度獨(dú)家能力“百度AI搜索”為代表的工具日均調(diào)用量已突破數(shù)千萬次。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.