網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

從最頂級(jí)的30個(gè)AI Agent產(chǎn)品里，看懂了這三個(gè)趨勢(shì)

2026-02-28 18:10:03　來(lái)源: 硅基觀察Pro

北京舉報(bào)

分享至

進(jìn)入2026 年，Agent 徹底火了。

Claude Code、ChatGPT Agent、Manus，再加上一堆大廠的企業(yè)級(jí)工作流平臺(tái)，動(dòng)不動(dòng)就喊“替代打工人”“創(chuàng)造萬(wàn)億美元價(jià)值”。麥肯錫的報(bào)告也在推波助瀾：62% 的企業(yè)正在試水 Agent。

但把熱鬧先放一邊，真正的問(wèn)題是——在真實(shí)工作場(chǎng)景里，Agent 到底走到哪一步了？

最近，MIT、哈佛、斯坦福等機(jī)構(gòu)的研究團(tuán)隊(duì)發(fā)布了一份《2025 AI Agent Index》。

這幫學(xué)者干了一件很有價(jià)值的事：

他們把市面上最具代表性的30 個(gè)代理系統(tǒng)逐一拆開(kāi)來(lái)看了一遍，并設(shè)計(jì)了45 個(gè)維度，仔細(xì)扒了扒這些產(chǎn)品的技術(shù)細(xì)節(jié)、部署情況、設(shè)計(jì)架構(gòu)、工具使用和安全機(jī)制等信息，得出了當(dāng)下Agent最硬核的3個(gè)真相。

透過(guò)這部分報(bào)告，我們就能更清晰地了解當(dāng)下Agent發(fā)展的真實(shí)情況。

/ 01 / 產(chǎn)品形態(tài)收攏在這3個(gè)方向

大多數(shù)代理產(chǎn)品集中在2024–2025 年發(fā)布。

（藍(lán)色柱狀圖代表與代理型人工智能產(chǎn)品相關(guān)的谷歌新增搜索詞，紅線則代表谷歌學(xué)術(shù)中包含“人工智能代理”或“代理型人工智能”關(guān)鍵詞的論文發(fā)表數(shù)量）

從產(chǎn)品形態(tài)看，AI代理基本收攏在了三個(gè)方向：

聊天式代理（12個(gè)）：以對(duì)話為入口，掛載各種工具箱；

企業(yè)自動(dòng)化平臺(tái)（13個(gè)）：主打B端工作流的自動(dòng)化編排，已經(jīng)成為與聊天界面分庭抗禮的主流形態(tài)；

瀏覽器/GUI型Agent（5個(gè)）：直接接管屏幕，模擬人類(lèi)點(diǎn)擊和輸入，類(lèi)似于之前的豆包手機(jī)。

企業(yè)工作流平臺(tái)已成為與聊天界面并列的主流形態(tài)。其中，中國(guó)開(kāi)發(fā)的GUI 型代理更傾向于整合電話與電腦操作能力（5個(gè)中有3個(gè)具備雙能力），功能整合度更高。

按應(yīng)用場(chǎng)景來(lái)分，排名前三個(gè)的例子是：信息研究與集成（12個(gè)）、跨部門(mén)工作流自動(dòng)化（11個(gè)）、以及表單填寫(xiě)和預(yù)訂等瀏覽器操作（7個(gè)）。

在底層模型上，除了Anthropic、Google、OpenAI這幾家“前沿實(shí)驗(yàn)室”以及部分中國(guó)廠商在使用自研模型外，大多數(shù)的代理都在高度依賴GPT、Claude或Gemini系列。

盡管“模型開(kāi)源”已經(jīng)成為行業(yè)趨勢(shì)，但在Agent產(chǎn)品上則呈現(xiàn)了完全不同的局面。

30 個(gè)代理中，有 23 個(gè)選擇完全閉源。只有7 個(gè)開(kāi)源了代理框架或工具層，包括阿里MobileAgent、Browser Use、TARS、Gemini CLI、n8n、OpenAI Codex、WRITER。

生態(tài)在變開(kāi)放，商業(yè)產(chǎn)品卻仍以封閉為主。這是一種典型的“框架開(kāi)放、產(chǎn)品閉源”結(jié)構(gòu)。

/ 02 / 從行動(dòng)空間到自主性，AI代理正在分化

雖然都叫“Agent”，但這30個(gè)產(chǎn)品的功能相差很大。

其中，一個(gè)核心區(qū)別在于，行動(dòng)空間。

企業(yè)工作流代理，主要通過(guò)CRM、數(shù)據(jù)庫(kù)等系統(tǒng)連接器來(lái)執(zhí)行操作（8/30）。它們更像企業(yè)流程里的自動(dòng)執(zhí)行節(jié)點(diǎn)。

命令行界面（CLI）代理則直接操作文件系統(tǒng)和終端命令（4/30），能力更偏工程環(huán)境。

瀏覽器代理的方式最直觀：點(diǎn)擊、輸入、導(dǎo)航網(wǎng)頁(yè)（5/30），它們直接“代替人類(lèi)”操作界面。

值得注意的是，企業(yè)代理的行動(dòng)空間通常被嚴(yán)格限制，并優(yōu)先設(shè)置工具權(quán)限與使用防護(hù)。換句話說(shuō)，越貼近真實(shí)業(yè)務(wù)系統(tǒng)，控制就越嚴(yán)格。

在用戶界面上，Agent產(chǎn)品也出現(xiàn)了不同的選擇。

在企業(yè)場(chǎng)景中，畫(huà)布式編排界面已成為標(biāo)準(zhǔn)。8/13 的企業(yè)平臺(tái)采用可視化流程組合界面，讓用戶配置觸發(fā)器、動(dòng)作與防護(hù)規(guī)則。

而在消費(fèi)級(jí)場(chǎng)景里，聊天界面依然是主流入口（14/30）。這意味著，設(shè)計(jì)層強(qiáng)調(diào)流程構(gòu)建，使用層強(qiáng)調(diào)自然語(yǔ)言。

最重要的是，不同類(lèi)型的代理，在“自主性”上也呈現(xiàn)出明顯分層。

最常見(jiàn)的仍然是“輪次式助手”。Claude、Gemini、ChatGPT 等產(chǎn)品采用的是低至中等自主性模式（L1–L3）：每執(zhí)行一組動(dòng)作，便等待用戶下一條指令。

這種結(jié)構(gòu)本質(zhì)上仍以人類(lèi)為中心，模型只是延長(zhǎng)了操作鏈條。

但在同一產(chǎn)品內(nèi)部，自主性差異可能極大。例如“普通聊天”與“深度研究”功能之間，已接近兩個(gè)不同范式：前者只是響應(yīng)式生成，后者則可在一定程度上自主規(guī)劃任務(wù)路徑。

瀏覽器代理則代表了另一端。它們通常達(dá)到L4–L5，自主性顯著更高。一旦接收指令，便獨(dú)立完成整個(gè)執(zhí)行流程，過(guò)程中幾乎沒(méi)有實(shí)時(shí)干預(yù)空間。用戶的控制權(quán)，在提交任務(wù)那一刻就已經(jīng)讓渡。

而在企業(yè)級(jí)代理上，則呈現(xiàn)出一種更復(fù)雜的結(jié)構(gòu)：設(shè)計(jì)階段低自主，運(yùn)行階段高自主。

簡(jiǎn)單來(lái)說(shuō)，在設(shè)計(jì)階段，用戶通過(guò)可視化畫(huà)布配置觸發(fā)器、流程與防護(hù)規(guī)則，部分平臺(tái)提供AI 輔助（L1–L2）。

但部署完成后，代理通常由郵件、數(shù)據(jù)庫(kù)更新等事件自動(dòng)觸發(fā)，運(yùn)行時(shí)無(wú)需人工參與，進(jìn)入 L3–L5 狀態(tài)。

這意味著，自主性并非線性增長(zhǎng)，而是“階段性切換”。

/ 03 / 自主性在變強(qiáng)，責(zé)任邊界也在模糊

從接口層看，MCP 已成為代理生態(tài)的主流標(biāo)準(zhǔn)。30 個(gè)系統(tǒng)中有 20 個(gè)支持這一協(xié)議，說(shuō)明“如何接入工具”正在趨于統(tǒng)一。企業(yè)平臺(tái)中，還有一部分開(kāi)始支持代理間協(xié)議（A2A），但整體仍處于早期階段。

盡管協(xié)議層在收斂，身份層卻在分化。

多數(shù)代理默認(rèn)不向終端用戶或第三方披露自身的AI 身份。21/30 沒(méi)有記錄默認(rèn)披露行為，只有極少數(shù)支持生成內(nèi)容水印。

也就是說(shuō)，企業(yè)平臺(tái)往往將披露責(zé)任交給客戶，是否告知用戶“你正在與 AI 交互”，并不由平臺(tái)承擔(dān)。

在技術(shù)識(shí)別層面，情況更加復(fù)雜。

大部分瀏覽器代理通常無(wú)視r(shí)obots.txt 文件，直接以“代表用戶”身份運(yùn)行。

企業(yè)認(rèn)為，代理不應(yīng)被視為傳統(tǒng)爬蟲(chóng)，但這一邏輯正在引發(fā)法律爭(zhēng)議。

代理繞過(guò)網(wǎng)絡(luò)限制的趨勢(shì)，正在改變控制權(quán)結(jié)構(gòu)——從內(nèi)容托管方轉(zhuǎn)移至代理運(yùn)行方。

目前，ChatGPT Agent 是唯一采用加密請(qǐng)求簽名的系統(tǒng)。多數(shù)代理缺乏可驗(yàn)證的身份機(jī)制。

隨著更多任務(wù)交由代理執(zhí)行，“誰(shuí)在行動(dòng)”將變得越來(lái)越重要。同時(shí)，將披露責(zé)任轉(zhuǎn)交給運(yùn)營(yíng)方，也帶來(lái)一個(gè)問(wèn)題：終端用戶是否真正知道自己正在與AI互動(dòng)？

同時(shí)，當(dāng)構(gòu)建者將安全責(zé)任轉(zhuǎn)移給用戶時(shí)，責(zé)任邊界變得模糊。一個(gè)更現(xiàn)實(shí)的問(wèn)題開(kāi)始浮現(xiàn)：當(dāng)代理開(kāi)始執(zhí)行任務(wù)，人類(lèi)還能在多大程度上掌控它？

在這30個(gè)代理產(chǎn)品里，大部分都設(shè)計(jì)了審批與監(jiān)督機(jī)制，但方式并不一致。

比如，開(kāi)發(fā)者或CLI 類(lèi)代理，在涉及文件修改、命令執(zhí)行等高敏感操作時(shí)，通常會(huì)要求明確確認(rèn)；瀏覽器代理則把控制節(jié)點(diǎn)更多放在身份驗(yàn)證與支付環(huán)節(jié)。

一部分產(chǎn)品甚至提供“實(shí)時(shí)監(jiān)控模式”，允許用戶在關(guān)鍵步驟中觀察執(zhí)行過(guò)程。

但如果你仔細(xì)觀察就會(huì)發(fā)現(xiàn)，不同產(chǎn)品之間的透明度差距很大。

少數(shù)代理會(huì)展示完整的行動(dòng)軌跡和推理過(guò)程，讓用戶清楚看到它如何決策、調(diào)用了哪些工具；更多系統(tǒng)只提供概括性的說(shuō)明，甚至在執(zhí)行過(guò)程中幾乎不留下可追蹤的痕跡。

而對(duì)于不少企業(yè)級(jí)平臺(tái)來(lái)說(shuō)，外界甚至無(wú)法確認(rèn)單次運(yùn)行是否存在實(shí)時(shí)監(jiān)控。

這意味著，控制機(jī)制“存在”，但不均衡；監(jiān)督邏輯“可見(jiàn)”，但并不標(biāo)準(zhǔn)化。隨著代理能力提升，人類(lèi)對(duì)執(zhí)行過(guò)程的可見(jiàn)度，并沒(méi)有同步提高。

/ 04 / 總結(jié)

這份指數(shù)在1350 個(gè)維度上記錄了 30 個(gè)代理系統(tǒng)，但更重要的，是它揭示了三個(gè)結(jié)構(gòu)趨勢(shì)：

第一，安全披露高度不均。

僅有極少數(shù)代理發(fā)布針對(duì)自身架構(gòu)的系統(tǒng)卡片。大多數(shù)系統(tǒng)要么只披露基礎(chǔ)模型信息，要么只強(qiáng)調(diào)合規(guī)認(rèn)證。能力基準(zhǔn)與安全評(píng)估之間存在明顯不對(duì)稱。

當(dāng)代理風(fēng)險(xiǎn)越來(lái)越多地來(lái)自規(guī)劃能力與工具調(diào)用，而不僅是模型輸出時(shí)，僅依賴模型層面的文檔已不足夠。

第二，基礎(chǔ)模型高度集中。

幾乎所有代理都依賴GPT、Claude 或 Gemini。模型供應(yīng)集中帶來(lái)效率與評(píng)估便利，但也意味著單點(diǎn)風(fēng)險(xiǎn)。定價(jià)調(diào)整、服務(wù)中斷或安全漏洞，都可能向下游系統(tǒng)擴(kuò)散。

風(fēng)險(xiǎn)管理因此不能只停留在代理部署方，而必須延伸至上游模型提供商。

第三，責(zé)任鏈條分散。

代理系統(tǒng)往往形成一條多層依賴鏈：基礎(chǔ)模型、編排層、構(gòu)建平臺(tái)、部署方、最終用戶。沒(méi)有單一實(shí)體對(duì)完整行為負(fù)責(zé)。

在這種分布式架構(gòu)下，僅憑模型文檔做安全判斷，很容易形成虛假保障。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.