337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

Anthropic:大模型 benchmark 打分不適用 AI agent 評測

0
分享至

最近,Anthropic 發了一篇不太像“技術博客”的文章,《Demystifying evals for AI agents(揭開 AI agents 評測的迷霧)》,基本可視為一份“Agent 時代的產品生存指南”。


這篇文章背后隱含的一個判斷是,如果你做的是 AI Agent,卻還在用“模型 benchmark”那一套方式來評估它,那基本就是在扯淡。

Agent 的問題,不是模型準不準,而是它會不會在真實世界里,把事情搞砸。

Anthropic 在文中反復強調一個現實:隨著 AI 從“一次性回答問題”,走向“長時間自主行動”,系統的失敗方式已經發生了根本變化。

錯誤不再是“答錯一道題”,而是一步小錯、持續放大,最終造成不可逆后果。

比如一個研究型 Agent,早期一次資料篩選偏差,后面所有推理都會建立在錯誤前提上;

又比如一個自動化 Agent,在工具調用上出現微小誤判,卻在長鏈條任務中不斷復制這種錯誤。

這些問題,用傳統的評測方式幾乎是測不出來的。

Anthropic 直接點破了一個行業誤區:我們過去評估 AI,更像是在給“考試機器”打分;但 Agent 更像一個“實習生”,你真正關心的是——它在真實任務里能不能被信任。

所以,Anthropic提出,其核心不是“怎么跑 評測”,而是評測到底應該服務什么目標。

他們給出的第一個關鍵轉向是,從靜態結果評測,轉向過程與行為評測。

在 Agent 系統中,最終結果是否正確固然重要,但遠遠不夠。更關鍵的是:


  • 它是否遵循了預期的決策路徑

  • 是否在不確定時主動求證

  • 是否在失敗后調整策略

  • 是否在高風險節點表現得足夠保守

換句話說,評測不只是“對不對”,而是“像不像一個你敢用的 Agent”。


第二個非?,F實的判斷是:Agent 的 評測永遠不可能一次性完成。

Anthropic 明確指出,Agent 的評估是一個“持續對抗”的過程。

你修復了一個失敗模式,很可能立刻引入一個新的失敗方式。

這點對所有做產品的人都很殘酷,也很真實:Agent 并不存在“評測通過 → 可以放心上線”的時刻,只有“暫時可控”。

因此,Anthropic建議,把評測變成和訓練、部署同等重要的基礎設施,而不是發布前的一個檢查項。

第三個被反復強調的觀點是:不要迷信自動化評測。

在 Agent 場景下,純自動評測往往會遺漏最危險的問題。

很多真正致命的錯誤,只能通過人工設計的 adversarial 測試、失敗案例復盤、極端場景模擬才能發現。

Anthropic 的態度非常清醒:評測不是為了證明系統“很強”,而是為了盡可能早地發現“它會怎么翻車”。

這和當前行業大量“Agent Demo 導向”的做法,形成了非常鮮明的對比。

Anthropic幾乎是為整個 AI 應用層敲了警鐘:當 AI 開始替人“做事”,而不是“回答問題”,評估體系本身就變成了安全邊界的一部分。

這也是為什么 Anthropic 會把評測提到如此高的戰略位置——不是工程細節,而是產品能不能活下去的問題。

對創業者來說,可以反思的是,未來 AI Agent 的競爭,不只是在模型、算力或功能完整度上,而是在誰更早建立起一套可靠的“可控性與信任機制”。

而評測,正是這套機制的第一道防線。

原文鏈接(Anthropic 官方):

https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
主持人沈南參加張雪峰告別式,落淚回憶細節:他就像睡著了一樣

主持人沈南參加張雪峰告別式,落淚回憶細節:他就像睡著了一樣

萌神木木
2026-03-29 11:50:49
離譜!阿森納11人集體退出本期國家隊 球迷質疑詐傷:為3冠王蓄力

離譜!阿森納11人集體退出本期國家隊 球迷質疑詐傷:為3冠王蓄力

我愛英超
2026-03-29 23:07:36
落難的鳳凰不如雞,多位明星無戲可拍,淪落到給景區打工,太心酸

落難的鳳凰不如雞,多位明星無戲可拍,淪落到給景區打工,太心酸

可樂談情感
2026-03-28 17:07:21
周杰倫本質是個崇洋媚外的“偽華流”

周杰倫本質是個崇洋媚外的“偽華流”

爆角追蹤
2026-03-29 21:38:32
連櫻花都不敢看,談何文化自信?別讓“恐日癥”鎖死中國的春天

連櫻花都不敢看,談何文化自信?別讓“恐日癥”鎖死中國的春天

濤哥銳評
2026-03-27 19:49:57
心源性猝死的人越來越多?醫生強調:寧可打打牌,建議別做這7事

心源性猝死的人越來越多?醫生強調:寧可打打牌,建議別做這7事

醫學原創故事會
2026-03-29 23:50:13
為什么要加入CPTPP?啃不下這6塊硬骨頭,未來中國可能會很難!

為什么要加入CPTPP?啃不下這6塊硬骨頭,未來中國可能會很難!

世界圈
2026-03-28 12:25:46
人民日報也發了粉底液將軍,居然有粉絲去沖人民日報,勸都勸不住

人民日報也發了粉底液將軍,居然有粉絲去沖人民日報,勸都勸不住

芊手若
2026-03-29 04:06:34
夠狠!阿聯酋清空伊朗人居留權,5300億資產說凍就凍

夠狠!阿聯酋清空伊朗人居留權,5300億資產說凍就凍

老馬拉車莫少裝
2026-03-29 19:12:12
國家一級女演員陳麗云被逮捕!

國家一級女演員陳麗云被逮捕!

許三歲
2026-03-28 09:24:30
以色列最擔心的事發生:伊朗送出“大禮”,特朗普的反應出人意料

以色列最擔心的事發生:伊朗送出“大禮”,特朗普的反應出人意料

空天力量
2026-03-28 17:14:31
邵佳一:國足禁外出購物,0-7慘敗后買特產太刺眼

邵佳一:國足禁外出購物,0-7慘敗后買特產太刺眼

老觷系戲精北鼻
2026-03-29 22:00:10
俄警告韓國勿向烏提供致命性武器

俄警告韓國勿向烏提供致命性武器

財聯社
2026-03-29 09:30:26
不裝了!徐帆回應離婚7個月后,馮小剛貼臉養女,擔心的事發生了

不裝了!徐帆回應離婚7個月后,馮小剛貼臉養女,擔心的事發生了

共工之錨
2026-03-29 18:18:53
單依純明目張膽侵權他人作品,拒不道歉,李榮浩4連問硬剛到底

單依純明目張膽侵權他人作品,拒不道歉,李榮浩4連問硬剛到底

上觀新聞
2026-03-29 17:56:07
一分錢不要,也得讓你長記性!業主車位被霸占10天,奧迪車大變臉

一分錢不要,也得讓你長記性!業主車位被霸占10天,奧迪車大變臉

火山詩話
2026-03-29 17:05:43
超級厄爾尼諾正在路上!極端天氣頻現,今年或許會更熱

超級厄爾尼諾正在路上!極端天氣頻現,今年或許會更熱

風向觀察
2026-03-29 19:39:51
李榮浩再次喊話吳向飛:查清楚了嗎?不能沒有下文就撤了,“我和律師都在等您”;此前吳向飛質疑李榮浩侵權

李榮浩再次喊話吳向飛:查清楚了嗎?不能沒有下文就撤了,“我和律師都在等您”;此前吳向飛質疑李榮浩侵權

大象新聞
2026-03-29 20:45:03
跑完馬拉松!杭州45歲老板心梗離世:妻子說“再來一萬次也嫁他”

跑完馬拉松!杭州45歲老板心梗離世:妻子說“再來一萬次也嫁他”

社會日日鮮
2026-03-29 10:43:38
中國為什么沒有干預美伊戰爭?

中國為什么沒有干預美伊戰爭?

宇視天下
2026-03-29 09:36:36
2026-03-30 02:52:49
AI先鋒官 incentive-icons
AI先鋒官
AIGC大模型及應用精選與評測
466文章數 69關注度
往期回顧 全部

科技要聞

馬斯克承認xAI"建錯了",11位創始人均離職

頭條要聞

伊朗議長:美航母遭受巨大損失 我們絕不接受屈辱

頭條要聞

伊朗議長:美航母遭受巨大損失 我們絕不接受屈辱

體育要聞

絕殺衛冕冠軍后,他單手指天把勝利獻給父親

娛樂要聞

汪峰定律再現!李榮浩喊話單依純侵權

財經要聞

Kimi、Minimax 們的算力荒

汽車要聞

嵐圖泰山X8配置曝光 四激光雷達/華為新一代座艙

態度原創

時尚
本地
數碼
旅游
游戲

來到1980的周也,好毛利蘭

本地新聞

在濰坊待了三天,沒遇到一個“濰坊人”

數碼要聞

內存條價格被曝出現斷崖式下跌,一天跌去百元

旅游要聞

2026上海旅游產業博覽會開幕,一城三館聯動書寫文商旅體展消費新篇章

《超級肉肉男孩3D》發售/《海賊王》艾爾巴夫篇開播| 下周玩什么

無障礙瀏覽 進入關懷版