Anthropic甩出92.4%這個數(shù)字

2026-04-02 09:57:43　來源: 硅嶼手記

北京舉報

分享至

凌晨兩點，一個做后端的朋友給我發(fā)消息：「Sonnet 5出來了，我手里的咖啡涼了。」我點開鏈接，第一反應(yīng)是檢查日期——4月1號，確認不是玩笑。92.4%的SWE-bench Verified，這比他們自家旗艦Opus 4.6高出12個點，比GPT-5.4高出35個點。一個中檔模型，把全行業(yè)的旗艦按在地上。

價格沒變，但游戲規(guī)則變了

Anthropic這次沒搞發(fā)布會，沒預熱，博客帖子直接上線。模型字符串claude-sonnet-5-20260401，claude.ai默認切換，API價格維持$3/$15每百萬token——和Sonnet 4.6一模一樣。沒有漲價。

這有多反常？對比一下就懂了。Gemini 3.1 Pro定價$2/1M輸入，是當下最便宜的前沿模型；GPT-5.4定價$2.50；Sonnet 5貴一點，$3。但多花這50美分，你買到的是：SWE-bench上35個百分點的領(lǐng)先，OSWorld-Verified上13個百分點的領(lǐng)先，GPQA Diamond上接近2個百分點的領(lǐng)先，ARC-AGI-2上7個百分點的領(lǐng)先。

用五分之一的價格買Opus 4.6，性能反而更好——這種定價策略不像賣模型，像是對自家旗艦的公開處刑。

Opus 4.6的定價是$15/1M輸入，現(xiàn)在開發(fā)者有明確的選擇題：花3塊錢買更強的，還是花15塊錢買更弱的？Anthropic自己的產(chǎn)品矩陣內(nèi)部，出現(xiàn)了明顯的 cannibalization（同類相食）。

計算機操作：從「能用」到「比人強」

OSWorld-Verified這個基準測試，測的是AI操控真實桌面環(huán)境的能力。人類專家基線是72.4%——這是受過訓練的專業(yè)人員，在可控環(huán)境下操作電腦的表現(xiàn)上限。

Sonnet 5得分88.3%。不是接近人類，是顯著超越。GPT-5.4上個月發(fā)布時，75.0%的成績已經(jīng)讓不少人覺得「agent時代要來了」。一個月后，Anthropic把這個標準又拔高13個百分點。

這里的差距不是線性進步，是代際差。75%意味著「大多數(shù)時候能完成任務(wù)，但需要人工兜底」；88%意味著「可以放手讓它自己跑，只在邊緣case介入」。從「輔助工具」到「獨立代理」，閾值就在這個區(qū)間。

GPQA Diamond（博士級科學問答）上，Sonnet 5拿下96.2%，從Gemini 3.1 Pro手里搶走紀錄。ARC-AGI-2（抽象新穎推理）84.7%，比Gemini的77.1%高出7.6個百分點——這個測試的設(shè)計初衷就是「讓AI做它沒訓練過的事」，分數(shù)越高，泛化能力越扎實。

三個月內(nèi)的三次變天

時間線拉出來看，節(jié)奏很密集。2月19日，Gemini 3.1 Pro發(fā)布，GPQA Diamond登頂，當時被認為是Google對OpenAI的精準反擊。3月5日，GPT-5.4上線，計算機能力和上下文窗口是賣點，75%的OSWorld成績足夠亮眼。

這期間Anthropic在做什么？Sonnet 4.6作為中檔型號，已經(jīng)表現(xiàn)出奇怪的「以下犯上」——開發(fā)者頭對頭對比時，59%的情況下更喜歡它而不是自家旗艦Opus 4.5。這種內(nèi)部倒掛說明，模型規(guī)模不是唯一指標，推理效率、響應(yīng)質(zhì)量、實際體驗都在重新定義「好模型」的標準。

Sonnet 5把這個趨勢推到極致。它沒有用更大的參數(shù)規(guī)模，而是優(yōu)化了「自適應(yīng)思考架構(gòu)」——動態(tài)分配推理深度，在簡單問題上快，在復雜問題上深。這種「該省省該花花」的策略，可能是benchmark躍升的關(guān)鍵來源。

上下文窗口也完成了擴容：2M token正式脫離beta，1M版本從實驗狀態(tài)轉(zhuǎn)正。長文檔處理、代碼庫理解、多輪對話的瓶頸，被一次性打通。

SWE-bench為什么難作弊

92.4%這個數(shù)字值得單獨拆解。SWE-bench Verified測的是解決真實GitHub issue的能力——拿到一個沒見過的代碼庫，理解問題描述，定位bug，寫出修復，通過測試。沒有訓練數(shù)據(jù)可背，沒有套路可套。

之前的標桿是：Opus 4.6的80.8%，Gemini 3.1 Pro的80.6%，GPT-5.4的57.7%。Sonnet 5的92.4%意味著，在接近真實開發(fā)場景的任務(wù)中，它十次里能成功九次半。這個可靠性水平，已經(jīng)觸及「可以集成到CI/CD流程」的門檻。

開發(fā)者社區(qū)的反饋正在快速匯聚。有人測試了復雜重構(gòu)任務(wù)，有人扔進去遺留代碼庫的bug，有人在用它做code review。初步共識是：Sonnet 4.6已經(jīng)夠用，Sonnet 5是「夠用」到「好用」的跨越。

定價策略的潛臺詞也很清晰。Anthropic沒有把性能提升轉(zhuǎn)化為溢價，而是用Sonnet tier承載技術(shù)突破，把Opus tier逼向更極端的場景——也許是為下一代Opus預留空間，也許是戰(zhàn)略性地用性價比搶占開發(fā)者心智。無論哪種，$3 vs $15的價差，會讓預算敏感的用戶用腳投票。

一個細節(jié)：模型發(fā)布當天，API文檔同步更新，2M上下文通過header顯式啟用，沒有灰度，沒有排隊。這種「即開即用」的交付節(jié)奏，和某些廠商的「waitlist文化」形成對比。

接下來兩周，真正的壓力測試會在生產(chǎn)環(huán)境里發(fā)生——不是benchmark，是凌晨三點的線上故障，是需求文檔里沒寫清楚的邊界條件，是產(chǎn)品經(jīng)理臨時改需求后的代碼調(diào)整。Sonnet 5的92.4%能不能扛住這些，才是它值不值那3塊錢的最終裁決。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.