![]()
凌晨兩點,一個做后端的朋友給我發(fā)消息:「Sonnet 5出來了,我手里的咖啡涼了。」我點開鏈接,第一反應(yīng)是檢查日期——4月1號,確認不是玩笑。92.4%的SWE-bench Verified,這比他們自家旗艦Opus 4.6高出12個點,比GPT-5.4高出35個點。一個中檔模型,把全行業(yè)的旗艦按在地上。
價格沒變,但游戲規(guī)則變了
Anthropic這次沒搞發(fā)布會,沒預熱,博客帖子直接上線。模型字符串claude-sonnet-5-20260401,claude.ai默認切換,API價格維持$3/$15每百萬token——和Sonnet 4.6一模一樣。沒有漲價。
這有多反常?對比一下就懂了。Gemini 3.1 Pro定價$2/1M輸入,是當下最便宜的前沿模型;GPT-5.4定價$2.50;Sonnet 5貴一點,$3。但多花這50美分,你買到的是:SWE-bench上35個百分點的領(lǐng)先,OSWorld-Verified上13個百分點的領(lǐng)先,GPQA Diamond上接近2個百分點的領(lǐng)先,ARC-AGI-2上7個百分點的領(lǐng)先。
用五分之一的價格買Opus 4.6,性能反而更好——這種定價策略不像賣模型,像是對自家旗艦的公開處刑。
Opus 4.6的定價是$15/1M輸入,現(xiàn)在開發(fā)者有明確的選擇題:花3塊錢買更強的,還是花15塊錢買更弱的?Anthropic自己的產(chǎn)品矩陣內(nèi)部,出現(xiàn)了明顯的 cannibalization(同類相食)。
計算機操作:從「能用」到「比人強」
OSWorld-Verified這個基準測試,測的是AI操控真實桌面環(huán)境的能力。人類專家基線是72.4%——這是受過訓練的專業(yè)人員,在可控環(huán)境下操作電腦的表現(xiàn)上限。
Sonnet 5得分88.3%。不是接近人類,是顯著超越。GPT-5.4上個月發(fā)布時,75.0%的成績已經(jīng)讓不少人覺得「agent時代要來了」。一個月后,Anthropic把這個標準又拔高13個百分點。
這里的差距不是線性進步,是代際差。75%意味著「大多數(shù)時候能完成任務(wù),但需要人工兜底」;88%意味著「可以放手讓它自己跑,只在邊緣case介入」。從「輔助工具」到「獨立代理」,閾值就在這個區(qū)間。
GPQA Diamond(博士級科學問答)上,Sonnet 5拿下96.2%,從Gemini 3.1 Pro手里搶走紀錄。ARC-AGI-2(抽象新穎推理)84.7%,比Gemini的77.1%高出7.6個百分點——這個測試的設(shè)計初衷就是「讓AI做它沒訓練過的事」,分數(shù)越高,泛化能力越扎實。
三個月內(nèi)的三次變天
時間線拉出來看,節(jié)奏很密集。2月19日,Gemini 3.1 Pro發(fā)布,GPQA Diamond登頂,當時被認為是Google對OpenAI的精準反擊。3月5日,GPT-5.4上線,計算機能力和上下文窗口是賣點,75%的OSWorld成績足夠亮眼。
這期間Anthropic在做什么?Sonnet 4.6作為中檔型號,已經(jīng)表現(xiàn)出奇怪的「以下犯上」——開發(fā)者頭對頭對比時,59%的情況下更喜歡它而不是自家旗艦Opus 4.5。這種內(nèi)部倒掛說明,模型規(guī)模不是唯一指標,推理效率、響應(yīng)質(zhì)量、實際體驗都在重新定義「好模型」的標準。
Sonnet 5把這個趨勢推到極致。它沒有用更大的參數(shù)規(guī)模,而是優(yōu)化了「自適應(yīng)思考架構(gòu)」——動態(tài)分配推理深度,在簡單問題上快,在復雜問題上深。這種「該省省該花花」的策略,可能是benchmark躍升的關(guān)鍵來源。
上下文窗口也完成了擴容:2M token正式脫離beta,1M版本從實驗狀態(tài)轉(zhuǎn)正。長文檔處理、代碼庫理解、多輪對話的瓶頸,被一次性打通。
SWE-bench為什么難作弊
92.4%這個數(shù)字值得單獨拆解。SWE-bench Verified測的是解決真實GitHub issue的能力——拿到一個沒見過的代碼庫,理解問題描述,定位bug,寫出修復,通過測試。沒有訓練數(shù)據(jù)可背,沒有套路可套。
之前的標桿是:Opus 4.6的80.8%,Gemini 3.1 Pro的80.6%,GPT-5.4的57.7%。Sonnet 5的92.4%意味著,在接近真實開發(fā)場景的任務(wù)中,它十次里能成功九次半。這個可靠性水平,已經(jīng)觸及「可以集成到CI/CD流程」的門檻。
開發(fā)者社區(qū)的反饋正在快速匯聚。有人測試了復雜重構(gòu)任務(wù),有人扔進去遺留代碼庫的bug,有人在用它做code review。初步共識是:Sonnet 4.6已經(jīng)夠用,Sonnet 5是「夠用」到「好用」的跨越。
定價策略的潛臺詞也很清晰。Anthropic沒有把性能提升轉(zhuǎn)化為溢價,而是用Sonnet tier承載技術(shù)突破,把Opus tier逼向更極端的場景——也許是為下一代Opus預留空間,也許是戰(zhàn)略性地用性價比搶占開發(fā)者心智。無論哪種,$3 vs $15的價差,會讓預算敏感的用戶用腳投票。
一個細節(jié):模型發(fā)布當天,API文檔同步更新,2M上下文通過header顯式啟用,沒有灰度,沒有排隊。這種「即開即用」的交付節(jié)奏,和某些廠商的「waitlist文化」形成對比。
接下來兩周,真正的壓力測試會在生產(chǎn)環(huán)境里發(fā)生——不是benchmark,是凌晨三點的線上故障,是需求文檔里沒寫清楚的邊界條件,是產(chǎn)品經(jīng)理臨時改需求后的代碼調(diào)整。Sonnet 5的92.4%能不能扛住這些,才是它值不值那3塊錢的最終裁決。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.