337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Anthropic甩出92.4%這個數(shù)字

0
分享至


凌晨兩點,一個做后端的朋友給我發(fā)消息:「Sonnet 5出來了,我手里的咖啡涼了。」我點開鏈接,第一反應(yīng)是檢查日期——4月1號,確認不是玩笑。92.4%的SWE-bench Verified,這比他們自家旗艦Opus 4.6高出12個點,比GPT-5.4高出35個點。一個中檔模型,把全行業(yè)的旗艦按在地上。

價格沒變,但游戲規(guī)則變了

Anthropic這次沒搞發(fā)布會,沒預熱,博客帖子直接上線。模型字符串claude-sonnet-5-20260401,claude.ai默認切換,API價格維持$3/$15每百萬token——和Sonnet 4.6一模一樣。沒有漲價。

這有多反常?對比一下就懂了。Gemini 3.1 Pro定價$2/1M輸入,是當下最便宜的前沿模型;GPT-5.4定價$2.50;Sonnet 5貴一點,$3。但多花這50美分,你買到的是:SWE-bench上35個百分點的領(lǐng)先,OSWorld-Verified上13個百分點的領(lǐng)先,GPQA Diamond上接近2個百分點的領(lǐng)先,ARC-AGI-2上7個百分點的領(lǐng)先。

用五分之一的價格買Opus 4.6,性能反而更好——這種定價策略不像賣模型,像是對自家旗艦的公開處刑。

Opus 4.6的定價是$15/1M輸入,現(xiàn)在開發(fā)者有明確的選擇題:花3塊錢買更強的,還是花15塊錢買更弱的?Anthropic自己的產(chǎn)品矩陣內(nèi)部,出現(xiàn)了明顯的 cannibalization(同類相食)。

計算機操作:從「能用」到「比人強」

OSWorld-Verified這個基準測試,測的是AI操控真實桌面環(huán)境的能力。人類專家基線是72.4%——這是受過訓練的專業(yè)人員,在可控環(huán)境下操作電腦的表現(xiàn)上限。

Sonnet 5得分88.3%。不是接近人類,是顯著超越。GPT-5.4上個月發(fā)布時,75.0%的成績已經(jīng)讓不少人覺得「agent時代要來了」。一個月后,Anthropic把這個標準又拔高13個百分點。

這里的差距不是線性進步,是代際差。75%意味著「大多數(shù)時候能完成任務(wù),但需要人工兜底」;88%意味著「可以放手讓它自己跑,只在邊緣case介入」。從「輔助工具」到「獨立代理」,閾值就在這個區(qū)間。

GPQA Diamond(博士級科學問答)上,Sonnet 5拿下96.2%,從Gemini 3.1 Pro手里搶走紀錄。ARC-AGI-2(抽象新穎推理)84.7%,比Gemini的77.1%高出7.6個百分點——這個測試的設(shè)計初衷就是「讓AI做它沒訓練過的事」,分數(shù)越高,泛化能力越扎實。

三個月內(nèi)的三次變天

時間線拉出來看,節(jié)奏很密集。2月19日,Gemini 3.1 Pro發(fā)布,GPQA Diamond登頂,當時被認為是Google對OpenAI的精準反擊。3月5日,GPT-5.4上線,計算機能力和上下文窗口是賣點,75%的OSWorld成績足夠亮眼。

這期間Anthropic在做什么?Sonnet 4.6作為中檔型號,已經(jīng)表現(xiàn)出奇怪的「以下犯上」——開發(fā)者頭對頭對比時,59%的情況下更喜歡它而不是自家旗艦Opus 4.5。這種內(nèi)部倒掛說明,模型規(guī)模不是唯一指標,推理效率、響應(yīng)質(zhì)量、實際體驗都在重新定義「好模型」的標準。

Sonnet 5把這個趨勢推到極致。它沒有用更大的參數(shù)規(guī)模,而是優(yōu)化了「自適應(yīng)思考架構(gòu)」——動態(tài)分配推理深度,在簡單問題上快,在復雜問題上深。這種「該省省該花花」的策略,可能是benchmark躍升的關(guān)鍵來源。

上下文窗口也完成了擴容:2M token正式脫離beta,1M版本從實驗狀態(tài)轉(zhuǎn)正。長文檔處理、代碼庫理解、多輪對話的瓶頸,被一次性打通。

SWE-bench為什么難作弊

92.4%這個數(shù)字值得單獨拆解。SWE-bench Verified測的是解決真實GitHub issue的能力——拿到一個沒見過的代碼庫,理解問題描述,定位bug,寫出修復,通過測試。沒有訓練數(shù)據(jù)可背,沒有套路可套。

之前的標桿是:Opus 4.6的80.8%,Gemini 3.1 Pro的80.6%,GPT-5.4的57.7%。Sonnet 5的92.4%意味著,在接近真實開發(fā)場景的任務(wù)中,它十次里能成功九次半。這個可靠性水平,已經(jīng)觸及「可以集成到CI/CD流程」的門檻。

開發(fā)者社區(qū)的反饋正在快速匯聚。有人測試了復雜重構(gòu)任務(wù),有人扔進去遺留代碼庫的bug,有人在用它做code review。初步共識是:Sonnet 4.6已經(jīng)夠用,Sonnet 5是「夠用」到「好用」的跨越。

定價策略的潛臺詞也很清晰。Anthropic沒有把性能提升轉(zhuǎn)化為溢價,而是用Sonnet tier承載技術(shù)突破,把Opus tier逼向更極端的場景——也許是為下一代Opus預留空間,也許是戰(zhàn)略性地用性價比搶占開發(fā)者心智。無論哪種,$3 vs $15的價差,會讓預算敏感的用戶用腳投票。

一個細節(jié):模型發(fā)布當天,API文檔同步更新,2M上下文通過header顯式啟用,沒有灰度,沒有排隊。這種「即開即用」的交付節(jié)奏,和某些廠商的「waitlist文化」形成對比。

接下來兩周,真正的壓力測試會在生產(chǎn)環(huán)境里發(fā)生——不是benchmark,是凌晨三點的線上故障,是需求文檔里沒寫清楚的邊界條件,是產(chǎn)品經(jīng)理臨時改需求后的代碼調(diào)整。Sonnet 5的92.4%能不能扛住這些,才是它值不值那3塊錢的最終裁決。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
公開示愛支持!特朗普前兒媳打破沉默,首次回應(yīng)男友伍茲酒駕被捕

公開示愛支持!特朗普前兒媳打破沉默,首次回應(yīng)男友伍茲酒駕被捕

全景體育V
2026-04-03 21:29:58
鄭麗文率團乘高鐵謁陵,392 級臺階見證兩岸情

鄭麗文率團乘高鐵謁陵,392 級臺階見證兩岸情

一只會笑的云
2026-04-02 22:36:53
炸鍋!哈蘭德或?qū)?2027 年離隊,曼城新帥人選引爭議

炸鍋!哈蘭德或?qū)?2027 年離隊,曼城新帥人選引爭議

瀾歸序
2026-04-04 04:37:48
赫格塞思震撼五角大樓:美軍陸軍參謀長及兩將領(lǐng)遭突然免職

赫格塞思震撼五角大樓:美軍陸軍參謀長及兩將領(lǐng)遭突然免職

玲兒愛唱歌
2026-04-04 03:17:22
巴菲特宣布與蓋茨斷交! 痛批“史上最強騙子”

巴菲特宣布與蓋茨斷交! 痛批“史上最強騙子”

英國那些事兒
2026-04-03 23:20:45
美國要發(fā)動地面戰(zhàn)?分明是打不動了,關(guān)鍵時刻,阿聯(lián)酋對伊朗宣戰(zhàn)

美國要發(fā)動地面戰(zhàn)?分明是打不動了,關(guān)鍵時刻,阿聯(lián)酋對伊朗宣戰(zhàn)

榮亭小吏
2026-04-02 22:46:25
王室也逃不過“曬娃”!梅根曬6歲兒子滑雪視頻,一句話全是當媽的驕傲

王室也逃不過“曬娃”!梅根曬6歲兒子滑雪視頻,一句話全是當媽的驕傲

華人生活網(wǎng)
2026-04-04 04:37:57
憋了53年,拉了泡大的!美國繞月火箭剛上天就掉鏈子,美媒怪中國

憋了53年,拉了泡大的!美國繞月火箭剛上天就掉鏈子,美媒怪中國

新浪財經(jīng)
2026-04-03 17:44:01
越南當年為何敢和中國開戰(zhàn)?黎筍長子多年后說出了核心真相

越南當年為何敢和中國開戰(zhàn)?黎筍長子多年后說出了核心真相

古書記史
2025-12-22 19:21:12
蘇敏旅游6年后完全認不出,連面相都變了,網(wǎng)友:這16萬花得值!

蘇敏旅游6年后完全認不出,連面相都變了,網(wǎng)友:這16萬花得值!

一盅情懷
2026-03-27 16:43:32
江蘇首個春假“含娃量”爆棚,3天接待游客1405.14萬人次

江蘇首個春假“含娃量”爆棚,3天接待游客1405.14萬人次

現(xiàn)代快報
2026-04-03 20:30:12
墮落的“清純女星”酒井法子,這張腿間蝴蝶背后,隱藏著的故事

墮落的“清純女星”酒井法子,這張腿間蝴蝶背后,隱藏著的故事

七阿姨愛八卦
2026-03-29 10:12:33
44歲佟晨潔官宣離婚!魏巍11年不肯戒酒生娃,婆婆曾懷疑是她不行

44歲佟晨潔官宣離婚!魏巍11年不肯戒酒生娃,婆婆曾懷疑是她不行

鄉(xiāng)野小珥
2026-04-03 13:20:56
為什么很多女人偷完情,回家還要“交公糧”?

為什么很多女人偷完情,回家還要“交公糧”?

思絮
2026-03-30 11:22:16
“老人味”的禍首被揪出!醫(yī)生提醒:55歲后要少碰,老了或也沒味

“老人味”的禍首被揪出!醫(yī)生提醒:55歲后要少碰,老了或也沒味

今日養(yǎng)生之道
2026-03-23 11:46:39
華人父女新加坡家中身亡更多細節(jié)披露:女兒系劍橋博士,去世時僅重24公斤

華人父女新加坡家中身亡更多細節(jié)披露:女兒系劍橋博士,去世時僅重24公斤

紅星新聞
2026-04-03 12:21:07
10分鐘5輪導彈砸下,以色列頂不住了,這一仗已經(jīng)不是輸贏問題

10分鐘5輪導彈砸下,以色列頂不住了,這一仗已經(jīng)不是輸贏問題

阿芒娛樂說
2026-04-04 01:13:10
夫妻倆花50萬買套法拍房,發(fā)現(xiàn)土地使用權(quán)證是假的,5年來無法過戶,法院已移送警方偵查

夫妻倆花50萬買套法拍房,發(fā)現(xiàn)土地使用權(quán)證是假的,5年來無法過戶,法院已移送警方偵查

大風新聞
2026-04-03 11:27:32
為老不尊、被“兒子”打耳光?如今住上海豪宅的她,才是人生贏家

為老不尊、被“兒子”打耳光?如今住上海豪宅的她,才是人生贏家

素衣讀史
2026-04-02 18:26:48
張雪峰辦公室 “詭異” 一角引熱議!黑白照 + 香爐 網(wǎng)友:不吉利

張雪峰辦公室 “詭異” 一角引熱議!黑白照 + 香爐 網(wǎng)友:不吉利

魔都姐姐雜談
2026-03-30 19:57:02
2026-04-04 06:08:49
硅嶼手記
硅嶼手記
有態(tài)度網(wǎng)友ytd
1305文章數(shù) 3關(guān)注度
往期回顧 全部

科技要聞

5萬輛庫存車,給了特斯拉一記重拳

頭條要聞

美國提議停火48小時 伊朗以持續(xù)重火力打擊回應(yīng)

頭條要聞

美國提議停火48小時 伊朗以持續(xù)重火力打擊回應(yīng)

體育要聞

被NBA選中20年后,他重新回到籃球場

娛樂要聞

夏克立官宣再婚當爸?否認婚內(nèi)出軌

財經(jīng)要聞

專家稱長期攝入“飄香劑”存在健康隱患

汽車要聞

你介意和遠房親戚長得很像嗎?

態(tài)度原創(chuàng)

游戲
家居
房產(chǎn)
時尚
軍事航空

三十年鐵律崩塌!主機漲價瘋魔 IGN警告行業(yè)"將死"

家居要聞

溫馨多元 愛的具象化

房產(chǎn)要聞

小陽春全面啟動!現(xiàn)房,才是這波行情里最穩(wěn)的上車票

冬奧雙金夫妻:愛與榮耀,頂峰相見

軍事要聞

俄國防部:一架蘇-30戰(zhàn)機在克里米亞墜毀

無障礙瀏覽 進入關(guān)懷版