出品 | 網(wǎng)易智能
作者 | 辰辰
編輯 | 王鳳枝
最強(qiáng)的編程AI,到底降沒(méi)降智?
今年2月初,Anthropic發(fā)布Claude Opus 4.6,其憑借著深邃的推理邏輯和對(duì)復(fù)雜代碼規(guī)范的精準(zhǔn)執(zhí)行,被業(yè)界奉為代碼真神。
然而好景不長(zhǎng),發(fā)布僅數(shù)周后就不斷有用戶在社交媒體上聲討,稱其性能出現(xiàn)了斷崖式下跌。
![]()
不少用戶聲稱自己付著同樣高昂的月費(fèi),換來(lái)的卻是一個(gè)被明顯降智的縮水版本,Opus 4.6開(kāi)始變得懶惰與健忘,甚至在基礎(chǔ)邏輯里反復(fù)撞墻。
面對(duì)全網(wǎng)的聲討,Anthropic官方團(tuán)隊(duì)出面回應(yīng),他們辯稱從未削弱模型,種種異常表現(xiàn)只是為了幫用戶節(jié)省Token而做出的默認(rèn)配置優(yōu)化。
這種單方面的技術(shù)辯解顯然無(wú)法平息開(kāi)發(fā)者的怒火。
這究竟是大量用戶的集體心理錯(cuò)覺(jué),還是資本在算力瓶頸下精心炮制的縮水?
一、AMD高管的深度分析:6852份日志見(jiàn)端倪
如果說(shuō)普通用戶的抱怨只是體感,那么斯特拉·勞倫佐(Stella Laurenzo)的分析,則是讓這件事徹底“實(shí)錘”了。
根據(jù)領(lǐng)英資料,勞倫佐是AMD的AI部門高級(jí)總監(jiān),目前在AMD領(lǐng)導(dǎo)一支龐大的團(tuán)隊(duì)為開(kāi)源AI編譯器開(kāi)發(fā)貢獻(xiàn)力量。她曾在谷歌擔(dān)任首席軟件工程師,后作為前Nod.ai工程副總裁加入AMD。
4月2日,勞倫佐在GitHub上發(fā)布了一份詳盡的性能回溯報(bào)告。
作為一名頂級(jí)AI專家,她沒(méi)有只憑直覺(jué)說(shuō)話,而是詳細(xì)分析了6852份Claude Code會(huì)話文件與17871個(gè)思考?jí)K以及超過(guò)23萬(wàn)次工具調(diào)用記錄,堪稱一份詳盡的高水平個(gè)案研究。
![]()
這份基于海量數(shù)據(jù)的分析揭露了一個(gè)令人不安的真相,從今年2月份開(kāi)始,Claude的推理深度就出現(xiàn)了斷崖式下跌。
細(xì)節(jié)信息顯示:
推理字?jǐn)?shù)縮減:中位思考長(zhǎng)度從2200字符縮減到了600字符。
研究退化:以前Claude在寫代碼前會(huì)進(jìn)行多輪研究(Research),現(xiàn)在的模式變成了直接上手改(Edit),這導(dǎo)致讀取與編輯的比率從6.6倍降至2.0倍。
任務(wù)早退:在短短17天內(nèi),Claude嘗試放棄任務(wù)或反問(wèn)我是否應(yīng)該繼續(xù)的次數(shù)達(dá)到了173次,而在3月8日之前這個(gè)數(shù)字是0。
自相矛盾:推理過(guò)程中的自我否定(如“哦等等,實(shí)際上……”)頻率增加了三倍。
勞倫佐的結(jié)論非常冷酷,對(duì)于高級(jí)工程工作流來(lái)說(shuō),深度推理不是奢侈品而是模型可用的前提,現(xiàn)在Claude在復(fù)雜工程中已經(jīng)靠不住了。
不過(guò)需要注意的是,勞倫佐的分析結(jié)論只是說(shuō)今年2月底Claude思考長(zhǎng)度縮短了67%,推文將思考量減少直接等同于智力下降的說(shuō)法難論嚴(yán)謹(jǐn)。
二、社交媒體的證言墻:40分鐘的思考與無(wú)效的賬單
勞倫佐的帖子迅速引爆了社交媒體X和Reddit,無(wú)數(shù)開(kāi)發(fā)者發(fā)現(xiàn)自己遇到的問(wèn)題與這份報(bào)告高度契合。
網(wǎng)紅開(kāi)發(fā)者奧姆·帕特爾(Om Patel)直接在X上貼出了結(jié)論,有人測(cè)出了Claude變笨了多少,答案是67%。
他的論點(diǎn)主要集中在Opus 4.6的思考量比以前少了三分之二。他諷刺地寫道,Anthropic一直保持沉默,直到這些數(shù)字被公開(kāi),他們的團(tuán)隊(duì)才出來(lái)滅火。
![]()
帕特爾還在推文中透露,泄露的源代碼顯示他們有一個(gè)內(nèi)部開(kāi)關(guān),可以讓模型在Anthropic員工使用時(shí)保持最佳狀態(tài)。不過(guò)這一說(shuō)法尚未得到獨(dú)立驗(yàn)證,Anthropic也未對(duì)此作出回應(yīng)。
他還直言,有人說(shuō)Anthropic故意降低Opus的性能,是為了節(jié)省計(jì)算資源來(lái)訓(xùn)練他們的下一個(gè)模型Mythos。但這一推測(cè)同樣缺乏直接證據(jù)。
在Reddit上,用戶們的吐槽則更具具像化,也更顯無(wú)奈:
坐等式思考:用戶DangerousSetOfBewbs稱他曾讓Claude處理一個(gè)500行的文件,結(jié)果Claude進(jìn)入了長(zhǎng)達(dá)24分鐘的思考中狀態(tài),只是在那里干坐著。還有網(wǎng)友附和,讓它做研究,40分鐘幾乎沒(méi)用什么Token,所以根本不清楚它這40分鐘到底做了什么。
![]()
規(guī)則視若無(wú)睹:許多開(kāi)發(fā)者習(xí)慣在CLAUDE.md中設(shè)定項(xiàng)目規(guī)范,但現(xiàn)在Claude仿佛患上了失憶癥。一位用戶憤怒地留言,如果你不盯著它的輸出,它能分分鐘毀掉你的代碼庫(kù)。
![]()
價(jià)格沒(méi)變智力降級(jí):這就是典型的縮水通脹。Reddit用戶Firm_Meeting6350說(shuō),我今天退訂了Claude Max 20并轉(zhuǎn)投了Codex Pro,Claude現(xiàn)在給我的感覺(jué)就像在用過(guò)時(shí)的舊模型。
![]()
三、跑分迷霧:從第2名到第10名的跌落
如果用戶抱怨還可以解釋成主觀感受,那么基準(zhǔn)測(cè)試則似乎要拿真實(shí)數(shù)據(jù)討說(shuō)法。
4月12日,專門負(fù)責(zé)幻覺(jué)基準(zhǔn)測(cè)試的機(jī)構(gòu)BridgeMind發(fā)布了一條推文,直接將爭(zhēng)議推向高潮。
推文指出Claude Opus 4.6被削弱了,BridgeBench剛剛證明了這一點(diǎn)。上周它排名第2且準(zhǔn)確率83.3%,今天重測(cè)它掉到了第10且準(zhǔn)確率僅剩68.3%,幻覺(jué)率增加了98%。
![]()
然而這一測(cè)試結(jié)果遭到了反駁。外部AI研究員保羅·卡爾克拉夫特(Paul Calcraft)隨后指出測(cè)試中存在誤導(dǎo)性,BridgeMind的兩次測(cè)試并不是對(duì)等比較。第一次測(cè)試只涵蓋了6個(gè)任務(wù),而第二次測(cè)試擴(kuò)充到了30個(gè)任務(wù)。
![]()
卡爾克拉夫特指出,如果只看那6個(gè)共同的任務(wù),Claude的得分僅從87.6%輕微波動(dòng)到85.4%,最大的偏差幾乎來(lái)自于單個(gè)虛構(gòu)結(jié)果,這種差異在統(tǒng)計(jì)學(xué)上完全可以歸類為噪音。
這場(chǎng)跑分爭(zhēng)議本身也說(shuō)明,目前業(yè)界缺乏統(tǒng)一且可復(fù)現(xiàn)的AI性能基準(zhǔn)測(cè)試標(biāo)準(zhǔn),很多測(cè)試頗有先下結(jié)論后找論據(jù)的風(fēng)格,用戶很難從測(cè)試數(shù)據(jù)中獲得確定性的答案。
然而那個(gè)跌落至第10名的數(shù)據(jù)在社交媒體上瘋傳,截圖給人的視覺(jué)沖擊力使其成為了Claude降智這一說(shuō)法的最有力佐證。
![]()
四、官方回應(yīng):是優(yōu)化而非削弱
面對(duì)洶洶民意,Anthropic的核心團(tuán)隊(duì)成員不得不公開(kāi)回應(yīng)。
Claude Code負(fù)責(zé)人鮑里斯·切爾尼(Boris Cherny)在勞倫佐的GitHub原文下認(rèn)真解釋了一通,并在X上連發(fā)數(shù)條回復(fù),核心觀點(diǎn)只有一個(gè),他們沒(méi)有削弱模型,只是為了響應(yīng)用戶反饋調(diào)低了默認(rèn)的努力程度。
![]()
切爾尼表示,很多用戶此前反饋Claude消耗Token太多。為了響應(yīng)用戶反饋,Anthropic做了以下改變:
默認(rèn)努力度降級(jí):在3月3日默認(rèn)將推理努力度設(shè)置為中等,如果你想要深度推理,需要手動(dòng)輸入對(duì)應(yīng)高級(jí)指令。
前端隱藏思考過(guò)程:改變了前端顯示,不再完整展示思考?jí)K,減少了延遲,但這不影響思考預(yù)算或后端的深度推理。
自適應(yīng)思考機(jī)制:在2月9日引入了動(dòng)態(tài)調(diào)整機(jī)制。
Claude Code團(tuán)隊(duì)成員塔里克·希希帕爾(Thariq Shihipar)也力挺自己的部門老大,他連發(fā)數(shù)條推文用技術(shù)層面的解釋打消用戶疑慮,還堅(jiān)稱公司不會(huì)為了更好地滿足需求而降低模型性能。
![]()
值得注意的是,切爾尼提到的默認(rèn)努力度降級(jí),恰好可以解釋勞倫佐分析報(bào)告中的思考長(zhǎng)度縮短與研究行為減少以及任務(wù)放棄頻率上升等多種現(xiàn)象,這與推理處于中等的默認(rèn)設(shè)置高度吻合。
然而官方解釋并不能平息眾怒,社交媒體上很多用戶都認(rèn)為,如果為了幫用戶省錢而降低性能或者給出錯(cuò)誤答案,那這種省錢根本毫無(wú)意義可言。
何況公司沒(méi)通知就直接進(jìn)行了調(diào)整,直接損害了用戶的知情權(quán)。
五、幕后暗戰(zhàn):緩存生存時(shí)間與算力瓶頸
除了推理深度的變化,不少用戶還注意到Claude變得更貴了。
GitHub上一份編號(hào)為46829的反饋指出,Claude Code的提示詞緩存生存時(shí)間從原本的1小時(shí)被縮短到了5分鐘。
![]()
這意味著對(duì)于長(zhǎng)時(shí)間工作的程序員來(lái)說(shuō),你剛才跟Claude說(shuō)的話,5分鐘后它就忘了。為了繼續(xù)工作,你需要重新上傳上下文。
這不僅增加了延遲,更讓用戶的Token消耗量激增,使得一些訂閱用戶開(kāi)始觸及以前從未遇到的使用上限。
Anthropic工程師賈里德·薩姆納(Jarred Sumner)承認(rèn)了3月6日的這一改變,但辯稱這是為了持續(xù)的緩存優(yōu)化工作而不是暗中降級(jí)。在開(kāi)發(fā)者眼中,這無(wú)異于證實(shí)了官方確實(shí)在后臺(tái)積極調(diào)整緩存行為,而這正是大家抱怨配額消耗過(guò)快的時(shí)間段。
不管是Claude變笨也好變貴也罷,Reddit網(wǎng)友raven2cz的說(shuō)辭堪稱一語(yǔ)中的。
這兩大問(wèn)題也就是額度限制和思考能力下降都與基礎(chǔ)設(shè)施過(guò)載密切相關(guān),去GitHub上看看就知道了,成千上萬(wàn)的用戶現(xiàn)在都在面臨類似的問(wèn)題,這情況感覺(jué)就像一年半前GPT發(fā)布新模型時(shí)一樣。
![]()
網(wǎng)友Wickywire則分析了其中的根本原因,Anthropic在兩個(gè)月內(nèi)日活用戶從400萬(wàn)漲到了1100萬(wàn),他們完全沒(méi)有準(zhǔn)備并不得不全天候連軸轉(zhuǎn)去拼命擴(kuò)容,這就是所謂削弱的真相。你去對(duì)時(shí)間線,和二三月份發(fā)生的事完全吻合。
這里沒(méi)有任何隱藏的意圖,只是一個(gè)經(jīng)歷增長(zhǎng)之痛的公司,硬件與能源的瓶頸是真實(shí)且證據(jù)確鑿的。
我們知道原因所在且它們都是結(jié)構(gòu)性的,所以解決辦法也確實(shí)有限,在Reddit上反復(fù)糾結(jié)毫無(wú)意義。
![]()
這位網(wǎng)友給出的解決方法倒是立竿見(jiàn)影且切實(shí)可行,如果你覺(jué)得Claude表現(xiàn)不佳可以試試在非高峰時(shí)段使用,如果不行換別家AI服務(wù)商也行,反正又不是沒(méi)有選擇,真是受夠了那些在論壇上抱怨使用量和性能下降的人了。
六、結(jié)語(yǔ):信任危機(jī)比變笨更可怕
目前的局面是,用戶在描述體感,而Anthropic在描述參數(shù)。
用戶覺(jué)得它變笨了且任務(wù)失敗了,官方則表示沒(méi)有動(dòng)權(quán)重,只是改了默認(rèn)努力值與縮短了緩存以及調(diào)整了前端顯示并公開(kāi)披露過(guò)。
這兩種描述其實(shí)并不矛盾,在AI領(lǐng)域即便公司認(rèn)為自己沒(méi)有在底層削弱模型,但微妙的設(shè)置變化和配額限制,對(duì)全天候依賴它的開(kāi)發(fā)者來(lái)說(shuō)體驗(yàn)上與變笨毫無(wú)二致。
當(dāng)開(kāi)發(fā)者開(kāi)始懷疑一個(gè)工具的穩(wěn)定性時(shí),這種信任的裂痕是極難修復(fù)的。
尤其是在強(qiáng)敵環(huán)伺的當(dāng)下,OpenAI的Codex正在步步緊逼,它憑借更穩(wěn)定的算力輸出與靈活的中階訂閱及全新的交互功能,精準(zhǔn)收割失望的開(kāi)發(fā)者。
第三方開(kāi)發(fā)者調(diào)研工具顯示,自今年3月底Claude降智傳聞發(fā)酵以來(lái),Codex及其相關(guān)插件的周新增用戶量環(huán)比增長(zhǎng)了約22%。
如果Anthropic無(wú)法在節(jié)省算力成本與維持深度推理之間找到真正的平衡點(diǎn),那么Claude辛辛苦苦建立起的口碑恐怕將在這場(chǎng)風(fēng)波中受到考驗(yàn)。
有老用戶所說(shuō),我寧愿付兩倍的錢買一個(gè)聰明的Claude,也不愿花同樣的錢買一個(gè)只會(huì)說(shuō)道歉并要求更多信息的笨蛋。
這場(chǎng)AI界的性能拉鋸戰(zhàn)才剛剛開(kāi)始。
