網(wǎng)易首頁(yè) > 網(wǎng)易科技 > 網(wǎng)易科技 > 正文

最強(qiáng)編程AI被指降智！網(wǎng)友吵翻天，官方緊急回應(yīng)被群嘲：縮水也叫優(yōu)化？

2026-04-14 15:57:02　來(lái)源: 網(wǎng)易智能

北京舉報(bào)

分享至

出品 | 網(wǎng)易智能

作者 | 辰辰

編輯 | 王鳳枝

最強(qiáng)的編程AI，到底降沒(méi)降智？

今年2月初，Anthropic發(fā)布Claude Opus 4.6，其憑借著深邃的推理邏輯和對(duì)復(fù)雜代碼規(guī)范的精準(zhǔn)執(zhí)行，被業(yè)界奉為代碼真神。

然而好景不長(zhǎng)，發(fā)布僅數(shù)周后就不斷有用戶在社交媒體上聲討，稱其性能出現(xiàn)了斷崖式下跌。

不少用戶聲稱自己付著同樣高昂的月費(fèi)，換來(lái)的卻是一個(gè)被明顯降智的縮水版本，Opus 4.6開(kāi)始變得懶惰與健忘，甚至在基礎(chǔ)邏輯里反復(fù)撞墻。

面對(duì)全網(wǎng)的聲討，Anthropic官方團(tuán)隊(duì)出面回應(yīng)，他們辯稱從未削弱模型，種種異常表現(xiàn)只是為了幫用戶節(jié)省Token而做出的默認(rèn)配置優(yōu)化。

這種單方面的技術(shù)辯解顯然無(wú)法平息開(kāi)發(fā)者的怒火。

這究竟是大量用戶的集體心理錯(cuò)覺(jué)，還是資本在算力瓶頸下精心炮制的縮水？

一、AMD高管的深度分析：6852份日志見(jiàn)端倪

如果說(shuō)普通用戶的抱怨只是體感，那么斯特拉·勞倫佐（Stella Laurenzo）的分析，則是讓這件事徹底“實(shí)錘”了。

根據(jù)領(lǐng)英資料，勞倫佐是AMD的AI部門高級(jí)總監(jiān)，目前在AMD領(lǐng)導(dǎo)一支龐大的團(tuán)隊(duì)為開(kāi)源AI編譯器開(kāi)發(fā)貢獻(xiàn)力量。她曾在谷歌擔(dān)任首席軟件工程師，后作為前Nod.ai工程副總裁加入AMD。

4月2日，勞倫佐在GitHub上發(fā)布了一份詳盡的性能回溯報(bào)告。

作為一名頂級(jí)AI專家，她沒(méi)有只憑直覺(jué)說(shuō)話，而是詳細(xì)分析了6852份Claude Code會(huì)話文件與17871個(gè)思考?jí)K以及超過(guò)23萬(wàn)次工具調(diào)用記錄，堪稱一份詳盡的高水平個(gè)案研究。

這份基于海量數(shù)據(jù)的分析揭露了一個(gè)令人不安的真相，從今年2月份開(kāi)始，Claude的推理深度就出現(xiàn)了斷崖式下跌。

細(xì)節(jié)信息顯示：

推理字?jǐn)?shù)縮減：中位思考長(zhǎng)度從2200字符縮減到了600字符。

研究退化：以前Claude在寫代碼前會(huì)進(jìn)行多輪研究（Research），現(xiàn)在的模式變成了直接上手改（Edit），這導(dǎo)致讀取與編輯的比率從6.6倍降至2.0倍。

任務(wù)早退：在短短17天內(nèi)，Claude嘗試放棄任務(wù)或反問(wèn)我是否應(yīng)該繼續(xù)的次數(shù)達(dá)到了173次，而在3月8日之前這個(gè)數(shù)字是0。

自相矛盾：推理過(guò)程中的自我否定（如“哦等等，實(shí)際上……”）頻率增加了三倍。

勞倫佐的結(jié)論非常冷酷，對(duì)于高級(jí)工程工作流來(lái)說(shuō)，深度推理不是奢侈品而是模型可用的前提，現(xiàn)在Claude在復(fù)雜工程中已經(jīng)靠不住了。

不過(guò)需要注意的是，勞倫佐的分析結(jié)論只是說(shuō)今年2月底Claude思考長(zhǎng)度縮短了67%，推文將思考量減少直接等同于智力下降的說(shuō)法難論嚴(yán)謹(jǐn)。

二、社交媒體的證言墻：40分鐘的思考與無(wú)效的賬單

勞倫佐的帖子迅速引爆了社交媒體X和Reddit，無(wú)數(shù)開(kāi)發(fā)者發(fā)現(xiàn)自己遇到的問(wèn)題與這份報(bào)告高度契合。

網(wǎng)紅開(kāi)發(fā)者奧姆·帕特爾（Om Patel）直接在X上貼出了結(jié)論，有人測(cè)出了Claude變笨了多少，答案是67%。

他的論點(diǎn)主要集中在Opus 4.6的思考量比以前少了三分之二。他諷刺地寫道，Anthropic一直保持沉默，直到這些數(shù)字被公開(kāi)，他們的團(tuán)隊(duì)才出來(lái)滅火。

帕特爾還在推文中透露，泄露的源代碼顯示他們有一個(gè)內(nèi)部開(kāi)關(guān)，可以讓模型在Anthropic員工使用時(shí)保持最佳狀態(tài)。不過(guò)這一說(shuō)法尚未得到獨(dú)立驗(yàn)證，Anthropic也未對(duì)此作出回應(yīng)。

他還直言，有人說(shuō)Anthropic故意降低Opus的性能，是為了節(jié)省計(jì)算資源來(lái)訓(xùn)練他們的下一個(gè)模型Mythos。但這一推測(cè)同樣缺乏直接證據(jù)。

在Reddit上，用戶們的吐槽則更具具像化，也更顯無(wú)奈：

坐等式思考：用戶DangerousSetOfBewbs稱他曾讓Claude處理一個(gè)500行的文件，結(jié)果Claude進(jìn)入了長(zhǎng)達(dá)24分鐘的思考中狀態(tài)，只是在那里干坐著。還有網(wǎng)友附和，讓它做研究，40分鐘幾乎沒(méi)用什么Token，所以根本不清楚它這40分鐘到底做了什么。

規(guī)則視若無(wú)睹：許多開(kāi)發(fā)者習(xí)慣在CLAUDE.md中設(shè)定項(xiàng)目規(guī)范，但現(xiàn)在Claude仿佛患上了失憶癥。一位用戶憤怒地留言，如果你不盯著它的輸出，它能分分鐘毀掉你的代碼庫(kù)。

價(jià)格沒(méi)變智力降級(jí)：這就是典型的縮水通脹。Reddit用戶Firm_Meeting6350說(shuō)，我今天退訂了Claude Max 20并轉(zhuǎn)投了Codex Pro，Claude現(xiàn)在給我的感覺(jué)就像在用過(guò)時(shí)的舊模型。

三、跑分迷霧：從第2名到第10名的跌落

如果用戶抱怨還可以解釋成主觀感受，那么基準(zhǔn)測(cè)試則似乎要拿真實(shí)數(shù)據(jù)討說(shuō)法。

4月12日，專門負(fù)責(zé)幻覺(jué)基準(zhǔn)測(cè)試的機(jī)構(gòu)BridgeMind發(fā)布了一條推文，直接將爭(zhēng)議推向高潮。

推文指出Claude Opus 4.6被削弱了，BridgeBench剛剛證明了這一點(diǎn)。上周它排名第2且準(zhǔn)確率83.3%，今天重測(cè)它掉到了第10且準(zhǔn)確率僅剩68.3%，幻覺(jué)率增加了98%。

然而這一測(cè)試結(jié)果遭到了反駁。外部AI研究員保羅·卡爾克拉夫特（Paul Calcraft）隨后指出測(cè)試中存在誤導(dǎo)性，BridgeMind的兩次測(cè)試并不是對(duì)等比較。第一次測(cè)試只涵蓋了6個(gè)任務(wù)，而第二次測(cè)試擴(kuò)充到了30個(gè)任務(wù)。

卡爾克拉夫特指出，如果只看那6個(gè)共同的任務(wù)，Claude的得分僅從87.6%輕微波動(dòng)到85.4%，最大的偏差幾乎來(lái)自于單個(gè)虛構(gòu)結(jié)果，這種差異在統(tǒng)計(jì)學(xué)上完全可以歸類為噪音。

這場(chǎng)跑分爭(zhēng)議本身也說(shuō)明，目前業(yè)界缺乏統(tǒng)一且可復(fù)現(xiàn)的AI性能基準(zhǔn)測(cè)試標(biāo)準(zhǔn)，很多測(cè)試頗有先下結(jié)論后找論據(jù)的風(fēng)格，用戶很難從測(cè)試數(shù)據(jù)中獲得確定性的答案。

然而那個(gè)跌落至第10名的數(shù)據(jù)在社交媒體上瘋傳，截圖給人的視覺(jué)沖擊力使其成為了Claude降智這一說(shuō)法的最有力佐證。

四、官方回應(yīng)：是優(yōu)化而非削弱

面對(duì)洶洶民意，Anthropic的核心團(tuán)隊(duì)成員不得不公開(kāi)回應(yīng)。

Claude Code負(fù)責(zé)人鮑里斯·切爾尼（Boris Cherny）在勞倫佐的GitHub原文下認(rèn)真解釋了一通，并在X上連發(fā)數(shù)條回復(fù)，核心觀點(diǎn)只有一個(gè)，他們沒(méi)有削弱模型，只是為了響應(yīng)用戶反饋調(diào)低了默認(rèn)的努力程度。

切爾尼表示，很多用戶此前反饋Claude消耗Token太多。為了響應(yīng)用戶反饋，Anthropic做了以下改變：

默認(rèn)努力度降級(jí)：在3月3日默認(rèn)將推理努力度設(shè)置為中等，如果你想要深度推理，需要手動(dòng)輸入對(duì)應(yīng)高級(jí)指令。

前端隱藏思考過(guò)程：改變了前端顯示，不再完整展示思考?jí)K，減少了延遲，但這不影響思考預(yù)算或后端的深度推理。

自適應(yīng)思考機(jī)制：在2月9日引入了動(dòng)態(tài)調(diào)整機(jī)制。

Claude Code團(tuán)隊(duì)成員塔里克·希希帕爾（Thariq Shihipar）也力挺自己的部門老大，他連發(fā)數(shù)條推文用技術(shù)層面的解釋打消用戶疑慮，還堅(jiān)稱公司不會(huì)為了更好地滿足需求而降低模型性能。

值得注意的是，切爾尼提到的默認(rèn)努力度降級(jí)，恰好可以解釋勞倫佐分析報(bào)告中的思考長(zhǎng)度縮短與研究行為減少以及任務(wù)放棄頻率上升等多種現(xiàn)象，這與推理處于中等的默認(rèn)設(shè)置高度吻合。

然而官方解釋并不能平息眾怒，社交媒體上很多用戶都認(rèn)為，如果為了幫用戶省錢而降低性能或者給出錯(cuò)誤答案，那這種省錢根本毫無(wú)意義可言。

何況公司沒(méi)通知就直接進(jìn)行了調(diào)整，直接損害了用戶的知情權(quán)。

五、幕后暗戰(zhàn)：緩存生存時(shí)間與算力瓶頸

除了推理深度的變化，不少用戶還注意到Claude變得更貴了。

GitHub上一份編號(hào)為46829的反饋指出，Claude Code的提示詞緩存生存時(shí)間從原本的1小時(shí)被縮短到了5分鐘。

這意味著對(duì)于長(zhǎng)時(shí)間工作的程序員來(lái)說(shuō)，你剛才跟Claude說(shuō)的話，5分鐘后它就忘了。為了繼續(xù)工作，你需要重新上傳上下文。

這不僅增加了延遲，更讓用戶的Token消耗量激增，使得一些訂閱用戶開(kāi)始觸及以前從未遇到的使用上限。

Anthropic工程師賈里德·薩姆納（Jarred Sumner）承認(rèn)了3月6日的這一改變，但辯稱這是為了持續(xù)的緩存優(yōu)化工作而不是暗中降級(jí)。在開(kāi)發(fā)者眼中，這無(wú)異于證實(shí)了官方確實(shí)在后臺(tái)積極調(diào)整緩存行為，而這正是大家抱怨配額消耗過(guò)快的時(shí)間段。

不管是Claude變笨也好變貴也罷，Reddit網(wǎng)友raven2cz的說(shuō)辭堪稱一語(yǔ)中的。

這兩大問(wèn)題也就是額度限制和思考能力下降都與基礎(chǔ)設(shè)施過(guò)載密切相關(guān)，去GitHub上看看就知道了，成千上萬(wàn)的用戶現(xiàn)在都在面臨類似的問(wèn)題，這情況感覺(jué)就像一年半前GPT發(fā)布新模型時(shí)一樣。

網(wǎng)友Wickywire則分析了其中的根本原因，Anthropic在兩個(gè)月內(nèi)日活用戶從400萬(wàn)漲到了1100萬(wàn)，他們完全沒(méi)有準(zhǔn)備并不得不全天候連軸轉(zhuǎn)去拼命擴(kuò)容，這就是所謂削弱的真相。你去對(duì)時(shí)間線，和二三月份發(fā)生的事完全吻合。

這里沒(méi)有任何隱藏的意圖，只是一個(gè)經(jīng)歷增長(zhǎng)之痛的公司，硬件與能源的瓶頸是真實(shí)且證據(jù)確鑿的。

我們知道原因所在且它們都是結(jié)構(gòu)性的，所以解決辦法也確實(shí)有限，在Reddit上反復(fù)糾結(jié)毫無(wú)意義。