337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁(yè) > 網(wǎng)易科技 > 網(wǎng)易科技 > 正文

最強(qiáng)編程AI被指降智!網(wǎng)友吵翻天,官方緊急回應(yīng)被群嘲:縮水也叫優(yōu)化?

0
分享至

出品 | 網(wǎng)易智能

作者 | 辰辰

編輯 | 王鳳枝

最強(qiáng)的編程AI,到底降沒(méi)降智?

今年2月初,Anthropic發(fā)布Claude Opus 4.6,其憑借著深邃的推理邏輯和對(duì)復(fù)雜代碼規(guī)范的精準(zhǔn)執(zhí)行,被業(yè)界奉為代碼真神。

然而好景不長(zhǎng),發(fā)布僅數(shù)周后就不斷有用戶在社交媒體上聲討,稱其性能出現(xiàn)了斷崖式下跌。


不少用戶聲稱自己付著同樣高昂的月費(fèi),換來(lái)的卻是一個(gè)被明顯降智的縮水版本,Opus 4.6開(kāi)始變得懶惰與健忘,甚至在基礎(chǔ)邏輯里反復(fù)撞墻。

面對(duì)全網(wǎng)的聲討,Anthropic官方團(tuán)隊(duì)出面回應(yīng),他們辯稱從未削弱模型,種種異常表現(xiàn)只是為了幫用戶節(jié)省Token而做出的默認(rèn)配置優(yōu)化。

這種單方面的技術(shù)辯解顯然無(wú)法平息開(kāi)發(fā)者的怒火。

這究竟是大量用戶的集體心理錯(cuò)覺(jué),還是資本在算力瓶頸下精心炮制的縮水?

一、AMD高管的深度分析:6852份日志見(jiàn)端倪

如果說(shuō)普通用戶的抱怨只是體感,那么斯特拉·勞倫佐(Stella Laurenzo)的分析,則是讓這件事徹底“實(shí)錘”了。

根據(jù)領(lǐng)英資料,勞倫佐是AMD的AI部門高級(jí)總監(jiān),目前在AMD領(lǐng)導(dǎo)一支龐大的團(tuán)隊(duì)為開(kāi)源AI編譯器開(kāi)發(fā)貢獻(xiàn)力量。她曾在谷歌擔(dān)任首席軟件工程師,后作為前Nod.ai工程副總裁加入AMD。

4月2日,勞倫佐在GitHub上發(fā)布了一份詳盡的性能回溯報(bào)告。

作為一名頂級(jí)AI專家,她沒(méi)有只憑直覺(jué)說(shuō)話,而是詳細(xì)分析了6852份Claude Code會(huì)話文件與17871個(gè)思考?jí)K以及超過(guò)23萬(wàn)次工具調(diào)用記錄,堪稱一份詳盡的高水平個(gè)案研究。


這份基于海量數(shù)據(jù)的分析揭露了一個(gè)令人不安的真相,從今年2月份開(kāi)始,Claude的推理深度就出現(xiàn)了斷崖式下跌。

細(xì)節(jié)信息顯示:

推理字?jǐn)?shù)縮減:中位思考長(zhǎng)度從2200字符縮減到了600字符。

研究退化:以前Claude在寫代碼前會(huì)進(jìn)行多輪研究(Research),現(xiàn)在的模式變成了直接上手改(Edit),這導(dǎo)致讀取與編輯的比率從6.6倍降至2.0倍。

任務(wù)早退:在短短17天內(nèi),Claude嘗試放棄任務(wù)或反問(wèn)我是否應(yīng)該繼續(xù)的次數(shù)達(dá)到了173次,而在3月8日之前這個(gè)數(shù)字是0。

自相矛盾:推理過(guò)程中的自我否定(如“哦等等,實(shí)際上……”)頻率增加了三倍。

勞倫佐的結(jié)論非常冷酷,對(duì)于高級(jí)工程工作流來(lái)說(shuō),深度推理不是奢侈品而是模型可用的前提,現(xiàn)在Claude在復(fù)雜工程中已經(jīng)靠不住了。

不過(guò)需要注意的是,勞倫佐的分析結(jié)論只是說(shuō)今年2月底Claude思考長(zhǎng)度縮短了67%,推文將思考量減少直接等同于智力下降的說(shuō)法難論嚴(yán)謹(jǐn)。

二、社交媒體的證言墻:40分鐘的思考與無(wú)效的賬單

勞倫佐的帖子迅速引爆了社交媒體X和Reddit,無(wú)數(shù)開(kāi)發(fā)者發(fā)現(xiàn)自己遇到的問(wèn)題與這份報(bào)告高度契合。

網(wǎng)紅開(kāi)發(fā)者奧姆·帕特爾(Om Patel)直接在X上貼出了結(jié)論,有人測(cè)出了Claude變笨了多少,答案是67%。

他的論點(diǎn)主要集中在Opus 4.6的思考量比以前少了三分之二。他諷刺地寫道,Anthropic一直保持沉默,直到這些數(shù)字被公開(kāi),他們的團(tuán)隊(duì)才出來(lái)滅火。

帕特爾還在推文中透露,泄露的源代碼顯示他們有一個(gè)內(nèi)部開(kāi)關(guān),可以讓模型在Anthropic員工使用時(shí)保持最佳狀態(tài)。不過(guò)這一說(shuō)法尚未得到獨(dú)立驗(yàn)證,Anthropic也未對(duì)此作出回應(yīng)。

他還直言,有人說(shuō)Anthropic故意降低Opus的性能,是為了節(jié)省計(jì)算資源來(lái)訓(xùn)練他們的下一個(gè)模型Mythos。但這一推測(cè)同樣缺乏直接證據(jù)。

在Reddit上,用戶們的吐槽則更具具像化,也更顯無(wú)奈:

坐等式思考:用戶DangerousSetOfBewbs稱他曾讓Claude處理一個(gè)500行的文件,結(jié)果Claude進(jìn)入了長(zhǎng)達(dá)24分鐘的思考中狀態(tài),只是在那里干坐著。還有網(wǎng)友附和,讓它做研究,40分鐘幾乎沒(méi)用什么Token,所以根本不清楚它這40分鐘到底做了什么。


規(guī)則視若無(wú)睹:許多開(kāi)發(fā)者習(xí)慣在CLAUDE.md中設(shè)定項(xiàng)目規(guī)范,但現(xiàn)在Claude仿佛患上了失憶癥。一位用戶憤怒地留言,如果你不盯著它的輸出,它能分分鐘毀掉你的代碼庫(kù)。

價(jià)格沒(méi)變智力降級(jí):這就是典型的縮水通脹。Reddit用戶Firm_Meeting6350說(shuō),我今天退訂了Claude Max 20并轉(zhuǎn)投了Codex Pro,Claude現(xiàn)在給我的感覺(jué)就像在用過(guò)時(shí)的舊模型。

三、跑分迷霧:從第2名到第10名的跌落

如果用戶抱怨還可以解釋成主觀感受,那么基準(zhǔn)測(cè)試則似乎要拿真實(shí)數(shù)據(jù)討說(shuō)法。

4月12日,專門負(fù)責(zé)幻覺(jué)基準(zhǔn)測(cè)試的機(jī)構(gòu)BridgeMind發(fā)布了一條推文,直接將爭(zhēng)議推向高潮。

推文指出Claude Opus 4.6被削弱了,BridgeBench剛剛證明了這一點(diǎn)。上周它排名第2且準(zhǔn)確率83.3%,今天重測(cè)它掉到了第10且準(zhǔn)確率僅剩68.3%,幻覺(jué)率增加了98%。


然而這一測(cè)試結(jié)果遭到了反駁。外部AI研究員保羅·卡爾克拉夫特(Paul Calcraft)隨后指出測(cè)試中存在誤導(dǎo)性,BridgeMind的兩次測(cè)試并不是對(duì)等比較。第一次測(cè)試只涵蓋了6個(gè)任務(wù),而第二次測(cè)試擴(kuò)充到了30個(gè)任務(wù)。

卡爾克拉夫特指出,如果只看那6個(gè)共同的任務(wù),Claude的得分僅從87.6%輕微波動(dòng)到85.4%,最大的偏差幾乎來(lái)自于單個(gè)虛構(gòu)結(jié)果,這種差異在統(tǒng)計(jì)學(xué)上完全可以歸類為噪音。

這場(chǎng)跑分爭(zhēng)議本身也說(shuō)明,目前業(yè)界缺乏統(tǒng)一且可復(fù)現(xiàn)的AI性能基準(zhǔn)測(cè)試標(biāo)準(zhǔn),很多測(cè)試頗有先下結(jié)論后找論據(jù)的風(fēng)格,用戶很難從測(cè)試數(shù)據(jù)中獲得確定性的答案。

然而那個(gè)跌落至第10名的數(shù)據(jù)在社交媒體上瘋傳,截圖給人的視覺(jué)沖擊力使其成為了Claude降智這一說(shuō)法的最有力佐證。

四、官方回應(yīng):是優(yōu)化而非削弱

面對(duì)洶洶民意,Anthropic的核心團(tuán)隊(duì)成員不得不公開(kāi)回應(yīng)。

Claude Code負(fù)責(zé)人鮑里斯·切爾尼(Boris Cherny)在勞倫佐的GitHub原文下認(rèn)真解釋了一通,并在X上連發(fā)數(shù)條回復(fù),核心觀點(diǎn)只有一個(gè),他們沒(méi)有削弱模型,只是為了響應(yīng)用戶反饋調(diào)低了默認(rèn)的努力程度。

切爾尼表示,很多用戶此前反饋Claude消耗Token太多。為了響應(yīng)用戶反饋,Anthropic做了以下改變:

默認(rèn)努力度降級(jí):在3月3日默認(rèn)將推理努力度設(shè)置為中等,如果你想要深度推理,需要手動(dòng)輸入對(duì)應(yīng)高級(jí)指令。

前端隱藏思考過(guò)程:改變了前端顯示,不再完整展示思考?jí)K,減少了延遲,但這不影響思考預(yù)算或后端的深度推理。

自適應(yīng)思考機(jī)制:在2月9日引入了動(dòng)態(tài)調(diào)整機(jī)制。

Claude Code團(tuán)隊(duì)成員塔里克·希希帕爾(Thariq Shihipar)也力挺自己的部門老大,他連發(fā)數(shù)條推文用技術(shù)層面的解釋打消用戶疑慮,還堅(jiān)稱公司不會(huì)為了更好地滿足需求而降低模型性能。


值得注意的是,切爾尼提到的默認(rèn)努力度降級(jí),恰好可以解釋勞倫佐分析報(bào)告中的思考長(zhǎng)度縮短與研究行為減少以及任務(wù)放棄頻率上升等多種現(xiàn)象,這與推理處于中等的默認(rèn)設(shè)置高度吻合。

然而官方解釋并不能平息眾怒,社交媒體上很多用戶都認(rèn)為,如果為了幫用戶省錢而降低性能或者給出錯(cuò)誤答案,那這種省錢根本毫無(wú)意義可言。

何況公司沒(méi)通知就直接進(jìn)行了調(diào)整,直接損害了用戶的知情權(quán)。

五、幕后暗戰(zhàn):緩存生存時(shí)間與算力瓶頸

除了推理深度的變化,不少用戶還注意到Claude變得更貴了。

GitHub上一份編號(hào)為46829的反饋指出,Claude Code的提示詞緩存生存時(shí)間從原本的1小時(shí)被縮短到了5分鐘。

這意味著對(duì)于長(zhǎng)時(shí)間工作的程序員來(lái)說(shuō),你剛才跟Claude說(shuō)的話,5分鐘后它就忘了。為了繼續(xù)工作,你需要重新上傳上下文。

這不僅增加了延遲,更讓用戶的Token消耗量激增,使得一些訂閱用戶開(kāi)始觸及以前從未遇到的使用上限。

Anthropic工程師賈里德·薩姆納(Jarred Sumner)承認(rèn)了3月6日的這一改變,但辯稱這是為了持續(xù)的緩存優(yōu)化工作而不是暗中降級(jí)。在開(kāi)發(fā)者眼中,這無(wú)異于證實(shí)了官方確實(shí)在后臺(tái)積極調(diào)整緩存行為,而這正是大家抱怨配額消耗過(guò)快的時(shí)間段。

不管是Claude變笨也好變貴也罷,Reddit網(wǎng)友raven2cz的說(shuō)辭堪稱一語(yǔ)中的。

這兩大問(wèn)題也就是額度限制和思考能力下降都與基礎(chǔ)設(shè)施過(guò)載密切相關(guān),去GitHub上看看就知道了,成千上萬(wàn)的用戶現(xiàn)在都在面臨類似的問(wèn)題,這情況感覺(jué)就像一年半前GPT發(fā)布新模型時(shí)一樣。

網(wǎng)友Wickywire則分析了其中的根本原因,Anthropic在兩個(gè)月內(nèi)日活用戶從400萬(wàn)漲到了1100萬(wàn),他們完全沒(méi)有準(zhǔn)備并不得不全天候連軸轉(zhuǎn)去拼命擴(kuò)容,這就是所謂削弱的真相。你去對(duì)時(shí)間線,和二三月份發(fā)生的事完全吻合。

這里沒(méi)有任何隱藏的意圖,只是一個(gè)經(jīng)歷增長(zhǎng)之痛的公司,硬件與能源的瓶頸是真實(shí)且證據(jù)確鑿的。

我們知道原因所在且它們都是結(jié)構(gòu)性的,所以解決辦法也確實(shí)有限,在Reddit上反復(fù)糾結(jié)毫無(wú)意義。

這位網(wǎng)友給出的解決方法倒是立竿見(jiàn)影且切實(shí)可行,如果你覺(jué)得Claude表現(xiàn)不佳可以試試在非高峰時(shí)段使用,如果不行換別家AI服務(wù)商也行,反正又不是沒(méi)有選擇,真是受夠了那些在論壇上抱怨使用量和性能下降的人了。

六、結(jié)語(yǔ):信任危機(jī)比變笨更可怕

目前的局面是,用戶在描述體感,而Anthropic在描述參數(shù)。

用戶覺(jué)得它變笨了且任務(wù)失敗了,官方則表示沒(méi)有動(dòng)權(quán)重,只是改了默認(rèn)努力值與縮短了緩存以及調(diào)整了前端顯示并公開(kāi)披露過(guò)。

這兩種描述其實(shí)并不矛盾,在AI領(lǐng)域即便公司認(rèn)為自己沒(méi)有在底層削弱模型,但微妙的設(shè)置變化和配額限制,對(duì)全天候依賴它的開(kāi)發(fā)者來(lái)說(shuō)體驗(yàn)上與變笨毫無(wú)二致。

當(dāng)開(kāi)發(fā)者開(kāi)始懷疑一個(gè)工具的穩(wěn)定性時(shí),這種信任的裂痕是極難修復(fù)的。

尤其是在強(qiáng)敵環(huán)伺的當(dāng)下,OpenAI的Codex正在步步緊逼,它憑借更穩(wěn)定的算力輸出與靈活的中階訂閱及全新的交互功能,精準(zhǔn)收割失望的開(kāi)發(fā)者。

第三方開(kāi)發(fā)者調(diào)研工具顯示,自今年3月底Claude降智傳聞發(fā)酵以來(lái),Codex及其相關(guān)插件的周新增用戶量環(huán)比增長(zhǎng)了約22%。

如果Anthropic無(wú)法在節(jié)省算力成本與維持深度推理之間找到真正的平衡點(diǎn),那么Claude辛辛苦苦建立起的口碑恐怕將在這場(chǎng)風(fēng)波中受到考驗(yàn)。

有老用戶所說(shuō),我寧愿付兩倍的錢買一個(gè)聰明的Claude,也不愿花同樣的錢買一個(gè)只會(huì)說(shuō)道歉并要求更多信息的笨蛋。

這場(chǎng)AI界的性能拉鋸戰(zhàn)才剛剛開(kāi)始。

相關(guān)推薦
熱點(diǎn)推薦
為什么沒(méi)有人賣給印度化肥?看看它的騷操作就明白了!

為什么沒(méi)有人賣給印度化肥?看看它的騷操作就明白了!

步論天下事
2026-04-18 10:00:20
大S到死都沒(méi)料到!她走后,真心疼玥兒箖箖竟是被她拉黑的前婆婆

大S到死都沒(méi)料到!她走后,真心疼玥兒箖箖竟是被她拉黑的前婆婆

情感大頭說(shuō)說(shuō)
2026-04-20 15:16:32
一路狂奔!日本,動(dòng)手了!

一路狂奔!日本,動(dòng)手了!

大嘴說(shuō)天下
2026-04-19 21:50:16
除周恩來(lái)外誰(shuí)能勝任總理?毛主席點(diǎn)出一人選:當(dāng)時(shí)無(wú)人提出異議

除周恩來(lái)外誰(shuí)能勝任總理?毛主席點(diǎn)出一人選:當(dāng)時(shí)無(wú)人提出異議

歷史點(diǎn)行
2026-04-18 18:43:53
多名院士研究發(fā)現(xiàn):吃一把花生,就等于吃了兩勺黃油,真的假的?

多名院士研究發(fā)現(xiàn):吃一把花生,就等于吃了兩勺黃油,真的假的?

蜉蝣說(shuō)
2026-04-20 10:18:20
韓國(guó)一美女因晨跑健身“走紅”,身材緊致太吸睛,網(wǎng)友:太漂亮了

韓國(guó)一美女因晨跑健身“走紅”,身材緊致太吸睛,網(wǎng)友:太漂亮了

馬拉松跑步健身
2026-04-19 06:30:13
朱亞文妻子曬度假照!素顏皮膚粗糙嘴唇干癟,被老公寵11年超自信

朱亞文妻子曬度假照!素顏皮膚粗糙嘴唇干癟,被老公寵11年超自信

八卦王者
2026-04-20 14:05:01
普京訪華行程敲定,特朗普已下命令,中國(guó)向全球通告,無(wú)懼美國(guó)

普京訪華行程敲定,特朗普已下命令,中國(guó)向全球通告,無(wú)懼美國(guó)

卷史
2026-04-19 11:41:35
2026教師改革:1800萬(wàn)人的教師的身份都變了

2026教師改革:1800萬(wàn)人的教師的身份都變了

貓叔東山再起
2026-04-20 09:05:09
美媒文章:美國(guó)再次掉進(jìn)“武力干預(yù)”陷阱

美媒文章:美國(guó)再次掉進(jìn)“武力干預(yù)”陷阱

參考消息
2026-04-20 15:27:02
出大事了,特朗普癡呆已晚期和伊朗開(kāi)戰(zhàn),竟是內(nèi)塔尼亞胡的圈套

出大事了,特朗普癡呆已晚期和伊朗開(kāi)戰(zhàn),竟是內(nèi)塔尼亞胡的圈套

章幃戶外
2026-04-20 16:13:42
馮提莫杭州古鎮(zhèn)現(xiàn)身被圍觀,網(wǎng)友目測(cè)身高1米65,否認(rèn)她矮

馮提莫杭州古鎮(zhèn)現(xiàn)身被圍觀,網(wǎng)友目測(cè)身高1米65,否認(rèn)她矮

絢麗的畫卷
2026-04-18 22:40:05
前英超裁判:加布里埃爾得感謝哈蘭德,后者順勢(shì)倒下就是紅牌

前英超裁判:加布里埃爾得感謝哈蘭德,后者順勢(shì)倒下就是紅牌

懂球帝
2026-04-20 08:00:07
個(gè)子也不矮!文班亞馬父親在場(chǎng)邊和吉諾比利暢聊

個(gè)子也不矮!文班亞馬父親在場(chǎng)邊和吉諾比利暢聊

懂球帝
2026-04-20 10:40:10
蘇州一對(duì)情侶,談了7年,女子提了18次分手,分手后在街頭痛哭!

蘇州一對(duì)情侶,談了7年,女子提了18次分手,分手后在街頭痛哭!

川渝視覺(jué)
2026-04-17 22:13:14
日本乒壇內(nèi)訌:松島輝空當(dāng)眾炮轟張本智和:你不守時(shí),我特別討厭你!

日本乒壇內(nèi)訌:松島輝空當(dāng)眾炮轟張本智和:你不守時(shí),我特別討厭你!

最愛(ài)乒乓球
2026-04-20 00:07:44
文章面館開(kāi)業(yè)4天后,終于有藝人到場(chǎng)!網(wǎng)友:這對(duì)比太心酸了

文章面館開(kāi)業(yè)4天后,終于有藝人到場(chǎng)!網(wǎng)友:這對(duì)比太心酸了

娛小余
2026-04-19 23:21:33
城市更新大潮來(lái)了!中央定調(diào):20年房齡老房子,2026年起或又吃香

城市更新大潮來(lái)了!中央定調(diào):20年房齡老房子,2026年起或又吃香

混沌錄
2026-04-20 16:38:07
長(zhǎng)白山驚現(xiàn)“藏寶洞”,專家估值達(dá)萬(wàn)億,日本得知后要求中國(guó)歸還

長(zhǎng)白山驚現(xiàn)“藏寶洞”,專家估值達(dá)萬(wàn)億,日本得知后要求中國(guó)歸還

抽象派大師
2026-04-20 01:30:41
伊朗擬出臺(tái)霍爾木茲海峽管理法 禁止以色列關(guān)聯(lián)船只通行

伊朗擬出臺(tái)霍爾木茲海峽管理法 禁止以色列關(guān)聯(lián)船只通行

國(guó)際在線
2026-04-20 04:30:19
2026-04-20 19:56:49

科技要聞

華為Pura90逆周期定價(jià),4699元起,未漲價(jià)

頭條要聞

小學(xué)生遭多名中小學(xué)生施暴搜家 家長(zhǎng)以"入室搶劫"報(bào)案

頭條要聞

小學(xué)生遭多名中小學(xué)生施暴搜家 家長(zhǎng)以"入室搶劫"報(bào)案

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂(lè)要聞

鹿晗生日上熱搜,被關(guān)曉彤撕下體面

財(cái)經(jīng)要聞

利潤(rùn)暴跌7成,字節(jié)到底在做什么

汽車要聞

把天門山搬進(jìn)廠?開(kāi)仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

家居
親子
數(shù)碼
藝術(shù)
公開(kāi)課

家居要聞

自然慢調(diào) 慢享時(shí)光

親子要聞

上海首家兒童運(yùn)動(dòng)醫(yī)學(xué)中心成立,推行微創(chuàng)優(yōu)先、醫(yī)護(hù)康一體化服務(wù)

數(shù)碼要聞

華為新內(nèi)存技術(shù)來(lái)了,Mate X7用戶6月有福

藝術(shù)要聞

王羲之《換鵝帖》尚在人間,驚艷無(wú)比!

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版
×