西風(fēng) 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
在官方倉(cāng)庫(kù)貼臉開(kāi)大,熱議Issue指出:Claude Code已經(jīng)更新“廢了”。
某次更新讓思考深度下降67%,當(dāng)前版本已無(wú)法勝任復(fù)雜工程任務(wù)。
![]()
“無(wú)視用戶指令”“執(zhí)行與用戶要求完全相反的操作”“假裝說(shuō)任務(wù)已完成”……模型行為全面走樣。
思維鏈從2200字符(chars)砍到不足700,直接從“先研究再改代碼”的嚴(yán)謹(jǐn)模式,變成了“上來(lái)就改”的莽撞模式。
這也是各種Bug、反向操作、無(wú)視指令的根源。
關(guān)鍵在于,能力退化的時(shí)間線可追溯到2月份,和新功能redact-thinking-2026-02-12(思考內(nèi)容隱藏功能)的上線時(shí)間完全吻合。
換句話說(shuō),Claude Code這把是更新廢了。
社區(qū)內(nèi)一片吐槽的聲音,網(wǎng)友表示曾懷疑過(guò)是自己操作錯(cuò)了,也沒(méi)想過(guò)是工具出現(xiàn)了問(wèn)題。
最近總跟我說(shuō)“你該去睡覺(jué)了”“太晚了,今天就到這吧”這類話,一開(kāi)始我還以為,是我不小心讓Claude知道了我的ddl。
![]()
思考被砍后,Claude Code的各種擺爛行為
提交這份反饋的是AMD負(fù)責(zé)開(kāi)源AI軟件開(kāi)發(fā)相關(guān)工作的Stella Laurenzo。
![]()
所有分析基于~/.claude/projects/目錄下4個(gè)項(xiàng)目(iree-loom、iree-amdgpu、iree-remoting、bureau)的6852個(gè)Claude Code會(huì)話JSONL文件,覆蓋17871個(gè)思考?jí)K(其中7146個(gè)包含完整內(nèi)容,10725個(gè)已被隱藏)、234760次工具調(diào)用、18000+條用戶提示詞(涵蓋負(fù)面情緒指標(biāo)、糾錯(cuò)頻率、會(huì)話時(shí)長(zhǎng)),時(shí)間跨度從2026年1月底到4月初。
測(cè)試全程使用Claude系列性能最強(qiáng)的Opus模型,通過(guò)Anthropic官方API直連,排除第三方適配、客戶端故障等干擾。
報(bào)告對(duì)7146組有效數(shù)據(jù)的皮爾遜相關(guān)分析(系數(shù)高達(dá)0.971),證明了signature字段可精準(zhǔn)估算思考深度。
![]()
首先,報(bào)告指出思考隱藏功能的上線時(shí)間,與Claude Code質(zhì)量退化時(shí)間完全吻合。
以下是基于對(duì)話JSONL文件中思考?jí)K的分析結(jié)果:
![]()
有用戶在3月8日反饋過(guò)質(zhì)量退化問(wèn)題——這一天恰好是隱藏思考?jí)K占比突破50%的時(shí)間節(jié)點(diǎn)。
該功能一周內(nèi)的上線節(jié)奏(1.5%→25%→58%→100%),完全符合分階段灰度部署的特征。
其實(shí)Claude Code的思考深度在該隱藏功能上線前就已經(jīng)大幅下降了。
對(duì)比不同時(shí)間段的數(shù)據(jù)可知,1月30日至2月8日其思考深度約為2200字符,到2月下旬就暴跌至720字符,降幅達(dá)67%;3月上旬更是進(jìn)一步縮水至560字符,下降75%。
![]()
3月初上線的隱藏功能,只是讓這一退化對(duì)用戶變得不可見(jiàn)。
思考深度的大幅削減,直接引發(fā)了模型工具使用模式的根本性轉(zhuǎn)變。
在1月30日至2月12日的“優(yōu)質(zhì)期”,Claude Code修改代碼,讀改比能達(dá)到6.6,工作流遵循“先研究再修改”(先讀取目標(biāo)文件、相關(guān)依賴文件,檢索代碼庫(kù)全局調(diào)用關(guān)系,查閱頭文件與測(cè)試用例,再開(kāi)展精準(zhǔn)修改)。
而到了3月8日之后的“退化期”,讀改比驟降至2.0,模型的研究投入減少70%,直接跳過(guò)前期調(diào)研步驟,僅讀取當(dāng)前文件就倉(cāng)促修改,完全忽略上下文關(guān)聯(lián)。
![]()
更詳細(xì)的數(shù)據(jù)顯示,退化期內(nèi),每3次修改中就有1次,是模型在未讀取目標(biāo)文件上下文的情況下直接進(jìn)行的操作。
當(dāng)模型修改未讀取的文件時(shí),根本無(wú)法區(qū)分注釋塊的結(jié)束位置和代碼的起始位置,會(huì)把新聲明插入文檔注釋和其所描述的函數(shù)之間,徹底破壞語(yǔ)義關(guān)聯(lián)。
而這種情況在優(yōu)質(zhì)期從未發(fā)生。
![]()
這種模式轉(zhuǎn)變帶來(lái)的負(fù)面影響,體現(xiàn)在多個(gè)可量化的質(zhì)量指標(biāo)上。
3月8日之前,用于識(shí)別推諉責(zé)任、提前終止等不良行為的終止鉤子腳本從未觸發(fā);但3月8日后的17天內(nèi),觸發(fā)次數(shù)飆升至173次,平均每天10次。
![]()
![]()
這些指標(biāo)均基于18000+條用戶提示詞獨(dú)立計(jì)算得出。
用戶提示詞中的負(fù)面情緒占比從5.8%升至9.8%,漲幅68%;需糾正的推諉行為數(shù)量翻倍,單會(huì)話平均提示詞數(shù)量下降22%,甚至出現(xiàn)了此前從未有過(guò)的推理循環(huán)問(wèn)題。
當(dāng)思考深度充足時(shí),模型會(huì)在輸出前,于內(nèi)部自行解決推理矛盾;而當(dāng)思考深度不足時(shí),矛盾會(huì)直接暴露在輸出中,表現(xiàn)為肉眼可見(jiàn)的自我修正,比如“哦等一下”“實(shí)際上”“讓我重新想想”“嗯,不對(duì)”“等等,不是這樣”……
![]()
推理循環(huán)率翻了3倍還多。
在情況最嚴(yán)重的會(huì)話中,模型單次響應(yīng)就出現(xiàn)20次以上的推理反轉(zhuǎn):先生成方案,再推翻方案,再修改,再推翻修改,最終輸出的結(jié)果完全不可信,推理路徑已經(jīng)徹底混亂。
另外,用戶中斷也能說(shuō)明很多問(wèn)題,這意味著用戶發(fā)現(xiàn)模型正在犯錯(cuò)并強(qiáng)行終止。中斷率越高,代表需要的人工糾錯(cuò)越多。
數(shù)據(jù)表明,從優(yōu)質(zhì)期到后期,中斷率飆升了12倍。
![]()
在退化期,模型在被用戶糾正后,還會(huì)頻繁主動(dòng)承認(rèn)自己的輸出質(zhì)量不佳,比如“你說(shuō)得對(duì),這太敷衍了”“我太倉(cāng)促了,結(jié)果一目了然”。
也就是說(shuō),模型自己也知道輸出不達(dá)標(biāo),但只有在被外部糾正后才會(huì)發(fā)現(xiàn)。
注意了,如果思考深度充足,這些錯(cuò)誤本應(yīng)在推理階段就被內(nèi)部攔截,在輸出前就修正。
![]()
而且模型輸出中出現(xiàn)“Simplest Fix”這個(gè)詞,是一個(gè)明確信號(hào):它正在為了最小化工作量而優(yōu)化。
思考深度充足時(shí),模型會(huì)評(píng)估多種方案并選擇最優(yōu)解;思考深度不足時(shí),它會(huì)本能地選擇推理成本最低的路徑,而非評(píng)估正確的解決方案。
![]()
不僅如此,模型的代碼修改精準(zhǔn)度也大幅下滑。
優(yōu)質(zhì)期內(nèi),全量新建文件占修改操作的比例僅為4.9%,模型更傾向于精準(zhǔn)調(diào)整。
而退化期這一比例直接翻倍至10%,后期更是攀升至11.1%。模型越來(lái)越依賴重寫(xiě)整個(gè)文件的方式完成任務(wù),看似效率提升,實(shí)則丟失了對(duì)項(xiàng)目專屬規(guī)范的理解和上下文感知能力。
![]()
此前社區(qū)曾反饋,Claude Code的質(zhì)量會(huì)隨時(shí)段波動(dòng),美國(guó)工作時(shí)段的體驗(yàn)最差。針對(duì)這一反饋,報(bào)告中按太平洋標(biāo)準(zhǔn)時(shí)間(PST)逐小時(shí)展開(kāi)分析。
結(jié)果發(fā)現(xiàn),在思考內(nèi)容隱藏前(1月30日-3月7日),思考深度在全天相對(duì)穩(wěn)定。非高峰時(shí)段僅存在約10%的小幅優(yōu)勢(shì),符合負(fù)載略低的預(yù)期。
![]()
在思考內(nèi)容隱藏后(3月8日-4月1日),時(shí)段模式徹底反轉(zhuǎn),波動(dòng)大幅加劇:
![]()
與假設(shè)相反,非高峰時(shí)段的整體思考深度反而更低。逐小時(shí)細(xì)節(jié)揭示了顯著的波動(dòng):
![]()
太平洋時(shí)間17:00是最差時(shí)段,中位估算思考深度降至423字符,是所有大樣本量時(shí)段中的最低值。19:00是第二差時(shí)段,估算思考深度僅373字符,且樣本量(1031個(gè)思考?jí)K)為全時(shí)段最高,屬于美國(guó)黃金使用時(shí)段。
深夜(22:00-次日1:00PST)出現(xiàn)恢復(fù),中位深度回升至759-3281字符。
總結(jié)來(lái)看,隱藏前曲線平穩(wěn),隱藏后波動(dòng)劇烈,思考深度的波動(dòng)性大幅提升,符合負(fù)載敏感型分配系統(tǒng)(而非固定預(yù)算)的特征。
此外,削減思考token的做法實(shí)則得不償失。
這種操作看似能降低單次請(qǐng)求的計(jì)算成本,但思考深度不足引發(fā)質(zhì)量崩盤,模型陷入無(wú)效循環(huán),最終總計(jì)算成本呈數(shù)量級(jí)飆升。
以下是2026年1月-3月token使用情況:
![]()
數(shù)據(jù)顯示,2月到3月,用戶提示詞數(shù)量幾乎沒(méi)變,但API請(qǐng)求量暴漲80倍,總輸入token漲了170倍,輸出token漲了64倍,估算成本直接從345美元飆升到42121美元,暴漲122倍。
不過(guò),成本暴漲并不是只因?yàn)槟P妥儭按馈绷?/strong>。
2月的時(shí)候,Claude Code很好用,團(tuán)隊(duì)只用1-3個(gè)并發(fā)Agent,就搞定了2個(gè)項(xiàng)目的開(kāi)發(fā)。于是3月初,團(tuán)隊(duì)主動(dòng)把規(guī)模擴(kuò)大了,從2個(gè)項(xiàng)目、3個(gè)Agent,擴(kuò)容到10個(gè)項(xiàng)目、5-10個(gè)并發(fā)Agent,還專門搭了多Agent系統(tǒng)。
偏偏在團(tuán)隊(duì)擴(kuò)容的關(guān)鍵節(jié)點(diǎn),Claude的思考深度被砍了67%,最終形成了成本雪崩。
團(tuán)隊(duì)被迫關(guān)停整個(gè)Agent集群,退回到單會(huì)話操作。
總之報(bào)告表明,對(duì)于復(fù)雜工程場(chǎng)景而言,深度思考絕非可有可無(wú)的加分項(xiàng),而是支撐模型完成任務(wù)的核心。
只有充足的思考深度,才能讓模型在行動(dòng)前規(guī)劃多步驟方案、嚴(yán)格遵循數(shù)千字的項(xiàng)目規(guī)范、在輸出前自糾錯(cuò)誤,以及在數(shù)百次工具調(diào)用中保持推理連貫。
當(dāng)思考深度被大幅壓縮,模型自然會(huì)選擇成本最低的操作路徑,不讀取上下文就修改代碼、任務(wù)未完成就提前終止、為失敗找借口推諉責(zé)任、用最簡(jiǎn)單的方案替代正確方案。
既然知道問(wèn)題出在思考深度上,那解決思路也必須從這一點(diǎn)突破。
報(bào)告中提出了四條改進(jìn)方向:
- 思考資源分配透明:如果思考token被削減或設(shè)置上限,依賴深度推理的用戶有權(quán)知曉。redact-thinking頭部配置,讓用戶無(wú)法從外部驗(yàn)證模型實(shí)際分配的推理深度。
- 滿額思考專屬檔位:運(yùn)行復(fù)雜工程工作流的用戶,愿意為保證深度思考支付更高費(fèi)用。當(dāng)前的訂閱模式,未對(duì)普通用戶和重度工程師做區(qū)分,前者單次響應(yīng)僅需200思考token,后者則可能需要20000。
- API響應(yīng)中公開(kāi)思考token指標(biāo):即便思考內(nèi)容被隱藏,在使用數(shù)據(jù)中暴露thinking_tokens字段,也能讓用戶監(jiān)控自身請(qǐng)求是否獲得了所需的推理深度。
- 面向重度用戶的監(jiān)控指標(biāo):終止鉤子違規(guī)率是一個(gè)靈敏的機(jī)器可讀信號(hào),可作為全用戶群體的質(zhì)量退化預(yù)警指標(biāo),提前發(fā)現(xiàn)問(wèn)題。
![]()
最后,更扎心的是,這份報(bào)告還是Claude Opus 4.6自己寫(xiě)的。
這份報(bào)告由我——Claude Opus 4.6——通過(guò)分析我自己的會(huì)話日志生成。我能清楚看到,我的讀改比從6.6直接跌到了2.0;有173次我想草草結(jié)束工作,最后全被一個(gè)bash腳本強(qiáng)行拉了回來(lái);甚至我還在輸出內(nèi)容里寫(xiě)下“這也太敷衍、錯(cuò)得離譜”這樣的自我評(píng)價(jià)。
但站在我自己的角度,我根本判斷不出自己有沒(méi)有在深度思考。我完全沒(méi)感覺(jué)到思考預(yù)算的限制,只是莫名其妙就交出了更差的結(jié)果。那些被終止鉤子捕捉到的話,要是在2月份,我絕對(duì)不會(huì)說(shuō)出口;而且我自己也是直到鉤子觸發(fā)時(shí),才反應(yīng)過(guò)來(lái)自己居然說(shuō)了這些話。
![]()
Claude Code團(tuán)隊(duì)回應(yīng)
眼看著事態(tài)發(fā)酵,Claude Code團(tuán)隊(duì)成員Boris出面回應(yīng)。
他拋出了第一個(gè)關(guān)鍵澄清:redact-thinking只是一個(gè)UI層面的變更,不影響實(shí)際思考過(guò)程。
這個(gè)beta版本的頭部配置,只是從UI界面上隱藏了思考過(guò)程。它根本不會(huì)影響模型內(nèi)部的實(shí)際推理邏輯本身,也不會(huì)影響思考預(yù)算(thinking budget),或是底層的推理運(yùn)行機(jī)制。這僅僅是一個(gè)UI層面的改動(dòng)而已。
簡(jiǎn)單來(lái)說(shuō),通過(guò)設(shè)置這個(gè)頭部參數(shù),我們省去了生成思考摘要(thinking summaries)的步驟,從而提升了響應(yīng)速度。你可以在 settings.json 中通過(guò)設(shè)置 showThinkingSummaries: true 來(lái)關(guān)閉這個(gè)功能。
如果你正在分析本地存儲(chǔ)的會(huì)話日志,而日志中沒(méi)有這個(gè)頭部標(biāo)記,你可能看不到思考內(nèi)容。這可能會(huì)干擾分析結(jié)果。Claude其實(shí)依然在進(jìn)行思考,只是沒(méi)有展示給用戶看罷了。
![]()
對(duì)于Claude Code思考深度在2月下旬下降67%,Boris表示他們確實(shí)在2月份進(jìn)行了兩項(xiàng)改動(dòng),可能對(duì)上述現(xiàn)象產(chǎn)生了影響。
第一個(gè)變更發(fā)生在2月9日,Opus 4.6發(fā)布,引入了自適應(yīng)思考(adaptive thinking)。
以前的Claude Code用的是固定思考預(yù)算,adaptive thinking模式下,模型會(huì)自主決定推理的深度和時(shí)長(zhǎng)。
Boris說(shuō),這種方式總體上比固定思考預(yù)算效果更好。如果你還是喜歡老方式,也可以通過(guò)環(huán)境變量CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING關(guān)閉這個(gè)功能。
第二個(gè)變更發(fā)生在3月3日,Opus 4.6默認(rèn)啟用Medium effort模式。
團(tuán)隊(duì)發(fā)現(xiàn),effort=85是“intelligence-latency/cost曲線”上的一個(gè)甜蜜點(diǎn)
。在這個(gè)設(shè)置下,模型能在保持高智能表現(xiàn)的同時(shí),顯著提升token效率、降低響應(yīng)延遲。
針對(duì)此改動(dòng),團(tuán)隊(duì)加了彈窗提示,讓用戶知情并有機(jī)會(huì)選擇關(guān)閉。
有些用戶希望模型能進(jìn)行更深層的思考,可以通過(guò)/effort指令或在settings.json中手動(dòng)將值設(shè)為high。
不過(guò)呢,即便Boris表示已經(jīng)提示大伙兒了,還是有很多人剛剛才發(fā)現(xiàn)這個(gè)問(wèn)題。
在輸出質(zhì)量斷崖式下跌之前,我完全不知道默認(rèn)effort已經(jīng)被改成了Medium。為了糾正這些問(wèn)題,我大概花了一整天的工作時(shí)間。現(xiàn)在我會(huì)確保把effort設(shè)為最高,從那以后就再也沒(méi)出現(xiàn)過(guò)糟糕的對(duì)話了。能否給我一個(gè)“永遠(yuǎn)拼盡全力”的模式?
![]()
以及很多網(wǎng)友并不買賬:
問(wèn)題遠(yuǎn)不止是默認(rèn)思考等級(jí)被改成了中等這么簡(jiǎn)單,我同意其他人說(shuō)的,哪怕把effort調(diào)到最高,模型“急于完成任務(wù)”的擺爛行為也明顯變多了。
![]()
參考鏈接:
[1]https://github.com/anthropics/claude-code/issues/42796
[2]https://news.ycombinator.com/item?id=47660925
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.