337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

Claude變蠢了,新模型發布前的黑暗時刻?

0
分享至


本文來自微信公眾號:字母AI,作者:袁心玥,題圖來自:AI生成

Claude Opus變蠢了。

最近一段時間,越來越多用戶開始有一種很難講的感覺:雖然這個模型沒有明顯出錯,但也不再像以前那樣“聰明”。

回答更快了,推理更短了,有時候看起來像是跳過了某些本該認真完成的步驟,變得敷衍了。

如果這種情況只是個例,用戶可能還會懷疑是不是自己的問題,但當相似的聲音越來越多,這就不再是單純的“感覺不對”了。

網上甚至開始出現一些視頻,調侃現在的Opus就像兇猛的獅子被摘了毛圈,發現原來只是一條狗。

一個更直接的說法開始流傳:Opus被削了!

這是真的嗎?如果是真的,它為什么會被削呢?


推理深度下降67%

一開始只是零星的用戶在吐槽,說 Claude Opus“變懶了”“沒以前聰明了”。

可能只是偶爾犯了一些過去不會犯的低級錯誤,或者在復雜任務里少做了幾步推理。

某種意義上,和模型的協同很像是和真人的交往,一直以來配合得很好的“同事”某天忽然變臉了,擱誰誰都得難受。

碰到這種情況,大多數人的第一反應都是懷疑自己:是不是prompt寫得不夠好?還是任務本來就不適合?這種情況應該只是偶然事件吧?

但很快,在Reddit的Claude社區里,類似的反饋開始密集出現,而且描述高度一致:

有人說它不再仔細讀代碼;有人說它更快給答案,但經常漏掉關鍵步驟;也有人發現,它在長任務中更容易“提前結束”,像是默認事情已經完成。


當不同用戶在不同場景下開始重復同一類問題時,這件事似乎不再是所謂的“感覺不對”,更像是一種行為模式的變化。

換句話說,不是感覺錯了,是模型真的在變。

真正讓討論升級的是這個數字:有人在Claude Code的使用過程中,對歷史交互日志進行對比,發現模型在復雜任務中的推理過程明顯縮短,自2月更新以來,推理深度下降了67%。


(參考鏈接:https://github.com/anthropics/claude-code/issues/42796)

作者坦率地說明,67%是基于簽名長度與思考內容長度的相關估計,而不是直接測量。還提到一月份的日志被刪除了,所以基線對比不太準確。

相比之下,報告里更有說服力的,其實是那些行為層面的變化。比如read:edit(讀取代碼vs修改代碼)的比例,從6.6下降到了2.0;3月8日之后,被stop hook捕捉到的違規行為有173次,而之前是0。


不過數字是否精確并沒有那么重要,重要的是它讓一件原本模糊的體感問題,第一次被量化成一個可以討論的趨勢。

于是,一個新詞在社區里開始流行:“AI shrinkflation”(AI縮水式通脹)。

縮水式通脹是一個經濟學術語,指的是商品的大小或數量減少,而價格不變。放在這里的意思也很直接,模型實際給到用戶的能力變少了,但模型看起來還是同一個名字。

敷衍的背后

相比社區的激烈反應,Anthropic并沒有直接承認“模型變弱”。

Claude Code的開發負責人Boris給出的解釋是,這些變化來自系統層的調整:包括工具調用方式、推理策略以及資源分配機制的變化,而不一定是模型本身能力的下降。

他舉了個例子:在Claude Code中,一部分問題被認為源于工具鏈和系統prompt,而不是模型本身;與此同時,在高負載情況下,系統需要對算力、token和請求進行控制,這也會影響用戶體驗。

在最新版本中,Anthropic引入了一種叫“自適應推理”(adaptive thinking)的機制,模型會根據任務復雜度,動態決定是否以及使用多少推理。

也就是說,并不是模型變差了,只是模型開始“自己決定”要使用多少算力。


(參考鏈接:https://news.ycombinator.com/item?id=47660925)

從工程角度看,這是一種很合理的優化,簡單任務少思考,復雜任務多思考,以提升整體效率

但問題在于,效率優化和能力削弱,在用戶體驗上并沒有區別。

當一個模型開始更少閱讀上下文、更快給出答案、更頻繁地提前結束任務,用戶感受到的不會是優化,而是敷衍。

而且這個自適應推理機制,從感性的角度來講,也確實會讓人不太舒服。

還是拿人際交往的那個比喻:憑什么一開始好好的,用到后面就覺得我的事情不重要了?

這種不適感很快被另一個變化放大了:Mythos還未發布就廣受關注,Claude Mythos Preview直接被Anthropic稱為“能力躍遷的一代”,在代碼與安全任務上表現出遠超以往的能力。因此它被限制性地提供給少數機構使用,用來加固“全球最關鍵的軟件系統”。

當“更強的新模型”與“體感變差的舊模型”同時出現,一個在社區中不斷被提起的猜測開始成型:把舊模型削了再抬新模型,一捧一踩,就會顯得新模型有著巨大的升級。

這個邏輯沒有直接證據,但它正在被越來越多用戶相信。


模型不再穩定

實際上,類似的事情對AI來說并不陌生。

早在2023年就有研究對比了GPT-4在不同時間的表現,發現同一個模型在幾個月內,推理方式和輸出行為都發生了明顯變化。這些變化后來被解釋為多種因素疊加的結果:包括推理策略調整、安全策略收緊,以及對成本和響應速度的優化。


把陰謀論拋在一邊,如果確實存在一定程度的資源傾斜,在AI行業其實算是常態:無論是OpenAI還是Google,幾乎所有公司都會優先優化最新一代模型,舊模型則逐漸被邊緣化。

算力是成本,也是生產力。當新模型的能力上限更高、潛在價值更大時,把更多資源投入進去,本身是一種理性的選擇。

在這個過程中,舊模型的狀態自然會發生變化:被“降權”、推理深度被壓縮、資源分配被重新調整……這些都可以理解為一種工程上的取舍。

不過理解歸理解,新模型不開放給大眾使用,舊模型又在毫無征兆的情況下弄成這樣,誰能輕易接受?


從用戶的視角來看,最讓人不滿的并不是模型的“變蠢”,而是它的“不穩定”。

當模型本身從一個穩定的工具變成一個會不斷變化的系統,它自己做出了“更好的調整”,沒有提示,沒有版本說明,也沒有邊界。

作為用戶,你不知道它什么時候變了,不知道它具體變了什么,更不知道這種變化會不會影響你正在做的事情。

你只能感受到它變了,變得沒以前好用了。

這個時候,有一個新模型放在你的面前,看起來比現在這個更穩定、更可靠,或許用起來會更順手。

于是選擇就變得微妙起來:似乎不再是你主動選擇新模型,而是舊模型的變化把你推向更新的那一個。

即使你知道,新模型也可能在某一天變成下一個舊模型,可能還是會猝不及防地“優化”成讓人難受的版本。

但在那一刻,差距已經擺在眼前。

本文來自微信公眾號:字母AI,作者:袁心玥

本內容由作者授權發布,觀點僅代表作者本人,不代表虎嗅立場。如對本稿件有異議或投訴,請聯系 tougao@huxiu.com。

本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4851044.html?f=wyxwapp

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
回顧:2005年梁海玲器官被切后慘死豪宅,有人透露:她知道的太多

回顧:2005年梁海玲器官被切后慘死豪宅,有人透露:她知道的太多

歷來都很現實
2024-09-24 23:58:16
出大事了,特朗普病癥已晚期?和伊朗開戰,竟是內塔尼亞胡的圈套

出大事了,特朗普病癥已晚期?和伊朗開戰,竟是內塔尼亞胡的圈套

史智文道
2026-04-20 09:28:50
剛從浙江寧波回到北京,有些話不吐不快:對寧波的5個真實印象

剛從浙江寧波回到北京,有些話不吐不快:對寧波的5個真實印象

小鹿姐姐情感說
2026-04-20 06:55:16
廣州增城,一場突如其來的噩夢擊碎了合生湖山國際七期業主的寧靜

廣州增城,一場突如其來的噩夢擊碎了合生湖山國際七期業主的寧靜

童童聊娛樂啊
2026-04-20 05:36:28
一文梳理: 全網查找的張姍姍、張核子、核子華曦事件經過

一文梳理: 全網查找的張姍姍、張核子、核子華曦事件經過

眼健為實
2022-11-28 11:25:40
內維爾:阿森納已經盡力做到最好,但瓜帥和曼城是一臺機器

內維爾:阿森納已經盡力做到最好,但瓜帥和曼城是一臺機器

懂球帝
2026-04-20 07:07:06
央國企里最嚴重的幾大形式主義!

央國企里最嚴重的幾大形式主義!

黯泉
2026-04-18 20:12:15
震驚!月薪3000、26歲株洲女子征婚,要對方月入2.5萬、存款200萬

震驚!月薪3000、26歲株洲女子征婚,要對方月入2.5萬、存款200萬

火山詩話
2026-04-18 13:20:01
WSBK 荷蘭站比賽提前結束 瀏陽焰火現場觀眾一臉茫然 張雪揮手安撫后離場

WSBK 荷蘭站比賽提前結束 瀏陽焰火現場觀眾一臉茫然 張雪揮手安撫后離場

快科技
2026-04-20 10:19:33
正式發行!2026版人民幣來了,不是新紙幣,兌換辦法一次說清

正式發行!2026版人民幣來了,不是新紙幣,兌換辦法一次說清

牛鍋巴小釩
2026-04-19 12:31:04
菜市場泡“藥水”的10種蔬菜,菜販自己從來不吃,好多人還天天買

菜市場泡“藥水”的10種蔬菜,菜販自己從來不吃,好多人還天天買

房產衫哥
2026-04-20 06:07:51
【深圳故事】龍崗業主:千萬身家,被小區熟人4個月騙走3200萬。

【深圳故事】龍崗業主:千萬身家,被小區熟人4個月騙走3200萬。

美中融合
2026-04-19 17:49:50
張豆豆曝孫楊干涉自己交友:他被好幾個朋友重創過

張豆豆曝孫楊干涉自己交友:他被好幾個朋友重創過

懂球帝
2026-04-17 10:55:07
光明“新鮮牧場”擦邊鮮牛奶,網友稱被誤導

光明“新鮮牧場”擦邊鮮牛奶,網友稱被誤導

新浪財經
2026-04-19 12:44:38
特朗普幫了中國大忙,中國首次成為全球第一,日本完全被踩在腳下

特朗普幫了中國大忙,中國首次成為全球第一,日本完全被踩在腳下

小小科普員
2026-03-26 00:27:10
單依純新MV又撞王菲!網友:唱功造型全是菲味,可惜只學了皮毛

單依純新MV又撞王菲!網友:唱功造型全是菲味,可惜只學了皮毛

觀魚聽雨
2026-04-17 22:21:39
科爾2000萬留隊!勇士官宣大變革:為庫里豪賭字母哥詹皇小卡!

科爾2000萬留隊!勇士官宣大變革:為庫里豪賭字母哥詹皇小卡!

錢說體育
2026-04-19 18:00:40
33歲老將高效砍8分9板3助,球迷:退役后去當助教,就教無球跑動

33歲老將高效砍8分9板3助,球迷:退役后去當助教,就教無球跑動

弄月公子
2026-04-20 11:33:30
塞爾比回應被奧沙利文取綽號:我們彼此尊重,被談論說明你做對了

塞爾比回應被奧沙利文取綽號:我們彼此尊重,被談論說明你做對了

世界體壇觀察家
2026-04-20 06:27:05
嚴肅辟謠:小鵬 GX沒有抄襲路虎攬勝!

嚴肅辟謠:小鵬 GX沒有抄襲路虎攬勝!

車市博覽
2026-04-19 16:06:34
2026-04-20 12:20:49
虎嗅APP incentive-icons
虎嗅APP
個性化商業資訊與觀點交流平臺
26131文章數 687679關注度
往期回顧 全部

科技要聞

藍色起源一級火箭完美回收 客戶衛星未入軌

頭條要聞

男子收到陌生賬號轉賬8萬余元 3天后奢侈品牌商家找來

頭條要聞

男子收到陌生賬號轉賬8萬余元 3天后奢侈品牌商家找來

體育要聞

七大獎項候選官宣!文班或全票DPOY

娛樂要聞

鹿晗生日上熱搜,被關曉彤撕下體面

財經要聞

月之暗面IPO迷局

汽車要聞

外觀非常驚艷 全新一代寶馬6系有望回歸

態度原創

時尚
藝術
手機
公開課
軍事航空

今年最流行的衣服竟然是它?高級又氣質!

藝術要聞

王羲之《換鵝帖》尚在人間,驚艷無比!

手機要聞

消息稱某廠驍龍8 Elite Gen6 Pro手機新開6.9英寸直屏

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:美艦向伊朗貨船開火炸出個洞

無障礙瀏覽 進入關懷版