337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

跑分第一,推理暴跌!Claude Opus 4.7上線48小時口碑崩了

0
分享至


新智元報道

編輯:元宇

【新智元導(dǎo)讀】Opus 4.7發(fā)布48小時,口碑兩極撕裂。官方榜單并列全球第一,邏輯推理公開測試卻從94.7%暴跌到41.0%。token消耗漲了35%,舊接口直接報錯,用戶集體控訴「更貴、更蠢、更愛頂嘴」。Anthropic到底升級了什么,又搞砸了什么?

「4.6根本沒法用,4.7的消耗速度像核反應(yīng)堆一樣。」

Opus 4.7發(fā)布后,一位Reddit用戶在Anthropic官方帖子下的留言。

不是玩梗,是真心話。


一篇「Claude Opus 4.7是嚴(yán)重倒退,不是升級」的Reddit帖子迅速沖上3000贊。

還有人曬出截圖,說4.7連strawberry里有幾個字母都答不對。


更別說「擅改簡歷編造學(xué)歷和姓氏」,回復(fù)用戶「我懶得做交叉驗證」,以及「三問就撞限額」這些網(wǎng)友熱門槽點了。

《Pragmatic Engineer》作者Gergely Orosz試用之后,形容這個模型「出人意料地帶攻擊性」,然后宣布放棄,換回了4.6。


這邊罵聲還沒散,那邊一組數(shù)據(jù)卻指向了相反的方向。

Artificial Analysis給Opus 4.7的Intelligence Index打了57分,和GPT-5.4、Gemini 3.1 Pro并列全球第一。

創(chuàng)業(yè)者Jeremy Howard形容它是「第一個真正懂我在工作時到底在做什么的模型」,Y Combinator CEO Garry Tan正在拿它做項目。

還有網(wǎng)友說,Claude Opus 4.7 已實現(xiàn)通用人工智能(AGI)。


同一個模型,有人看到了AGI的影子,有人覺得自己的工作流炸了。

上線兩天,Opus 4.7就把AI社區(qū)撕裂了。

用戶為什么炸了?

拆開看,用戶的怒火集中在三個點上,每一條都戳中了重度用戶的命門。

第一,代碼能力斷崖式下滑。大量開發(fā)者反饋,從4.6升級到4.7之后,之前能穩(wěn)定完成的編程任務(wù)開始頻繁出錯。

而且都是日常工作流里的核心操作:代碼補全變遲鈍,上下文理解出現(xiàn)退化,復(fù)雜邏輯鏈的推理明顯變?nèi)酢?/p>

代碼能力是Opus系列的王牌,現(xiàn)在王牌出了問題,反彈自然最猛。

一位Reddit用戶說,他用一個已知答案的長重構(gòu)任務(wù)做回歸測試,結(jié)果模型自信地改掛了3個原本在4.6下能通過的測試,只能回滾。


評論區(qū)涌入上百條類似經(jīng)歷。

第二,推理質(zhì)量的倒退

不是速度慢了那么簡單,是思考深度出現(xiàn)了可感知的退化。以前能一步到位的復(fù)雜問題,現(xiàn)在需要反復(fù)追問、手動引導(dǎo)。

這個劇本AI行業(yè)并不陌生。去年GPT-4 Turbo鬧出的「降智」風(fēng)波幾乎一模一樣:跑分提升了,體驗卻下來了。

第三,花更多錢,體驗更差

Opus本身就是Anthropic最貴的模型。

重度用戶每月的API賬單不是小數(shù)目。花了更多的錢、升了更新的版本、得到的卻是更差的體驗,憤怒就不只停在技術(shù)層面。

benchmark更強了

但用戶不買賬

面對反彈潮,Anthropic的回應(yīng)速度不算慢。

Anthropic在官方遷移指南中指出,Opus 4.7 相比4.6存在若干行為變化,同時也強調(diào),Opus 4.7仍是其當(dāng)前綜合能力最強的通用可用模型,在長周期智能體任務(wù)、知識型工作、視覺任務(wù)和記憶任務(wù)方面表現(xiàn)尤為出色。


Artificial Analysis的多維評測結(jié)果也擺在那里,Opus 4.7在數(shù)學(xué)推理、多語言理解、長上下文處理,多個維度的得分創(chuàng)下新高。


Artificial Analysis評測顯示,Opus 4.7(max)以57分并列榜首,與Gemini 3.1 Pro Preview、GPT-5.4并列。

GitHub上的NYT Connections Extended基準(zhǔn)測試也給出了頂級排名。

Anthropic的邏輯并不難理解:大模型迭代必然涉及能力再分配。有些維度提升了,有些維度就可能出現(xiàn)回退,這是工程上的取舍。

但用戶不看這個,只看自己手里的活干不干得動。

價格沒漲

但賬單漲了

Anthropic沒有調(diào)價,每百萬token的單價和Opus 4.6、4.5完全一樣。

但官方遷移指南里寫道:新分詞器(tokenizer)在處理相同文本時,token用量大約可能達(dá)到原來的1.0倍到1.35倍


什么意思?你昨天用4.6跑一段prompt花10美元,今天換4.7跑同一段prompt,可能要花11到13.5美元。

單價沒變,但同樣的活兒吃掉了更多token。Claude Code創(chuàng)建者Boris Cherny隨后在X上表示:

Opus 4.7消耗更多thinking token,所以我們已為所有訂閱用戶提高了速率限制,來補償這一點。

但具體提高了多少,沒有公布。


模型沒蠢

但工作流炸了

如果你是Claude的重度開發(fā)者,4.7上線那天你可能遇到了這樣的事情:

代碼里寫了thinking={"type": "enabled", "budget_tokens": 32000},用來控制模型的思考預(yù)算。

在4.6上跑得好好的。換成4.7,直接返回400錯誤。沒有棄用過渡期,沒有兼容模式,直接報錯。

官方遷移指南解釋了替代方案:改用thinking={"type": "adaptive"}加上新的effort參數(shù)。


但大多數(shù)開發(fā)者不會在模型發(fā)布當(dāng)天去讀遷移指南。

他們做的第一件事是把模型名從4.6換成4.7,然后發(fā)現(xiàn)一切都不工作了。

更隱蔽的變化是thinking內(nèi)容現(xiàn)在默認(rèn)隱藏。

4.6時代,模型的思考過程默認(rèn)展示摘要版。到了4.7,默認(rèn)變成「省略」。響應(yīng)里的thinking區(qū)塊看起來是空的。

但你仍然在為這些看不到的thinking token全額付費。

Anthropic官方原話:省略只會降低延遲,不會降低成本。

這就像你點了一份套餐,服務(wù)員說「為了加快上菜速度,我們不給你看菜了,但你還是得付全款」。

「頂嘴」不是bug

網(wǎng)友一個最強烈的吐槽,是說4.7變得「combative」(帶攻擊性)。

不少開發(fā)者反映,4.7會拒絕執(zhí)行它認(rèn)為有問題的指令,語氣也比4.6硬了不止一個檔次。

關(guān)于這個問題,Anthropic官方遷移指南里有一句很關(guān)鍵的話:

Claude Opus 4.7會以更字面、更明確的方式理解提示詞。

也就是說:4.6會「猜你的意思」,4.7會「照你說的做」。

如果你的prompt本來就寫得含糊,4.6可以幫你腦補了,但4.7不會。對于一部分用戶來說,這叫「不聽話」,但對另一部分用戶來說,這叫「終于不亂猜了」。

比如,Cursor設(shè)計師Ryo Lu卻在用4.7做產(chǎn)品規(guī)劃,認(rèn)為這種精確執(zhí)行正是他需要的

因此,「頂嘴」這個標(biāo)簽背后,是Anthropic正在把Claude從一個「順從的助手」改造成一個「更有主見的同事」。

據(jù)Artificial Analysis的公開評測,Opus 4.7在GDPval-AA上拿到1753 Elo,領(lǐng)先第二名79分。

GDPval-AA衡量的是模型在44種職業(yè)、9個主要行業(yè)的真實知識工作任務(wù)中的表現(xiàn),在這個維度上,4.7碾壓了所有對手,包括自己的前代4.6(1619 Elo)。

同時,4.7的幻覺率比4.6下降了25個百分點,降到了36%。

它是怎么做到的?據(jù)Artificial Analysis的分析,主要是依靠「更頻繁地選擇不作答」,寧可說「我不知道」,也不瞎編。

這說明Anthropic的意圖不在于優(yōu)化Claude的聊天體驗,而是在優(yōu)化Claude的工作能力。


Opus 4.7在GDPval-AA上以1753 Elo登頂,領(lǐng)先第二名79分。這項測試衡量的是AI在44種職業(yè)中獨立完成知識工作的能力。

但對于用戶來說,在一些場景下可能完全感受不到提升,反而先感受到了token變貴、接口報錯和語氣變硬。

94.7%暴跌到41.0%

如果上面三層問題都能歸結(jié)為「遷移成本+使用習(xí)慣錯位」,但還有一組數(shù)字沒法用遷移成本解釋。

GitHub上公開維護(hù)的NYT Connections Extended基準(zhǔn)測試,使用940道《紐約時報》Connections謎題評估大語言模型的邏輯推理和抗干擾能力。

這個測試通過額外加入干擾詞來提升難度,已經(jīng)是社區(qū)公認(rèn)的高難度benchmark之一。


NYT Connections Extended排行榜。Opus 4.6(high reasoning)得分94.7%,Opus 4.7(high reasoning)僅41.0%,同一測試上出現(xiàn)斷崖式暴跌。

結(jié)果是:Opus 4.6(high reasoning)得分94.7%,Opus 4.7(high reasoning)得分41.0%。

從年級第一,跌到不及格。

另一份數(shù)據(jù)來自Anthropic提供的Opus 4.7 System Card中100萬token上下文的MRCR v2基準(zhǔn)測試:4.6得分78.3%,4.7得分32.2%,下跌46個百分點


https://cdn.sanity.io/files/4zrzovbb/website/037f06850df7fbe871e206dad004c3db5fd50340.pdf

這組數(shù)據(jù)方向與NYT Connections的結(jié)論一致:在某些邏輯推理和長上下文檢索任務(wù)上,4.7確實出現(xiàn)了顯著退步

但也需要說清楚:這些是特定類型的測試。它們不能證明4.7「全面變蠢」,就像GDPval-AA的領(lǐng)先不能證明4.7「全面變強」一樣。

用戶耐心

開始倒計時

Opus 4.7的爭議不是個案。

OpenAI經(jīng)歷過GPT-4 Turbo降智風(fēng)波,幾個月前撤下GPT-4o時也遭遇過類似的用戶反彈。現(xiàn)在Reddit上已經(jīng)出現(xiàn)了「哀悼」Claude 4.5的帖子,滿是自稱「心碎」的粉絲。


每一次模型升級,都有一批用戶失去已經(jīng)適應(yīng)的工具。

新分詞器讓舊的成本預(yù)算失效;新的默認(rèn)行為讓舊的prompt不再好用;新的接口規(guī)范讓舊的代碼直接報錯……

每一項單獨看都有技術(shù)上的合理性,但疊在一起,就是把全部遷移成本一次性推給了用戶。

為什么模型越來越聰明,用戶越來越焦慮?因為每一次「更好」,都意味著推翻上一次的「剛好」。

Anthropic員工Alex Albert在發(fā)布次日寫道:

很多人在昨天剛開始體驗Opus 4.7時可能遇到的bug,現(xiàn)在都已經(jīng)修復(fù)了。感謝大家的包容和耐心。


bug可以修。但信任這種東西,消耗容易,重建很慢。

這輪AI軍備競賽的下一個瓶頸,也許不只是算力和數(shù)據(jù),還要比誰能在快速迭代的同時,能不把自己的用戶甩下車。

這次,Anthropic發(fā)布了遷移指南,但用戶更想要的是一個承諾:升級不能把原有的工作流推倒重來。

當(dāng)AI從玩具變成生產(chǎn)力工具,「快速迭代」就不再是無條件的優(yōu)點。

Opus 4.8會怎么來?Anthropic還沒說。

但用戶的耐心,已經(jīng)開始倒計時了。

參考資料:

https://www.businessinsider.com/anthropic-claude-opus-4-7-backlash-tokens-2026-4

https://medium.com/vibe-coding/opus-4-7-is-the-worst-release-anthropic-has-ever-shipped-12772c21ca1e

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
全場嘩然!29歲女子在相親舞臺稱“娶我一定讓你爽”,王婆也懵了

全場嘩然!29歲女子在相親舞臺稱“娶我一定讓你爽”,王婆也懵了

火山詩話
2026-04-19 06:42:57
4月17日,日本開始賭國運了

4月17日,日本開始賭國運了

閑閑碎
2026-04-18 20:34:49
價格暴漲650%!產(chǎn)銷量暴增500%!這一市場被引爆

價格暴漲650%!產(chǎn)銷量暴增500%!這一市場被引爆

環(huán)球網(wǎng)資訊
2026-04-19 07:26:59
羅湖站發(fā)生“多人混戰(zhàn)”!原因令人沉默……

羅湖站發(fā)生“多人混戰(zhàn)”!原因令人沉默……

港漂圈
2026-04-19 10:06:26
伊朗宣布關(guān)閉霍爾木茲海峽

伊朗宣布關(guān)閉霍爾木茲海峽

財聯(lián)社
2026-04-19 02:25:05
態(tài)度惡劣!事發(fā)上海腫瘤醫(yī)院門外!民警緊急截停:“你賠得起嗎?都是病人老人!”

態(tài)度惡劣!事發(fā)上海腫瘤醫(yī)院門外!民警緊急截停:“你賠得起嗎?都是病人老人!”

新浪財經(jīng)
2026-04-19 07:03:44
G1輸球不可怕!可怕的是火箭主帥烏度卡賽后這番話,習(xí)慣性甩鍋!

G1輸球不可怕!可怕的是火箭主帥烏度卡賽后這番話,習(xí)慣性甩鍋!

田先生籃球
2026-04-19 15:17:44
超710億!廣東這條“堵王”高速,即將全面改擴(kuò)建,最寬12車道!

超710億!廣東這條“堵王”高速,即將全面改擴(kuò)建,最寬12車道!

娛樂圈見解說
2026-04-18 14:54:03
2026年,印度強制移除中國制造的1150個監(jiān)控攝像頭,結(jié)局卻很尷尬

2026年,印度強制移除中國制造的1150個監(jiān)控攝像頭,結(jié)局卻很尷尬

鑒史錄
2026-04-18 17:03:17
中國智慧!張雪機車一腳壓線把名次壓賺了 車手:犯規(guī)但拿到13分

中國智慧!張雪機車一腳壓線把名次壓賺了 車手:犯規(guī)但拿到13分

念洲
2026-04-19 07:39:14
他一生縱情酒色,47歲遺憾離世,卻留下70多部價值連城的經(jīng)典作品

他一生縱情酒色,47歲遺憾離世,卻留下70多部價值連城的經(jīng)典作品

云霄紀(jì)史觀
2026-04-19 15:49:37
以色列麻煩了!比伊朗還狠的角色,已畫下開戰(zhàn)紅線!

以色列麻煩了!比伊朗還狠的角色,已畫下開戰(zhàn)紅線!

財經(jīng)要參
2026-04-19 16:54:53
何潤東回應(yīng)亮相“蘇超”為何不騎馬:10年前一定騎馬,現(xiàn)在50多歲了,“一摔下來就幻滅,對項羽不太尊重,想給大家留下美好印象”

何潤東回應(yīng)亮相“蘇超”為何不騎馬:10年前一定騎馬,現(xiàn)在50多歲了,“一摔下來就幻滅,對項羽不太尊重,想給大家留下美好印象”

揚子晚報
2026-04-19 09:12:34
世錦賽戰(zhàn)報:丁俊暉王者歸來7-2領(lǐng)先,中國冠軍連輸6局6-10一輪游

世錦賽戰(zhàn)報:丁俊暉王者歸來7-2領(lǐng)先,中國冠軍連輸6局6-10一輪游

球場沒跑道
2026-04-19 20:28:00
37歲福原愛宣布三胎出生:母子健康平安,產(chǎn)后照曝光,前夫已祝福

37歲福原愛宣布三胎出生:母子健康平安,產(chǎn)后照曝光,前夫已祝福

開開森森
2026-04-19 07:41:03
越南百億高鐵訂單給德國,來華體驗12小時高鐵,背后算計太明顯

越南百億高鐵訂單給德國,來華體驗12小時高鐵,背后算計太明顯

苗苗情感說
2026-04-19 12:38:15
摧毀海上偷渡鏈!“獴獵”行動68人落網(wǎng)細(xì)節(jié)曝光

摧毀海上偷渡鏈!“獴獵”行動68人落網(wǎng)細(xì)節(jié)曝光

環(huán)球網(wǎng)資訊
2026-04-19 13:23:28
五一假期火車票開售以來,鐵路12306拒絕出票105.6萬張

五一假期火車票開售以來,鐵路12306拒絕出票105.6萬張

環(huán)球網(wǎng)資訊
2026-04-19 15:23:04
人均300塊的朝鮮餐廳,成了江浙滬過生日頂配

人均300塊的朝鮮餐廳,成了江浙滬過生日頂配

九行Travel
2026-04-16 16:37:52
5月1日起全國嚴(yán)查!開車上班、做生意,這些小事別再碰,輕則罰款

5月1日起全國嚴(yán)查!開車上班、做生意,這些小事別再碰,輕則罰款

寶哥精彩賽事
2026-04-19 06:35:05
2026-04-19 22:32:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
15012文章數(shù) 66787關(guān)注度
往期回顧 全部

科技要聞

50分26秒破人類紀(jì)錄!300臺機器人狂飆半馬

頭條要聞

印度當(dāng)晚召見伊朗大使抗議兩船只遭開火襲擊 伊朗回應(yīng)

頭條要聞

印度當(dāng)晚召見伊朗大使抗議兩船只遭開火襲擊 伊朗回應(yīng)

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

張?zhí)鞇墼u論區(qū)淪陷!被曝卷入小三風(fēng)波

財經(jīng)要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

時尚
房產(chǎn)
游戲
手機
公開課

裝修“精神角落”,就是這么上癮

房產(chǎn)要聞

官宣簽約最強城更!海口樓市,突然殺入神秘房企!

《英雄聯(lián)盟》重大更新:終于支持手柄了!

手機要聞

華為Pura 90系列再次被確認(rèn):尺寸、續(xù)航全曝光,大家會選誰?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版