337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Claude Opus 4.5來了:谷歌把Anthropic逼到了墻角

0
分享至

上周,Google實在是太猛了,拳打OpenAI,腳踢Anthropic。Gemini 3 Pro模型在編程、數(shù)學、推理等能力上都達到了當之無愧的SOTA級別。


被逼到墻角之后,就看誰先有能力掀桌坐不住了。

于是,就在今天,Anthropic發(fā)布了Claude Opus 4.5。


Opus 4.5的核心還是聚焦在編程能力,可以說很炸裂:SWE-bench Verified達到80.9%,首次突破80%,超越Gemini 3 Pro的76.2%。


以及,很少見的是,他們甚至降價了!價格從之前的貴得離譜的$15/$75直接降到$5/$25 per million tokens,直降66%!!

Opus 4.5的發(fā)布,說明Anthropic是真的急了——或者說,終于認真了。

Opus 4.5到底有多強?

先說benchmark數(shù)據(jù)。

SWE-bench Verified:80.9%

這是業(yè)界公認的編程能力測試標準。Opus 4.5是第一個突破80%的模型。

對比一下:

- Gemini 3 Pro:76.2%

- Claude Sonnet 4.5:77.2%

- GPT-5.1:76.3%/77.9%

80.9%是什么概念?Anthropic內(nèi)部拿性能工程師的面試題測試,Opus 4.5的得分超過了所有人類候選人。


Terminal-bench 2.0:59.3%

這個測試主要看模型在終端環(huán)境下的編程能力。Opus 4.5比Gemini 3 Pro高了5個百分點(54.2%),比自家的Sonnet 4.5高了近10個百分點(50.0%)。

這個差距說明一個事實:Claude在真實開發(fā)環(huán)境下,就是比其他模型強。

GPQA Diamond:87.0%

這是研究生級別的推理測試,涵蓋物理、化學、生物。Opus 4.5在這個測試上落后于Gemini 3 Pro(91.9%),但87%的成績也不差。

總結(jié)一下:編程能力世界第一,推理能力也不弱。

價格策略的巨大轉(zhuǎn)變

Opus 4.5最讓人意外的,是在性能提升的同時,價格還暴降了。

新定價:

- 輸入:$5 / million tokens

- 輸出:$25 / million tokens

Anthropic的官方說法是:"making Opus-level capabilities accessible to even more users, teams, and enterprises"(讓更多用戶、團隊和企業(yè)能用上Opus級別的能力)。

邏輯很明顯:Anthropic需要更多人用Opus。

之前Opus的定位是"高端用戶",但高端市場就那么大。現(xiàn)在降價,是要搶占"中端市場"——那些之前用Sonnet,但其實需要更強能力的開發(fā)者。

不到一周,正面交鋒

11月18日,Google發(fā)布Gemini 3 Pro。

11月24日,Anthropic發(fā)布Claude Opus 4.5。

不到一周,兩個頂級模型連續(xù)發(fā)布。

這不是巧合。

Gemini 3 Pro發(fā)布時,各種benchmark數(shù)據(jù)都很炸裂,尤其是GPQA Diamond的91.9%,直接刷新了推理能力的記錄。當時AI圈的共識是:Google這次真的起來了。


Anthropic當然不會讓Google獨占風頭。

Opus 4.5的發(fā)布時機,明顯是沖著Gemini 3來的。而且,Anthropic選擇的戰(zhàn)場很聰明:不和你比推理,和你比編程。

Gemini 3 Pro在推理上確實強(91.9% vs 87.0%),但在編程上,Claude Opus 4.5領先了近5個百分點(80.9% vs 76.2%)。

更關鍵的是,編程能力是開發(fā)者最關心的指標。推理能力再強,如果寫不出好代碼,開發(fā)者也不會買單。

這就是Anthropic的策略:在自己最擅長的領域,做到絕對領先。

為什么Anthropic能在編程上這么強?

之前我在測試Claude Code時,有個很深的感受:

Claude Code好用的邏輯,不是因為它是終端工具,而是因為Anthropic有模型成本和模型認知的優(yōu)勢。

他們可以更無所畏懼地投喂代碼上下文燒token,能知道如何擠壓模型Agentic的能力實現(xiàn)更長步驟的推理,可以用agentic search而非RAG的方式處理上下文。

這些優(yōu)勢,說白了就一個原因:Anthropic從一開始就是奔著編程和Agent去優(yōu)化模型的。

我之前評價Claude 4時說:最強編程模型 + 最強Agent基建。

Anthropic對模型的所有優(yōu)化,都是奔著To B做AI coding和讓開發(fā)者建agent而去的。他們主要做了這幾個方面的優(yōu)化:

1. 擴展思維與工具使用:允許模型在思考和使用工具之間來回切換,形成"思考-執(zhí)行-再思考"的循環(huán)

2. 改進的記憶能力:可以創(chuàng)建和維護"記憶文件"來存儲關鍵信息,支持長時間任務

3. 更強的指令遵循能力:可以處理超過10000個token的系統(tǒng)提示

4. 減少獎勵黑客行為:模型為了達到目標而走捷徑的傾向降低了80%以上

這些優(yōu)化,放在Opus 4.5上,效果更明顯了。

相比之下,Gemini 3的優(yōu)勢在于多模態(tài)。如果你的任務涉及視覺、圖片、視頻,Gemini 3會更強。但如果是純編程任務,Claude Opus 4.5幾乎沒有對手。

產(chǎn)品層面的配合

Opus 4.5的發(fā)布,不是孤立的。

Anthropic同時推出了幾個重要的產(chǎn)品更新:

1. Claude Code進入桌面端:支持并行運行多個本地和遠程會話,長對話自動總結(jié)早期上下文

2. Claude for Chrome:擴展至所有Max用戶

3. Claude for Excel:面向所有Max、Team和Enterprise用戶正式發(fā)布

這些產(chǎn)品更新,都是在強化一個信號:Claude不只是一個聊天模型,它是一個生產(chǎn)力工具。

尤其是Claude Code。

我之前說過,從工具層面來說,從Cursor這種IDE圖形界面退回到Claude Code這種終端命令行工具,其實是個挺大的退步。但Claude Code之所以還是比Cursor好用,就是因為它背后的模型能力太強了。

現(xiàn)在Opus 4.5出來了,Claude Code的優(yōu)勢會更明顯。

而且,Anthropic還宣布了和Microsoft、NVIDIA的戰(zhàn)略合作:Claude擴展至Azure平臺,由NVIDIA提供算力支持。這意味著,Claude的To B布局在快速推進。

開發(fā)者該怎么選?

最后說點實際的:如果你是開發(fā)者,該選Claude還是Gemini?

我的建議是:

選Claude Opus 4.5,如果你的任務主要是:

  • 純代碼編寫和調(diào)試

  • 后端邏輯和復雜推理

  • 長時間的編程任務(需要記憶和上下文管理)

選Gemini 3 Pro,如果你的任務主要是:

  • 多模態(tài)任務(涉及圖片、視頻、視覺)

  • 前端、UI設計

  • 需要超強推理能力的研究級任務 如果預算夠,最好的辦法是:兩個都用。

Claude處理編程,Gemini處理多模態(tài)。各取所長。

我前兩天剛剛同時用Claude Code+Gemini 3 Pro,開發(fā)了一個有儀式感地記錄日常生活和靈感碎片的app「小票筆記 - Thermal」,在開發(fā)這款app時,我的工作步驟和體驗是:

1)Gemini 3在生成和復刻前端效果上明顯表現(xiàn)更優(yōu)

2)實際的開發(fā)和解決bug的過程,Claude Code還是比Cursor + Gemini 3 Pro,或者使用Antigravity的體驗,因為長程的編程能力還需要工具更好的工程化能力,以及模型更底層的編程能力。




最后

Opus 4.5的發(fā)布,不是孤立事件。

它是Anthropic在編程和Agent這條路上的又一次發(fā)力,是對Gemini 3的正面回應,也是對自己商業(yè)化策略的調(diào)整。

Anthropic這么跳,說明AI大模型的競爭進入白熱化了。

對開發(fā)者來說,這是好事。模型越來越強,價格越來越低,工具越來越好用。

接下來,看OpenAI怎么接招。

當然,如果你因為訂閱或者網(wǎng)絡問題不方便使用原版Claude Code的話,也歡迎試試我前段時間開發(fā)的GLM Code:

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
不要對發(fā)達國家生活水平有濾鏡,2026年發(fā)達國家老百姓實際生活水平比中國已經(jīng)高不了多少

不要對發(fā)達國家生活水平有濾鏡,2026年發(fā)達國家老百姓實際生活水平比中國已經(jīng)高不了多少

寧南山
2026-03-30 08:37:47
接陌生電話不要先出聲

接陌生電話不要先出聲

大象新聞
2026-03-29 07:29:10
悲催!東莞一工廠結(jié)業(yè),稱現(xiàn)金流徹底斷裂,負責人將全程留守處理

悲催!東莞一工廠結(jié)業(yè),稱現(xiàn)金流徹底斷裂,負責人將全程留守處理

火山詩話
2026-03-30 16:18:42
韓國網(wǎng)友偷廣州街頭美景圖,配文:這就是首爾!瀏覽破百萬,照片中公交車尾清晰印有“廣州公交”4個字,發(fā)現(xiàn)“鬧大”后刪除博文

韓國網(wǎng)友偷廣州街頭美景圖,配文:這就是首爾!瀏覽破百萬,照片中公交車尾清晰印有“廣州公交”4個字,發(fā)現(xiàn)“鬧大”后刪除博文

大風新聞
2026-03-29 21:59:02
官方:CCTV5直播中國隊與喀麥隆隊的比賽

官方:CCTV5直播中國隊與喀麥隆隊的比賽

懂球帝
2026-03-30 12:30:20
英媒:美軍在伊朗村莊布設致命地雷

英媒:美軍在伊朗村莊布設致命地雷

參考消息
2026-03-30 14:27:05
1斤低至4.9元!豬肉價格持續(xù)“跳水”,養(yǎng)一頭要虧225元,行業(yè)預計下半年回暖

1斤低至4.9元!豬肉價格持續(xù)“跳水”,養(yǎng)一頭要虧225元,行業(yè)預計下半年回暖

紅星資本局
2026-03-29 20:10:11
大學生怒砸食堂后續(xù)!人已被抓,知情人爆猛料,賠幾十萬只是一角

大學生怒砸食堂后續(xù)!人已被抓,知情人爆猛料,賠幾十萬只是一角

潮鹿逐夢
2026-03-29 14:54:28
中國國航一架從北京飛往平壤的客機抵達平壤

中國國航一架從北京飛往平壤的客機抵達平壤

新京報
2026-03-30 09:50:06
真不打球了!生涯狂賺2億,如今瘋狂釣魚,妥妥的人生大贏家啊

真不打球了!生涯狂賺2億,如今瘋狂釣魚,妥妥的人生大贏家啊

球童無忌
2026-03-30 14:39:34
男子CT報告顯示“子宮形態(tài)密度正常”,山西長治醫(yī)學院附屬和平醫(yī)院發(fā)布情況說明

男子CT報告顯示“子宮形態(tài)密度正常”,山西長治醫(yī)學院附屬和平醫(yī)院發(fā)布情況說明

界面新聞
2026-03-30 17:14:36
調(diào)查|豪擲6000多萬卻辦不了產(chǎn)證 豪宅項目縵合北京多位業(yè)主深陷“網(wǎng)簽僵局”

調(diào)查|豪擲6000多萬卻辦不了產(chǎn)證 豪宅項目縵合北京多位業(yè)主深陷“網(wǎng)簽僵局”

財聯(lián)社
2026-03-30 16:03:16
東風導彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

東風導彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

談史論天地
2026-03-29 16:10:03
哈佛大學研究顯示:每月性行為頻次≥21次,可以大幅降低患癌風險

哈佛大學研究顯示:每月性行為頻次≥21次,可以大幅降低患癌風險

黯泉
2026-03-29 12:00:55
賴清德做夢都沒想到,最先“登陸”臺灣的不是大炮,而是高德地圖

賴清德做夢都沒想到,最先“登陸”臺灣的不是大炮,而是高德地圖

共工之錨
2026-03-30 15:26:56
太原一建筑起火致3死23傷,目擊者:起火時建筑外立面燃燒脫落;附近居民:事故發(fā)生前曾提醒燒烤店,上方煙囪管道不安全

太原一建筑起火致3死23傷,目擊者:起火時建筑外立面燃燒脫落;附近居民:事故發(fā)生前曾提醒燒烤店,上方煙囪管道不安全

大風新聞
2026-03-30 15:05:24
周杰倫: 鬼火少年老了

周杰倫: 鬼火少年老了

爆角追蹤
2026-03-29 21:26:58
醫(yī)生:心梗最危險信號,不是嘴唇發(fā)紫,而是頻繁出現(xiàn)這5種異常

醫(yī)生:心梗最危險信號,不是嘴唇發(fā)紫,而是頻繁出現(xiàn)這5種異常

健康科普365
2026-03-28 18:20:07
3分鐘卷走價值900萬歐元畫作!4蒙面男子夜襲意大利名畫殿堂

3分鐘卷走價值900萬歐元畫作!4蒙面男子夜襲意大利名畫殿堂

紅星新聞
2026-03-30 16:21:17
確認了!江蘇高速重大調(diào)整!

確認了!江蘇高速重大調(diào)整!

江南晚報
2026-03-30 15:39:15
2026-03-30 17:35:00
AI進化論花生 incentive-icons
AI進化論花生
AI博主,AppStore付費榜第一的小貓補光燈app開發(fā)者
169文章數(shù) 83關注度
往期回顧 全部

科技要聞

DeepSeek性能異常問題已解決,服務恢復

頭條要聞

單套最低5400萬 北京豪宅暴雷幾十戶業(yè)主辦不了房產(chǎn)證

頭條要聞

單套最低5400萬 北京豪宅暴雷幾十戶業(yè)主辦不了房產(chǎn)證

體育要聞

想進世界杯,意大利還要過他這一關

娛樂要聞

單依純凌晨發(fā)長文道歉!李榮浩再回應

財經(jīng)要聞

油價沖擊,有些亞洲貨幣先扛不住了!

汽車要聞

理想i9要來了!外形似小號MEGA 能沖擊高端純電市場?

態(tài)度原創(chuàng)

教育
時尚
健康
家居
游戲

教育要聞

義務教育搖號“可以操作”?教育局辟謠:典型騙局,請別入坑!

來到1980的周也,好毛利蘭

干細胞抗衰4大誤區(qū),90%的人都中招

家居要聞

東方法式美學 現(xiàn)代簡約

白天撿垃圾、晚上守家的多人肉鴿!《佩布爾騎士》發(fā)售信息公布!

無障礙瀏覽 進入關懷版