337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

Claude Opus 4.6 發布,全線碾壓 GPT-5.2,一文詳解

0
分享至

剛剛,Anthropic 發布 Claude Opus 4.6


BenchMark

在知識工作評測 GDPval-AA 上,Opus 4.6 贏 GPT-5.2 約 144 Elo,贏自家前代 Opus 4.5 約 190 Elo
翻譯成人話,就是十局贏七局

同時拿下 Terminal-Bench 2.0(Agent 編碼)、Humanity's Last Exam(多學科推理)、BrowseComp(Agent 搜索)的最高分

這是 Opus 級模型第一次支持 1M token 上下文窗口(beta),輸出上限拉到 128K token

模型之外,Anthropic 這次把產品線也一起更新了。Claude Code 加了 agent teams,Excel 升級,PowerPoint 新出了 research preview,API 加了 adaptive thinking 和 context compaction

官方介紹視頻 跑分

先看總表


Benchmark 總表,Opus 4.6 vs 各家模型

分項來看

知識工作(GDPval-AA)

這個評測由 Artificial Analysis 獨立運營,測的是金融、法律等專業領域的實際工作能力。Opus 4.6 在各個子領域都排在前面


GDPval-AA 各領域得分

Agent 搜索(DeepSearchQA / BrowseComp)

BrowseComp 測的是模型在網上找難找的信息的能力。Opus 4.6 單 Agent 跑分就已經領先,加上多 Agent 框架之后分數到了 86.8%


DeepSearchQA 跑分對比

Agent 編碼(Terminal-Bench 2.0 / SWE-bench Verified)

Terminal-Bench 2.0 拿了最高分。SWE-bench Verified 平均跑了 25 輪,調整 prompt 后最高到了 81.42%


Terminal-Bench 2.0 跑分

多學科推理(Humanity's Last Exam / ARC AGI 2)

Humanity's Last Exam 跑的時候帶了 web search、code execution、context compaction(50K token 觸發,最大 3M token),用了 max effort + adaptive thinking

ARC AGI 2 用了 max effort 和 120K thinking budget


多學科推理跑分 長上下文

1M 上下文不新鮮,但 Opus 級模型一直沒給

之前的問題是 context rot,上下文一長,模型表現就往下掉。Opus 4.6 在 MRCR v2 八針 1M 測試里拿了 76%,同一個測試 Sonnet 4.5 只有 18.5%

這特么...足足四倍

Anthropic 說 Opus 4.6 在大量文檔中檢索信息的能力也有明顯提升,能在幾十萬 token 的上下文里追蹤信息,抓住 Opus 4.5 會漏掉的細節


長上下文檢索,提升很明顯 長上下文推理能力對比 其他領域的 benchmark

除了上面幾個主要方向,Opus 4.6 還跑了軟件工程、多語言編碼、長期連貫性、網絡安全、生命科學幾個方向

根因分析(OpenRCA)

測的是模型診斷復雜軟件故障的能力。每個 case 如果所有生成的根因要素都和 ground truth 匹配就得 1 分,否則 0 分


OpenRCA,診斷復雜軟件故障

多語言編碼


多語言編碼跑分

長期連貫性(MCP Atlas)

Opus 4.6 用 max effort 跑出最高分。用 high effort 的時候也到了 62.7%,同樣領先


MCP Atlas,長期連貫性

網絡安全(CyberGym)

跑的時候沒開 thinking,用默認 effort、temperature 和 top_p,給了一個 think tool 做多輪評測的交叉思考


CyberGym,網絡安全能力

生命科學


生命科學跑分 Anthropic 內部怎么用的

Anthropic 自己用 Claude 造 Claude。工程師每天用 Claude Code 寫代碼,每個新模型都先在內部跑

他們對 Opus 4.6 的觀察:模型會自動把精力集中在任務最難的部分,簡單的地方快速通過,處理模糊問題時判斷更好,長時間工作保持穩定

但也有個問題,Opus 4.6 有時候會「想太多」。簡單任務上會增加成本和延遲,Anthropic 建議這種場景把 effort 從默認的 high 調到 medium

Early Access 合作伙伴的反饋集中在三點:能自主工作不需要手把手帶,之前模型搞不定的任務能搞定了,改變了團隊協作的方式

產品更新

Claude Code:agent teams

可以同時起多個 Agent,讓它們并行工作、自主協調。適合能拆成獨立子任務的場景,比如大規模 code review

你可以用 Shift+Up/Down 或者 tmux 隨時接管任意一個子 Agent。目前是 research preview

Claude in Excel

能處理更長、更復雜的任務了。可以先規劃再執行,能自動識別非結構化數據并推斷出合理的表結構,支持條件格式和數據驗證,多步操作一次完成

Claude in Excel 演示視頻(1 分 27 秒)

Claude in PowerPoint

這個東西目前,research preview 階段,Max、Team、Enterprise 可用

Claude 會讀你的版式、字體、母版,保持品牌一致性。可以從模板出發,也可以從一段描述直接生成整套 deck

一個實用的組合:先用 Claude in Excel 處理和結構化數據,再用 Claude in PowerPoint 做可視化呈現

Cowork

在 Cowork 里,Opus 4.6 可以自主執行多任務。跑分析、做研究、處理文檔、表格、演示文稿,都可以自動跑

API 更新

Adaptive thinking
以前 extended thinking 只有開和關兩個選項。現在 Claude 可以自己判斷什么時候需要深度推理,什么時候快速過。默認 effort 是 high,這個檔位下模型會在需要的時候自動啟用深度推理

Effort 控制
四檔可選:low、medium、high(默認)、max。開發者可以根據任務調

Context compaction(beta)
長對話或 Agent 任務快撞到上下文窗口的時候,自動把舊的上下文壓縮成摘要替換掉,觸發閾值可配置

1M 上下文(beta)
超過 200K token 的輸入,價格從 漲 到 10/百萬 token,輸出從 漲 到 37.50。200K 以內價格不變

128K 輸出
大輸出任務不用拆成多次請求了

US-only inference
需要數據留在美國境內的,可以選 US-only inference,價格 1.1 倍

安全

Anthropic 說這是他們做過最全面的安全評估,很多測試是第一次用

自動行為審計里,Opus 4.6 的對齊偏差率(欺騙、諂媚、配合濫用等)和 Opus 4.5 持平。over-refusal 率(該回答卻拒絕)是近期 Claude 模型里最低的


安全評估,各代 Claude 對齊偏差率對比

新增了用戶福祉評測、更復雜的拒絕危險請求測試、模型是否會偷偷執行有害操作的升級版測試

因為 Opus 4.6 的網絡安全能力提升明顯,Anthropic 額外開發了 6 個新的網絡安全探針來追蹤潛在濫用。同時也在用這個模型幫開源軟件找漏洞和打補丁

一個細節:system card 里提到他們首次用可解釋性(interpretability)技術去理解模型行為的底層原因,試圖抓住標準測試可能漏掉的問題

詳細的能力和安全評估在 system card 里:https://www.anthropic.com/claude-opus-4-6-system-card


定價

今天起在 claude.ai、Claude API、AWS、GCP、Azure 可用

模型 API 標識:claude-opus-4-6

定價: 25 每百萬 token(200K 以內), 37.50 每百萬 token(200K 以上)


完整定價:https://claude.com/pricing

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
美媒預測大陸收臺方式,一旦臺海開戰,解放軍會用3大手段?

美媒預測大陸收臺方式,一旦臺海開戰,解放軍會用3大手段?

記得那片海辛
2026-03-22 12:21:06
高市早苗訪美結束,她在晚宴上對著金雕雕塑,呼應了流金谷恩仇錄

高市早苗訪美結束,她在晚宴上對著金雕雕塑,呼應了流金谷恩仇錄

瓦倫西亞月亮
2026-03-22 13:51:03
兩頭堵,油價上漲,電車充電上漲,還是百姓買了單,不止是尷尬!

兩頭堵,油價上漲,電車充電上漲,還是百姓買了單,不止是尷尬!

眼光很亮
2026-03-22 12:47:44
A股跌破4000點!股民怒懟量化,五部門連夜托底

A股跌破4000點!股民怒懟量化,五部門連夜托底

慧眼看世界哈哈
2026-03-22 14:55:01
陸濤已任福建省農業農村廳黨組成員、副廳長

陸濤已任福建省農業農村廳黨組成員、副廳長

人民資訊
2026-03-22 14:28:11
罰球14中5!聯賽都吊兒郎當,“助國家隊重返巔峰”只是空頭支票

罰球14中5!聯賽都吊兒郎當,“助國家隊重返巔峰”只是空頭支票

弄月公子
2026-03-22 11:07:22
廣東橫琴發生一刑事案件,警方通報:陳某波(男,26歲)于3月20日晚竄至橫琴某小區,對兩名受害人實施搶劫,并致其中一人死亡

廣東橫琴發生一刑事案件,警方通報:陳某波(男,26歲)于3月20日晚竄至橫琴某小區,對兩名受害人實施搶劫,并致其中一人死亡

大象新聞
2026-03-22 15:45:04
湖人直接上訴!東契奇禁賽被冤枉?比塔澤:我道歉,但他先罵人的

湖人直接上訴!東契奇禁賽被冤枉?比塔澤:我道歉,但他先罵人的

你的籃球頻道
2026-03-22 12:37:34
是否有些反常?盧秀燕訪美回臺機場冷落?

是否有些反常?盧秀燕訪美回臺機場冷落?

有態度的何總
2026-03-21 21:25:46
南京最大的危機是什么?

南京最大的危機是什么?

娛樂圈見解說
2026-03-22 15:13:18
A股:已經到關鍵時刻,股民做好準備,明天能否探底回升

A股:已經到關鍵時刻,股民做好準備,明天能否探底回升

要奔走的股市
2026-03-22 15:18:11
白宮晚宴搖滾樂,高市當場“發瘋”?日本網友炸鍋了!

白宮晚宴搖滾樂,高市當場“發瘋”?日本網友炸鍋了!

華山穹劍
2026-03-21 20:58:02
晴天霹靂:克里斯常規賽報銷,山東男籃或從第四變成第八

晴天霹靂:克里斯常規賽報銷,山東男籃或從第四變成第八

姜大叔侃球
2026-03-22 11:20:19
4月1日后去醫院,只帶醫保卡可能吃大虧,這兩樣缺一不可

4月1日后去醫院,只帶醫保卡可能吃大虧,這兩樣缺一不可

貓叔東山再起
2026-03-22 08:25:07
記者:李鎮全被補充召入國足,杜月徵將入選U23國足

記者:李鎮全被補充召入國足,杜月徵將入選U23國足

懂球帝
2026-03-22 15:27:14
收房時樣板房“面目全非”!松江法院判決:開發商退還裝修款并支付違約金

收房時樣板房“面目全非”!松江法院判決:開發商退還裝修款并支付違約金

上觀新聞
2026-03-22 13:06:04
伊朗已無官員愿意與美國談判

伊朗已無官員愿意與美國談判

財聯社
2026-03-20 23:57:04
港影:香港影史上那些封神的角色

港影:香港影史上那些封神的角色

唐淚
2026-03-21 06:47:54
女生長的太漂亮是什么體驗?網友:母以子貴,父以女榮

女生長的太漂亮是什么體驗?網友:母以子貴,父以女榮

另子維愛讀史
2026-03-10 22:56:08
徹底撕破臉!胖東來雞蛋報告曝光,王海測評放話:法庭見

徹底撕破臉!胖東來雞蛋報告曝光,王海測評放話:法庭見

今日搞笑分享
2026-03-22 12:39:40
2026-03-22 16:40:49
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
337文章數 49關注度
往期回顧 全部

科技要聞

嫌臺積電太慢 馬斯克要把芯片產能飆升50倍

頭條要聞

達利歐:霍爾木茲"決戰"或對美霸權造成無法彌補的損害

頭條要聞

達利歐:霍爾木茲"決戰"或對美霸權造成無法彌補的損害

體育要聞

鄭欽文連續迎戰大滿貫冠軍 “雙教練”團隊正式亮相

娛樂要聞

今晚首播!央視年代劇《冬去春來》來了

財經要聞

睡夢中欠債1.2萬?這只“蝦”殺瘋了

汽車要聞

14.28萬元起 吉利銀河星耀8遠航家開啟預售

態度原創

家居
藝術
本地
教育
手機

家居要聞

時空交織 空間綺夢

藝術要聞

第四屆深圳大芬國際油畫雙年展 | 入選油畫選刊(四)

本地新聞

春色滿城關不住|紹興春日頂流,這片櫻花海藏不住了

教育要聞

中考680,你可以怎么選?

手機要聞

一加15T搭載ColorOS 16,支持5年4個大版本系統更新維護

無障礙瀏覽 進入關懷版