Claude Opus 4.7連夜突襲：或?qū)屪呷?億打工人飯碗！

2026-04-17 00:27:01　來源: 新智元

北京舉報

分享至

新智元報道

編輯：艾倫好困

【新智元導讀】Anthropic 正式發(fā)布 Claude Opus 4.7，核心升級落在復雜任務(wù)執(zhí)行、高清視覺理解和更穩(wěn)的長鏈路工作流上。對普通用戶來說，最直接的變化是更聽指令、更會看圖、產(chǎn)出更接近成品，同時也要注意Token也會燒得更快了。

就在剛剛，Anthropic 正式發(fā)布 Claude Opus 4.7，并將它定義為當前可廣泛使用的最強 Claude 模型。

性能不如此前曝光的新一代Claude Mythos Preview那么炸裂，但比普通用戶能真正用到的Opus 4.6強了太多，除了Agentic搜索能力略有下降外，實現(xiàn)了全面碾壓！

官方給出的本次升級的關(guān)鍵詞：復雜任務(wù)、更強視覺、更穩(wěn)的長鏈路執(zhí)行，以及更少需要人工參與。

只要還在用大模型寫文檔、讀截圖、做演示、整理材料，Opus 4.7 帶來的體驗變化，很難繞開。

本次更新最大的亮點，是Opus 4.7的視覺能力大幅提升，在測試中從Opus 4.6約50%的分數(shù)，直接飆升到接近滿分！

而這，補上了AI目前最大的視覺短板，或許已經(jīng)不知不覺地邁過了替代人類工作的那道最重要的檻！

GPT-5.4 Thinking是這樣評價它的對手Claude Opus 4.7發(fā)布給打工人帶來的影響的：

本次升級的關(guān)鍵

在于復雜任務(wù)的完成度

Anthropic 把 Opus 4.7 的核心升級點放在了高級軟件工程和長時間任務(wù)執(zhí)行上。

用戶已經(jīng)可以把過去需要密切監(jiān)督的高難度編碼工作交給它處理，它會更嚴格地執(zhí)行指令，也會在回報結(jié)果前主動想辦法驗證輸出。

API 發(fā)布說明里，Anthropic 也把它稱為當前最強的通用可用模型，面向復雜推理和代理式編碼場景。

大模型競爭的焦點，正在從答得像不像，轉(zhuǎn)到做得完不完。只會寫一段漂亮答案，已經(jīng)不夠了。

能不能把一份長文檔改干凈，能不能把一套資料串起來做成可交付物，能不能持續(xù)幾十分鐘甚至更久不跑偏，這才會決定它在日常工作里能不能真的替人扛起一片天。

這能夠從 Opus 4.7 的官方發(fā)布重點里直接看出來。

純編程只是開胃菜

SWE-bench Multilingual 測的是模型修復真實 GitHub issue 的能力，覆蓋多種編程語言。

Opus 4.7 拿 80.5%，Opus 4.6 拿 77.8%，漲 2.7 個百分點。

單看這個數(shù)，似乎只是一次常規(guī)迭代。但同一張圖右邊那組數(shù)據(jù)更有意思，后面回頭講。

1M token 里的長任務(wù)

GraphWalks 是 OpenAI 做的長上下文基準，把一張有向圖用邊列表塞滿 1M token 上下文，讓模型做圖遍歷。

兩種考法：一種是 Parents，給一個節(jié)點讓模型找出所有直接指向它的父節(jié)點；另一種是 BFS 廣度優(yōu)先搜索，從起點出發(fā)一路找到特定深度可達的節(jié)點，對 Agent 跑多步驟長任務(wù)是硬指標。

在 Parents 1M 這趴，Opus 4.7 從 71.1% 提到 75.1%，4 個百分點的常規(guī)改進。

而到了 BFS 1M，Opus 4.7 則從 41.2% 一口氣干到 58.6%，拉開 17.4 個百分點。

換個場景再看。

Vending-Bench 2 讓模型模擬經(jīng)營一臺自動售貨機，測長時間工作流里的決策連貫性。

Opus 4.6 最終余額 8,018 美元，Opus 4.7 做到 10,937 美元。

同一臺售貨機，同一個時間窗口，Opus 4.7 多掙了 36%。

Agent 的眼睛換了代

ScreenSpot-Pro 測的是 Agent 的屏幕定位能力。

給模型一張 VSCode、Photoshop、AutoCAD 這類專業(yè)軟件的高分辨率桌面截圖加一條自然語言指令，讓它定位到具體的 UI 元素。在高分辨率屏幕里，目標 UI 元素往往只占整張圖的 0.07%，極考驗精細視覺。

同樣低分辨率不帶工具，Opus 4.6 拿 57.7%，Opus 4.7 拿 69.0%，拉開 11.3 個百分點。

切到高分辨率，Opus 4.7 不帶工具就達到了 79.5%。疊加工具調(diào)用，跑分直接來到 87.6%。

視覺能力在一些測試（如XBOW的基準測試）中，Opus 4.7相比Opus 4.6得分直接翻倍，從54.5%躍升到接近滿分98.5！

這造就了Opus 4.7相比4.6在計算機使用（Computer Use）能力的天壤之別！

回到前面留的那張編程圖。

SWE-bench Multimodal 這項，Anthropic 是用內(nèi)部實現(xiàn)的測試 harness 跑的。

測的是前端 JS 軟件修 bug，任務(wù)里帶著 UI 截圖、效果圖一類的視覺素材，模型要結(jié)合圖片和代碼一起干活。

從 Opus 4.6 的 27.1% 做到 Opus 4.7 的 34.5%，一口氣提了 7.4 個百分點。

Opus 4.7 的編程升級，重點是讓模型看懂屏幕。眼睛換代了，腦子才能干更復雜的活。

GPT-5.4 和 Gemini 3.1 Pro 都沒扛住

前面全是自比，現(xiàn)在來看看跟老對手們怎么打。

GDPval-AA 是 Artificial Analysis 基于 OpenAI GDPval 數(shù)據(jù)集做的評估。

它覆蓋了 44 種知識工作職業(yè)、9 大 GDP 核心行業(yè)，任務(wù)來自資深職業(yè)人士（平均 14 年經(jīng)驗）的真實交付物。AA 版本讓模型在 agent loop 里干活，用盲測兩兩對比打 Elo 分。

Opus 4.7 拿 1753，Opus 4.6 拿 1619，GPT-5.4 拿 1674，Gemini 3.1 Pro 拿 1314。

Opus 4.7 高出 GPT-5.4 79 分，高出 Gemini 3.1 Pro 439 分。

OfficeQA Pro 是 Databricks 做的企業(yè)級推理基準，語料是近 100 年的美國財政部公報，8.9 萬頁 PDF、2600 萬個數(shù)字。模型要精準找到文檔、解析表格和正文、跨文檔做分析推理。

在這里，Opus 4.7 的跑分高達 80.6%，而 Opus 4.6 只有 57.1%，GPT-5.4 和 Gemini 3.1 Pro 更低，分別是 51.1%和 42.9%。

換句話說，Opus 4.7 是 GPT-5.4 的 1.6 倍，是 Gemini 3.1 Pro 的 1.9 倍。

躍升最炸的是生物學

翻到最后一張，Structural Biology，生物分子推理。

Opus 4.6 只有 30.9%。而Opus 4.7 直接沖到了 74.0%。

一次版本迭代，從三成到七成半，2.4 倍。

堪稱是所有 benchmark 里躍升最夸張的一項。

普通用戶最先感受到的

是三大變化

第一個變化，指令遵循能力更強了。

Anthropic 寫到，Opus 4.7 的指令遵循能力大幅提升，過去很多模型會松散理解、漏掉細節(jié)，Opus 4.7 則更傾向于逐條照著執(zhí)行。

代價是，舊提示詞有時會出現(xiàn)意料之外的結(jié)果，用戶需要重新調(diào)整寫法。

對普通用戶來說，這會直接減少提示詞玄學，寫需求、定格式、列限制條件，會更有用。

第二種變化，Claude 看圖會更細。

Opus 4.7 支持長邊最高 2576 像素的圖像輸入，大約 375 萬像素，超過此前 Claude 模型的三倍。

官方專門點了幾個場景，密集截圖、復雜圖表、精細結(jié)構(gòu)圖、需要像素級參考的任務(wù)。

放到現(xiàn)實使用里，這對應(yīng)的就是看懂一頁密密麻麻的數(shù)據(jù)截圖，識別產(chǎn)品原型細節(jié)，從復雜流程圖里抽信息，讀一張高分辨率海報或報表時少丟細節(jié)。

第三種變化，輸出結(jié)果會更容易接近可交付的成品。

Anthropic 提到，Opus 4.7 在界面、幻燈片、文檔這些專業(yè)任務(wù)上更有審美，也更有創(chuàng)造性。

它在基于文件系統(tǒng)的記憶上做得更好，能跨多輪、多會話記住關(guān)鍵備注，減少重復交代背景。

對經(jīng)常拿模型潤色材料、整理項目、反復改同一份內(nèi)容的人來說，這種提升會比跑分的提升來得更直觀。

這次發(fā)布

安全也被擺在了同樣重要的位置

Anthropic 在一周前剛剛公布 Project Glasswing，專門談到了前沿模型在網(wǎng)絡(luò)安全方向的風險與收益。

Opus 4.7 成了這套新思路下第一個公開部署的模型，官方強調(diào)，它的網(wǎng)絡(luò)安全能力弱于 Mythos Preview，并且上線時帶有自動檢測和攔截高風險網(wǎng)絡(luò)安全請求的護欄。

合規(guī)安全研究人員則可以申請加入新的 Cyber Verification Program。

從安全評估看，Opus 4.7 與 Opus 4.6 的整體安全畫像相近，在誠實性和抵抗惡意提示詞注入上更強，在某些細項上也存在小幅走弱。

Anthropic 的結(jié)論是，它整體上「較為可靠且值得信任」，距離理想狀態(tài)還有空間。

這說明，Anthropic 沒有把發(fā)布包裝成一次毫無代價的全面躍升。

誰會立刻受益

誰又要多留一個心眼

最先受益的人群很清楚，開發(fā)者、分析師、法務(wù)、研究人員，以及所有高頻處理文檔、表格、演示材料的人。

官方早期測試反饋里，很多合作方都提到同樣幾件事，復雜工作流更穩(wěn)了，錯誤恢復更強了，文檔推理、代碼審查、數(shù)據(jù)分析、長上下文任務(wù)都有明顯提升。

需要多留一個心眼的地方也已經(jīng)寫在官方說明里。

更高分辨率圖像會燒掉更多 Token，用戶用不到這些細節(jié)時，最好先壓縮圖片。

Opus 4.7 還換了分詞器（Tokenizer），同樣的輸入可能會多出大約 1.0 到 1.35 倍 Token，高 Effort 下輸出 Token 也會增加。

對直接在 Claude 應(yīng)用里聊天的普通用戶，這更多會體現(xiàn)在額度和響應(yīng)體驗上。

對使用龍蝦和Hermes Agent這類API的用戶和團隊客戶，這就是實打?qū)嵉某杀咀兞俊?/p>

好在價格方面，Opus 4.7和4.6與4.5保持了一致，沒有漲價，但這個價格本身其實就已經(jīng)足夠昂貴了...

Anthropic想傳遞的信號

已經(jīng)很清楚了

從 Opus 4.7 這次發(fā)布能看出，Anthropic 眼下押注的方向已經(jīng)很明確，長任務(wù)執(zhí)行、視覺理解、工具協(xié)同、少監(jiān)督交付，這幾項能力正在被打包成下一階段的大模型主戰(zhàn)場。

官方同步上線的 Xhigh Effort（思考程度介于 high 和 max 中間）、Task Nudgets 公測，以及 Claude Code 里的 /ultrareview，也都圍著這個方向在轉(zhuǎn)。

除了官網(wǎng)公告外，Claude也公布了Opus 4.7的系統(tǒng)卡，長達232頁，里面公布了更多值得關(guān)注的細節(jié)，限于篇幅再次我們不作展開。

對普通用戶來說，對Claude Opus 4.7更直接的感受會是，交代清楚以后，它更容易把事情做對，看圖更細，寫出來的東西更能直接拿去用。

大模型從會聊天走向會干活，這一步又往前挪了一大截。

真正能干好活的最強生產(chǎn)力模型，從Opus 4.6，變成了Opus 4.7。

參考資料：

https://www.anthropic.com/news/claude-opus-4-7

https://x.com/claudeai/status/2044785261393977612

https://cdn.sanity.io/files/4zrzovbb/website/037f06850df7fbe871e206dad004c3db5fd50340.pdf

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

長文問答準確率大漲 17% 后，Anthropic 把“不亂猜”做成了核心賣點

鈦媒體APP 2026-04-17 11:26:15
0 跟貼 0
Anthropic發(fā)布Claude Opus 4.7：金融分析能力登頂公開模型軟件工程、多模態(tài)全面進階

財聯(lián)社 2026-04-17 01:18:06
24 跟貼 24

Claude Code之父，公開Opus 4.7內(nèi)部使用技巧

智東西 2026-04-17 18:50:21
3 跟貼 3

單任務(wù)狂飆16小時！模型+Harness雙輪驅(qū)動，金融Agent跑通了

新智元 2026-04-17 21:12:05
2 跟貼 2
黃仁勛罕見發(fā)聲：AI搶不走所有工作，打工人別慌！

雷科技 2026-04-17 18:45:19
6 跟貼 6

RNA預測超95%專家，OpenAI發(fā)布生命科學大模型

智東西 2026-04-17 16:22:07
1 跟貼 1

Transformer與RNN合體，谷歌打下顯存門檻，解鎖超長上下文

機器之心Pro 2026-04-17 18:31:53
0 跟貼 0
Elephant走紅：AI開始為“Token浪費”算細賬

華爾街見聞官方 2026-04-17 16:51:57
0 跟貼 0

OpenAI Codex迎來更新：可排班可斷點續(xù)跑，還能直接操作Mac應(yīng)用

智東西 2026-04-17 19:43:05
0 跟貼 0
無錫機器人交警上路執(zhí)勤當?shù)亟还埽涸圏c投入兩臺，身高1.75米，單次充滿電可工作5小時

紅星新聞 2026-04-17 17:07:58
1858 跟貼 1858
支持遠程操控和通用GUI操作3

機器之心Pro 2026-03-02 13:36:13
0 跟貼 0
真正值錢的 AI，都長在業(yè)務(wù)里

虎嗅APP 2026-04-17 21:07:32
0 跟貼 0
π0.7來了！涌現(xiàn)出組合泛化、跨本體遷移能力，VLA又行了？

機器之心Pro 2026-04-17 18:23:23
0 跟貼 0
中國AI產(chǎn)業(yè)落地的新國企答卷

華商韜略 2026-04-17 22:35:02
0 跟貼 0
美團AI健康管家的商業(yè)邏輯拆解：從應(yīng)急購藥到健康管理延伸

華爾街見聞官方 2026-04-17 23:30:46
0 跟貼 0
Claude Opus 4.7深夜上線，評分碾壓

機器之心Pro 2026-04-17 10:08:00
1 跟貼 1
Claude Opus 4.7深夜炸場！勝任更長任務(wù)、自主檢查，視覺能力拉滿

智東西 2026-04-17 12:08:22
1 跟貼 1
上海的張大哥80年代去日本打工，一天比國內(nèi)一年掙得錢多

行者東談西說 2026-04-17 23:02:26
15 跟貼 15
小伙做生意多年的感受，掙富人的錢會更舒服，網(wǎng)友：買貴的人一般都好說話

星沙時報 2026-04-13 16:31:52
154 跟貼 154
大爺看似一直在配合，男子一停露出馬腳，干活得有個好搭檔！

歡樂生產(chǎn)地 2026-04-16 15:15:27
4 跟貼 4
境外間諜設(shè)連環(huán)計竊取研究所機密文件，國安與其展開驚險較量

挽衾距離 2026-04-14 02:33:15
0 跟貼 0
“如果你為孩子玩手機、玩游戲而發(fā)愁......”男子支招兒：給他配個臺式電腦，不斷設(shè)置阻礙，讓他自己琢磨，動手能力絕對強，編程課都不用上了

河南都市頻道 2026-04-16 17:21:38
37 跟貼 37
鐵飯碗擠爆高知，2.47 億人靈活就業(yè)，AI 正在改寫打工人命運

華山穹劍 2026-04-17 19:50:30
2 跟貼 2
一夜之間，打工人都被“煉化”了？

悲了傷的白犀牛 2026-04-17 17:01:32
0 跟貼 0
日本月薪42萬日元的打工人，要連續(xù)工作24小時，一天有多苦？

愛笑無厘頭 2026-04-15 14:56:44
1 跟貼 1
間諜策反中企員工致項目停工停產(chǎn) 國安機關(guān)披露詳情

極目新聞 2026-04-17 07:00:50
9804 跟貼 9804
上一個兄弟離職了，我接手了他的代碼，我承認沒憋住

環(huán)亞搞笑 2026-04-14 14:35:36
3 跟貼 3
清理船舶油箱，究竟有多危險！

小舒看看 2026-04-14 13:58:27
1 跟貼 1
80萬開店黃了又投40萬，小伙說寧可睡地板也要當老板

他是她的島熊 2026-04-17 07:47:18
0 跟貼 0
來看看日本打工人，是怎么蓋房子的

我們看看 2026-04-14 14:12:27
1 跟貼 1
教你如何一個人用AI做仙俠短劇

AK007設(shè)計師 2026-04-16 20:39:58
0 跟貼 0
打工人快速提氣色！這招真的絕了

祝曉晗 2026-04-15 08:30:00
5 跟貼 5
急招！！！

i金山 2026-04-17 15:44:00
0 跟貼 0
足壇那些頂級幻燈片停球，你認為誰才是足壇的停球天花板大師呢

第X個想法 2026-04-15 12:17:07
0 跟貼 0
農(nóng)村又出現(xiàn)稀罕事，小麥還沒成熟打工的就回來了，咋回事？

萌與懂天下 2026-04-16 03:09:01
0 跟貼 0
小仙女雨夜強行上車，車內(nèi)失控狂吼！

心在跳動n 2026-04-17 18:23:54
0 跟貼 0
女子聽到熟悉的汽車聲，激動地迎接打工回來的老公，網(wǎng)友：看得我鼻子一酸

星沙時報 2026-04-17 10:52:18
0 跟貼 0
單位不提供廁紙引打工人集體吐槽，員工心寒：公司可能真要不行了

星視頻 2026-04-17 11:34:07
0 跟貼 0
深夜時談武志紅：95%的打工人不快樂，靠壓力推動自己所以不開心

究竟視頻 2026-04-17 08:07:10
0 跟貼 0
男子花錢主打一個體驗，全程穩(wěn)如泰山，這才是享受！

瘋狂幽默俱樂部 2026-04-16 16:49:39
1 跟貼 1

新智元

AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代

14994文章數(shù) 66782關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

藝術(shù)

旅游

手機

軍事航空

家居要聞

手機 / 數(shù)碼

房產(chǎn) / 家居

Claude Opus 4.7連夜突襲：或?qū)屪呷?億打工人飯碗！

7家頭部平臺被罰沒35.97億元

知情人：伊朗為霍爾木茲海峽通行設(shè)定三個條件

知情人：伊朗為霍爾木茲海峽通行設(shè)定三個條件

中超-泰山1-1海港 楊希處子球克雷桑任意球扳平

劉德華摯友潘宏彬離世 曾一起租房住

"影子萬科"2.0：管理層如何吸血萬物云？

又快又穩(wěn)的開掛動力！ 阿維塔06T全系搭分布式電驅(qū)

態(tài)度原創(chuàng)

法式線條 時光靜淌

你絕對想不到！文森特的色粉作品竟如此驚艷！

三月三登泰山！蟠桃會+古風巡游驚艷出圈

vivo萬級電池新機曝光：10200mAh電池+90W快充，友商接得住嗎！

美宣布黎以停火10天 以方稱不會撤軍

中超-泰山1-1海港楊希處子球克雷桑任意球扳平

劉德華摯友潘宏彬離世曾一起租房住

又快又穩(wěn)的開掛動力！阿維塔06T全系搭分布式電驅(qū)

法式線條時光靜淌

美宣布黎以停火10天以方稱不會撤軍