文 | 字母AI
別的AI廠商發模型,上來一定會告訴你“我們這次的產品多厲害多強大”。但Anthropic不一樣,他們說“我們有更強的,但先不能給你。”
于是在2026年4月17日,Anthropic發布了Claude Opus 4.7。
這次發布沒有太多懸念,官方博客按部就班地列出了跑分、能力提升和應用場景。但如果你仔細讀完整篇公告,會發現一些不太尋常的地方。
Opus 4.7緊跟在Anthropic的Project Glasswing和Mythos Preview之后。而上周他們剛剛宣布Mythos Preview因為網絡安全能力過強,暫時限制發布。
因此Opus 4.7被明確定位為“第一款用來測試新網絡安全護欄的公開模型”。
官方甚至還說,他們在訓練過程中實驗性地削弱了這個模型的網絡安全能力。
那Opus 4.7具體如何呢?
01 Opus 4.7的性能如何?
先說常規部分。
Opus 4.7在多個基準測試上超過了Opus 4.6,尤其是在高級軟件工程任務上。
官方圖表里,Opus 4.7在SWE-Bench Verified上為87.6%,Opus 4.6為80.8%;在更難的SWE-Bench Pro上,Opus 4.7為64.3%,Opus 4.6為53.4%;在Terminal-Bench 2.0上,Opus 4.7為69.4%,Opus 4.6為65.4%;Finance agent v11上,Opus 4.7為64.4%,Opus 4.6為60.1%。
![]()
讓我們用人話來解釋一下這一串數字:你現在可以把更復雜的編程工作交給Opus 4.7,它會更嚴謹地處理長時間運行的任務,更精確地遵循指令,還會在匯報之前想辦法驗證自己的輸出。
在Opus 4.7早期測試者的反饋里,有幾個點值得注意。
第一個是指令遵循能力大幅提升。
Opus 4.7會嚴格按照字面意思理解指令,而之前的模型往往會松散解讀或者跳過某些部分。
這聽起來是好事,但實際上可能帶來麻煩。其表現為Opus 4.7更“聽話”了,但這反而會讓一些舊提示詞失效。
以前的Claude可能會比較“會意”。你寫一個模糊指令,它會自動補全你的真實意圖,或者忽略一些不太重要、互相沖突、寫得不清楚的要求。很多用戶的提示詞,其實是在這種舊模型習慣上調出來的。
但Opus 4.7官方說,它更傾向于嚴格按字面意思執行指令。這樣一來,舊提示詞里那些以前被模型自動忽略的小細節,現在可能會被認真執行。而以前模型會靈活處理的模糊表達,現在反而會按最直接的方式理解。
結果就是模型明明更強了,但輸出反而和用戶預期不一樣。
第二個是多模態支持改進。
Opus 4.7可以接受長邊最高2576像素的圖像,大約3.75兆像素,是之前Claude模型的三倍多。
這不是普通的“識圖能力”升級,而是為了讓AI能看懂軟件界面,服務于Anthropic的Computer Use功能。
Opus 4.7的視覺升級,不是為了讓用戶問“這張圖里有什么”,而是為了讓agent能看懂軟件界面。
agent如果看不清密集表格、終端輸出、設計稿細節、代碼截圖,它的操作能力再強也沒用,因為它只知道怎么干活,卻不知道去哪上班。
Anthropic把圖像分辨率往上提,本質上是在給Claude裝更清楚的眼睛。
未來AI辦公、AI測試、AI安全、AI前端開發,很多任務都不是純文本任務,而是屏幕任務。
第三個是實際工作表現。
內部測試顯示,Opus 4.7在金融分析任務上比Opus 4.6更有效,能產出更嚴謹的分析和模型、更專業的演示文稿,以及更緊密的跨任務整合。
它在GPQAval-AA這個第三方評估中也是最高分,這是一個覆蓋金融、法律等領域的評估。
第四個是記憶能力。
Opus 4.7更會使用基于文件系統的記憶。它能在長周期、多會話的工作中記住重要筆記,后續任務需要的前置信息更少。
這個點在官方公告里不顯眼,但我認為可能是長期使用中最關鍵的一個更新特性。
一個能跨會話記住項目約束、用戶偏好、架構決策和上次失敗原因的agent,才可能從“聰明臨時工”變成“穩定同事”。
安全性和對齊方面,Opus 4.7和Opus 4.6的整體表現相似。
它在誠實度和抵抗惡意提示注入攻擊的能力上有所提升,在給出危害建議的能力上有所下降,比如如何制作使用管制刀具這類問題。
官方的對齊評估結論是,這個模型“基本對齊且值得信賴,但行為上還不完全理想”。
價格方面,Opus 4.7和Opus 4.6保持一致。輸入每百萬token 5美元,輸出每百萬token 25美元。
但遷移指南里提到了兩個成本變化。新的tokenizer可能讓相同輸入變成1.0到1.35倍的token。在強思考模式下,尤其是agent的多輪對話,模型會思考更多,輸出的token也可能更多。
所以這就是Anthropic耍小心思的地方了,名義上價格確實沒變,但跑多了就會變貴。
過去模型計費主要看輸入輸出長度,現在還要看思考的等級、任務預算、agent跑了幾輪、工具失敗后有沒有繼續推理。
Anthropic新增的x-high effort和task budgets,說明高端模型的使用方式正在走當年云計算的那套邏輯。你買的不是一次回答,而是在給一個會思考、會試錯、會驗證的任務過程付費。
02 Anthropic為何會發布閹割模型?
話又說回來,Opus 4.7的真正賣點之一,恰恰是它沒有完全釋放能力。
這聽起來有點反直覺,但可能是下一代模型公司的常態。
模型越接近真實生產環境,越不能只追求更強。它要知道哪些事能做、哪些事不能做、哪些用戶能開放更多權限,哪些請求必須攔住。
Anthropic在發布Opus 4.7的同時,推出了Cyber Verification Program。
這個項目本質上是在給能力分級。普通用戶拿到的是有護欄的Opus,經過驗證的安全專家才能申請更寬的網絡安全用途。
模型會自動檢測和阻止那些表明禁止或高風險網絡安全用途的請求。
Anthropic說,他們會從Opus 4.7的真實部署中學習,為未來Mythos級別模型的廣泛發布做準備。
不得不說還是Anthropic會玩,他們認為Opus目前的能力是過剩的,所以他們就把安全這件事,變成了產品能力。
過去幾年,AI公司的競爭邏輯是“我比你強”。跑分更高、參數更多、能做的事更復雜。但當模型能力達到某個臨界點后,這個邏輯開始失效。
一個在網絡安全測試中表現太好的模型,可能意味著它也能被惡意使用。一個完全不設限的agent,就有可能會在用戶不知情的情況下做出危險決策。
Anthropic選擇的路徑是,先把最強的模型鎖起來,用稍弱但足夠好的模型來測試安全機制。這不是技術上做不到,而是主動選擇不做。這種“克制”本身成了產品差異化的一部分。
這個策略能不能成功,取決于市場是否認可“謹慎”這個概念。
如果用戶只在乎“能不能做到”,那Anthropic的做法會顯得保守。但如果企業客戶開始重視“會不會出事”,那這種分級發布、主動削弱某些能力的做法,反而可能成為競爭優勢。
在發布Opus 4.7的同時,Anthropic還更新了Claude Code,新增了auto mode和/ultrareview功能。
auto mode不是模型自動選型,而是權限選項。它允許Claude替用戶做一些權限決策,讓長任務少被打斷,但風險低于完全跳過權限確認。
這個設計針對的是agent產品的核心矛盾:問太多,agent像實習生;不問,風險又太大。
agent時代最難設計的按鈕,不是“開始”,而是“允許”。
過去AI只是回答問題,權限很少。
現在它要改代碼、讀文件、跑命令、開網頁、提交PR,每一步都牽涉風險。
如果每個操作都要用戶確認,agent的自主性就失去了意義。但如果完全放手,用戶又會擔心AI做出不可逆的錯誤決策。
auto mode的本質,就是在“別煩我”和“別亂來”之間找平衡。
它會根據操作的風險級別,決定是自動執行、提示用戶、還是要求明確授權。
這也是agent從“能干什么”,到“能不能用”之間巨大的飛躍。
/ultrareview是一個專門的代碼審查會話,讀取變更并指出bug和設計問題。
這個功能可比寫代碼好玩多了,因為它說明AI編程正式進入了第二階段,讓AI自己審查AI自己生成的代碼。
AI寫代碼已經不稀奇,真正稀缺的是AI能不能審自己的代碼。
/ultrareview像是Anthropic給Claude Code補上的第二雙眼睛。
一個agent負責寫,另一個更謹慎的會話負責審。
不用看數據我都能猜到,這兩個功能一定是高頻功能。因為本質上,這兩個功能過去就是所有使用Claude Code的程序員干的活。
生成代碼只是開發流程的一部分,審查、測試、重構、文檔同樣重要。如果AI只能做第一步,它永遠只是輔助工具。如果它能參與整個流程,它才可能真正改變軟件開發的方式。
這次發布還有一個細節值得注意。官方在遷移指南里專門提醒廣大用戶,Opus 4.7的token使用可能增加,但在實際編程評估中,整體效率反而提升了。
這說明他們在優化的不是單次調用的成本,而是完成任務的總成本。一個agent如果第一次就把事情做對,即使單次調用貴一點,總成本也比反復試錯要低。
這是一種更成熟的產品思路。早期AI產品追求的是“便宜”和“快”,現在開始追求“靠譜”。
Opus 4.7不是最強的模型,Anthropic也沒有把它包裝成最強的模型。
它是在能力、安全、成本之間的一個平衡點。但是說它是不是真的平衡,我不知道,這個要等市場來驗證。
至少在發布策略上,Anthropic給出了一種新思路,因為有時候“不做什么”比“能做什么”更重要。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.