網易首頁 > 網易號 > 正文申請入駐

AI可以自審代碼了，Opus 4.7出手解決“屎山”

2026-04-17 09:30:10　來源: 鈦媒體APP

北京舉報

分享至

文 | 字母AI

別的AI廠商發模型，上來一定會告訴你“我們這次的產品多厲害多強大”。但Anthropic不一樣，他們說“我們有更強的，但先不能給你。”

于是在2026年4月17日，Anthropic發布了Claude Opus 4.7。

這次發布沒有太多懸念，官方博客按部就班地列出了跑分、能力提升和應用場景。但如果你仔細讀完整篇公告，會發現一些不太尋常的地方。

Opus 4.7緊跟在Anthropic的Project Glasswing和Mythos Preview之后。而上周他們剛剛宣布Mythos Preview因為網絡安全能力過強，暫時限制發布。

因此Opus 4.7被明確定位為“第一款用來測試新網絡安全護欄的公開模型”。

官方甚至還說，他們在訓練過程中實驗性地削弱了這個模型的網絡安全能力。

那Opus 4.7具體如何呢？

01 Opus 4.7的性能如何？

先說常規部分。

Opus 4.7在多個基準測試上超過了Opus 4.6，尤其是在高級軟件工程任務上。

官方圖表里，Opus 4.7在SWE-Bench Verified上為87.6%，Opus 4.6為80.8%；在更難的SWE-Bench Pro上，Opus 4.7為64.3%，Opus 4.6為53.4%；在Terminal-Bench 2.0上，Opus 4.7為69.4%，Opus 4.6為65.4%；Finance agent v11上，Opus 4.7為64.4%，Opus 4.6為60.1%。

讓我們用人話來解釋一下這一串數字：你現在可以把更復雜的編程工作交給Opus 4.7，它會更嚴謹地處理長時間運行的任務，更精確地遵循指令，還會在匯報之前想辦法驗證自己的輸出。

在Opus 4.7早期測試者的反饋里，有幾個點值得注意。

第一個是指令遵循能力大幅提升。

Opus 4.7會嚴格按照字面意思理解指令，而之前的模型往往會松散解讀或者跳過某些部分。

這聽起來是好事，但實際上可能帶來麻煩。其表現為Opus 4.7更“聽話”了，但這反而會讓一些舊提示詞失效。

以前的Claude可能會比較“會意”。你寫一個模糊指令，它會自動補全你的真實意圖，或者忽略一些不太重要、互相沖突、寫得不清楚的要求。很多用戶的提示詞，其實是在這種舊模型習慣上調出來的。

但Opus 4.7官方說，它更傾向于嚴格按字面意思執行指令。這樣一來，舊提示詞里那些以前被模型自動忽略的小細節，現在可能會被認真執行。而以前模型會靈活處理的模糊表達，現在反而會按最直接的方式理解。

結果就是模型明明更強了，但輸出反而和用戶預期不一樣。

第二個是多模態支持改進。

Opus 4.7可以接受長邊最高2576像素的圖像，大約3.75兆像素，是之前Claude模型的三倍多。

這不是普通的“識圖能力”升級，而是為了讓AI能看懂軟件界面，服務于Anthropic的Computer Use功能。

Opus 4.7的視覺升級，不是為了讓用戶問“這張圖里有什么”，而是為了讓agent能看懂軟件界面。

agent如果看不清密集表格、終端輸出、設計稿細節、代碼截圖，它的操作能力再強也沒用，因為它只知道怎么干活，卻不知道去哪上班。

Anthropic把圖像分辨率往上提，本質上是在給Claude裝更清楚的眼睛。

未來AI辦公、AI測試、AI安全、AI前端開發，很多任務都不是純文本任務，而是屏幕任務。

第三個是實際工作表現。

內部測試顯示，Opus 4.7在金融分析任務上比Opus 4.6更有效，能產出更嚴謹的分析和模型、更專業的演示文稿，以及更緊密的跨任務整合。

它在GPQAval-AA這個第三方評估中也是最高分，這是一個覆蓋金融、法律等領域的評估。

第四個是記憶能力。

Opus 4.7更會使用基于文件系統的記憶。它能在長周期、多會話的工作中記住重要筆記，后續任務需要的前置信息更少。

這個點在官方公告里不顯眼，但我認為可能是長期使用中最關鍵的一個更新特性。

一個能跨會話記住項目約束、用戶偏好、架構決策和上次失敗原因的agent，才可能從“聰明臨時工”變成“穩定同事”。

安全性和對齊方面，Opus 4.7和Opus 4.6的整體表現相似。

它在誠實度和抵抗惡意提示注入攻擊的能力上有所提升，在給出危害建議的能力上有所下降，比如如何制作使用管制刀具這類問題。

官方的對齊評估結論是，這個模型“基本對齊且值得信賴，但行為上還不完全理想”。

價格方面，Opus 4.7和Opus 4.6保持一致。輸入每百萬token 5美元，輸出每百萬token 25美元。

但遷移指南里提到了兩個成本變化。新的tokenizer可能讓相同輸入變成1.0到1.35倍的token。在強思考模式下，尤其是agent的多輪對話，模型會思考更多，輸出的token也可能更多。

所以這就是Anthropic耍小心思的地方了，名義上價格確實沒變，但跑多了就會變貴。

過去模型計費主要看輸入輸出長度，現在還要看思考的等級、任務預算、agent跑了幾輪、工具失敗后有沒有繼續推理。

Anthropic新增的x-high effort和task budgets，說明高端模型的使用方式正在走當年云計算的那套邏輯。你買的不是一次回答，而是在給一個會思考、會試錯、會驗證的任務過程付費。

02 Anthropic為何會發布閹割模型？

話又說回來，Opus 4.7的真正賣點之一，恰恰是它沒有完全釋放能力。

這聽起來有點反直覺，但可能是下一代模型公司的常態。

模型越接近真實生產環境，越不能只追求更強。它要知道哪些事能做、哪些事不能做、哪些用戶能開放更多權限，哪些請求必須攔住。

Anthropic在發布Opus 4.7的同時，推出了Cyber Verification Program。

這個項目本質上是在給能力分級。普通用戶拿到的是有護欄的Opus，經過驗證的安全專家才能申請更寬的網絡安全用途。

模型會自動檢測和阻止那些表明禁止或高風險網絡安全用途的請求。

Anthropic說，他們會從Opus 4.7的真實部署中學習，為未來Mythos級別模型的廣泛發布做準備。

不得不說還是Anthropic會玩，他們認為Opus目前的能力是過剩的，所以他們就把安全這件事，變成了產品能力。

過去幾年，AI公司的競爭邏輯是“我比你強”。跑分更高、參數更多、能做的事更復雜。但當模型能力達到某個臨界點后，這個邏輯開始失效。

一個在網絡安全測試中表現太好的模型，可能意味著它也能被惡意使用。一個完全不設限的agent，就有可能會在用戶不知情的情況下做出危險決策。

Anthropic選擇的路徑是，先把最強的模型鎖起來，用稍弱但足夠好的模型來測試安全機制。這不是技術上做不到，而是主動選擇不做。這種“克制”本身成了產品差異化的一部分。

這個策略能不能成功，取決于市場是否認可“謹慎”這個概念。

如果用戶只在乎“能不能做到”，那Anthropic的做法會顯得保守。但如果企業客戶開始重視“會不會出事”，那這種分級發布、主動削弱某些能力的做法，反而可能成為競爭優勢。

在發布Opus 4.7的同時，Anthropic還更新了Claude Code，新增了auto mode和/ultrareview功能。

auto mode不是模型自動選型，而是權限選項。它允許Claude替用戶做一些權限決策，讓長任務少被打斷，但風險低于完全跳過權限確認。

這個設計針對的是agent產品的核心矛盾：問太多，agent像實習生；不問，風險又太大。

agent時代最難設計的按鈕，不是“開始”，而是“允許”。

過去AI只是回答問題，權限很少。

現在它要改代碼、讀文件、跑命令、開網頁、提交PR，每一步都牽涉風險。

如果每個操作都要用戶確認，agent的自主性就失去了意義。但如果完全放手，用戶又會擔心AI做出不可逆的錯誤決策。

auto mode的本質，就是在“別煩我”和“別亂來”之間找平衡。

它會根據操作的風險級別，決定是自動執行、提示用戶、還是要求明確授權。

這也是agent從“能干什么”，到“能不能用”之間巨大的飛躍。

/ultrareview是一個專門的代碼審查會話，讀取變更并指出bug和設計問題。

這個功能可比寫代碼好玩多了，因為它說明AI編程正式進入了第二階段，讓AI自己審查AI自己生成的代碼。

AI寫代碼已經不稀奇，真正稀缺的是AI能不能審自己的代碼。

/ultrareview像是Anthropic給Claude Code補上的第二雙眼睛。

一個agent負責寫，另一個更謹慎的會話負責審。

不用看數據我都能猜到，這兩個功能一定是高頻功能。因為本質上，這兩個功能過去就是所有使用Claude Code的程序員干的活。

生成代碼只是開發流程的一部分，審查、測試、重構、文檔同樣重要。如果AI只能做第一步，它永遠只是輔助工具。如果它能參與整個流程，它才可能真正改變軟件開發的方式。

這次發布還有一個細節值得注意。官方在遷移指南里專門提醒廣大用戶，Opus 4.7的token使用可能增加，但在實際編程評估中，整體效率反而提升了。

這說明他們在優化的不是單次調用的成本，而是完成任務的總成本。一個agent如果第一次就把事情做對，即使單次調用貴一點，總成本也比反復試錯要低。

這是一種更成熟的產品思路。早期AI產品追求的是“便宜”和“快”，現在開始追求“靠譜”。

Opus 4.7不是最強的模型，Anthropic也沒有把它包裝成最強的模型。

它是在能力、安全、成本之間的一個平衡點。但是說它是不是真的平衡，我不知道，這個要等市場來驗證。

至少在發布策略上，Anthropic給出了一種新思路，因為有時候“不做什么”比“能做什么”更重要。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.