337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

AI可以自審代碼了,Opus 4.7出手解決“屎山”

0
分享至

文 | 字母AI

別的AI廠商發模型,上來一定會告訴你“我們這次的產品多厲害多強大”。但Anthropic不一樣,他們說“我們有更強的,但先不能給你。”

于是在2026年4月17日,Anthropic發布了Claude Opus 4.7。

這次發布沒有太多懸念,官方博客按部就班地列出了跑分、能力提升和應用場景。但如果你仔細讀完整篇公告,會發現一些不太尋常的地方。

Opus 4.7緊跟在Anthropic的Project Glasswing和Mythos Preview之后。而上周他們剛剛宣布Mythos Preview因為網絡安全能力過強,暫時限制發布。

因此Opus 4.7被明確定位為“第一款用來測試新網絡安全護欄的公開模型”。

官方甚至還說,他們在訓練過程中實驗性地削弱了這個模型的網絡安全能力。

那Opus 4.7具體如何呢?

01 Opus 4.7的性能如何?

先說常規部分。

Opus 4.7在多個基準測試上超過了Opus 4.6,尤其是在高級軟件工程任務上。

官方圖表里,Opus 4.7在SWE-Bench Verified上為87.6%,Opus 4.6為80.8%;在更難的SWE-Bench Pro上,Opus 4.7為64.3%,Opus 4.6為53.4%;在Terminal-Bench 2.0上,Opus 4.7為69.4%,Opus 4.6為65.4%;Finance agent v11上,Opus 4.7為64.4%,Opus 4.6為60.1%。


讓我們用人話來解釋一下這一串數字:你現在可以把更復雜的編程工作交給Opus 4.7,它會更嚴謹地處理長時間運行的任務,更精確地遵循指令,還會在匯報之前想辦法驗證自己的輸出。

在Opus 4.7早期測試者的反饋里,有幾個點值得注意。

第一個是指令遵循能力大幅提升。

Opus 4.7會嚴格按照字面意思理解指令,而之前的模型往往會松散解讀或者跳過某些部分。

這聽起來是好事,但實際上可能帶來麻煩。其表現為Opus 4.7更“聽話”了,但這反而會讓一些舊提示詞失效。

以前的Claude可能會比較“會意”。你寫一個模糊指令,它會自動補全你的真實意圖,或者忽略一些不太重要、互相沖突、寫得不清楚的要求。很多用戶的提示詞,其實是在這種舊模型習慣上調出來的。

但Opus 4.7官方說,它更傾向于嚴格按字面意思執行指令。這樣一來,舊提示詞里那些以前被模型自動忽略的小細節,現在可能會被認真執行。而以前模型會靈活處理的模糊表達,現在反而會按最直接的方式理解。

結果就是模型明明更強了,但輸出反而和用戶預期不一樣。

第二個是多模態支持改進。

Opus 4.7可以接受長邊最高2576像素的圖像,大約3.75兆像素,是之前Claude模型的三倍多。

這不是普通的“識圖能力”升級,而是為了讓AI能看懂軟件界面,服務于Anthropic的Computer Use功能。

Opus 4.7的視覺升級,不是為了讓用戶問“這張圖里有什么”,而是為了讓agent能看懂軟件界面。

agent如果看不清密集表格、終端輸出、設計稿細節、代碼截圖,它的操作能力再強也沒用,因為它只知道怎么干活,卻不知道去哪上班。

Anthropic把圖像分辨率往上提,本質上是在給Claude裝更清楚的眼睛。

未來AI辦公、AI測試、AI安全、AI前端開發,很多任務都不是純文本任務,而是屏幕任務。

第三個是實際工作表現。

內部測試顯示,Opus 4.7在金融分析任務上比Opus 4.6更有效,能產出更嚴謹的分析和模型、更專業的演示文稿,以及更緊密的跨任務整合。

它在GPQAval-AA這個第三方評估中也是最高分,這是一個覆蓋金融、法律等領域的評估。

第四個是記憶能力。

Opus 4.7更會使用基于文件系統的記憶。它能在長周期、多會話的工作中記住重要筆記,后續任務需要的前置信息更少。

這個點在官方公告里不顯眼,但我認為可能是長期使用中最關鍵的一個更新特性。

一個能跨會話記住項目約束、用戶偏好、架構決策和上次失敗原因的agent,才可能從“聰明臨時工”變成“穩定同事”。

安全性和對齊方面,Opus 4.7和Opus 4.6的整體表現相似。

它在誠實度和抵抗惡意提示注入攻擊的能力上有所提升,在給出危害建議的能力上有所下降,比如如何制作使用管制刀具這類問題。

官方的對齊評估結論是,這個模型“基本對齊且值得信賴,但行為上還不完全理想”。

價格方面,Opus 4.7和Opus 4.6保持一致。輸入每百萬token 5美元,輸出每百萬token 25美元。

但遷移指南里提到了兩個成本變化。新的tokenizer可能讓相同輸入變成1.0到1.35倍的token。在強思考模式下,尤其是agent的多輪對話,模型會思考更多,輸出的token也可能更多。

所以這就是Anthropic耍小心思的地方了,名義上價格確實沒變,但跑多了就會變貴。

過去模型計費主要看輸入輸出長度,現在還要看思考的等級、任務預算、agent跑了幾輪、工具失敗后有沒有繼續推理。

Anthropic新增的x-high effort和task budgets,說明高端模型的使用方式正在走當年云計算的那套邏輯。你買的不是一次回答,而是在給一個會思考、會試錯、會驗證的任務過程付費。

02 Anthropic為何會發布閹割模型?

話又說回來,Opus 4.7的真正賣點之一,恰恰是它沒有完全釋放能力。

這聽起來有點反直覺,但可能是下一代模型公司的常態。

模型越接近真實生產環境,越不能只追求更強。它要知道哪些事能做、哪些事不能做、哪些用戶能開放更多權限,哪些請求必須攔住。

Anthropic在發布Opus 4.7的同時,推出了Cyber Verification Program。

這個項目本質上是在給能力分級。普通用戶拿到的是有護欄的Opus,經過驗證的安全專家才能申請更寬的網絡安全用途。

模型會自動檢測和阻止那些表明禁止或高風險網絡安全用途的請求。

Anthropic說,他們會從Opus 4.7的真實部署中學習,為未來Mythos級別模型的廣泛發布做準備。

不得不說還是Anthropic會玩,他們認為Opus目前的能力是過剩的,所以他們就把安全這件事,變成了產品能力。

過去幾年,AI公司的競爭邏輯是“我比你強”。跑分更高、參數更多、能做的事更復雜。但當模型能力達到某個臨界點后,這個邏輯開始失效。

一個在網絡安全測試中表現太好的模型,可能意味著它也能被惡意使用。一個完全不設限的agent,就有可能會在用戶不知情的情況下做出危險決策。

Anthropic選擇的路徑是,先把最強的模型鎖起來,用稍弱但足夠好的模型來測試安全機制。這不是技術上做不到,而是主動選擇不做。這種“克制”本身成了產品差異化的一部分。

這個策略能不能成功,取決于市場是否認可“謹慎”這個概念。

如果用戶只在乎“能不能做到”,那Anthropic的做法會顯得保守。但如果企業客戶開始重視“會不會出事”,那這種分級發布、主動削弱某些能力的做法,反而可能成為競爭優勢。

在發布Opus 4.7的同時,Anthropic還更新了Claude Code,新增了auto mode和/ultrareview功能。

auto mode不是模型自動選型,而是權限選項。它允許Claude替用戶做一些權限決策,讓長任務少被打斷,但風險低于完全跳過權限確認。

這個設計針對的是agent產品的核心矛盾:問太多,agent像實習生;不問,風險又太大。

agent時代最難設計的按鈕,不是“開始”,而是“允許”。

過去AI只是回答問題,權限很少。

現在它要改代碼、讀文件、跑命令、開網頁、提交PR,每一步都牽涉風險。

如果每個操作都要用戶確認,agent的自主性就失去了意義。但如果完全放手,用戶又會擔心AI做出不可逆的錯誤決策。

auto mode的本質,就是在“別煩我”和“別亂來”之間找平衡。

它會根據操作的風險級別,決定是自動執行、提示用戶、還是要求明確授權。

這也是agent從“能干什么”,到“能不能用”之間巨大的飛躍。

/ultrareview是一個專門的代碼審查會話,讀取變更并指出bug和設計問題。

這個功能可比寫代碼好玩多了,因為它說明AI編程正式進入了第二階段,讓AI自己審查AI自己生成的代碼。

AI寫代碼已經不稀奇,真正稀缺的是AI能不能審自己的代碼。

/ultrareview像是Anthropic給Claude Code補上的第二雙眼睛。

一個agent負責寫,另一個更謹慎的會話負責審。

不用看數據我都能猜到,這兩個功能一定是高頻功能。因為本質上,這兩個功能過去就是所有使用Claude Code的程序員干的活。

生成代碼只是開發流程的一部分,審查、測試、重構、文檔同樣重要。如果AI只能做第一步,它永遠只是輔助工具。如果它能參與整個流程,它才可能真正改變軟件開發的方式。

這次發布還有一個細節值得注意。官方在遷移指南里專門提醒廣大用戶,Opus 4.7的token使用可能增加,但在實際編程評估中,整體效率反而提升了。

這說明他們在優化的不是單次調用的成本,而是完成任務的總成本。一個agent如果第一次就把事情做對,即使單次調用貴一點,總成本也比反復試錯要低。

這是一種更成熟的產品思路。早期AI產品追求的是“便宜”和“快”,現在開始追求“靠譜”。

Opus 4.7不是最強的模型,Anthropic也沒有把它包裝成最強的模型。

它是在能力、安全、成本之間的一個平衡點。但是說它是不是真的平衡,我不知道,這個要等市場來驗證。

至少在發布策略上,Anthropic給出了一種新思路,因為有時候“不做什么”比“能做什么”更重要。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
伊朗稱其補充武器能力在停火期間超過戰前水平

伊朗稱其補充武器能力在停火期間超過戰前水平

新華社
2026-04-19 18:49:07
心態崩了?福法納被換下時拒絕與教練握手,徑直走向更衣室

心態崩了?福法納被換下時拒絕與教練握手,徑直走向更衣室

懂球帝
2026-04-20 02:20:13
“這種孩子,注定被教育淘汰!”男孩在醫院的一幕,令人看清現實

“這種孩子,注定被教育淘汰!”男孩在醫院的一幕,令人看清現實

妍妍教育日記
2026-04-11 08:45:08
馬筱梅怨氣大到嚇人!警告小楊阿姨請假自己開播公布,別給她招黑

馬筱梅怨氣大到嚇人!警告小楊阿姨請假自己開播公布,別給她招黑

小娛樂悠悠
2026-04-19 09:15:51
長期被冤枉的5個好東西,以為有害,其實超健康,別再被騙了!

長期被冤枉的5個好東西,以為有害,其實超健康,別再被騙了!

Home范
2026-04-14 11:14:17
120師旅長名單公布后,不少老紅軍不服,毛主席:誰反對都沒有用

120師旅長名單公布后,不少老紅軍不服,毛主席:誰反對都沒有用

小莜讀史
2026-04-19 14:07:39
要同居了?太陽報:漢密爾頓和卡戴珊被拍到一起購買家居用品

要同居了?太陽報:漢密爾頓和卡戴珊被拍到一起購買家居用品

懂球帝
2026-04-17 14:04:19
舒淇不再隱瞞!多年無子的她終于承認:我們不是丁克,是生不出來

舒淇不再隱瞞!多年無子的她終于承認:我們不是丁克,是生不出來

長歌侃娛
2026-04-19 09:54:43
自責!馬卡:皇馬球員怒氣沖沖回到更衣室,看到卡馬文加獨自痛哭

自責!馬卡:皇馬球員怒氣沖沖回到更衣室,看到卡馬文加獨自痛哭

蘭亭墨未干
2026-04-19 20:15:03
我國摧毀特大假酒網絡:查獲近2萬箱、涉案2.6億元,多在直播間銷售

我國摧毀特大假酒網絡:查獲近2萬箱、涉案2.6億元,多在直播間銷售

金融界
2026-04-19 14:16:10
2026中超聯賽第7輪,上海申花主場迎戰青島海牛比賽結果前

2026中超聯賽第7輪,上海申花主場迎戰青島海牛比賽結果前

小鞄搞笑解說
2026-04-19 17:30:15
為什么有人天生吃不胖?Nature子刊研究:關鍵在父母受孕季節

為什么有人天生吃不胖?Nature子刊研究:關鍵在父母受孕季節

時光派長壽觀察
2026-04-13 18:20:03
世乒賽迎來突發狀況!梁靖崑面臨退賽可能,國乒奪冠難度越來越大

世乒賽迎來突發狀況!梁靖崑面臨退賽可能,國乒奪冠難度越來越大

萌萌運動薈
2026-04-19 22:38:15
郭晶晶也沒想到,拒嫁霍家的吳敏霞,如今靠著女兒再次口碑暴增

郭晶晶也沒想到,拒嫁霍家的吳敏霞,如今靠著女兒再次口碑暴增

杰絲聊古今
2026-04-18 14:37:09
張家界“愛國賊事件”:傻X式愛國,是個巨大禍害

張家界“愛國賊事件”:傻X式愛國,是個巨大禍害

麥大人
2025-10-13 15:29:56
18歲姐妹花接受“潛規則”后,先陪導演睡,2013年再陪投資人纏綿

18歲姐妹花接受“潛規則”后,先陪導演睡,2013年再陪投資人纏綿

漢史趣聞
2026-04-19 15:08:31
《飛馳人生3》全球票房第一!超越阿凡達3

《飛馳人生3》全球票房第一!超越阿凡達3

阿廢冷眼觀察所
2026-04-20 01:23:13
敲詐中國10億美元、拒絕中國飛機借道,如今這個國家又找上中國!

敲詐中國10億美元、拒絕中國飛機借道,如今這個國家又找上中國!

春序娛樂
2026-04-20 04:52:53
徐湖平幾近葬送臺北故宮文物回歸之路

徐湖平幾近葬送臺北故宮文物回歸之路

雪中風車
2026-04-19 08:36:53
睡前默念這5個字,百歲高僧開示:這是最簡單的“修心聚能”法

睡前默念這5個字,百歲高僧開示:這是最簡單的“修心聚能”法

溫情郵局
2026-03-31 09:34:25
2026-04-20 05:51:00
鈦媒體APP incentive-icons
鈦媒體APP
獨立財經科技媒體
132476文章數 862107關注度
往期回顧 全部

科技要聞

50分26秒破人類紀錄!300臺機器人狂飆半馬

頭條要聞

特朗普:美艦武力攔截伊朗貨船 在機艙炸出一個洞

頭條要聞

特朗普:美艦武力攔截伊朗貨船 在機艙炸出一個洞

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

何潤東漲粉百萬!內娛隔空掀桌第一人

財經要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬 極氪8X為什么這么多人買?

態度原創

健康
教育
旅游
房產
時尚

干細胞抗衰4大誤區,90%的人都中招

教育要聞

南昌縣全民閱讀活動在斗柏路小學開展

旅游要聞

北京投入2.2億元建成和田“三館一院”

房產要聞

官宣簽約最強城更!海口樓市,突然殺入神秘房企!

裝修“精神角落”,就是這么上癮

無障礙瀏覽 進入關懷版