337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

Claude Opus 4.7深夜炸場!勝任更長任務、自主檢查,視覺能力拉滿

0
分享至


智東西
編譯 楊京麗
編輯 李水青

智東西4月17日報道,昨天夜間,Anthropic發布新一代旗艦大模型Claude Opus 4.7。


▲Anthropic發布新模型Claude Opus 4.7(圖源:X)

該模型在高級軟件工程方面相比Opus 4.6有顯著提升,尤其在處理最復雜的任務時提升明顯;高分辨率圖像處理能力大幅提升,是此前Claude模型的3倍以上;此外,Claude Code還同步新增了/ultrareview代碼審查命令,輸入后會啟動審查會話,逐行檢查代碼變更。

用戶反饋稱,他們可以放心地將最難的編碼工作交給Opus 4.7處理。Opus 4.7能夠嚴謹一致地處理復雜的長時間運行任務,精確遵循指令,并在匯報結果之前自行驗證輸出。

Opus 4.7今日起在所有Claude產品和API、Amazon Bedrock、谷歌云Vertex AI以及Microsoft Foundry上線。定價與Opus 4.6一致:輸入每百萬token 5美元(約合人民幣34元),輸出每百萬token 25美元(約合人民幣170.5元)。開發者可通過Claude API使用claude-opus-4-7。

不得不說,Claude最近更新實在是快,大家都跟不上了,網友在Claude的評論區下面刷起了表情包,“兩眼一睜,Claude又更新了”。


▲網友評論Claude推文(圖源:X)

一、更嚴格執行指令,多模態支持增強

測試中,Claude Opus 4.7在以下幾個方面表現突出,顯著超越Opus 4.6:

1、指令遵循。Opus 4.7在遵循指令方面有顯著提升。以前的模型會寬松地解讀指令或完全跳過部分內容,而Opus 4.7會按字面意思執行指令。用戶應相應地重新調優提示詞和應用框架。

2、多模態支持增強。Opus 4.7對高分辨率圖像的視覺能力更強:它可以接受長邊最高2576像素(約375萬像素)的圖像,是此前Claude模型的3倍以上。這為依賴精細視覺細節的多模態應用開辟了廣闊的空間:比如用Agent操作電腦時識別密集的屏幕截圖、從復雜圖表中提取數據、以及需要像素級精度的設計工作等。

3、實際工作。除了在金融Agent評測中取得最優成績外,Anthropic內部測試顯示Opus 4.7是比Opus 4.6更有效的金融分析師,能產出更嚴謹的分析和模型、更專業的演示文稿,能做到更緊密地進行跨任務整合。Opus 4.7在金融、法律等領域的第三方經濟價值知識工作評測GDPval-AA上也達到了最優水平。

4、記憶能力。Opus 4.7在使用基于文件系統的記憶方面更強。它能在長時間、多會話的工作中記住重要筆記,并利用這些記憶來推進新任務,從而減少對前置上下文的需求。


▲Opus 4.7模型基準測試表現(圖源:Anthropic)

Opus 4.7獲得了部分早期測試者的積極反饋。財務軟件公司Intuit技術副總裁Clarence Huang稱,該模型能在規劃階段自行發現邏輯錯誤,執行速度也遠超前代。AI編程工具公司Augment Code的CTO Igor Ostrovsky則認為,Opus 4.7的優勢在于它能處理好實際工作中的自動化流程、CI/CD(持續集成與部署)和長任務流程,且會主動給出自己的判斷,而非一味附和用戶。

二、多項測評領先,生物推理、文檔推理提升顯著

Anthropic在預發布測試中,針對不同領域對Opus 4.7進行了測評,并對比了Opus 4.6、GPT-5.4和Gemini 3.1 Pro。


生物推理進步最為明顯,Opus 4.7得分74.0%,Opus 4.6僅30.9%,提升了1.4倍。


文檔推理方面,Opus 4.7得分80.6%,遠超Opus 4.6的57.1%,也大幅領先GPT-5.4(51.1%)和Gemini 3.1 Pro(42.9%),是橫評中差距最明顯的項目之一。


另外,知識工作方面,Opus 4.7以1753的Elo分數排名第一,領先明顯,超過GPT-5.4(1674)、Opus 4.6(1619)、Gemini 3.1 Pro(1314)。


長上下文推理方面,在處理較簡單的父節點查找任務(Parents 1M)時,Opus 4.7得分75.1%,Opus 4.6為71.1%,差距不大;但處理更難的廣度優先搜索任務(BFS 1M)時,Opus 4.7得分58.6%,Opus4.6僅41.2%,拉開了17個百分點。越難的任務,模型提升效果越明顯。


安全與對齊方面,Anthropic還公布了各模型的錯位行為評分。Opus 4.7的錯位行為得分約為2.47(滿分10分,越低越好),略優于Opus 4.6的2.75,但與Mythos Preview的1.78仍有明顯差距。

總體而言,Opus 4.7 的安全性能與 Opus 4.6 相似,其出現欺騙、奉承和與濫用者合作等行為比例較低。Anthropic對此評價:“Opus 4.7總體對齊良好且值得信賴,但行為并非完全理想。”目前,對齊表現最好的Mythos Preview尚未全面開放。

三、其他更新:新增xhigh等級、審查命令,任務預算進入公測

除Opus 4.7本身外,Anthropic還同步推出了幾項功能更新。

推理等級方面,新增xhigh(extra high)等級,介于現有的high和max之間,讓用戶在推理深度和響應速度之間有更細的調節空間。Claude Code的默認推理等級已提升至xhigh。

API方面,任務預算功能進入公測,開發者可以引導Claude在長任務中如何分配token消耗。

Claude Code方面,新增/ultrareview命令,輸入后會啟動一個專門的審查會話,逐行檢查代碼變更,并標記Bug和設計問題,Pro和Max用戶各贈3次免費體驗。此外,Auto模式擴展至Max用戶,該模式下Claude可自主做出操作決策,減少人工確認中斷。

四、當心Opus 4.7更費token,但生成質量更優

Opus 4.7是Opus 4.6的直接升級版,但有兩個影響token用量的變化值得注意。

一是文本處理方式有更新,Opus 4.7相同輸入消耗的token最多增加約35%;二是模型在較高推理等級下會進行更多思考,尤其在Agent場景的后續輪次中,Opus 4.7輸出token也會相應增多。用戶可以通過調整推理等級、設置任務預算,或在提示詞中要求更簡潔來控制用量。


從Agent編程評測圖表來看,Opus 4.7在每個推理等級上都以更少的token達到了更高的得分。例如Opus 4.7在xhigh等級下消耗約10萬token,得分超過70%;而Opus 4.6在max等級下消耗約13萬token,得分才剛過60%。不過,該評測中模型是根據單一提示自主工作,結果不一定能代表交互式編程中的實際token消耗。

結語:更準確更全能,競爭對手將至

從Anthropic公布的數據來看,Opus 4.7在編程、文檔推理、生物推理等多個基準上的提升是實打實的,token效率也有所提升。但測評終歸是測評,實際表現還需要在真實場景中進一步驗證。

隨著Opus 4.7的發布,OpenAI后續又會做出哪些新動作,大家期待已久的DeepSeek月底會不會發布新模型,大模型廠商的競爭可謂是越來越有意思了。

來源:Anthropic

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
47:52!美投票結果出來了,特朗普態度轉變,希拉里:美處于弱勢

47:52!美投票結果出來了,特朗普態度轉變,希拉里:美處于弱勢

凡知
2026-04-17 10:13:40
特朗普:美伊已非常接近達成協議,協議將帶來免費石油和霍爾木茲海峽;美對伊啟動“經濟狂怒”,伊斥其為“經濟恐怖主義”和“敲詐”

特朗普:美伊已非常接近達成協議,協議將帶來免費石油和霍爾木茲海峽;美對伊啟動“經濟狂怒”,伊斥其為“經濟恐怖主義”和“敲詐”

大象新聞
2026-04-17 08:45:05
陳麗華頂奢收藏,從鴿血紅到天價帝王綠手鐲,都比不上她看家之寶

陳麗華頂奢收藏,從鴿血紅到天價帝王綠手鐲,都比不上她看家之寶

電影爛番茄
2026-04-12 22:56:39
莫氏雞煲幫工工資曝光,引全網羨慕,老莫透露后續打算,太通透

莫氏雞煲幫工工資曝光,引全網羨慕,老莫透露后續打算,太通透

阿萊美食匯
2026-04-16 16:00:21
四年仗打活了烏克蘭軍工業,無人武器爆發,從FPV到巡飛彈改寫戰爭規則

四年仗打活了烏克蘭軍工業,無人武器爆發,從FPV到巡飛彈改寫戰爭規則

網易新聞出品
2026-04-16 13:47:19
切記,半夜醒來千萬不要看時間!

切記,半夜醒來千萬不要看時間!

環球網資訊
2026-04-16 07:56:25
電訊報:越早承認英超不是最佳聯賽,越早重新享受足球

電訊報:越早承認英超不是最佳聯賽,越早重新享受足球

懂球帝
2026-04-17 12:30:04
民進黨,極有可能在下一屆臺灣地區選舉后,成為長期一家獨大政黨

民進黨,極有可能在下一屆臺灣地區選舉后,成為長期一家獨大政黨

李橑在北漂
2026-04-02 10:22:26
本田被曝將關停廣州、武漢兩座燃油車工廠 年產能砍至72萬輛

本田被曝將關停廣州、武漢兩座燃油車工廠 年產能砍至72萬輛

金融界
2026-04-17 13:45:07
人生苦短,放過自己

人生苦短,放過自己

綠茵下
2026-04-10 17:30:03
世界最短航線只要57秒,輪子都來不及收!

世界最短航線只要57秒,輪子都來不及收!

深度知局
2026-04-17 07:38:21
48小時內,俄美伊都對中國提了一個要求,涉及中方主權,必須滿足

48小時內,俄美伊都對中國提了一個要求,涉及中方主權,必須滿足

安珈使者啊
2026-04-17 11:50:45
定了!4月起全國農村統一執行:子女再有錢,這2類人也能單獨領

定了!4月起全國農村統一執行:子女再有錢,這2類人也能單獨領

三農雷哥
2026-04-14 13:50:39
張琳梵現狀:全家落戶上海,退役后準備當教練,兩個兒子都愛踢球

張琳梵現狀:全家落戶上海,退役后準備當教練,兩個兒子都愛踢球

北緯的咖啡豆
2026-04-16 19:40:25
你有知道哪些炸裂的秘密?網友:我有個秘密說出來肯定大家要笑死

你有知道哪些炸裂的秘密?網友:我有個秘密說出來肯定大家要笑死

帶你感受人間冷暖
2026-01-29 00:10:05
土以要開打?埃爾多安威脅攻打以色列后,不到1天,卡茨強勢出招

土以要開打?埃爾多安威脅攻打以色列后,不到1天,卡茨強勢出招

泠泠說史
2026-04-14 19:41:44
向太自曝拆散向佐多段戀情:豪門不是童話,是另一場博弈

向太自曝拆散向佐多段戀情:豪門不是童話,是另一場博弈

宛沐
2026-04-17 09:30:13
拉胯!西甲3隊歐戰全輸+丟10球 積分將被德甲反超:歐冠或失5名額

拉胯!西甲3隊歐戰全輸+丟10球 積分將被德甲反超:歐冠或失5名額

我愛英超
2026-04-17 07:26:36
一個女人最珍貴的3個部位,留給真正懂她的男人!

一個女人最珍貴的3個部位,留給真正懂她的男人!

風起見你
2026-04-17 01:21:18
睡遍好萊塢的種馬影帝:性欲成癮每天與情人交歡,私生子多達25人

睡遍好萊塢的種馬影帝:性欲成癮每天與情人交歡,私生子多達25人

錢小刀娛樂
2026-04-15 21:30:57
2026-04-17 14:28:49
智東西 incentive-icons
智東西
智東西,AI產業新媒體,專注報道人工智能的前沿技術發展,和技術應用帶來的千行百業產業變革。
11615文章數 117031關注度
往期回顧 全部

科技要聞

Anthropic推出Opus 4.7,坦言依不及Mythos

頭條要聞

特朗普強推后被迫對黎巴嫩停火 以色列被指成"犧牲品"

頭條要聞

特朗普強推后被迫對黎巴嫩停火 以色列被指成"犧牲品"

體育要聞

贏下快船,這場很庫里,很格林,很科爾

娛樂要聞

劉德華摯友潘宏彬離世 曾一起租房住

財經要聞

海爾與醫美女王互撕 換血抗衰誰的生意?

汽車要聞

又快又穩的開掛動力! 阿維塔06T全系搭分布式電驅

態度原創

教育
家居
時尚
房產
公開課

教育要聞

【張捷聊教育】教育部禁止分班的有教無類與因才施教

家居要聞

法式線條 時光靜淌

假期,怎么拍照最出片?

房產要聞

人人人人!封關后首屆消博會,擠爆了!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版