網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

能力太強(qiáng)，Mythos被Anthropic“凍結(jié)”

2026-04-09 03:25:07　來(lái)源: 虎嗅APP

北京舉報(bào)

分享至

出品｜虎嗅科技組

作者｜趙致格

編輯｜苗正卿

頭圖｜視覺(jué)中國(guó)

4月8日，關(guān)注AI圈動(dòng)態(tài)的極客們收到了一個(gè)好消息和一個(gè)壞消息。好消息是Anthropic那個(gè)被傳得神乎其神的新模型Claude Mythos終于發(fā)布了預(yù)覽版，而各種公開(kāi)的數(shù)據(jù)也顯示出Mythos確實(shí)全方面碾壓了Opus4.6。

但壞消息是，因?yàn)橄嚓P(guān)防護(hù)機(jī)制尚未成熟，Mythos當(dāng)前不對(duì)公眾開(kāi)放，Anthropic還為其定制了一個(gè)安全項(xiàng)目玻璃墻計(jì)劃（Project Glasswing）。根據(jù)這一安全項(xiàng)目，僅有12家機(jī)構(gòu)能訪問(wèn)Mythos。與此同時(shí)，Anthropic還承諾提供最高1億美元的模型使用額度，用于防御性網(wǎng)絡(luò)安全研究。

過(guò)去一段時(shí)間，關(guān)于Mythos的傳聞一直在滿(mǎn)天飛。早在3月26日，Anthropic的一個(gè)內(nèi)容管理系統(tǒng)出現(xiàn)了錯(cuò)誤，曝光了一篇還沒(méi)有正式發(fā)布的草稿。這篇草稿稱(chēng)Mythos是“史上最強(qiáng)大的模型”。

X上同樣有人爆料稱(chēng)，某家實(shí)驗(yàn)室完成了迄今為止最大的一次成功訓(xùn)練，而新模型的表現(xiàn)遠(yuǎn)遠(yuǎn)超過(guò)內(nèi)部預(yù)期，也超過(guò)了大家根據(jù)模型縮放定律（scaling law）能預(yù)測(cè)的水平。

雖然普通人無(wú)法親自體會(huì)這個(gè)傳說(shuō)中的又一次“GPT時(shí)刻”，但Anthropic公布的一系列數(shù)據(jù)確實(shí)顯示出Mythos 強(qiáng)得可怕。

在專(zhuān)業(yè)漏洞復(fù)現(xiàn)測(cè)試CyberGym上，Mythos的得分是83.1%，而此前Anthropic 的最強(qiáng)模型Opus4.6的分?jǐn)?shù)是66.6%。

在編程能力方面，Mythos在SWE-bench Pro、Terminal-Bench 2.0、SWE-bench Multimodal (internal implementation)、SWE-bench Multilingual、SWE-bench Verified中的測(cè)試分?jǐn)?shù)均顯著高于Opus4.6。Anthropic稱(chēng)，新模型的能力已經(jīng)達(dá)到“可以與最頂尖人類(lèi)安全專(zhuān)家競(jìng)爭(zhēng)”的水平。

在考驗(yàn)計(jì)算機(jī)操作能力的BrowseComp和OSWorld-Verified 測(cè)試中，Mythos取得了86.9%和79.6%的高分并超過(guò)了Opus4.6。

Mythos不僅是在編程能力上表現(xiàn)強(qiáng)悍。在研究生水平科學(xué)問(wèn)答測(cè)試（GPQA Diamond）測(cè)試中，Mythos以94.6%的分?jǐn)?shù)超過(guò)Opus4.6的91.3%；在Humanity‘s Last Exam的有工具和無(wú)工具測(cè)試中，Mythos 56.8%和64.7%的分?jǐn)?shù)均超過(guò)Opus4.6十個(gè)百分點(diǎn)。

在考驗(yàn)計(jì)算機(jī)操作能力的BrowseComp和OSWorld-Verified 測(cè)試中，Mythos取得了86.9%和79.6%的高分并超過(guò)了Opus4.6。

不過(guò)，上述維護(hù)的優(yōu)異表現(xiàn)并不是Anthropic不敢上線Mythos的原因。Mythos真正的可怕之處在它突破軟件安全防線的能力太強(qiáng)了。

理論上，所有軟件都可能會(huì)有漏洞，但是Mythos在發(fā)現(xiàn)并攻擊漏洞上的能力遠(yuǎn)超人類(lèi)水平。根據(jù)Anthropic的博文介紹，Mythos已經(jīng)在在操作系統(tǒng)、網(wǎng)絡(luò)瀏覽器和其他軟件中發(fā)現(xiàn)了“幾千個(gè)”重大漏洞，其中包括OpenBSD中一個(gè)存在27年的錯(cuò)誤，以及FFmpeg中一個(gè)存在16年、在自動(dòng)測(cè)試工具運(yùn)行500萬(wàn)次后仍未被檢測(cè)到的漏洞。

可以說(shuō)，全世界所有的軟件和系統(tǒng)在Mythos面前都顯得漏洞百出，脆弱不堪。假如Mythos的能力在當(dāng)下被黑客掌握，無(wú)疑會(huì)有無(wú)數(shù)數(shù)字基礎(chǔ)設(shè)施會(huì)遭殃。

Anthropic的CEO達(dá)里奧·阿莫迪（Dario Amodei）Mythos發(fā)布的同時(shí)也在X上表達(dá)了自己的擔(dān)憂和信心。他表示：“網(wǎng)絡(luò)安全是前沿AI模型帶來(lái)的首個(gè)明確且現(xiàn)實(shí)的危險(xiǎn)，但絕不會(huì)是最后一個(gè)。若我們能共同迎接挑戰(zhàn)、應(yīng)對(duì)這一風(fēng)險(xiǎn)，這或?qū)⒊蔀橐环菟{(lán)圖，用以解決未來(lái)更為艱巨的挑戰(zhàn)。”

達(dá)里奧隨后又進(jìn)一步解釋?zhuān)骸耙坏?yīng)對(duì)失誤，其危險(xiǎn)顯而易見(jiàn)；但倘若應(yīng)對(duì)得當(dāng)，我們將真正迎來(lái)機(jī)遇：建造一個(gè)比AI網(wǎng)絡(luò)安全能力出現(xiàn)之前更加安全的互聯(lián)網(wǎng)與世界。”

面對(duì)AI發(fā)展帶來(lái)的危險(xiǎn)和機(jī)遇，Anthropic 提出的應(yīng)對(duì)方法是發(fā)起玻璃翼計(jì)劃（Project Glasswing）。這個(gè)項(xiàng)目將向特定組織開(kāi)放其未公開(kāi)發(fā)布的通用AI模型“Claude Mythos預(yù)覽版”，用于防御性網(wǎng)絡(luò)安全工作。12個(gè)合作伙伴包括亞馬遜、微軟、蘋(píng)果、谷歌、英偉達(dá)、CrowdStrike和Palo Alto Networks等科技與網(wǎng)絡(luò)安全公司。

這12家公司覆蓋了云計(jì)算、瀏覽器、芯片、金融基礎(chǔ)設(shè)施、操作系統(tǒng)等各個(gè)領(lǐng)域的巨頭。可以說(shuō)，全球數(shù)字基礎(chǔ)設(shè)施的核心參與者都在其中了。而這些參與者將作為防守方搶先一步用上頂級(jí)的AI模型，補(bǔ)上現(xiàn)有的系統(tǒng)漏洞。

一直以來(lái)，Anthropic都被認(rèn)為是最重視安全的AI的科技公司，不過(guò)與之伴隨的也有不少爭(zhēng)議，很多人認(rèn)為Anthropic只是說(shuō)說(shuō)漂亮話，真實(shí)目的是想通過(guò)提升AI安全標(biāo)準(zhǔn)來(lái)提升中小公司的入場(chǎng)門(mén)檻。

但就此次的玻璃翼計(jì)劃（Project Glasswing）而言，Anthropic的行動(dòng)無(wú)疑是值得人們贊許的。在研發(fā)出了最強(qiáng)模型后，Anthropic沒(méi)有將它第一時(shí)間推向市場(chǎng)謀取最大曝光，而是先讓全球信息基礎(chǔ)設(shè)施來(lái)完善自己，為全球軟件安全筑起新一代屏障，也為為未來(lái)高風(fēng)險(xiǎn) AI 治理提供了可復(fù)制的藍(lán)圖。

本文來(lái)自虎嗅，原文鏈接：https://www.huxiu.com/article/4848866.html?f=wyxwapp

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.