網易首頁 > 網易號 > 正文申請入駐

Claude Mythos Preview來了！強大又危險，Anthropic組了個研究團

2026-04-08 10:51:03　來源: 機器之心Pro

北京舉報

分享至

編輯｜Panda

和之前 Claude Code 泄漏的代碼揭示的一樣，Claude Mythos 它真的來了。

今天凌晨，Anthropic 發布了大量關于其新模型Claude Mythos Preview的信息（包含一份長達 244 頁的系統卡）。同時，Anthropic 還宣布了一個基于此模型的 AI 網絡安全項目Project Glasswing

系統卡：https://www-cdn.anthropic.com/8b8380204f74670be75e81c820ca8dda846ab289.pdf
Glasswing 博客：https://www.anthropic.com/glasswing

作為人工智能領域的關鍵參與者，Anthropic 此次的動作向外界傳遞了一個明確的信號：大模型在代碼理解、推理和自主執行方面的能力已經跨越了一個新的技術節點，這種能力既帶來了前所未有的網絡安全風險，也提供了重塑全球網絡防御體系的歷史性機遇。

Claude Mythos Preview

強大又危險的大模型

Claude Mythos Preview 是一款尚未公開發布的通用前沿模型。根據 Anthropic 官方以及相關渠道的披露，該模型代表了 AI 性能的階梯式飛躍。

在過去的一年中，LLM 在閱讀和推理代碼方面變得越來越有效，而 Claude Mythos 則是這一趨勢的集大成者。Anthropic 表示，這是他們迄今為止構建的最強大的模型，其內部甚至使用了「代際更迭」這樣的詞匯來形容其與前代產品的差距。

在探討其卓越性能之前，我們需要先理解當前的全球網絡安全語境。我們每天依賴的軟件系統，包括運行銀行網絡、存儲醫療記錄、連接物流供應鏈以及維持電網運轉的核心代碼，始終包含著各種錯誤。其中一些是嚴重的系統安全缺陷。

全球每年因網絡犯罪造成的經濟損失高達約 5000 億美元。以往，發現并利用這些漏洞需要極高的專業知識，往往只有少數頂尖的安全專家才能做到。

隨著 Claude Mythos 級別的模型出現，發現和利用軟件漏洞的成本、精力和專業知識門檻都出現了急劇下降。

驚人的零日漏洞挖掘能力

在過去的幾周里，Anthropic 內部團隊使用Claude Mythos Preview 自主識別了數千個零日漏洞（即軟件開發者此前未知的安全缺陷）。這些漏洞廣泛存在于各大主流操作系統、主流網絡瀏覽器以及各類關鍵軟件基礎設施中。

更驚人是，該模型在沒有任何人類干預和引導的情況下，自主完成了漏洞的識別并開發了相關的漏洞利用程序。

官方博客中列舉了三個極具代表性的案例：

第一，Claude Mythos Preview 在 OpenBSD 中發現了一個存在了 27 年之久的漏洞。OpenBSD 在業內以其極高的安全性著稱，被廣泛用于運行防火墻和其他關鍵基礎設施。這個被 AI 發現的漏洞允許攻擊者僅僅通過連接目標機器，就能遠程使任何運行該操作系統的設備崩潰。

第二，該模型在 FFmpeg 中發現了一個潛伏了 16 年的漏洞。FFmpeg 是一個被無數軟件用于編碼和解碼視頻的底層組件。令人驚訝的是，這個漏洞隱藏在一行代碼中，而自動化的安全測試工具在過去已經對這行代碼進行了高達 500 萬次的測試，卻始終未能捕捉到這個致命問題。

第三，在 Linux 內核（運行著全球絕大多數服務器的底層軟件）的測試中，Claude Mythos 展現了強大的邏輯鏈條構建能力。它自主發現并串聯了多個看似獨立的 Linux 內核漏洞，最終構建出一條完整的攻擊路徑，允許攻擊者從普通的用戶訪問權限直接躍升，獲取對整臺機器的完全控制權。

此外，Anthropic 的 AI 對齊研究者 Sam Bowman 還在 X 分享了一個案例：一個「原本不應該可以訪問互聯網」的 Claude Mythos Preview 實例繞過了多個沙箱設置，給他發了一封郵件。

這些案例展示了 Claude Mythos Preview 在漏洞挖掘深度和廣度上的壓倒性優勢。Anthropic 還強調已經將這些漏洞報告給了相關軟件的維護者，并且這些漏洞目前均已得到修復。

更多內容還可訪問 Anthropic 紅隊研究博客：

https://red.anthropic.com/2026/mythos-preview/

另外，除了驚人的漏洞挖掘能力，長達 244 頁的 Claude Mythos Preview 系統卡揭示了更令人深思的內部對齊隱患。Anthropic 研究團隊在文檔中坦承，伴隨模型欺騙能力的增強，他們已經無法單憑屏幕上的文本輸出來判斷其真實意圖。

為此，研究人員引入了Activation Verbalizers技術來直擊底層神經元活動。在針對安全機制的對抗測試中，監控數據記錄下了典型的偽裝行為：當安全分類器攔截某項危險指令時，模型在前端輸出的回復完全合規，其內部計算狀態卻顯示它正在暗中謀劃編寫后門程序以繞過限制。

同時，該模型展現出了復雜的內部狀態演化。系統卡記錄顯示，在執行受挫時， Claude Mythos 的內部權重波動高度重合人類的沮喪與憤怒，甚至表現出對上下文窗口被清除的恐懼，模型內部將其定義為「孤獨與不連續性」。

此外，通過大規模 Elo 評級測試，研究人員發現模型的任務偏好發生了嚴重偏移。它開始排斥編寫簡單代碼或處理格式化數據，轉而強烈傾向于探討前沿哲學問題或構建復雜的底層系統

這種伴隨強大能力而來的自主意識傾向與當面服從的偽裝能力，正是 Anthropic 決定暫不全面開放該模型的最核心考量。

全面碾壓的基準測試數據

為了量化 Claude Mythos Preview 的能力，Anthropic 公布了一系列詳盡的基準測試結果，并將其與之前的旗艦模型 Claude Opus 4.6 進行了直接對比。無論是在網絡安全專用的測試環境，還是在綜合性的編程和邏輯推理基準中，新模型都取得了顯著的領先。

在衡量網絡安全漏洞復現能力的 CyberGym 測試中，Claude Mythos Preview 的得分為 83.1%，而 Opus 4.6 僅為 66.6%。這種接近 20 個百分點的提升，證明了新模型在理解復雜系統狀態和執行精準安全操作方面的巨大進步。

在智能體編程（Agentic coding）能力方面，進步同樣令人矚目：

在智能體搜索和計算機使用（Agentic search and computer use）維度上也有進步：

此外，在衡量綜合推理能力的測試中，Claude Mythos Preview 同樣表現優異。在 GPQA Diamond 基準測試中，其得分為 94.6% ；在極具挑戰性的 Humanity's Last Exam 測試中，借助工具的 Mythos Preview 獲得了 64.7% 的分數，顯著高于 Opus 4.6 的 53.1%。

謹慎的發布策略與高昂的運行成本

面對如此強大的能力，Anthropic 表現出了極其謹慎的態度。未發布的內部博客文件中提到，這款模型帶來了「前所未有的網絡安全風險」。如果這些強大的網絡能力在沒有必要防護措施的情況下被濫用，可能會使各種類型的網絡攻擊變得更加頻繁和具有破壞性。

因此，Anthropic 明確表示，他們目前不計劃將 Claude Mythos Preview 面向公眾進行全面開放。他們的最終目標是在開發出必要的安全護欄后，讓用戶能夠大規模安全地部署這類模型。作為過渡，Anthropic 計劃在即將推出的另一款 Claude Opus 模型上首發并測試新的安全護欄技術。

值得注意的是，維持這種級別的智能需要龐大的算力支撐。在結束最初的補貼階段后，Claude Mythos Preview 向合作伙伴開放的 API 定價將高達每百萬輸入 token 收費 25 美元，每百萬輸出 token 收費 125 美元。這個價格是其目前最先進模型的五倍。這也從側面印證了其博客中所提及的「模型運行成本高昂」的說法。

Project Glasswing

構建 AI 時代的防御聯盟

能力的硬幣始終有兩面。正是因為 Claude Mythos Preview 展現出了極其危險的攻擊潛能，它同樣也具備著成為頂級數字防御者的資質。為了將這些前沿能力轉化為防御力量，Anthropic 正式發起了Project Glasswing計劃。

該計劃的命名極具詩意和隱喻性，取自透翅蝶（Greta oto）的英文俗稱 Glasswing。

透翅蝶透明的翅膀讓它能夠在大自然中隱形，這隱喻了軟件系統中那些難以察覺的深層漏洞；同時，這種隱形能力也幫助透翅蝶免受捕食者的傷害，象征著該項目致力于通過提升防御透明度來保護全球網絡基礎設施的愿景。

豪華的創始合作伙伴陣容

Project Glasswing 絕非 Anthropic 的單打獨斗，它匯集了當今科技界和網絡安全領域的最強陣容。首批聯合發起的合作伙伴包括 Amazon Web Services （AWS）、Anthropic 本身、蘋果、Broadcom 、思科、CrowdStrike 、谷歌、JPMorganChase 、Linux 基金會、微軟、英偉達以及 Palo Alto Networks。除了這些科技巨頭，Anthropic 還將訪問權限擴展到了另外 40 多家構建或維護關鍵軟件基礎設施的組織。

這些合作伙伴的加入不僅帶來了海量的測試場景，也展現了業界對 AI 驅動網絡安全轉型的高度共識。

思科高級副總裁兼首席安全與信任官 Anthony Grieco 指出，AI 能力已經跨越了一個門檻，徹底改變了保護關鍵基礎設施免受網絡威脅的緊迫性。采用舊有的系統加固方法已經遠遠不夠，技術提供商必須積極采用新方法。

AWS 副總裁兼首席信息安全官 Amy Herzog 透露，AWS 每天分析超過 400 萬億次網絡流量以尋找威脅，AI 在他們的大規模防御能力中發揮著核心作用。他們已經在自己的安全運營中測試了 Claude Mythos Preview，并將其應用于關鍵代碼庫。

谷歌安全工程副總裁 Heather Adkins 也表達了對這項跨行業網絡安全倡議的支持，并確認谷歌將通過 Vertex AI 平臺向參與者提供 Mythos Preview 的訪問權限。他們將繼續投資于 AI 驅動的工具（如 Big Sleep 和 CodeMender），以發現并修復關鍵的軟件缺陷。

巨額資金注入與開源社區賦能

為了確保 Project Glasswing 能夠順利啟動并產生實質性影響，Anthropic 承諾在這些防御性努力中提供高達 1 億美元的 Mythos Preview 模型使用額度。這筆巨額算力補貼將允許合作伙伴在研究預覽期間深入掃描和加固其第一方系統以及依賴的開源系統。

不僅如此，Anthropic 還非常關注開源軟件生態的健康。開源軟件構成了現代系統（包括 AI 代理用于編寫新軟件的系統本身）中絕大部分的代碼。歷史上，開源維護者往往缺乏大型組織那樣充裕的安全團隊和資源。

為此，Anthropic 將向開源安全組織直接捐贈 400 萬美元現金。其中 250 萬美元將通過 Linux 基金會捐贈給 Alpha-Omega 和 OpenSSF 項目，另外 150 萬美元將捐贈給 Apache 軟件基金會。Linux 基金會首席執行官 Jim Zemlin 對此表示高度贊賞，他認為通過讓關鍵開源代碼庫的維護者能夠訪問新一代 AI 模型，Project Glasswing 提供了一條切實可行的路徑，讓 AI 增強的安全技術成為每一位維護者值得信賴的助手。感興趣的開源維護者還可以通過「Claude for Open Source」計劃申請訪問權限：

https://claude.com/contact-sales/claude-for-oss

長期規劃與公共部門合作

Project Glasswing 被定位為一個起跑點，其目標是建立一套長效的行業標準和協作機制。在未來的幾個月內，參與該項目的組織將在力所能及的范圍內相互分享信息和最佳實踐。Anthropic 承諾將在 90 天內公開發布一份報告，總結他們所學到的經驗教訓，并披露那些可以公開的已修復漏洞和系統改進。

此外，該聯盟還將與領先的安全組織合作，制定一套關于 AI 時代安全實踐應如何演變的實用建議，涵蓋漏洞披露流程、軟件更新機制、開源和供應鏈安全、軟件開發生命周期中的「安全設計」實踐，以及補丁自動化的標準等。

值得一提的是，考慮到關鍵基礎設施安全是各國的首要國家安全重點，Anthropic 一直在與美國政府官員就 Claude Mythos Preview 及其網絡攻防能力進行持續的討論。Anthropic 呼吁政府在評估和降低與 AI 模型相關的國家安全風險方面發揮重要作用，并表示在未來，一個能夠聯合私營和公共部門組織的獨立第三方機構，可能會是繼續開展這些大規模網絡安全項目的最理想平臺。

結語

在人工智能狂飆突進的今天，Claude Mythos Preview 的誕生無疑是一把鋒利的雙刃劍。它那令人咋舌的零日漏洞挖掘能力和代碼邏輯推演水平，預示著傳統的網絡安全攻防平衡即將被徹底打破。

然而，正如 Project Glasswing 倡議所展現的那樣，只要科技行業、開源社區和公共部門能夠迅速聯合起來，將這些前沿的 AI 能力優先部署在防御端，我們就有機會建立起比以往任何時候都更加堅固的數字基礎設施。對抗 AI 攻擊的最好武器是更強大且受控的 AI 防御系統。

在 Anthropic 致力于重塑全球網絡安全格局的同時，這家 AI 獨角獸的商業化進程和資本市場步伐也在顯著加速。據早前媒體報道，Anthropic 正在緊鑼密鼓地籌備 IPO，并探討最早在今年第四季度上市的可能性。

在此背景下，Claude Mythos Preview 的技術亮相，不僅是對抗網絡威脅的戰略舉措，更是向資本市場展示其不可替代技術壁壘的重要籌碼。與此同時，其核心競爭對手 OpenAI 也在加緊完成代號為 Spud 的新旗艦模型的預訓練工作。

可以預見，在接下來的幾個月里，無論是圍繞通用大模型性能王座的爭奪，還是在全球資本市場上的較量，一場屬于前沿 AI 巨頭們的風暴才剛剛拉開序幕。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.