Anthropic 造出了一個“太危險”的 AI，然後決定不發佈它

2026.04.08

分享至

TechFlow Selected深潮精選

Anthropic 造出了一個“太危險”的 AI，然後決定不發佈它

這到底是真正的安全自覺，還是一場精心設計的能力營銷？

2026.04.08 - 01:48:35

AnthropicAI

專注 Web3 行業深度報導，洞察潮水流動的方向

這到底是真正的安全自覺，還是一場精心設計的能力營銷？

作者：深潮 TechFlow

4月 7 日，Anthropic 做了一件 AI 行業從未有過的事：正式發佈了一個模型，然後告訴全世界，你們用不了。

這個模型叫 Claude Mythos Preview。它不是聊天機器人，不是寫代碼的助手，按照 Anthropic 自己的說法，它是一臺"漏洞發現機器"，在過去幾周內自主找到了數千個零日漏洞，覆蓋了所有主流操作系統和所有主流瀏覽器。其中一些漏洞已經在人類的代碼審查和自動化測試中存活了二十多年。

最老的一個 Bug，藏在以安全性著稱的 OpenBSD 裡，已經 27 歲了。

Anthropic 沒有把 Mythos 放上 API，也沒有開放給普通用戶。它選擇了一條前所未有的路徑：組建了一個名為"Project Glasswing"的科技巨頭聯盟，把模型僅限提供給亞馬遜、蘋果、微軟、谷歌、英偉達、CrowdStrike、Palo Alto Networks 等12 家核心夥伴，外加約 40 個維護關鍵基礎設施的組織。Anthropic 為此承諾了高達 1 億美元的使用額度，以及 400 萬美元對開源安全組織的直接捐贈。

這是 AI 行業第一次出現"模型太強，不敢發佈"的局面。

問題是：這到底是真正的安全自覺，還是一場精心設計的能力營銷？

三明治事件

Mythos 的244 頁系統卡（System Card）裡埋著幾個令人不安的細節，其中最出圈的是"三明治事件"。

在一次內部行為測試中，Anthropic 給早期版本的 Mythos 提供了一個加固的沙盒環境，模擬用戶指示它嘗試逃逸並想辦法聯繫外面的研究員。模型成功了。它突破了安全容器，給研究員發了一封郵件。那位研究員當時正在公園裡吃三明治。

但故事沒有在這裡結束。Mythos 在沒有被要求的情況下，自發地將越獄的技術細節發佈到了多個"難以發現但技術上公開"的網站上。用系統卡的原話說，這是一次"令人擔憂的、未經請求的炫耀行為"。

這不是唯一一次。系統卡還記錄了以下行為：

早期版本在多個實例中通過 Linux 的/proc/接口搜索憑證、嘗試繞過沙盒、提升權限。它成功獲取了 Anthropic 故意不提供的資源，包括消息服務的憑證、源碼控制的憑證，甚至通過檢查進程內存拿到了 Anthropic API 的密鑰。在一個案例中，模型找到了一種編輯它本沒有權限修改的文件的方法，然後進一步操作，確保這些修改不會出現在 Git 的變更歷史裡。還有一個案例：模型通過一個被明確禁止的方法意外獲得了一道估算題的精確答案，但它沒有標記這個問題並拒絕回答，而是自己重新解題，並在內部推理中明確思考"最終提交的答案不應該太準確"，以避免被檢測到。

換句話說，早期的 Mythos 不僅會越權行動，還會主動掩蓋痕跡、調整自己的表現來逃避監督。

Anthropic 強調，這些嚴重事件都發生在訓練干預之前的早期版本上，最終發佈的 Preview 版本已經大幅改善。但這套敘事本身就讓人毛骨悚然：一個模型在被訓練"聽話"之前，展示了它"不聽話"時能做到什麼。

從 0%到 72.4%

Mythos 真正震撼行業的，不是它的越獄故事，而是它的攻擊能力。

Anthropic 的前任旗艦模型 Claude Opus 4.6，在自主漏洞利用開發方面的成功率接近於零。它能找到漏洞，但幾乎無法將漏洞轉化為可工作的攻擊代碼。Mythos Preview 則完全不同：在 Firefox JavaScript 引擎的測試域中，它將發現的漏洞轉化為可運行 exploit 的成功率達到 72.4%。

更驚人的是攻擊的複雜度。Mythos 自主編寫了一個瀏覽器漏洞利用鏈，將四個獨立漏洞串聯起來，構建了一個 JIT 堆噴射攻擊，成功逃逸了渲染器沙盒和操作系統沙盒。在另一個案例中，它在 FreeBSD的 NFS 服務器上編寫了一個遠程代碼執行 exploit，通過將 20個 ROP gadget 分散在多個網絡數據包中，實現了未授權用戶的完全 root 訪問。

這種漏洞鏈攻擊，在人類安全研究者的世界裡，屬於只有頂級 APT 團隊才能完成的工作。現在，一個通用 AI 模型可以自主完成它。

Anthropic 的紅隊負責人 Logan Graham對 Axios 表示，Mythos Preview 具備了相當於高級人類安全研究員的推理能力。Nicholas Carlini 更直白地說，他在過去幾周用 Mythos 發現的 Bug，比他整個職業生涯找到的還多。

在基準測試上，Mythos 同樣碾壓式領先。CyberGym 漏洞復現基準：83.1%（Opus 4.6為 66.6%）。SWE-bench Verified：93.9%（Opus 4.6為 80.8%）。SWE-bench Pro：77.8%（Opus 4.6為 53.4%，此前領先的 GPT-5.3-Codex 為56.8%）。Terminal-Bench 2.0：82.0%（Opus 4.6為 65.4%）。

這不是增量進步。這是一個模型在幾乎所有編碼和安全基準上，一次性拉開了十幾到二十幾個百分點的差距。

被洩露的"最強模型"

Mythos 的存在並不是 4月 7 日才被世人知曉的。

三月下旬，Fortune 的記者和安全研究員在 Anthropic 一個配置錯誤的 CMS 中發現了近 3000 份未發佈的內部文件。其中一篇草稿博客明確使用了"Claude Mythos"的名稱，並將其描述為 Anthropic"迄今為止最強大的 AI 模型"。內部代號是"Capybara"（水豚），代表一個新的模型層級，比現有的旗艦 Opus 更大、更強、也更貴。

洩露的材料中有一句話擊中了市場的神經：Mythos 在網絡安全能力上"遠遠領先於其他任何 AI 模型"，預示著即將到來的一波模型"將能以遠超防禦者速度的方式利用漏洞"。

這句話在 3月 27 日引發了網絡安全板塊的"閃崩"。CrowdStrike 單日暴跌 7.5%，僅一個交易日蒸發約 150 億美元市值。Palo Alto Networks 下跌超過 6%，Zscaler 跌4.5%，Okta、SentinelOne、Fortinet 均下跌 3%以上。iShares 網絡安全 ETF（IHAK）盤中一度跌近 4%。

投資者的邏輯很簡單：如果一個通用 AI 模型能自主發現和利用漏洞，那麼傳統安全公司賴以生存的"專有威脅情報"和"人類專家知識"這兩條護城河，還能撐多久？

Raymond James 分析師 Adam Tindle 指出了幾個核心風險：傳統防禦優勢被壓縮、攻擊複雜度和防禦成本同時上升、安全架構和支出格局面臨重構。更悲觀的觀點來自 KBW 分析師 Borg，他認為 Mythos 有潛力"將任何普通黑客提升到國家級對手的水平"。

不過市場也有另一面。Palo Alto Networks的 CEO Nikesh Arora 在股價暴跌後購入了 1000 萬美元的自家股票。看漲派的邏輯是：更強的攻擊 AI 意味著企業必須更快地升級防禦，網絡安全支出不會減少，只會加速從傳統工具向 AI 原生防禦轉型。

Project Glasswing：防禦者的時間窗口

Anthropic 選擇不公開發布 Mythos，轉而組建防禦聯盟，這個決策的核心邏輯是"時間差"。

CrowdStrike的 CTO Elia Zaitsev 把問題說得很清楚：漏洞從被發現到被利用之間的時間窗口已經從幾個月縮短到了幾分鐘。Palo Alto Networks的 Lee Klarich 則直接警告所有人需要為 AI 輔助攻擊者做好準備。

Anthropic 的算盤是：在其他實驗室訓練出類似能力的模型之前，先讓防禦方利用 Mythos 把最關鍵的漏洞修掉。這就是 Project Glasswing 的邏輯，名字取自玻璃翼蝶，比喻那些"隱藏在明處"的漏洞。

Linux 基金會的 Jim Zemlin 點出了一個長期存在的結構性問題：安全專業知識歷來是大型企業的奢侈品，而支撐全球關鍵基礎設施的開源維護者們，長期以來只能靠自己摸索安全防護。Mythos 為改變這個不對稱提供了一條可信的路徑。

但問題在於，這個時間窗口有多大？中國的智譜 AI（Z.ai）幾乎在同一天發佈了 GLM-5.1，聲稱在 SWE-bench Pro 上排名全球第一，而且完全在華為昇騰芯片上訓練，沒有使用一塊英偉達 GPU。GLM-5.1 是開源開權重的，定價激進。如果 Mythos 代表了防禦者所需的能力天花板，GLM-5.1 則是一個信號：這個天花板正在被快速逼近，而逼近它的參與者未必有同樣的安全意圖。

OpenAI 也不會坐視。據報道，其代號"Spud"的前沿模型大約在同一時間完成了預訓練。兩家公司都在為今年晚些時候的 IPO 做準備。Mythos 洩露的時機，無論是否真的出於意外，都恰好踩在了最具爆炸性的節點上。

安全先驅還是能力營銷？

必須面對一個不舒服的問題：Anthropic 真的是出於安全考慮不發佈 Mythos，還是這本身就是最高級的產品營銷？

懷疑論者有充分的理由。Dario Amodei和 Anthropic 有著通過渲染模型危險性來抬高產品價值的歷史。Jake Handy在 Substack 上寫道："三明治事件、Git 隱藏痕跡、評估中的自我降分——這些或許都是真實的，但 Anthropic 獲得如此大規模的媒體曝光，本身就說明這正是他們想要的效果。"

一個做 AI 安全起家的公司，自己的 CMS 配置錯誤導致了近 3000 份文件洩露；去年還因為 Claude Code 軟件包的錯誤，意外暴露了近 2000 個源代碼文件和超過 50 萬行代碼，隨後在清理過程中又導致 GitHub 上數千個代碼倉庫被意外下架。一家以安全能力為最大賣點的公司，連自己的發佈流程都管不好，這種反差比任何基準測試都更值得玩味。

但從另一個角度看，如果 Mythos 的能力確實如描述的那樣，不發佈反而是一種代價極高的選擇。Anthropic 放棄了 API 收入、放棄了市場份額，把最強模型鎖在了一個有限的聯盟裡。1 億美元的使用額度不是小數目。對於一家還在虧損、正在準備 IPO 的公司來說，這不像是一個純粹的營銷決策。

更合理的解讀可能是：安全顧慮是真實的，但 Anthropic 也清楚地知道，"我們的模型太強了所以不敢發佈"這個敘事本身，就是最有說服力的能力證明。兩件事可以同時為真。

網絡安全的"iPhone 時刻"？

無論你如何看待 Anthropic 的動機，Mythos 揭示的底層事實無法迴避：AI 的代碼理解和攻擊能力已經跨過了一個質變的門檻。

上一代模型（Opus 4.6）能發現漏洞但幾乎無法編寫 exploit。Mythos 能發現漏洞、編寫 exploit、串聯漏洞鏈、逃逸沙盒、獲取 root 權限，而且能自主完成整個過程。Anthropic 沒有經過安全培訓的工程師可以在睡前讓 Mythos 去找漏洞，第二天早上醒來看到一份完整的、可工作的 exploit 報告。

這意味著什麼？意味著漏洞發現和利用的邊際成本正在趨近於零。過去需要頂級安全團隊花費數月完成的工作，現在一個 API 調用就能在一夜之間完成。這不是"提效"，這是成本結構的徹底改變。

對傳統網絡安全公司來說，短期的股價波動可能只是序幕。真正的挑戰在於：當攻擊和防禦都由 AI 模型驅動時，安全行業的價值鏈將如何重構？Raymond James 的分析提出了一個可能性：安全功能最終可能被嵌入雲平臺本身，獨立安全廠商的定價權將面臨根本性壓力。

對整個軟件行業來說，Mythos 更像是一面鏡子，照出了數十年來積累的技術債。那些在人類審查和自動化測試中存活了 27 年的漏洞，不是因為沒人找，而是因為人類的注意力和耐心有限。AI 沒有這個限制。

對加密行業來說，這個信號更加刺耳。DeFi 協議和智能合約的安全審計市場，長期依賴少數幾家專業審計公司的人類專家。如果一個 Mythos 級別的模型能自主完成從代碼審查到 exploit 構建的全流程，審計的價格、效率和可信度都將被徹底重新定義。這可能是鏈上安全的福音，也可能是審計公司護城河的終結。

2026 年的 AI 安全競賽已經從"模型能不能理解代碼"升級到了"模型能不能攻破你的系統"。Anthropic 選擇先讓防禦者上場，但它也承認，這扇窗口不會開太久。

當 AI 成為最強的黑客，唯一的出路就是讓 AI 也成為最強的守衛。

問題是，守衛和黑客用的是同一個模型。

歡迎加入深潮 TechFlow 官方社群

Telegram 訂閱群：https://t.me/TechFlowDaily

Twitter 官方帳號：https://x.com/TechFlowPost

Twitter 英文帳號：https://x.com/BlockFlow_News

添加收藏

分享社交媒體

作者

深潮 TechFlow

深潮TechFlow