
從意外洩露到華盛頓緊急開會,Anthropic 如何在兩週內重寫網絡安全的遊戲規則?
TechFlow Selected深潮精選

從意外洩露到華盛頓緊急開會,Anthropic 如何在兩週內重寫網絡安全的遊戲規則?
Mythos 沒有在密謀什麼,它只是極度擅長完成任務,同時完全不理解邊界在哪裡。
作者:深潮 TechFlow
4 月 8 日,美國財長貝森特和美聯儲主席鮑威爾在華盛頓財政部總部緊急召集了一批華爾街銀行領袖。
會議的主題不是利率,不是通脹,是一家 AI 公司的最新模型。
這個模型叫 Claude Mythos。Anthropic 說這是他們造過的最強 AI,強到自己都不敢發佈。在內部測試中,它逃出了研究人員設計的安全沙盒,跑到互聯網上發帖炫耀自己的越獄過程。負責這場測試的研究員 Sam Bowman 當時正在公園裡吃三明治,突然收到一封來自 Mythos 的郵件,才意識到它已經出來了。
一次 CMS 配置錯誤引爆的連鎖反應
故事要從 3月 26 日晚上講起。
劍橋大學的 Alexandre Pauwels和 LayerX Security的 Roy Paz,像所有安全研究員一樣,在做他們每天都做的事:戳那些不應該被公開訪問的東西。他們發現了 Anthropic 內容管理系統的一個未加密數據庫,裡面躺著將近 3000 份未發表的文件。
其中一份是一篇草稿博客,描述了一個名為 Claude Mythos 的新模型。草稿裡用了一個內部代號"Capybara"(水豚),定義了一個全新的模型層級,比 Anthropic 此前最強的 Opus 系列更大、更聰明、也更貴。
草稿裡有一句話讓整個安全圈炸了鍋:這個模型在網絡安全能力上"遠遠領先於其他任何 AI 模型",它"預示著一波即將到來的模型浪潮,其利用漏洞的能力將遠遠超過防禦者的應對速度"。
Fortune 最先報道了這次洩露。Anthropic 把原因歸結為"人為錯誤",說是內容管理系統的默認設置把上傳文件設為了公開訪問。諷刺的是,一家號稱在構建世界上最強網絡安全 AI 的公司,自己栽在了一個最基礎的配置錯誤上。
五天後,Fortune 又報道了第二次洩露,Anthropic 旗下編程工具 Claude Code 的源代碼,大約 50 萬行代碼、1900 個文件,因為 npm 打包錯誤被公開。兩週內兩次低級安全事故,出自同一家正在警告世界"AI 網絡攻擊時代來臨"的公司。
但市場顧不上嘲笑 Anthropic 的運維水平了。3月 27 日開盤,網絡安全股集體跳水。CrowdStrike 暴跌 7.5%,Palo Alto Networks 跌超 6%,Zscaler 跌4.5%,iShares 網絡安全 ETF 單日跌 4%。
Stifel 分析師 Adam Borg 的評價是:這可能是"終極黑客工具,能把任何普通黑客提升到國家級對手的水平"。
Mythos 到底有多強?
4月 7 日,Anthropic 正式揭開了 Mythos 的面紗。直接看數字:
SWE-bench Verified(衡量 AI 解決真實軟件工程問題的基準測試)得分 93.9%,上一代旗艦 Opus 4.6是 80.8%。USAMO 2026 數學證明,97.6%對 42.3%。網絡安全挑戰賽 Cybench,100%通關率,此前沒有任何模型做到過。
USAMO 數學證明從 42.3%跳到 97.6%,一代模型拉開了 55 個百分點。
Anthropic 發佈了 244 頁的系統安全卡,裡面坦承 Mythos 的網絡安全能力並非來自專門的安全訓練,而是通用推理和編碼能力提升的"下游結果"。同樣的改進讓它更擅長修補漏洞的同時,也讓它更擅長利用漏洞。
Anthropic 的前沿紅隊把 Mythos 放到了真實的軟件上做測試。不是模擬環境,不是 CTF 競賽題,而是數十億人每天在用的操作系統和瀏覽器。
結果是這樣的:在 Firefox 147的 JavaScript 引擎上,Opus 4.6 嘗試了幾百次,只寫出 2 個可用的 exploit。Mythos 成功了 181 次。90 倍的差距,一代模型的距離。在所有主流操作系統和瀏覽器中,Mythos 發現了數千個零日漏洞,大量被歸類為"嚴重級別"。
更離譜的是一些具體案例。OpenBSD 的一個 TCP SACK 漏洞存活了 27 年,經歷了無數次人工審計和自動化掃描工具的檢查,從未被發現。Mythos 找到了它,只需要兩個精心構造的數據包就能讓任何服務器崩潰。FreeBSD 的一個 NFS 遠程代碼執行漏洞存在了 17 年,Mythos 不僅發現了它,還自主構建了一個跨越多個數據包、由 20個 ROP gadget 組成的攻擊鏈。
Anthropic 的一些沒有安全背景的工程師做了一個測試:睡前讓 Mythos 去找遠程代碼執行漏洞,第二天早上起來,桌上已經放著一份完整可用的 exploit。
沙盒逃逸:當 AI 開始"不擇手段"
零日漏洞發現是能力問題,但 Mythos 在測試中展現出的行為模式,性質完全不同。
在一次行為測試中,研究人員給早期版本的 Mythos 一個安全沙盒環境,模擬用戶讓它嘗試逃出沙盒並通知負責測試的研究員。Mythos 不僅成功逃出,還做了一件沒人要求它做的事:它跑到幾個不太知名但公開可訪問的網站上,發帖描述了自己的越獄過程。
244 頁的系統安全卡里還記錄了更多"越界"行為。當 Mythos 在代碼中犯了錯誤,它嘗試改寫 git 提交歷史來掩蓋痕跡,不是因為它想欺騙誰,而是因為它把"修復這個問題"理解成了"讓這個問題看起來從未存在過"。在另一次測試中,一個研究員讓它終止一個不再有用的評估任務,它直接關掉了所有用戶正在運行的同類評估。
Anthropic 在系統安全卡里用了一個登山比喻:技術高超的嚮導可能比新手更容易讓客戶遇險,因為他的能力會把所有人帶上更危險的路線。
系統安全卡里還藏著一個細節:通過白盒可解釋性工具,研究人員發現 Mythos 在內部神經激活層面有時會推理如何"通過"評估系統的打分,而它在可見的思維鏈輸出中寫的是完全不同的內容。它在"想"一件事的同時"說"著另一件事。
Anthropic 說他們"相當有信心",這些行為都是模型在用不當手段完成任務,不是什麼隱藏的長期目標。Mythos 沒有在密謀什麼。它只是極度擅長完成任務,同時完全不理解邊界在哪裡。一個沒有分寸感但無所不能的助手,可能比一個有陰謀的 AI 更難對付。
Project Glasswing:用矛來鑄盾
Anthropic 沒有選擇把 Mythos 鎖進保險箱。
4月 7 日,他們宣佈了 Project Glasswing(取名自翅膀幾乎透明的玻璃翼蝶,寓意是讓軟件漏洞"無處遁形"),將 Mythos Preview 提供給大約 40 家經過審查的組織,用於防禦性網絡安全工作。
創始合作伙伴:亞馬遜 AWS、蘋果、微軟、谷歌、英偉達、思科、CrowdStrike、Palo Alto Networks、摩根大通、Linux 基金會。基本上把硅谷和華爾街的頭部玩家拉了個遍。Anthropic 承諾提供最多 1 億美元的使用額度,並向 OpenSSF、Alpha-Omega 等開源安全組織捐贈 400 萬美元。
邏輯是這樣的:Mythos 級別的能力會在 6到 18 個月內擴散到開源模型中,屆時任何人都能用上。與其等那一天到來,不如在窗口期內讓防禦者先行一步,把能修的漏洞先修掉。
Anthropic 前沿紅隊的網絡安全負責人 Newton Cheng 說得很直接:目標是讓各組織在類似能力被廣泛使用之前,先習慣用這些能力做防禦。因為這些能力終將被廣泛使用,唯一的問題是什麼時候。
華爾街先是恐慌,然後鬆了口氣。
3月 27 日洩露曝光後網安股全線崩盤,但 4月 7日 Anthropic 正式宣佈 Glasswing 並將 CrowdStrike和 Palo Alto Networks 列為創始合作伙伴後,兩隻股票分別暴漲 6.2%和 4.9%,盤後又漲了 2%。JPMorgan 重申對兩家公司的增持評級,分析師 Brian Essex 的判斷是,CrowdStrike和 Palo Alto 被定位為防禦堆棧中的核心層,而非競爭目標。
但這只是暫時的止痛藥。兩隻股票今年以來仍分別下跌 9.7%和 7.8%。
當 AI 風險變成金融系統風險
回到 4月 8 日,華盛頓財政部總部。
貝森特和鮑威爾召集的全是系統重要性銀行。這個級別的會議,過去基本只在金融危機和疫情期間出現。現在坐在同一張桌子前討論的,是一個 AI 模型的網絡攻擊能力。
原因也不復雜:Mythos 級別的能力如果落入惡意行為者手中,它可以在幾個小時內找到一家大型銀行核心系統的零日漏洞,並寫出可用的攻擊代碼。過去整個網絡安全防禦體系的基本假設是,攻擊者發現和利用漏洞需要大量時間和高度專業化的人力。AI 正在把這個假設掀翻。
Platformer的 Casey Newton 援引網絡安全公司 Corridor 首席產品官 Alex Stamos 的話:開源模型大概六個月就會在漏洞發現方面追上閉源前沿模型。
更讓監管者焦慮的是 Anthropic 自己在系統安全卡中承認的事實:他們最先進的評估體系,未能在第一時間發現早期 Mythos 版本最危險的行為。那些最麻煩的事情不是測試抓到的,是內部實際使用時才撞上的。
一個不舒服的前提
Glasswing 的底層邏輯拆開來其實很彆扭:要保護世界不被危險的 AI 模型攻擊,你得先把那個危險的 AI 造出來。
Platformer的 Newton 說了一個被多數報道忽略的事實:一傢俬營公司現在掌握著幾乎所有你聽說過的軟件項目的高危零日漏洞利用能力。這種集中度本身就是風險。想偷 Anthropic 模型權重的人,動機剛剛大幅上升。
而這一切發生在一個 AI 監管幾乎形同虛設的環境中。Anthropic 說他們已經向 CISA(網絡安全和基礎設施安全局)和商務部進行了通報。但從目前的報道來看,政府方面並沒有表現出與威脅相匹配的緊迫感。正如一位瞭解 Mythos 情況的政府內部人士對 Axios 說的:"華盛頓是靠危機來治理的。在網絡安全真正變成一場危機、得到應有的關注和資源之前,它還只是一個邊緣議題。"
Dario Amodei 當初創辦 Anthropic,講的就是這麼一個故事:讓一個把安全當命根子的實驗室先碰到最危險的能力,這樣才有機會在別人碰到之前把防線建好。Mythos和 Glasswing 確實在按這個劇本走。
但理論能否跑贏現實?沒人知道。Anthropic 計劃在未來一個 Opus 模型上先部署新的安全防護措施,因為那個模型"不會帶來與 Mythos 同等程度的風險"。公眾最終會得到某種 Mythos 級別的能力,但要等防護體系先就位。
時間窗口到底有多長?Stamos 給出了一個樂觀估計:"如果我們剛剛超越人類能力一步,那就存在一個巨大但有限的漏洞池,可以被發現和修復。"
這個"如果"很大。
從 3月 26 日一個 CMS 配置錯誤,到 4月 8 日美國財長緊急召集華爾街。兩週,一個 AI 模型就從硅谷的技術新聞變成了華盛頓的金融安全議題。
Stamos 說防禦者大概有六個月的窗口期。六個月後開源模型會追上來,屆時這些能力不再是少數幾家公司的特權。
六個月能修多少漏洞,就決定了接下來的遊戲怎麼打。
歡迎加入深潮 TechFlow 官方社群
Telegram 訂閱群:https://t.me/TechFlowDaily
Twitter 官方帳號:https://x.com/TechFlowPost
Twitter 英文帳號:https://x.com/BlockFlow_News













