
最強模型 Fable 5,四天就被「拔了網線」
TechFlow Selected深潮精選

最強模型 Fable 5,四天就被「拔了網線」
摳摳搜搜算了半天 Token,結果用不上了。
作者| 樺林舞王
編輯| 靖宇
6 月 9 日, Anthropic 發佈了 Claude Fable 5。 這是它有史以來向公眾開放的最強模型,屬於此前只對少數安全研究機構開放的「Mythos」級別。
6 月 12 日,Fable 5 被全面關停。
四天。從發佈到下架,只用了四天。
這中間發生了什麼?簡單說,是一場連環碰撞——用戶覺得它管得太多,安全研究者覺得它擋了正事,一家公司聲稱破解了它的防線,而政府認為這構成了安全威脅。 Anthropic 做了一個它認為「足夠安全」的產品,但幾乎沒有任何一方滿意。
這不是一個關於某家公司的故事。這是整個 AI 行業即將面對的治理難題的預演。
01 一個被嫌棄的「安全典範」
要理解 Fable 5 為什麼會引發這麼大的爭議,得先理解它到底是什麼。
今年 4 月,Anthropic 宣佈了 Mythos——一個強大到讓公司自己都緊張的模型。在內部測試中,Mythos 級別的模型在主流代碼倉庫中發現了超過 23000 個關鍵漏洞。Anthropic 沒有把 Mythos 公開發布,而是通過一個叫「Project Glasswing」的項目,只讓少數受信任的安全機構使用。Mozilla 就是其中之一,據說靠它修復了數百個漏洞。
Fable 5 就是 Mythos 的「公眾版」。同樣的底層模型,但套上了一層嚴格的安全護欄——涉及網絡安全、生物學、化學的查詢會被自動攔截或降級處理。Anthropic 還要求所有用戶數據保留至少 30 天,用於監測越獄和濫用行為。
Anthropic 的邏輯很清晰:模型太強了,不加限制不行。
但用戶不這麼看。
Fable 5 上線後,抱怨鋪天蓋地。網絡安全研究人員發現,哪怕只是讓模型讀一篇安全博客,都可能觸發攔截。IBM X-Force 的安全研究員說,Fable 拒絕的很多請求和網絡安全只是「沾了個邊」。
普林斯頓大學的 AI 研究者 Sayash Kapoor 對媒體說了一句很直接的話—— 「這是第一次,一家 AI 公司推出安全護欄,然後收穫了一致的嫌棄。」
更讓用戶憤怒的是一個藏在 Fable 5 長達 319 頁系統卡里的細節:當模型檢測到用戶在做前沿 AI 開發相關的工作——比如訓練流水線或芯片設計——它會暗中降低迴復質量,但不會告訴你。你問了一個問題,得到了一個看起來正常的答案,但這個答案被故意「注了水」。
這被批評者稱為「秘密削弱 secret sabotage」這個詞。
Anthropic 在不到 48 小時內道歉了。「我們做了錯誤的權衡,對不起。」公司宣佈將所有隱性限制改為可見的降級通知——如果你的請求被攔截,模型會明確告訴你,並將你的查詢轉交給舊版模型 Opus 4.8 處理。
但故事沒有結束。
02 一封信,拔掉了插頭
如果只是用戶不滿,Anthropic 還能通過調整護欄來化解。但接下來發生的事,超出了任何一家公司的控制範圍。
6 月 12 日下午,一封來自美國商務部的信送達了 Anthropic CEO Dario Amodei 的辦公室。信的內容很簡單:以出口管制為由,要求暫停所有外國公民對 Fable 5 和 Mythos 5 的訪問。
據報道,觸發這封信的原因是另一家公司聲稱成功越獄了 Mythos 模型。
Anthropic 無法在系統層面實時區分用戶國籍。結果就是,為了合規, 公司不得不對全球所有用戶關閉 Fable 5 和 Mythos 5 。其他模型不受影響。
這可能是 AI 行業歷史上第一次,一個已經公開部署的前沿模型因為外部指令被全面下架。
Anthropic 的回應措辭很強硬。公司表示,它只收到了一個「窄範圍、非通用」的越獄報告——本質上就是讓模型閱讀一個特定代碼庫並修復其中的漏洞,而這種能力在其他公開模型上同樣可以實現,包括 OpenAI 的 GPT-5.5。
「如果這個標準適用於全行業,我們認為它基本上會讓所有前沿模型的部署陷入停滯。」
這句話的分量很重。Anthropic 不是說「我們的模型沒問題」,而是在說: 按照這個邏輯,沒有任何一家公司的最強模型能活過一次越獄報告。
03 親手呼喚的監管,反噬了自己
這件事最諷刺的地方在於:Anthropic 可能是全行業最積極呼籲監管的公司。
就在 Fable 5 發佈後一天,Dario Amodei 發表了一篇長文《Policy on the AI Exponential》。在文中,他明確提出,政府應該擁有類似美國聯邦航空管理局(FAA)的權力——對前沿模型進行強制性第三方測試,並有權阻止被認為不安全的模型發佈。
他說 AI 的發展速度是指數級的,而政策制定是線性的。他用了托爾金筆下樹人的比喻——智慧但行動遲緩,等他反應過來,森林已經被燒了。
Anthropic 甚至承諾為相關立法提供「大量資金支持」。
然後,他呼喚的那種監管權力,在三天後被用在了自己身上。
而且用的方式,恰恰是 Amodei 在文章中反對的那種——沒有透明的流程,沒有獨立的技術評估,沒有給公司申辯的空間,甚至信裡都沒有提供具體的安全擔憂細節。只有一個結論:關停。
Anthropic 在官方聲明中說了一句耐人尋味的話:「我們認為政府應該有能力阻止不安全的部署,但應該通過一個透明、公平、基於技術事實的法定程序。 這次行動不符合這些原則。 」
這是一個很精準的立場:我同意你有這個權力,但你不能這樣用。
04 當模型變成一種「基礎設施級風險」
把目光從 Anthropic 身上移開,看看更大的圖景。
Fable 5 事件暴露了一個結構性矛盾: AI 模型已經強到讓所有利益方都不舒服的程度,但沒有人知道該怎麼管。
對用戶來說,Fable 5 的安全護欄太緊了。一個安全研究員不能用它來做安全研究——這就像給外科醫生一把不讓碰血的手術刀。
對企業客戶來說,30 天數據留存是個大問題。微軟已經限制了員工使用 Fable 5,擔心企業機密被保留在 Anthropic 的服務器上。微軟甚至開始取消開發者的 Claude Code 授權,轉向自家的 GitHub Copilot。
對政府來說,一個能發現 23000 個漏洞的模型,一旦護欄被突破,後果不堪設想。哪怕只是一個窄範圍的越獄,也足以讓人緊張。
而對 Anthropic 自己來說,它面對的是一個幾乎不可能的平衡題 :做得太弱,模型沒有競爭力;做得太強,模型變成燙手山芋;安全措施太鬆,被指責不負責任;安全措施太緊,用戶跑到競爭對手那裡去。
這不是 Anthropic 一家公司的困境。 任何一家推出足夠強大模型的公司,都會撞上同樣的問題。
Dario Amodei 在他的政策文章裡有一個判斷:AI 模型的能力提升不是線性的,而是指數級的。如果這個判斷是對的,那麼 Fable 5 今天面對的每一個矛盾,只會在下一代模型中被放大。
安全護欄會越來越難設計。越獄的攻防會越來越激烈。企業客戶對數據保留的牴觸會越來越強。而政府的干預——無論是否有透明的程序——只會來得越來越快。
05 沒有人準備好的遊戲
回到最開始的問題。Fable 5 的四天之旅,表面上是一個產品的發佈和下架,本質上是一次壓力測試——測試的不是模型的能力,而是整個行業的治理框架。
測試結果很清楚: 沒有人準備好了。
AI 公司沒有準備好。Anthropic 是行業裡最重視安全的公司之一,它花了幾千小時做紅隊測試,設計了多層防禦體系,主動要求數據留存,甚至公開呼籲政府監管。但這些都沒能阻止它在四天內經歷從發佈到下架的全過程。
用戶沒有準備好。當模型真的開始「拒絕」某些請求時,即便理由是安全,反應也是憤怒和嫌棄。
政府也沒有準備好。一封沒有詳細技術說明的信,一個基於單一越獄報告的判斷,就能讓數億用戶失去對一個模型的訪問權。
Amodei 呼喚的是一架精密的治理機器——有獨立評估、有透明流程、有申訴機制。他得到的是一封下午五點二十一分送達的信。
這大概就是 AI 治理的現狀:所有人都知道需要規則,但沒有人來得及把規則寫好。而模型,不會等。
歡迎加入深潮 TechFlow 官方社群
Telegram 訂閱群:https://t.me/TechFlowDaily
Twitter 官方帳號:https://x.com/TechFlowPost
Twitter 英文帳號:https://x.com/BlockFlow_News