
實測 Claude 史上最強模型 Fable 5,普通人慎用
TechFlow Selected深潮精選

實測 Claude 史上最強模型 Fable 5,普通人慎用
歡迎進入 Token 計費時代。
作者:APPSO
對普通人最壞的消息要來了。
就在剛剛,Anthropic 宣佈推出 Claude Fable 5 和 Claude Mythos 5。
其中,Fable 5 是 Anthropic 首個面向公眾開放的 Mythos 級模型,Mythos 5 則主要面向少數網絡安全防禦機構、關鍵基礎設施提供方以及後續進入可信訪問計劃的生物醫學研究者。
只是,鮮少有人注意的是,按照官方說明,Fable 5 從現在到 6 月 22 日,會包含在 Pro、Max、Team 和按席位計費的 Enterprise 計劃裡,不額外收費。到了 6 月 23 日,Fable 5 將從這些訂閱計劃中移出,繼續使用就需要消耗 usage credits。
換句話說,過去那種一張「月卡」解鎖最強 AI 的模式,或許將一去不復返。對於用戶而言,未來需要考慮的可能不只是訂閱價格,還有每一次調用、每一次長任務執行背後真實消耗的 token 成本。
歡迎進入 Token 計費時代。
Claude Fable 5 封神登場,但它也是最狠的「Token 刺客」
Anthropic 對 Fable 和 Mythos 的命名也給出瞭解釋。Fable 源自拉丁語 fabula,意為「被講述的小故事」,含義上接近希臘語 Mythos。
兩個新名字看起來像兩款模型,實際更接近同一底層模型的兩個版本。Fable 5 目前面向公眾開放,帶有更嚴格的安全限制;
Mythos 5 目前 只通過 Project Glasswing 計劃提供給少數網絡安全防禦機構和關鍵基礎設施合作方。
根據 Anthropic 官方博客的介紹,Fable 5 是該公司目前一般可用模型中能力最強的一款,在軟件工程、知識工作、視覺理解、科學研究等方向都有明顯提升。任務越長、越複雜,它相對此前 Claude 模型的優勢越大。
Fable 5 的意義在於,Mythos 級能力第一次大規模面向普通用戶開放。基準測試跑分圖如下,主打一個遙遙領先。
不過,模型名字本身也引發了一些討論。原OpenAI Codex 相關負責人 Tibo都發文調侃道,Anthropic 用了 OpenAI 想用但沒有用的 Fable 命名。
能力層面,軟件工程是官方最強調的方向之一。
Anthropic 提到,Stripe 在早期測試中讓 Fable 5 處理一個 5000 萬行 Ruby 代碼庫的遷移任務。這個工作如果交給一個工程團隊手動完成,原本需要兩個多月,Fable 5 在一天內完成。
Cognition 的 FrontierCode 測試也顯示,Fable 5 在複雜生產級代碼任務中表現領先。這個評測關注的不是普通代碼題,而是模型能否完成困難編程任務,並達到高質量生產代碼庫的要求。
Anthropic 還強調,Fable 5 比此前 Claude 模型更節省 token。當然,這話聽聽得了,以往每次 Claude 新模型的發佈都有類似的表述,但幾乎都成了一個個 Token 刺客,為偌大的互聯網提供了相當多的笑話。
知識工作方面,Fable 5 在 Hebbia 的金融基準測試中拿到最高成績,提升集中在文檔推理、圖表理解和複雜問題分析。IMC 的交易分析評測也顯示,Fable 5 在事實檢索、概念推理、原因分析和期望值分析上都有較強表現。
視覺能力也是發佈重點。Anthropic 稱,Fable 5 能從複雜科學圖表中提取精確數字,也能根據網頁截圖重建應用源碼。
官方還展示了一個更直觀的案例:Fable 5 只依靠遊戲畫面完成《寶可夢火紅》,沒有使用額外地圖、導航工具或遊戲狀態信息。此前的 Claude 模型做類似任務,還需要更復雜的輔助系統。
長上下文和記憶能力也有提升。Anthropic 在《殺戮尖塔》測試中發現,給模型提供持久化文件記憶後,Fable 5 的表現提升幅度達到 Opus 4.8 的三倍,進入最終章節的頻率也提升三倍。
生命科學方向更敏感。Anthropic 稱,內部蛋白質設計專家使用 Mythos 5,把部分藥物設計流程加速約 10 倍。
在一個案例裡,Mythos 5 藉助蛋白質設計和生物信息學工具,在沒有人工協助的情況下完成了科學家通常要處理的一整套流程,包括選擇結合位點、調用設計工具、處理失敗結果。14 個蛋白靶點中,有 9 個產生了值得繼續研究的候選方案。
生命科學和網絡安全能力的提升,也解釋了 Anthropic 為什麼沒有把完整 Mythos 級能力直接放開。
Fable 5 面向公眾開放時,配套了一套新的安全分類器。只要用戶請求涉及網絡安全、生物、化學或模型蒸餾等高風險方向,系統就會自動改由 Claude Opus 4.8 響應,並告知用戶模型發生了變化。
Anthropic 表示,早期數據中,超過 95% 的 Fable 5 會話不會觸發這種變化。普通寫作、編程、分析、設計、數據處理等任務,大多數情況下仍能使用 Fable 5 本身。但只要進入高風險區域,模型能力就會受到限制。
網絡安全是限制最嚴的方向。Anthropic 承認,Mythos 級模型擅長髮現和利用軟件漏洞,也具備較強的代理式攻擊能力,可能覆蓋偵察、發現、橫向移動等環節。為了避免這種能力被濫用,Fable 5 的網絡安全分類器覆蓋範圍很廣。
生物和化學方向也類似。Anthropic 認為,模型已經具備完成真實科學任務的能力,過去只屏蔽少數生物武器相關問題已經不夠。因此,Fable 5 暫時會在大多數生物和化學相關請求上回退到 Opus 4.8 處理。
值得一提的是,Anthropic 還為 Fable 5 加入了一層針對前沿大模型開發的隱藏保護。
它主要限制 Claude 協助構建預訓練流水線、分佈式訓練基礎設施或 ML 加速器設計等任務,避免模型反過來加速其他機構訓練下一代前沿模型。
和觸發後會切換到 Opus 4.8 的安全限制不同,這類保護不會直接提示用戶,而是通過提示詞修改、steering vectors 或 PEFT 等方式,降低 Fable 5 在相關任務上的性能。目前也已經有受害者現身說法。
截至目前,Claude Fable 5 現已面向全球用戶開放。開發者可以通過 Claude API 調用 claude-fable-5。Claude API 和按需付費的 Enterprise 計劃從發佈日起已經全面可用。
Fable 5 和 Mythos 5 的價格相同,均為每百萬輸入 token 10 美元,每百萬輸出 token 50 美元。按照 Anthropic 的說法,這已經低於 Claude Mythos Preview 的一半,但對於高強度長任務來說,價格仍然不低。
AI 終於數清了 6 根手指
比起官方博客,實測更能說明 Fable 5 到底變強在哪裡。根據我的實測,Fable 5 已經能夠識別 6 根手指了。
恰逢高考結束,我們也拿了道全國高考一卷語文作文題,讓它練練手,怎麼說呢?整體文風表達比較流暢,並不「普通」。
更具體的對比可以參考@ Hypergent 的實測,在小行星可視化任務中, Fable 5 不僅完成數據提取,還設計了包含軌道軌跡和懸停詳情的交互式展示,在保證性能的同時提升了信息表達能力。
在健身度假村規劃任務中,Fable 5 藉助 GPT-Image-2 和 Nano Banana 生成更符合實際使用邏輯的場地方案,能夠考慮區域連接、功能分佈和人流動線,而不僅是簡單擺放建築。
Fable 5 能夠把天文現象與可視化表達結合起來,展示太陽耀斑對極光影響的模擬;而 Opus 4.8 甚至未能正常加載。
前特斯拉 AI 總監,OpenAI 聯創 Andrej Karpathy(現已加入 Anthropic)的評價更能說明開發者的感受。
不過,在設計審美上,人類目前仍然略佔上風。
沃頓商學院教授 Ethan Mollick 的實測更能體現 Fable 5 的變化。他拿到早期訪問權限後,重點測試了遊戲、地圖和研究工具等複雜任務。
其中最有代表性的是一個等時線地圖項目。Mollick 要求 Fable 5 構建一個基於真實交通數據的交互式地圖,展示不同城市在一定時間內的可達範圍。模型隨後調用多個 Agent 收集航班、鐵路和道路數據,同時完成代碼編寫和測試,並不斷根據反饋修正結果。
Mollick 還讓 Fable 5 開發了一款名為 Concord 的研究工具。模型先生成 19 頁設計文檔,又連續工作 9 個半小時,最終完成軟件開發,用於分析開放式研究數據並校準人類與 AI 的判斷結果。
實測也暴露出明顯問題。Mollick 認為,Fable 5 仍然會出現錯誤和遺漏,需要人工檢查和完善。同時,長任務帶來的 token 消耗非常高,而 Fable 5 的價格又明顯高於 Opus 4.8,真正投入生產環境後,成本可能成為最大的現實挑戰。
高強度長任務能力,最終都會反映到使用成本上。作為 20 美元套餐的 Pro 用戶,我甚至只是簡單跑了幾個任務,就用完了額度。
而 Claude 客戶端也顯示 Fable 5 「included until June 22」,如開頭所述,按照 Anthropic 的安排,免費包含窗口結束後,Fable 5 會從部分訂閱計劃中移出,繼續使用需要消耗 usage credits。
過去用戶付一筆不算貴的月費,就能在很大程度上享用世界上最強的一批智能。訂閱制模糊了真實成本,也讓普通個體在某些時刻和一些巨頭站上了同一條起跑線。
Token 計費降臨之後,一切都會發生變化。
AI 會從一種近似包月服務,變成一種按量消耗的生產資料。最強模型也正在變成一種更昂貴、更精細計價的生產工具。
有些人可以不太在乎成本,比如讓 Fable 5 執行 24 小時長鏈任務,重構 5000 萬行代碼,獨立開發一個完整應用,持續跑研究項目,反覆測試和修改結果。
但更多普通用戶則會在每一次調用前下意識地掂量:這個問題值不值得花 token?這個任務值不值得交給最強模型?這次嘗試失敗後,還要不要繼續讓它重來一遍?
最糟糕的消息莫過於此。AI 沒有變弱。相反,它正以前所未有的速度變強,強到足以獨立完成越來越多原本屬於人類的腦力工作。
與此同時,獲得這種能力的門票正在不斷提高。普通人與先進生產力之間,剛剛被大模型拉近的信息差,可能會因為昂貴的 token 計費重新拉開。
Anthropic 如此,未來 OpenAI 等其它廠商也很難例外。前沿模型越強,訓練和推理成本越高,尤其是這兩家 AI 公司目前都在爭取上市,都需要向資本市場證明自己不只是能訓練更強模型,也能把模型能力變成持續收入。
因此,與其說 Fable 5 的發佈是一次模型升級,倒不如說是一次徹底調整 AI 訂閱體系的預熱。如果 AI 的普惠窗口期開始進入倒計時,那這絕對不會是最好的消息。
歡迎加入深潮 TechFlow 官方社群
Telegram 訂閱群:https://t.me/TechFlowDaily
Twitter 官方帳號:https://x.com/TechFlowPost
Twitter 英文帳號:https://x.com/BlockFlow_News














