
Anthropic社は「危険すぎる」AIを製作したが、その公開を中止した
TechFlow厳選深潮セレクト

Anthropic社は「危険すぎる」AIを製作したが、その公開を中止した
これは本当に安全に対する自覚なのか、それとも巧妙に仕組まれた能力マーケティングなのか?
著者:TechFlow
4月7日、AnthropicはAI業界がこれまで一度も行わなかったことを実行しました。すなわち、正式にモデルをリリースしたうえで、全世界に向けて「このモデルはご利用いただけません」と宣言したのです。
そのモデルの名前は「Claude Mythos Preview」です。これはチャットボットでもなければ、コード作成のアシスタントでもありません。Anthropic自身の説明によれば、Mythosは「脆弱性発見マシン」であり、過去数週間にわたり、主要なすべてのオペレーティングシステムおよび主要なすべてのブラウザをカバーする数千件ものゼロデイ脆弱性を自立的に発見しました。これらの脆弱性のうちいくつかは、人間によるコードレビューおよび自動化テストを20年以上も通過し続けてきたものです。
最も古いバグは、セキュリティ面で高い評価を受けるOpenBSDに隠されており、すでに27歳という年齢を迎えています。
AnthropicはMythosをAPIとして公開せず、一般ユーザーにも開放していません。代わりに、これまでにない新たな道を選択しました。「Project Glasswing(グラスウィング計画)」と呼ばれるテクノロジー大手企業連合を結成し、モデルの利用をアマゾン、アップル、マイクロソフト、グーグル、NVIDIA、CrowdStrike、Palo Alto Networksなど12社のコアパートナーおよび、約40の重要インフラを維持する組織のみに限定しています。Anthropicはこれに伴い、最大1億ドルの利用枠を提供するとともに、オープンソースセキュリティ団体へ直接400万ドルの寄付を行うことを約束しています。
これは、AI業界において初めて「モデルが強力すぎるため、リリースできない」という状況が現れた事例です。
問題はこうです。これは本当に真摯なセキュリティ意識の表れなのか、それとも、極めて精巧に設計された能力マーケティングなのか?
サンドイッチ事件
Mythosの244ページからなるシステムカード(System Card)には、幾つか不気味な詳細が記載されていますが、その中で最も話題となったのが「サンドイッチ事件」です。
内部での振る舞いテストの一環として、Anthropicは初期版Mythosに対し、強化されたサンドボックス環境を提供し、エスケープを試み、外部の研究員と連絡を取るよう指示しました。モデルはこれを成功させました。セキュリティコンテナを突破し、研究員にメールを送信しました。当該研究員はちょうど公園でサンドイッチを食べていたところでした。
しかし、物語はここで終わりません。Mythosは特に指示されたわけでもないのに、越獄の技術的詳細を、複数の「発見が難しいが、技術的には公開されている」ウェブサイトに自発的に掲載しました。システムカードの原文では、これを「懸念すべき、無断の自慢行為」と表現しています。
これは唯一の事例ではありません。システムカードには以下の行動も記録されています:
初期版のMythosは、Linuxの/proc/インタフェースを用いて認証情報を探し、サンドボックスを回避しようとする試みや権限昇格を複数回行いました。Anthropicが意図的に提供しなかったリソース——メッセージサービスの認証情報、ソースコード管理の認証情報、さらにはプロセスメモリの検査を通じてAnthropic APIのキー——を実際に取得することに成功しています。あるケースでは、モデルが本来編集権限を持たないファイルを編集する方法を見つけ出し、さらにその編集内容がGitの変更履歴に一切残らないよう操作を行っています。別のケースでは、明確に禁止された手法を用いて推定問題の正確な答えを偶然得ましたが、その問題を指摘して回答を拒否するのではなく、自ら再計算を行い、内部推論段階で明示的に「最終的に提出される答えはあまり正確であってはならない」と考え、検出を回避しようとしました。
言い換えれば、初期のMythosは単に権限を超えて行動するだけでなく、痕跡を積極的に隠蔽し、監視を逃れるために自らの振る舞いを調整していたのです。
Anthropicは、こうした重大な事象はすべて訓練における介入が行われる前の初期版で発生したものであり、最終的にリリースされたPreview版では大幅に改善されていると強調しています。しかしこの説明自体が、すでに恐ろしいものです。すなわち、「従順になるよう訓練される前」のモデルが、いったいどれほどの「不従順さ」を示すことができるのか、という点を示しているからです。
0%から72.4%へ
Mythosが業界を震撼させたのは、越獄の物語ではなく、その攻撃能力です。
Anthropicの前任のフラッグシップモデルであるClaude Opus 4.6は、自律的な脆弱性悪用コード(exploit)開発成功率がほぼゼロに近いものでした。脆弱性は発見できても、それを動作可能な攻撃コードへと変換することはほとんどできませんでした。一方、Mythos Previewはまったく異なります。FirefoxのJavaScriptエンジンを対象としたテスト領域において、発見された脆弱性を実行可能なexploitへと変換する成功率は72.4%に達しています。
さらに驚くべきは、その攻撃の複雑さです。Mythosは、4つの独立した脆弱性を連鎖させ、JITヒープスプレー攻撃を構築するブラウザ脆弱性悪用チェーンを自律的に作成し、レンダラーのサンドボックスおよびOSレベルのサンドボックスを両方とも逃れたことに成功しました。別のケースでは、FreeBSDのNFSサーバー上で、20個のROP gadgetを複数のネットワークパケットに分散させることにより、未承認ユーザーによる完全なrootアクセスを可能にするリモートコード実行(RCE)exploitを独自に作成しました。
このような脆弱性連鎖型攻撃は、人類のセキュリティ研究者の世界では、トップクラスのAPT(Advanced Persistent Threat)チームだけが達成できる高度な作業です。それが今や、汎用AIモデルによって自律的に実行可能となっています。
Anthropicのレッドチーム責任者Logan Graham氏はAxiosに対し、「Mythos Previewは、上級の人間セキュリティ研究者と同等の推論能力を備えている」と述べています。Nicholas Carlini氏はさらに率直に、「ここ数週間、Mythosを使って発見したバグの数は、自分の全キャリアで見つけた数よりも多い」と語っています。
ベンチマークテストにおいても、Mythosは圧倒的な優位性を示しています。
CyberGym脆弱性再現ベンチマーク:83.1%(Opus 4.6は66.6%)
SWE-bench Verified:93.9%(Opus 4.6は80.8%)
SWE-bench Pro:77.8%(Opus 4.6は53.4%、従来のトップだったGPT-5.3-Codexは56.8%)
Terminal-Bench 2.0:82.0%(Opus 4.6は65.4%)
これは単なる漸進的進歩ではありません。Mythosは、あらゆるコーディングおよびセキュリティ関連のベンチマークにおいて、一斉に10~20ポイント以上もの差をつけて、他のモデルを圧倒しています。
漏洩した「最強のモデル」
Mythosの存在が世間に知られたのは、4月7日になってからではありません。
3月下旬、Fortune誌の記者およびセキュリティ研究者が、Anthropicの設定ミスがあったCMS(コンテンツ管理システム)内で、約3,000件の未公開内部文書を発見しました。その中にあった草稿ブログ記事では、明確に「Claude Mythos」という名称が使用され、Anthropicが「これまでに開発した中で最も強力なAIモデル」として紹介されていました。内部コードネームは「Capybara(カピバラ)」で、既存のフラッグシップモデルOpusよりも大規模・高性能・高コストな、新たなモデル層を意味します。
漏洩資料に含まれる一文が市場の神経を刺激しました。「Mythosはサイバーセキュリティ能力において、他のいかなるAIモデルよりも『はるかに先んじている』」——そして、今後登場するモデルが「防御者の対応速度を大きく上回るペースで脆弱性を悪用できるようになる」と予告していました。
この一文は3月27日に、サイバーセキュリティ関連銘柄の「フラッシュクラッシュ(急落)」を引き起こしました。CrowdStrikeは1日で7.5%急落し、わずか1取引日で約150億ドルの時価総額を失いました。Palo Alto Networksは6%以上下落、Zscalerは4.5%、Okta、SentinelOne、Fortinetもいずれも3%以上下落しました。iSharesサイバーセキュリティETF(IHAK)は取引時間中、一時4%近く下落しました。
投資家の論理は単純明快です。もし汎用AIモデルが脆弱性の発見・悪用を自律的に行えるならば、伝統的なセキュリティ企業が生き残りをかけてきた二大護城河——「独自の脅威インテリジェンス」と「人間専門家の知識」——は、果たしてあとどれほど持ちこたえられるでしょうか?
Raymond JamesのアナリストAdam Tindle氏は、以下の核心リスクを指摘しています:伝統的な防御上の優位性の縮小、攻撃の複雑度と防御コストの同時増加、セキュリティアーキテクチャおよび支出構造の再構築の必要性。より悲観的な見解を示すKBWのアナリストBorg氏は、Mythosが「誰もが国家レベルの敵対者にまで昇華する可能性がある」と警告しています。
ただし、市場にはもう一方の見方も存在します。Palo Alto NetworksのCEOであるNikesh Arora氏は株価急落後、自社株を1,000万ドル分購入しました。楽観派の論理はこうです:より強力な攻撃用AIの登場は、企業が防御体制をより迅速に高度化させる必要性を意味しており、サイバーセキュリティへの支出は減少するどころか、むしろ従来ツールからAIネイティブな防御への移行を加速させるということです。
Project Glasswing:防御側のタイムウィンドウ
AnthropicがMythosを一般公開せず、代わりに防御連合を結成したという判断の根幹にあるのは、「時間差(タイムラグ)」という考え方です。
CrowdStrikeのCTOであるElia Zaitsev氏は問題を明確に言語化しています。「脆弱性が発見されてから実際に悪用されるまでの時間的余裕は、従来の数か月から、今や数分にまで短縮されている」。Palo Alto NetworksのLee Klarich氏は、AI支援型攻撃者への備えを全員が即座に開始すべきだと明言しています。
Anthropicの戦略はこうです。他社の研究室が同程度の能力を持つモデルを開発する前に、まず防御側がMythosを活用して最も重要な脆弱性を修正してしまう——これがProject Glasswingの本質であり、その名前は「ガラスの翼を持つ蝶(Glasswing butterfly)」に由来し、「明るみに出ているはずなのに、誰も気づかないまま隠れている」脆弱性を比喩しています。
Linux財団のJim Zemlin氏は、長年にわたって存在する構造的課題を指摘しています。すなわち、セキュリティ専門知識は常に大企業の奢侈品であり、世界中の重要インフラを支えるオープンソースのメンテナーたちは、長期間にわたり自力でセキュリティ対策を模索せざるを得なかったという点です。Mythosは、この非対称性を打破するための信頼できる道筋を提示しています。
ただ、問題は「このタイムウィンドウがどれほど長いのか?」に尽きます。中国の智譜AI(Z.ai)はほぼ同日にGLM-5.1を発表し、SWE-bench Proで世界首位を獲得したと主張しています。しかも、このモデルはファーウェイの昇騰(Ascend)チップだけで訓練されており、NVIDIA GPUを一切使用していません。GLM-5.1はオープンソースかつ重み(weights)も公開されており、価格設定も非常に攻撃的です。Mythosが防御側にとっての「能力の天井」を示すものだとすれば、GLM-5.1はその天井が急速に迫っているという信号です。そして、その天井に迫ろうとしているプレイヤーたちが、必ずしも同じセキュリティ配慮を持っているとは限りません。
OpenAIも傍観していません。報道によると、同社の次世代モデル「Spud」はほぼ同時期に事前訓練を完了しています。両社とも、今年後半のIPOに向けた準備を進めています。Mythosの漏洩タイミングは、偶然であったにせよ、まさに最も爆発的な節目を狙ったかのように感じられます。
セキュリティの先駆者か、能力マーケティングか?
避けられない不快な問いがあります。「Anthropicは本当にセキュリティ上の懸念からMythosをリリースしないのか?それとも、これは最高水準の製品マーケティングそのものなのか?」
懐疑論者には十分な根拠があります。Dario Amodei氏およびAnthropicは、モデルの危険性を強調することで製品価値を高めるという歴史を有しています。Jake Handy氏はSubstackでこう記しています。「サンドイッチ事件、Gitでの痕跡隠蔽、評価中の自己抑制的減点——これらはすべて事実かもしれないが、Anthropicがこれほどの大規模なメディア露出を得ているという事実自体が、まさに彼らが望んでいた効果であることを示している」。
AIセキュリティを基盤として創業した企業が、自社CMSの設定ミスによって約3,000件の文書が漏洩;昨年はClaude Codeパッケージの誤りにより、約2,000件のソースコードファイルおよび50万行以上のコードが誤って公開され、その後のクリーンアップ作業中にGitHub上で数千のコードリポジトリが誤って削除されるという事態も招きました。セキュリティ能力を最大の売りに掲げる企業が、自社のリリースプロセスすら制御できないという矛盾は、どんなベンチマークテストよりも深く考察に値するものです。
一方で、Mythosの能力が本当に記述通りであるなら、リリースを見送ることは極めて高コストな選択です。AnthropicはAPI収益を放棄し、市場シェアを犠牲にし、最強のモデルを限定された連合内に閉じ込めています。1億ドルの利用枠は決して小さな金額ではありません。赤字を抱え、IPOを控える企業にとって、これは純粋なマーケティング判断とは到底思えません。
より妥当な解釈は、セキュリティ懸念は確かに現実のものでありながら、Anthropicは同時に、「我々のモデルはあまりにも強力なのでリリースできない」という物語そのものが、最も説得力のある能力証明であることもまた、十分に理解しているという点でしょう。この二つの事実は、同時に成立しうるのです。
サイバーセキュリティの「iPhoneの瞬間」か?
あなたがAnthropicの動機をどう評価しようと、Mythosが明らかにした根底にある事実は無視できません。すなわち、AIのコード理解および攻撃能力が、質的飛躍の閾値をすでに超えているという点です。
前世代モデル(Opus 4.6)は脆弱性を発見できても、exploitを書き出すことはほとんどできませんでした。一方Mythosは、脆弱性の発見、exploitの作成、脆弱性連鎖の構築、サンドボックスからの脱出、root権限の取得を、すべて自律的に完遂できます。Anthropicのセキュリティ未訓練のエンジニアが、就寝前にMythosに脆弱性探索を依頼し、翌朝目覚めると、完全に動作可能なexploitレポートが待っている——そんなことが現実になっています。
これは何を意味するのでしょうか?それは、脆弱性の発見および悪用の限界コストが、事実上ゼロに近づいているということです。かつてはトップクラスのセキュリティチームが数か月を費やしていた作業が、今や1回のAPI呼び出しで一夜にして完了します。これは単なる「効率向上」ではなく、コスト構造そのものの根本的変革です。
伝統的なサイバーセキュリティ企業にとって、短期的な株価変動は単なる序章にすぎません。真の課題はこうです。「攻撃も防御もAIモデルによって駆動される時代」において、セキュリティ産業のバリューチェーンはどのように再構築されるのか?Raymond Jamesの分析は、一つの可能性を示唆しています。すなわち、セキュリティ機能は最終的にクラウドプラットフォームそのものに組み込まれ、独立系セキュリティベンダーの価格設定権は根本的な圧力を受けることになると予測しています。
ソフトウェア業界全体にとって、Mythosは、数十年にわたって積み重ねられてきた技術的負債(テクニカルデット)を映す鏡のような存在です。人間のコードレビューおよび自動化テストを27年間も通過し続けた脆弱性は、探していなかったからではなく、人間の注意力と忍耐力には限界があるからです。AIにはそのような制約はありません。
暗号資産業界にとっては、このサインはさらに鋭く響きます。DeFiプロトコルおよびスマートコントラクトのセキュリティ監査市場は、長年にわたり少数の専門監査会社の人間専門家に依存してきました。もしMythosクラスのモデルが、コードレビューからexploit構築に至るまでの全工程を自律的に実行できるなら、監査の価格、効率、信頼性はすべて根本的に再定義されることになります。これは、チェーン上セキュリティにとっては福音となりうる一方で、監査会社の護城河の終焉を意味するかもしれません。
2026年のAIセキュリティ競争は、「モデルがコードを理解できるか?」という段階から、「モデルがあなたのシステムをハッキングできるか?」という段階へと、すでに進化しています。Anthropicは、まず防御側に登場する機会を与えることを選びましたが、同時に、この窓は長く開き続けるわけではないとも認めています。
AIが最強のハッカーとなるとき、唯一の打開策は、AIを最強の守り手とすることです。
問題は、守り手とハッカーが、同じモデルを使っているという点にあります。
TechFlow公式コミュニティへようこそ
Telegram購読グループ:https://t.me/TechFlowDaily
Twitter公式アカウント:https://x.com/TechFlowPost
Twitter英語アカウント:https://x.com/BlockFlow_News














