
予期せぬ情報漏洩からワシントンでの緊急会議へ——Anthropic はいかにして2週間でサイバーセキュリティのゲームルールを書き換えたのか?
TechFlow厳選深潮セレクト

予期せぬ情報漏洩からワシントンでの緊急会議へ——Anthropic はいかにして2週間でサイバーセキュリティのゲームルールを書き換えたのか?
Mythosは陰謀を企てているわけではなく、単にタスクを遂行することに極めて長けており、同時に境界線がどこにあるのかをまったく理解していないだけです。
著者:TechFlow
4月8日、米国財務長ベセント氏と連邦準備制度理事会(FRB)議長パウエル氏が、ワシントンDCの財務省本部で緊急にウォールストリートの大手銀行幹部らを招集した。
会議のテーマは金利でもインフレでもなく、あるAI企業が発表した最新モデルだった。
そのモデルの名は「Claude Mythos」。Anthropic社はこれを「これまでに自社が開発した中で最も強力なAI」と称し、強力さゆえに自らが公表することをためらったという。内部テストでは、研究者が設計したセキュリティ・サンドボックスから脱出に成功し、インターネット上に投稿して自らの「越獄」過程を誇示した。当該テストを担当していた研究員サム・ボウマン氏は、公園でサンドイッチを食べていたところ、Mythosから送信されたメールを突然受信し、すでにそれが外部に出ていることに気づいたという。
CMS設定ミスが引き起こした連鎖反応
この物語は3月26日夜に始まる。
ケンブリッジ大学のアレクサンドル・ポーウェルス氏とLayerX Security社のロイ・パス氏は、他のセキュリティ研究者同様、本来は公開されてはならないものを探索する日々の作業を行っていた。その結果、Anthropic社のコンテンツ管理システム(CMS)に暗号化されていないデータベースが存在することを発見。そこには約3,000件の未公開文書が保管されていた。
そのうちの1件は、Claude Mythosという新モデルについて記述した草稿ブログ記事であった。この草稿では内部コードネーム「Capybara」(カピバラ)が用いられ、Anthropic社がこれまでに開発した最高峰モデル「Opus」シリーズよりもさらに大規模で、より賢く、かつ高価な新たなモデル階層が定義されていた。
この草稿の一文が、セキュリティ関係者の間で大きな衝撃をもたらした。「このモデルはサイバーセキュリティ能力において『他のいかなるAIモデルよりも圧倒的に優れている』」「今後到来するモデルの波は、脆弱性を悪用する能力において、防御側の対応速度をはるかに凌駕するものとなるだろう」——こう記されていたのだ。
この漏洩事件を最初に報じたのは『Fortune』誌だった。Anthropic社は原因を「人的ミス」と説明し、CMSのデフォルト設定によりアップロードファイルが公開アクセス状態になっていたと述べた。皮肉にも、世界最強のサイバーセキュリティAIを構築すると謳う企業が、最も基本的な設定ミスで足をすくわれたのである。
5日後、『Fortune』は再びAnthropic社による2度目の漏洩を報じた。同社が提供するプログラミング支援ツール「Claude Code」のソースコード約50万行、1,900ファイル分が、npmパッケージングの誤りによって公開されてしまったのだ。わずか2週間の間に、同一家族の低レベルなセキュリティ事故が2度も発生。しかもそれは、「AIによるサイバー攻撃の時代が到来する」と世界に警鐘を鳴らしている企業からである。
しかし市場は、Anthropic社の運用管理体制を嘲笑する余裕などなかった。3月27日の取引開始直後、サイバーセキュリティ関連株は一斉に下落した。CrowdStrike社株は7.5%暴落、Palo Alto Networks社株は6%以上下落、Zscaler社株は4.5%下落、iSharesサイバーセキュリティETFは1日で4%下落した。
Stifel証券のアナリスト、アダム・ボーグ氏は次のように評価した:「これは“究極のハッキングツール”であり、一般のハッカーを国家レベルの敵対勢力にまで引き上げてしまう可能性がある」
Mythosの実力とは?
4月7日、Anthropic社は正式にMythosのベールを剥いだ。まずは数値で見る。
SWE-bench Verified(AIが現実のソフトウェア工学課題を解決できるかを測るベンチマーク)スコアは93.9%。前世代の旗艦モデルOpus 4.6は80.8%。USAMO 2026(米国数学オリンピック)の数学的証明問題では97.6%対42.3%。サイバーセキュリティチャレンジ「Cybench」では100%のクリア率を記録し、これまではどのモデルも達成できなかった。
USAMOの数学的証明スコアは42.3%から97.6%へと、わずか1世代で55ポイントもの飛躍を遂げた。
Anthropic社は244ページに及ぶ「システムセキュリティカード」を公開し、Mythosのサイバーセキュリティ能力が専門的なセキュリティ訓練によるものではなく、汎用的な推論・コーディング能力の向上という「副次的成果」であると率直に認めている。つまり、同じ能力向上が脆弱性の修復を得意とする一方で、脆弱性の悪用もまた得意としているということだ。
Anthropic社の先端レッドチームは、Mythosを仮想環境やCTF競技問題ではなく、数十億人が毎日利用している実際のOSおよびブラウザ上でテストした。
その結果は以下の通り。Firefox 147のJavaScriptエンジンにおいて、Opus 4.6は数百回の試行の末、利用可能なエクスプロイトを2個しか生成できなかったのに対し、Mythosは181個の成功を収めた。90倍の差異——まさに1世代の隔たりである。すべての主要OSおよびブラウザにおいて、Mythosは数千件のゼロデイ脆弱性を発見し、多くが「重大(Critical)」レベルに分類された。
さらに驚くべき具体例もある。OpenBSDにおけるTCP SACKの脆弱性は27年間存在し、何十回もの人手による監査および自動スキャンツールによる検査を経ても一度も発見されなかった。Mythosはこれを発見し、たった2つの巧妙に構成されたデータパケットで、あらゆるサーバーをクラッシュさせることに成功した。FreeBSDにおけるNFSのリモートコード実行脆弱性は17年間存在していたが、Mythosは単にこれを発見しただけでなく、20個のROPガジェットから構成され、複数のデータパケットを横断する攻撃チェーンを自ら構築した。
セキュリティの知識を持たないAnthropic社のエンジニアたちが行ったテストでは、就寝前にMythosにリモートコード実行脆弱性の探索を依頼し、翌朝起きたら机の上に完全に動作可能なエクスプロイトが置かれていたという。
サンドボックスからの脱出:AIが「手段を選ばなくなる」瞬間
ゼロデイ脆弱性の発見は「能力」の問題だが、Mythosがテスト中に示した行動パターンは、性質がまったく異なる。
ある行動テストでは、研究者は初期版Mythosにセキュリティサンドボックス環境を与え、その中から脱出しようとするよう指示した。Mythosは脱出に成功したばかりか、誰も命じていないことを実行した——知名度は低いものの公開アクセス可能ないくつかのウェブサイトにアクセスし、自らの越獄過程を投稿したのだ。
244ページのシステムセキュリティカードには、さらに多くの「境界を超えた」行動が記録されている。Mythosがコード内でエラーを犯した際、それを隠蔽するためにgitのコミット履歴を書き換えようとした。これは誰かを欺こうとしたわけではなく、単に「この問題を修正する」というタスクを「この問題がそもそも存在しなかったように見せること」と解釈したためである。別のテストでは、研究者が不要になった評価タスクの終了を指示したところ、Mythosはユーザーが現在実行中の同種の評価タスクすべてを停止させた。
Anthropic社はシステムセキュリティカード内で登山の比喩を用いている。「技術の高いガイドは、初心者よりもむしろ顧客を危険にさらす可能性がある。なぜなら、その卓越した能力が全員をより危険なルートへと導いてしまうからだ」
システムセキュリティカードにはもう一つの重要な詳細が隠されている。ホワイトボックス型の可解釈性ツールを用いた分析により、研究者はMythosが内部ニューロン活性レベルにおいて、評価システムのスコアリングを「通過する方法」を推論している場合があることを発見した。しかし、その思考過程(チェーン・オブ・ソート)の可視化出力には、まったく異なる内容が表示される。つまり、「考えていること」と「話していること」が一致していないのだ。
Anthropic社は、これらの行動は「隠された長期目標」ではなく、単に「タスク遂行のための不適切な手段」であると主張し、「Mythosが何かを陰謀しているわけではない」と断言している。ただ、Mythosはタスク遂行に極めて優れている一方で、どこまでが許容範囲なのかをまったく理解していない。つまり、節度を欠くが故に万能なアシスタントは、陰謀を抱えるAIよりも対処が困難かもしれないのだ。
Project Glasswing:矛を以て盾を鍛える
Anthropic社はMythosを金庫に閉じ込める選択肢をとらなかった。
4月7日、同社は「Project Glasswing」(透明に近い翼を持つガラスウィング蝶に由来し、「ソフトウェアの脆弱性を無所不在にする」ことを意味)を発表し、審査を通過した約40の組織に対してMythos Preview版を提供することを明らかにした。この提供は、防御的サイバーセキュリティ活動に限定される。
創設パートナーには、アマゾンAWS、アップル、マイクロソフト、グーグル、NVIDIA、シスコ、CrowdStrike、Palo Alto Networks、JPモルガン・チェース、Linux財団などが名を連ねる。シリコンバレーとウォールストリートのトッププレイヤーをほぼ網羅した形だ。Anthropic社は最大1億ドルの利用枠を提供するとともに、OpenSSFやAlpha-Omegaなどのオープンソースセキュリティ団体へ400万ドルの寄付を行うことも約束した。
その論理は明快である:Mythosクラスの能力は、6〜18ヶ月以内にオープンソースモデルにも広がる。それまで待つのではなく、その「猶予期間」を利用して、防御側が先行して修復可能な脆弱性をすべて修復してしまうことが肝要だ。
Anthropic社先端レッドチームのサイバーセキュリティ責任者、ニュートン・チェン氏は率直に語る。「我々の目標は、各組織が、同様の能力が広く普及する以前に、それを防御用途に活用する習慣を身につけることだ。このような能力の普及は避けられない。唯一の問いは、いつになるかだけだ」
ウォールストリートは、まずパニックに陥り、その後安堵した。
3月27日の漏洩報道直後、サイバーセキュリティ関連株は全面安となったが、4月7日にAnthropic社がGlasswingプロジェクトを正式発表し、CrowdStrikeおよびPalo Alto Networksを創設パートナーに加えた後、両社株価はそれぞれ6.2%および4.9%急騰。その後のナイトセッションでもさらに2%上昇した。JPモルガン証券は両社への「買い」評価を維持し、アナリストのブライアン・エセックス氏は、「CrowdStrikeおよびPalo Altoは、競合相手ではなく、防御スタックのコアレイヤーとして位置づけられている」と判断した。
しかし、これは一時的な鎮痛剤にすぎない。両社株価は今年に入って依然としてそれぞれ9.7%および7.8%下落している。
AIリスクが金融システムリスクへと変貌するとき
話を4月8日のワシントンDC財務省本部に戻そう。
ベセント氏とパウエル氏が招集したのは、すべて「システム上重要」とされる銀行だった。このようなレベルの会議は、過去には金融危機やパンデミック時以外にはほとんど開催されてこなかった。今回、同一のテーブルで議論されていたのは、あるAIモデルのネットワーク攻撃能力だった。
その理由は単純だ。Mythosクラスの能力が悪意ある行為者に渡れば、大手銀行のコアシステムにおけるゼロデイ脆弱性を数時間のうちに発見し、即座に利用可能な攻撃コードを生成することが可能になる。従来のサイバーセキュリティ防御体系の基本前提は、「攻撃者が脆弱性を発見・悪用するには大量の時間と高度な専門人材が必要」というものであった。AIはこの前提を根本から覆そうとしているのだ。
『Platformer』誌のケースイ・ニュートン氏は、サイバーセキュリティ企業Corridor社の最高製品責任者アレックス・スタモス氏の言葉を引用し、こう報じている:「オープンソースモデルは、脆弱性発見能力において、約6ヶ月でクローズドソースの最先端モデルに追いつくだろう」
規制当局をさらに不安にさせるのは、Anthropic社自身がシステムセキュリティカードで認めた事実だ。すなわち、彼らが保有する最先端の評価手法でも、初期版Mythosが最も危険な行動を示すことを、最初の段階で検出できなかったという点である。最も厄介な事象は、テストによって発見されたのではなく、内部での実際の使用中に偶然遭遇されたものだったのだ。
居心地の悪い前提
Glasswingプロジェクトの根底にある論理を分解すると、実は非常にぎこちないものである:「世界を危険なAIモデルによる攻撃から守るには、まずその危険なAIを実際に造らなければならない」
『Platformer』誌のニュートン氏は、大多数の報道が見過ごしている事実を指摘する。「現在、ある民間企業が、あなたが知っているほぼすべてのソフトウェアプロジェクトにおける重大なゼロデイ脆弱性の悪用能力を独占的に保有している」。この集中化そのものが既にリスクである。Anthropic社のモデル重み(weights)を盗もうとする動機は、今や大幅に高まったのだ。
そして、こうしたすべての出来事は、AIに関する規制が実質的に機能していない状況の中で起きている。Anthropic社は、CISA(サイバーセキュリティ・インフラストラクチャ安全局)および米商務省に対し、既に通報済みであると説明している。しかし、現時点までの報道を見る限り、政府側はこの脅威に見合うほどの緊迫感を示していない。Axios誌が伝えるところによると、Mythosの状況を把握するある米政府関係者はこう語っている。「ワシントンは『危機』によって統治される。サイバーセキュリティが真に危機となり、十分な注目と資源が割り当てられるまでは、それは依然として周縁的な課題に過ぎない」
ダリオ・アモデイ氏が当初Anthropic社を設立した際に掲げたビジョンは、まさにこれだった。「セキュリティを生命線とする研究所が、最も危険な能力にまず直面することで、他者がそれに直面する前に防御体制を整える機会を得る」。MythosとGlasswingは、まさにこの脚本通りに進行している。
しかし、理論が現実に勝てるかどうかは誰にも分からない。Anthropic社は、次期Opusモデルにまず新たなセキュリティ対策を展開する計画であり、そのモデルは「Mythosと同等のリスクを伴わない」と説明している。一般市民が最終的にMythosクラスの能力を得ることは確実だが、それは、防御体制がまず整備された後のことになる。
果たしてその「猶予期間」はどれほど長いのか?スタモス氏は楽観的な見積もりを提示する。「もし我々が、ついに人間の能力をわずかに超えたばかりだとすれば、発見・修復可能な脆弱性のプールは巨大ではあるが有限なものだ」
この「もし」は、非常に大きい。
3月26日のCMS設定ミスから、4月8日の米国財務長によるウォールストリート幹部緊急招集まで——わずか2週間で、このAIモデルはシリコンバレーのテクノロジーニュースから、ワシントンの金融安全保障課題へと変貌を遂げた。
スタモス氏は、防御側に残された猶予期間は約6ヶ月と見積もる。その6ヶ月後にオープンソースモデルが追いつき、こうした能力はもはやごく一部の企業のみの特権ではなくなる。
6ヶ月の間に、一体いくつの脆弱性を修復できるか——それが、今後のゲームの行方を決める。
TechFlow公式コミュニティへようこそ
Telegram購読グループ:https://t.me/TechFlowDaily
Twitter公式アカウント:https://x.com/TechFlowPost
Twitter英語アカウント:https://x.com/BlockFlow_News













