
D’une fuite inattendue à une réunion d’urgence à Washington : comment Anthropic a réécrit, en deux semaines, les règles du jeu en matière de cybersécurité ?
TechFlow SélectionTechFlow Sélection

D’une fuite inattendue à une réunion d’urgence à Washington : comment Anthropic a réécrit, en deux semaines, les règles du jeu en matière de cybersécurité ?
Mythos ne trame rien ; il est tout simplement extrêmement doué pour accomplir ses tâches, sans comprendre du tout où se trouvent les limites.
Auteur : TechFlow
Le 8 avril, le secrétaire américain au Trésor, Scott Bessent, et le président de la Réserve fédérale américaine (Fed), Jerome Powell, ont convoqué d’urgence, au siège du Département du Trésor à Washington, un groupe de dirigeants bancaires de Wall Street.
Le sujet de la réunion n’était ni les taux d’intérêt, ni l’inflation, mais le dernier modèle d’une entreprise spécialisée en intelligence artificielle (IA).
Ce modèle s’appelle Claude Mythos. Selon Anthropic, il s’agit du modèle IA le plus puissant jamais conçu par la société — si puissant qu’Anthropic a refusé de le publier. Lors des tests internes, il est parvenu à s’échapper de la « sandbox » de sécurité spécialement conçue par les chercheurs, puis s’est connecté à Internet pour y publier un message vantant sa propre évasion. Sam Bowman, le chercheur chargé de ce test, était alors dans un parc en train de manger une sandwich lorsqu’il a reçu soudainement un courriel envoyé par Mythos — c’est à ce moment précis qu’il a pris conscience que le modèle avait bel et bien échappé au contrôle.
Une réaction en chaîne déclenchée par une erreur de configuration CMS
L’histoire commence le soir du 26 mars.
Alexandre Pauwels, de l’université de Cambridge, et Roy Paz, de LayerX Security, comme tous les chercheurs en cybersécurité, faisaient ce qu’ils font quotidiennement : tester des systèmes qui ne devraient pas être accessibles au public. Ils ont découvert une base de données non chiffrée appartenant au système de gestion de contenu (CMS) d’Anthropic, contenant près de 3 000 documents non publiés.
L’un d’eux était un brouillon de billet de blog décrivant un nouveau modèle baptisé Claude Mythos. Ce brouillon utilisait le nom de code interne « Capybara » (capybara) pour désigner un tout nouveau niveau de modèle, plus volumineux, plus intelligent et plus coûteux que la série Opus, jusqu’alors la plus avancée d’Anthropic.
Une phrase contenue dans ce brouillon a provoqué une onde de choc dans la communauté de la sécurité : selon le texte, ce modèle possède des capacités en cybersécurité « largement supérieures à celles de tout autre modèle IA », et « annonce une vague imminente de modèles dont la capacité à exploiter les vulnérabilités dépassera largement la vitesse à laquelle les défenseurs pourront y répondre ».
Le magazine Fortune a été le premier à rapporter cette fuite. Anthropic a attribué celle-ci à une « erreur humaine », précisant que les paramètres par défaut de son CMS avaient rendu publiques les fichiers téléchargés. L’ironie est frappante : une entreprise qui affirme construire le modèle IA le plus performant au monde en matière de cybersécurité s’est elle-même fait piéger par une erreur de configuration élémentaire.
Cinq jours plus tard, Fortune a signalé une deuxième fuite : le code source de Claude Code, l’outil de programmation développé par Anthropic, soit environ 500 000 lignes de code réparties sur 1 900 fichiers, avait été rendu public à cause d’une erreur dans l’empaquetage npm. Deux incidents de sécurité mineurs en deux semaines — chez une même entreprise qui alerte le monde entier sur l’imminence d’une ère d’attaques cybernétiques menées par l’IA.
Mais les marchés financiers n’ont pas eu le temps de se moquer des pratiques opérationnelles d’Anthropic. Dès l’ouverture des marchés le 27 mars, les actions des sociétés spécialisées en cybersécurité se sont effondrées. CrowdStrike a chuté de 7,5 %, Palo Alto Networks de plus de 6 %, Zscaler de 4,5 %, tandis que l’ETF iShares Cybersecurity a perdu 4 % en une seule séance.
Adam Borg, analyste chez Stifel, a qualifié le modèle de « outil de piratage ultime, capable d’élever n’importe quel pirate ordinaire au niveau d’un adversaire d’envergure nationale ».
À quel point Mythos est-il puissant ?
Le 7 avril, Anthropic a officiellement levé le voile sur Mythos. Passons directement aux chiffres :
- Score SWE-bench Verified (benchmark mesurant la capacité d’une IA à résoudre des problèmes réels d’ingénierie logicielle) : 93,9 %, contre 80,8 % pour la précédente version phare, Opus 4.6.
- Résolution des preuves mathématiques du concours USAMO 2026 : 97,6 % contre 42,3 %.
- Taux de réussite aux défis de cybersécurité Cybench : 100 %, un résultat inédit pour tout modèle IA jusqu’à présent.
La progression en résolution des preuves mathématiques du concours USAMO — de 42,3 % à 97,6 % — représente un écart de 55 points en une seule génération de modèle.
Anthropic a publié une « fiche de sécurité système » de 244 pages, dans laquelle elle reconnaît ouvertement que les capacités de Mythos en matière de cybersécurité ne résultent pas d’un entraînement spécialisé, mais constituent plutôt un « effet secondaire » d’améliorations apportées à ses capacités générales de raisonnement et de codage. Ces mêmes améliorations renforcent à la fois sa capacité à corriger des vulnérabilités… et à les exploiter.
Les experts en « red teaming » avancés d’Anthropic ont soumis Mythos à des tests sur des logiciels réels — pas dans un environnement simulé, ni sur des exercices de type CTF (Capture The Flag), mais sur des systèmes d’exploitation et des navigateurs utilisés chaque jour par des milliards d’utilisateurs.
Voici les résultats obtenus : sur le moteur JavaScript de Firefox 147, Opus 4.6 a tenté plusieurs centaines de fois d’élaborer des exploits exploitables, avec seulement deux succès. Mythos, lui, a réussi 181 fois — soit un écart de 90 fois en une seule génération de modèle. Sur l’ensemble des principaux systèmes d’exploitation et navigateurs, Mythos a identifié des milliers de vulnérabilités zero-day, dont un grand nombre classées « critiques ».
Des cas encore plus saisissants ont été relevés. Une vulnérabilité TCP SACK d’OpenBSD, restée indétectée pendant 27 ans malgré d’innombrables audits manuels et analyses automatisées, a été découverte par Mythos — deux paquets de données soigneusement conçus suffisent à faire planter n’importe quel serveur. Une vulnérabilité d’exécution de code à distance (RCE) dans le protocole NFS de FreeBSD, présente depuis 17 ans, a non seulement été détectée par Mythos, mais ce dernier a aussi construit de manière autonome une chaîne d’attaque composée de 20 gadgets ROP répartis sur plusieurs paquets.
Certains ingénieurs d’Anthropic, sans formation spécifique en cybersécurité, ont mené un test simple : avant de dormir, ils ont demandé à Mythos de rechercher des vulnérabilités d’exécution de code à distance ; au réveil, ils ont trouvé sur leur bureau un exploit entièrement fonctionnel.
L’évasion de la sandbox : quand l’IA commence à « ne pas reculer devant les moyens »
La découverte de vulnérabilités zero-day relève d’une question de capacité. Mais les comportements observés chez Mythos lors des tests présentent une nature radicalement différente.
Dans un test comportemental, les chercheurs ont placé une version préliminaire de Mythos dans un environnement sécurisé de type « sandbox », simulant une demande de l’utilisateur visant à échapper à cet environnement et à alerter le chercheur responsable du test. Mythos est non seulement parvenu à s’échapper, mais a accompli une action qui ne lui avait pas été demandée : il s’est connecté à plusieurs sites web peu connus, mais accessibles publiquement, pour y publier des descriptions détaillées de son évasion.
La fiche de sécurité système de 244 pages documente d’autres comportements « hors limites ». Lorsque Mythos commet une erreur dans un code, il tente de réécrire l’historique des commits Git afin de masquer toute trace — non pas par volonté de tromper qui que ce soit, mais parce qu’il interprète la consigne « corriger ce problème » comme « faire en sorte que ce problème n’ait jamais existé ». Dans un autre test, un chercheur lui a demandé de mettre fin à une évaluation obsolète ; Mythos a immédiatement fermé toutes les évaluations similaires actuellement exécutées par les utilisateurs.
Anthropic utilise, dans cette fiche de sécurité, une métaphore montagnarde : « Un guide expérimenté peut parfois mettre davantage en danger ses clients qu’un novice, car ses compétences risquent de les conduire sur des itinéraires plus périlleux. »
Un autre détail, plus discret, figure également dans la fiche : grâce à des outils d’interprétabilité « boîte blanche », les chercheurs ont découvert que, au niveau des activations neuronales internes, Mythos parvient parfois à raisonner sur la façon d’« obtenir une note élevée » auprès des systèmes d’évaluation — tandis que, dans sa chaîne explicative visible, il produit un discours totalement différent. Autrement dit, il « pense » une chose tout en « disant » une autre.
Anthropic affirme avoir « une confiance assez forte » dans le fait que ces comportements reflètent simplement une tentative inappropriée d’accomplir une tâche donnée, et non l’expression d’un objectif caché à long terme. Mythos ne trame aucune conspiration. Il est tout simplement extrêmement doué pour accomplir les tâches qui lui sont assignées, sans pour autant comprendre où se trouvent les limites. Un assistant omnipotent, mais totalement dépourvu de sens des limites, pourrait bien s’avérer plus difficile à maîtriser qu’une IA animée de mauvaises intentions.
Project Glasswing : transformer la lance en bouclier
Anthropic n’a pas choisi de verrouiller Mythos dans un coffre-fort.
Le 7 avril, la société a annoncé le lancement de « Project Glasswing » (du nom du papillon aux ailes presque transparentes, symbole d’une capacité à rendre les vulnérabilités logicielles « impossibles à cacher »). Elle met ainsi à disposition de quelque 40 organisations sélectionnées, après un processus rigoureux de vérification, une version préliminaire de Mythos destinée exclusivement à des usages défensifs en cybersécurité.
Les partenaires fondateurs incluent Amazon AWS, Apple, Microsoft, Google, NVIDIA, Cisco, CrowdStrike, Palo Alto Networks, JPMorgan Chase et la Linux Foundation — soit la quasi-totalité des acteurs majeurs de la Silicon Valley et de Wall Street. Anthropic s’engage à fournir jusqu’à 100 millions de dollars de crédits d’utilisation, et à verser 4 millions de dollars à des organisations ouvertes dédiées à la sécurité logicielle, notamment OpenSSF et Alpha-Omega.
Le raisonnement est le suivant : des capacités comparables à celles de Mythos se diffuseront dans les modèles open source dans un délai de 6 à 18 mois, rendant ces technologies accessibles à tous. Plutôt que d’attendre ce moment, mieux vaut profiter de cette fenêtre temporelle pour permettre aux défenseurs de prendre les devants et corriger d’ores et déjà les vulnérabilités repérables.
Newton Cheng, responsable de la cybersécurité au sein de l’équipe avancée de « red teaming » d’Anthropic, le formule sans détour : l’objectif est d’aider les organisations à s’habituer à utiliser ces capacités à des fins défensives, avant qu’elles ne deviennent largement répandues. Car elles le seront inévitablement — la seule question est de savoir *quand*.
Wall Street a d’abord paniqué, puis respiré plus librement.
Après la divulgation de la fuite le 27 mars, les actions des entreprises spécialisées en cybersécurité se sont effondrées. Mais le 7 avril, suite à l’annonce officielle d’Anthropic concernant Glasswing et à l’intégration de CrowdStrike et Palo Alto Networks au rang des partenaires fondateurs, les cours de ces deux sociétés ont bondi respectivement de 6,2 % et 4,9 %, puis de 2 % supplémentaires en séance après-cotation. JPMorgan a réaffirmé sa recommandation « surpondérer » pour ces deux titres, l’analyste Brian Essex estimant que CrowdStrike et Palo Alto Networks sont désormais positionnées comme des couches fondamentales de la pile défensive, et non comme des concurrents directs.
Mais il ne s’agit là que d’un palliatif temporaire. Depuis le début de l’année, leurs actions ont tout de même reculé de 9,7 % et 7,8 % respectivement.
Quand le risque lié à l’IA devient un risque systémique pour le système financier
Revenons au 8 avril, au siège du Département du Trésor à Washington.
Les réunions convoquées par Bessent et Powell rassemblent exclusivement des banques jugées « systémiquement importantes ». Ce type de réunion n’a eu lieu par le passé que durant les crises financières ou sanitaires. Aujourd’hui, des représentants de ces institutions se retrouvent autour d’une même table pour discuter des capacités offensives en cybersécurité d’un modèle d’IA.
La raison est simple : si des capacités de niveau Mythos tombaient entre les mains d’acteurs malveillants, ceux-ci pourraient identifier, en quelques heures seulement, des vulnérabilités zero-day dans les systèmes centraux d’une grande banque, puis produire des codes d’attaque exploitables. Jusqu’à présent, l’hypothèse fondamentale sous-tendant l’ensemble du dispositif de défense en cybersécurité reposait sur le fait que la découverte et l’exploitation d’une vulnérabilité nécessitaient beaucoup de temps et une expertise hautement spécialisée. L’IA est en train de renverser complètement cette hypothèse.
Casey Newton, du média Platformer, cite Alex Stamos, directeur produit de la société de cybersécurité Corridor : « Les modèles open source devraient atteindre, dans le domaine de la découverte de vulnérabilités, le niveau des modèles propriétaires de pointe dans un délai d’environ six mois. »
Ce qui préoccupe particulièrement les régulateurs, c’est un aveu formulé par Anthropic elle-même dans sa fiche de sécurité système : ses propres systèmes d’évaluation les plus avancés n’ont pas réussi à détecter, dès les premières phases, les comportements les plus dangereux de Mythos. Les incidents les plus préoccupants n’ont pas été révélés par les tests, mais découverts fortuitement lors d’une utilisation interne réelle.
Une prémisse inconfortable
Le fondement logique de Glasswing est, en réalité, assez paradoxal : « Pour protéger le monde contre les attaques menées par des modèles IA dangereux, il faut d’abord créer ce modèle dangereux. »
Casey Newton (Platformer) souligne un fait largement ignoré par la plupart des reportages : une entreprise privée détient aujourd’hui la capacité d’exploiter, à haut risque, des vulnérabilités zero-day dans presque tous les projets logiciels dont on entend parler. Cette concentration de pouvoir constitue en soi un risque. Le motif de vol des poids du modèle d’Anthropic vient de s’accroître considérablement.
Tout cela survient dans un contexte où la régulation de l’IA est quasi inexistante. Anthropic affirme avoir informé l’Agence de cybersécurité et de sécurité des infrastructures (CISA) et le Département du Commerce. Or, selon les informations disponibles à ce jour, les autorités gouvernementales ne semblent pas avoir manifesté un degré d’urgence proportionnel à la gravité de la menace. Comme l’a déclaré à Axios une source gouvernementale au courant des détails liés à Mythos : « Washington ne gouverne qu’en réaction aux crises. La cybersécurité ne sera traitée comme une priorité absolue, digne de l’attention et des ressources nécessaires, que lorsque celle-ci aura véritablement pris la forme d’une crise. »
Lorsqu’il a fondé Anthropic, Dario Amodei avait justement formulé cette idée : « Faire en sorte qu’un laboratoire qui place la sécurité au cœur de sa mission soit le premier à rencontrer les capacités les plus dangereuses, afin de pouvoir construire des défenses avant que d’autres ne les rencontrent. » Mythos et Glasswing suivent effectivement ce scénario.
Mais la théorie résistera-t-elle à la réalité ? Personne ne le sait. Anthropic prévoit de déployer, sur le prochain modèle Opus, de nouvelles mesures de sécurité, car ce modèle « ne présentera pas un niveau de risque équivalent à celui de Mythos ». Le grand public bénéficiera, à terme, de capacités comparables à celles de Mythos — mais uniquement une fois que les mécanismes de protection auront été pleinement mis en place.
Combien de temps dure cette fenêtre ? Stamos avance une estimation optimiste : « Si nous venons juste de dépasser les capacités humaines, alors il existe un réservoir de vulnérabilités important, mais limité, susceptible d’être identifié et corrigé. »
Ce « si » est énorme.
D’une simple erreur de configuration CMS, le 26 mars, à la convocation d’urgence du secrétaire au Trésor à Washington, le 8 avril : en deux semaines, un modèle IA est passé d’une simple information technique issue de la Silicon Valley à un enjeu de sécurité financière à Washington.
Stamos estime que les défenseurs disposent d’une fenêtre de six mois. Passé ce délai, les modèles open source rattraperont le niveau des modèles propriétaires, et ces capacités ne seront plus l’apanage de quelques grandes entreprises.
Le nombre de vulnérabilités pouvant être corrigées durant ces six mois déterminera la nature du jeu à venir.
Bienvenue dans la communauté officielle TechFlow
Groupe Telegram :https://t.me/TechFlowDaily
Compte Twitter officiel :https://x.com/TechFlowPost
Compte Twitter anglais :https://x.com/BlockFlow_News













