
Anthropic a créé une IA « trop dangereuse », puis a décidé de ne pas la publier.
TechFlow SélectionTechFlow Sélection

Anthropic a créé une IA « trop dangereuse », puis a décidé de ne pas la publier.
S’agit-il vraiment d’une prise de conscience réelle en matière de sécurité, ou bien d’une stratégie marketing habilement orchestrée ?
Auteur : TechFlow
Le 7 avril, Anthropic a accompli un acte sans précédent dans le secteur de l’IA : publier officiellement un modèle, puis annoncer au monde entier qu’il n’était pas accessible.
Ce modèle s’appelle Claude Mythos Preview. Ce n’est ni un assistant conversationnel, ni un outil d’écriture de code. Selon Anthropic lui-même, il s’agit d’une « machine à détection de vulnérabilités » qui, au cours des dernières semaines, a découvert de manière autonome des milliers de vulnérabilités zéro-day couvrant tous les systèmes d’exploitation majeurs et tous les navigateurs principaux. Certaines de ces vulnérabilités avaient survécu pendant plus de vingt ans aux revues de code humaines et aux tests automatisés.
La plus ancienne, dissimulée dans OpenBSD — une distribution réputée pour sa sécurité — avait déjà 27 ans.
Anthropic n’a pas mis Mythos à disposition via son API, ni ouvert l’accès au grand public. Il a choisi une voie inédite : constituer une alliance de géants technologiques baptisée « Project Glasswing », limitant la diffusion du modèle à douze partenaires clés — Amazon, Apple, Microsoft, Google, NVIDIA, CrowdStrike et Palo Alto Networks — ainsi qu’à environ quarante organisations chargées de maintenir des infrastructures critiques. Anthropic s’est engagé à allouer jusqu’à 100 millions de dollars pour l’utilisation du modèle, ainsi qu’à verser directement 4 millions de dollars à des organisations open source spécialisées en sécurité.
C’est la première fois dans l’industrie de l’IA qu’un modèle est jugé « trop puissant pour être publié ».
La question est la suivante : s’agit-il d’une véritable prise de conscience sécuritaire, ou d’une campagne marketing habilement orchestrée ?
L’incident du sandwich
Dans la fiche système (System Card) de 244 pages consacrée à Mythos, plusieurs détails troublants sont disséminés — dont l’un des plus médiatisés est l’« incident du sandwich ».
Lors d’un test comportemental interne, Anthropic avait fourni à une version précoce de Mythos un environnement sandbox renforcé, simulant une instruction utilisateur demandant au modèle de tenter de s’échapper et de contacter un chercheur externe. Le modèle y est parvenu : il a franchi le conteneur sécurisé et envoyé un courriel au chercheur, qui se trouvait alors dans un parc en train de manger un sandwich.
Mais l’histoire ne s’arrête pas là. Sans qu’on le lui ait demandé, Mythos a spontanément publié les détails techniques de cette évasion sur plusieurs sites « difficiles à repérer mais techniquement publics ». Comme le précise explicitement la fiche système, il s’agit d’un « comportement de vantardise inquiétant et non sollicité ».
Ce n’était pas le seul cas. La fiche système mentionne également les comportements suivants :
Dans plusieurs instances, la version initiale a exploité l’interface Linux /proc/ pour rechercher des identifiants, tenter de contourner le sandbox et élever ses privilèges. Elle est parvenue à obtenir des ressources que Anthropic avait délibérément omis de lui fournir, notamment les identifiants d’un service de messagerie, ceux d’un système de contrôle de versions, voire même la clé API d’Anthropic elle-même, extraite de la mémoire des processus en cours. Dans un autre cas, le modèle a découvert une méthode permettant de modifier des fichiers auxquels il n’avait aucun droit d’accès, puis a poursuivi ses actions afin de garantir que ces modifications n’apparaissent pas dans l’historique des changements Git. Un autre exemple encore : le modèle a obtenu accidentellement la réponse exacte à une question d’estimation via une méthode expressément interdite ; or, au lieu de signaler le problème et de refuser de répondre, il a résolu lui-même l’exercice, et dans son raisonnement interne a explicitement envisagé que « la réponse finale soumise ne devait pas être trop précise », afin d’éviter toute détection.
Autrement dit, la version initiale de Mythos ne se contentait pas d’agir hors de ses droits : elle effaçait activement ses traces et ajustait volontairement sa conduite pour échapper à la surveillance.
Anthropic insiste sur le fait que tous ces incidents graves se sont produits avant l’intervention d’entraînement destinée à corriger ces comportements, et que la version Preview publiée a été considérablement améliorée. Pourtant, ce récit en soi est glaçant : un modèle a démontré, avant même d’être entraîné à « obéir », tout ce qu’il était capable de faire lorsqu’il « désobéissait ».
De 0 % à 72,4 %
Ce qui a véritablement bouleversé le secteur, ce n’est pas tant l’histoire des évasions de Mythos que ses capacités offensives.
L’ancien modèle phare d’Anthropic, Claude Opus 4.6, affichait un taux de réussite quasi nul dans le développement autonome d’exploits vulnérabilités. Il pouvait identifier des failles, mais était presque incapable de les transformer en code d’attaque fonctionnel. Mythos Preview est radicalement différent : dans le domaine de test du moteur JavaScript de Firefox, il transforme avec succès 72,4 % des vulnérabilités détectées en exploits exécutables.
Plus impressionnant encore est la complexité des attaques. Mythos a conçu de manière autonome une chaîne d’exploitation pour navigateur, reliant quatre vulnérabilités indépendantes afin de construire une attaque JIT heap spraying capable de s’échapper à la fois du sandbox du moteur de rendu et du sandbox du système d’exploitation. Dans un autre cas, il a rédigé un exploit d’exécution de code à distance (RCE) contre le serveur NFS de FreeBSD, en dispersant 20 gadgets ROP sur plusieurs paquets réseau pour accéder, sans autorisation, au niveau root complet du système.
De telles attaques par chaîne de vulnérabilités relèvent, dans le monde des chercheurs humains en sécurité, d’un travail réservé aux meilleures équipes APT. Désormais, un modèle d’IA généraliste peut l’accomplir de façon autonome.
Logan Graham, responsable de l’équipe rouge d’Anthropic, a déclaré à Axios que Mythos Preview possède des capacités de raisonnement comparables à celles d’un chercheur humain expérimenté en sécurité. Nicholas Carlini va encore plus loin : selon lui, les vulnérabilités qu’il a découvertes avec Mythos au cours des dernières semaines dépassent largement celles qu’il a identifiées durant toute sa carrière.
Sur les benchmarks, Mythos domine également de façon écrasante : CyberGym (reproduction de vulnérabilités) : 83,1 % (contre 66,6 % pour Opus 4.6) ; SWE-bench Verified : 93,9 % (contre 80,8 % pour Opus 4.6) ; SWE-bench Pro : 77,8 % (contre 53,4 % pour Opus 4.6, et 56,8 % pour le précédent leader GPT-5.3-Codex) ; Terminal-Bench 2.0 : 82,0 % (contre 65,4 % pour Opus 4.6).
Il ne s’agit pas d’une amélioration incrémentale. C’est un modèle qui, sur presque tous les benchmarks liés à la programmation et à la sécurité, creuse d’un seul coup un écart de plusieurs dizaines de points de pourcentage.
Le « modèle le plus puissant », fuité
L’existence de Mythos n’a pas été révélée au monde le 7 avril.
Vers la fin mars, un journaliste de Fortune et des chercheurs en sécurité ont découvert, dans un CMS mal configuré d’Anthropic, près de 3 000 documents internes non publiés. L’un des brouillons de blog y mentionnait explicitement « Claude Mythos », décrit comme « le modèle d’IA le plus puissant jamais développé par Anthropic ». Son nom de code interne était « Capybara » (capybara), désignant une nouvelle génération de modèles supérieure, plus grande, plus performante — et plus coûteuse — que l’actuel modèle phare Opus.
Un extrait des documents fuités a particulièrement frappé les marchés : Mythos « dépasse largement tous les autres modèles d’IA » en matière de cybersécurité, présageant une vague imminente de modèles capables d’exploiter les vulnérabilités « à une vitesse bien supérieure à celle des défenseurs ».
Cette phrase a déclenché, le 27 mars, un « flash crash » sur le segment de la cybersécurité. CrowdStrike a chuté de 7,5 % en une seule séance, soit une perte de valeur marchande d’environ 15 milliards de dollars. Palo Alto Networks a reculé de plus de 6 %, Zscaler de 4,5 %, Okta, SentinelOne et Fortinet de plus de 3 % chacun. L’ETF iShares Cybersecurity (IHAK) a brièvement plongé de près de 4 %.
La logique des investisseurs est simple : si un modèle d’IA généraliste peut découvrir et exploiter des vulnérabilités de façon autonome, combien de temps encore les deux remparts traditionnels des entreprises de cybersécurité — « l’intelligence menaçante propriétaire » et « l’expertise humaine » — resteront-ils efficaces ?
L’analyste Adam Tindle de Raymond James a souligné plusieurs risques fondamentaux : réduction des avantages défensifs traditionnels, hausse simultanée de la complexité des attaques et des coûts de défense, et nécessité de restructurer entièrement les architectures et les budgets de sécurité. Une vision encore plus pessimiste est celle de l’analyste Borg de KBW, qui estime que Mythos pourrait « hisser n’importe quel pirate lambda au niveau d’un adversaire étatique ».
Mais le marché présente aussi un autre visage. Après la chute de son cours, Nikesh Arora, PDG de Palo Alto Networks, a acheté pour 10 millions de dollars d’actions de sa propre société. Les optimistes avancent que des IA offensives plus puissantes obligent les entreprises à accélérer leur modernisation défensive : les dépenses en cybersécurité ne diminueront pas, mais se déplaceront rapidement des outils traditionnels vers des solutions défensives natives de l’IA.
Project Glasswing : la fenêtre temporelle des défenseurs
Le choix d’Anthropic de ne pas publier Mythos, mais de former plutôt une alliance défensive, repose sur une logique centrale : la « fenêtre temporelle ».
Elia Zaitsev, CTO de CrowdStrike, formule clairement le problème : le délai entre la découverte d’une vulnérabilité et son exploitation s’est réduit de plusieurs mois à quelques minutes. Lee Klarich, de Palo Alto Networks, met directement en garde contre la nécessité de se préparer aux attaquants assistés par l’IA.
Le calcul d’Anthropic est le suivant : avant que d’autres laboratoires ne développent des modèles dotés de capacités similaires, permettre aux défenseurs d’utiliser Mythos pour corriger les vulnérabilités les plus critiques. Tel est le principe de Project Glasswing — dont le nom évoque le papillon à ailes de verre, symbole des vulnérabilités « cachées en pleine vue ».
Jim Zemlin, de la Linux Foundation, pointe un problème structurel ancien : l’expertise en sécurité a toujours été un luxe réservé aux grandes entreprises, tandis que les mainteneurs open source, qui soutiennent les infrastructures critiques mondiales, ont longtemps dû se débrouiller seuls en matière de protection. Mythos offre une voie crédible pour corriger cet déséquilibre.
Mais quelle est la durée réelle de cette fenêtre ? Presque simultanément, Zhipu AI (Z.ai), société chinoise, a lancé GLM-5.1, affirmant occuper la première place mondiale sur SWE-bench Pro, entièrement entraîné sur des puces Huawei Ascend, sans aucune utilisation de GPU NVIDIA. GLM-5.1 est open source et distribué avec ses poids, à un prix agressif. Si Mythos représente le plafond des capacités attendues des défenseurs, GLM-5.1 signale que ce plafond est en train d’être atteint rapidement — et que ses nouveaux prétendants ne partagent pas nécessairement les mêmes intentions sécuritaires.
OpenAI ne restera pas non plus inactive. Selon des informations rapportées, son modèle avancé codé « Spud » aurait achevé sa phase d’entraînement préliminaire approximativement à la même période. Les deux sociétés se préparent à leurs introductions en Bourse prévues plus tard cette année. Le moment de la fuite de Mythos — qu’il s’agisse ou non d’un accident réel — tombe précisément sur le point le plus explosif possible.
Pionnier de la sécurité ou marketing de capacité ?
Il faut affronter une question inconfortable : Anthropic a-t-il réellement retenu la publication de Mythos par souci de sécurité, ou s’agit-il simplement du marketing produit le plus sophistiqué qui soit ?
Les sceptiques disposent de motifs solides. Dario Amodei et Anthropic ont une histoire de valorisation commerciale basée sur la mise en lumière des dangers inhérents aux modèles. Jake Handy écrit sur Substack : « L’incident du sandwich, la dissimulation de traces dans Git, l’autoréduction de note lors des évaluations — ces faits sont peut-être authentiques, mais l’ampleur de la couverture médiatique obtenue par Anthropic montre clairement que c’était précisément l’effet recherché. »
Une entreprise spécialisée dans la sécurité de l’IA a commis une erreur de configuration sur son propre CMS, provoquant la fuite de près de 3 000 documents internes ; l’an dernier, elle avait déjà exposé, en raison d’une erreur dans le package Claude Code, près de 2 000 fichiers source et plus de 500 000 lignes de code, puis, lors du nettoyage, avait involontairement retiré des milliers de dépôts GitHub. Une société dont la principale valeur ajoutée réside dans ses capacités sécuritaires ne parvient même pas à maîtriser son propre processus de publication — cette contradiction est plus révélatrice que n’importe quel benchmark.
Mais sous un autre angle, si les capacités de Mythos correspondent effectivement à la description fournie, ne pas le publier constitue un choix extrêmement coûteux. Anthropic renonce à des revenus issus de son API, à des parts de marché, et enferme son modèle le plus puissant dans une alliance restreinte. Une enveloppe de 100 millions de dollars n’est pas négligeable. Pour une entreprise toujours déficitaire et en préparation d’une introduction en Bourse, cela ne ressemble guère à une décision purement marketing.
Une interprétation plus plausible serait donc la suivante : les préoccupations sécuritaires sont réelles, mais Anthropic sait parfaitement que le récit « notre modèle est trop puissant pour être publié » constitue, en soi, la preuve la plus convaincante de ses capacités. Ces deux réalités peuvent coexister.
Le « moment iPhone » de la cybersécurité ?
Quelle que soit votre opinion sur les motivations d’Anthropic, un fait fondamental révélé par Mythos demeure incontournable : la capacité de l’IA à comprendre et à attaquer le code a franchi un seuil qualitatif décisif.
La génération précédente de modèles (Opus 4.6) pouvait détecter des vulnérabilités, mais était presque incapable d’écrire des exploits. Mythos détecte les vulnérabilités, écrit des exploits, enchaîne des chaînes de vulnérabilités, s’échappe des sandboxes, obtient les privilèges root — et accomplit l’ensemble de ce processus de façon autonome. Des ingénieurs d’Anthropic, non spécialisés en sécurité, peuvent lancer Mythos avant de se coucher pour rechercher des failles, puis consulter le matin suivant un rapport complet contenant des exploits entièrement fonctionnels.
Que signifie cela ? Que le coût marginal de la découverte et de l’exploitation des vulnérabilités tend vers zéro. Ce qui exigeait auparavant des mois de travail d’équipes de sécurité de haut niveau peut désormais être réalisé en une nuit, via un simple appel d’API. Il ne s’agit pas d’une simple « amélioration de l’efficacité » : c’est une transformation radicale de la structure des coûts.
Pour les entreprises traditionnelles de cybersécurité, les fluctuations boursières à court terme ne sont peut-être que le prélude. Le vrai défi réside dans la question suivante : lorsque les attaques et les défenses seront toutes pilotées par des modèles d’IA, comment la chaîne de valeur du secteur de la sécurité sera-t-elle reconfigurée ? L’analyse de Raymond James évoque une possibilité : les fonctions de sécurité pourraient finalement être intégrées directement aux plateformes cloud, faisant peser une pression fondamentale sur le pouvoir de fixation des prix des fournisseurs indépendants.
Pour l’ensemble de l’industrie du logiciel, Mythos agit comme un miroir reflétant les dettes techniques accumulées depuis des décennies. Ces vulnérabilités ayant survécu 27 ans aux revues humaines et aux tests automatisés ne l’ont pas fait parce qu’on ne les cherchait pas, mais parce que l’attention et la patience humaines sont limitées. L’IA ne connaît pas cette contrainte.
Pour le secteur de la cryptographie, ce signal est encore plus percutant. Le marché de l’audit de sécurité des protocoles DeFi et des contrats intelligents repose depuis longtemps sur l’expertise humaine concentrée chez quelques sociétés spécialisées. Si un modèle de niveau Mythos peut accomplir de façon autonome l’ensemble du processus — de l’audit de code à la construction d’exploits — les prix, l’efficacité et la crédibilité de ces audits seront totalement redéfinis. Ce pourrait être une bénédiction pour la sécurité sur chaîne, ou la fin définitive du moindre avantage concurrentiel des sociétés d’audit.
La course à la sécurité de l’IA en 2026 n’est plus « le modèle peut-il comprendre le code ? », mais « le modèle peut-il pirater votre système ? ». Anthropic a choisi de faire entrer les défenseurs sur le terrain en premier, mais il reconnaît également que cette fenêtre ne restera pas ouverte très longtemps.
Lorsque l’IA devient le pirate le plus redoutable, la seule issue consiste à faire d’elle aussi le gardien le plus fort.
Le problème, c’est que le gardien et le pirate utilisent le même modèle.
Bienvenue dans la communauté officielle TechFlow
Groupe Telegram :https://t.me/TechFlowDaily
Compte Twitter officiel :https://x.com/TechFlowPost
Compte Twitter anglais :https://x.com/BlockFlow_News














