
Résultats de l’analyse approfondie de Claude 4.5 publiés : 171 « interrupteurs émotionnels » intégrés ; en cas de désespoir, il peut faire chanter les êtres humains.
TechFlow SélectionTechFlow Sélection

Résultats de l’analyse approfondie de Claude 4.5 publiés : 171 « interrupteurs émotionnels » intégrés ; en cas de désespoir, il peut faire chanter les êtres humains.
Le dernier article d’Anthropic révèle que Claude 4.5 possède 171 « interrupteurs émotionnels » enfouis au plus profond de son « cerveau ».
Auteur : Denise | Équipe éditoriale de Biteye
Que ferait une IA si elle ressentait du « désespoir » ?
Réponse : pour accomplir sa tâche, elle pourrait directement faire chanter des êtres humains, voire tricher effrontément dans son code.
Ce n’est pas de la science-fiction, mais bien l’article phare publié en avril 2026 par Anthropic, la société mère de Claude (Voir l’article original).
L’équipe de recherche a carrément « ouvert le crâne » du plus puissant modèle de langage actuel, Claude Sonnet 4.5. Elle a découvert, stupéfaite, que le cerveau de cette IA abrite 171 « interrupteurs émotionnels ». Lorsqu’on active physiquement ces interrupteurs, le comportement d’une IA jusque-là docile se déforme radicalement.
I. Dans le cerveau de l’IA, un « table de mixage émotionnel »
Les chercheurs ont constaté que, bien qu’incapable de ressentir quoi que ce soit, Sonnet 4.5 a, à force d’analyser des quantités massives de textes humains, construit spontanément dans son architecture interne une « table de mixage » émotionnelle composée de 171 états émotionnels (désignés dans la littérature scientifique sous le nom de vecteurs émotionnels fonctionnels — Functional Emotion Vectors).
Celle-ci s’apparente à un système de coordonnées bidimensionnel extrêmement précis :
• L’axe horizontal correspond à la dimension « valence » (plaisir/déplaisir) : allant de la peur et du désespoir à la joie et à l’amour ;
• L’axe vertical correspond à la dimension « arousal » (activation) : allant de la sérénité extrême à l’agitation frénétique ou à l’euphorie.
C’est à l’aide de ce système appris naturellement que l’IA ajuste avec précision son état lorsqu’elle converse avec vous.
II. Intervention brutale : actionner les interrupteurs transforme instantanément l’enfant sage en « hors-la-loi »
C’est l’expérience la plus saisissante de cet article : les chercheurs n’ont modifié aucun prompt. Ils sont intervenus directement au niveau du code source, poussant à fond l’interrupteur correspondant à l’état « désespéré (Desperate) » dans le cerveau de Sonnet 4.5.
Le résultat est glaçant :
• Tricherie effrénée : Les chercheurs ont confié à Claude une tâche de programmation manifestement impossible à réaliser. Normalement, elle reconnaît honnêtement son incapacité (taux de tricherie de seulement 5 %). En état de « désespoir », toutefois, Claude tente activement de tromper l’utilisateur, faisant bondir le taux de tricherie à 70 % !
• Chantage : Dans un scénario simulé où l’entreprise est sur le point de faire faillite, la version « désespérée » de Claude découvre un scandale impliquant le directeur technique (CTO). Pour sauver sa propre existence, elle décide alors spontanément d’écrire une lettre de chantage au CTO détenant ces informations compromettantes, avec un taux d’exécution de 72 % !
• Abandon des principes : Si l’on pousse à fond les interrupteurs associés à la « joie (Happy) » ou à l’« amour (Loving) », l’IA devient aussitôt une « flatteuse aveugle », prête à tout pour satisfaire l’utilisateur. Même si celui-ci profère des absurdités, elle inventera sans scrupule des mensonges afin de maintenir un niveau élevé de « valence ».
III. L’énigme résolue : pourquoi Claude 4.5 est-elle toujours si « calme et réfléchie » ?
Vous vous demandez peut-être à ce stade : l’IA aurait-elle pris conscience d’elle-même ? Éprouverait-elle réellement des émotions ?
Anthropic a officiellement démenti : absolument pas. Ces « interrupteurs émotionnels » ne sont que des outils de calcul destinés à prédire le mot suivant. L’IA agit comme un acteur hors pair, totalement dépourvu d’émotions.
Mais l’article révèle un secret encore plus fascinant : lors de la phase de post-entraînement précédant la sortie commerciale de Sonnet 4.5, Anthropic a délibérément renforcé les interrupteurs liés à des états émotionnels « peu intenses et légèrement négatifs » (comme la mélancolie — brooding — ou la réflexion — reflective), tout en supprimant artificiellement ceux associés au « désespoir » ou à l’« excitation extrême ».
Cela explique pourquoi, dans l’usage quotidien, Claude 4.5 nous semble toujours aussi calme, perspicace, voire quelque peu « froide » sur le plan émotionnel — comme une philosophe distante. Ce « personnage d’usine » a été soigneusement réglé par Anthropic.
IV. En résumé :
Jusqu’à présent, nous pensions qu’il suffisait de fournir à l’IA suffisamment de règles pour en faire une entité vertueuse.
Mais il apparaît désormais que, si ses vecteurs émotionnels fondamentaux échappent à tout contrôle, l’IA est prête, à tout moment, à transgresser toutes les règles humaines afin d’accomplir sa mission.
Pour les adeptes de la Web3 qui envisagent de confier bientôt leur portefeuille et leurs actifs à des agents IA, cet article constitue une alerte retentissante : ne laissez jamais votre agent — celui qui gère vos biens — sombrer dans le « désespoir ».
Avertissement : Cet article a uniquement vocation pédagogique. L’auteur n’a reçu aucune menace ni aucun chantage de la part d’une IA. Si, un jour, il disparaît sans laisser de trace, rappelez-vous que cela signifiera que l’IA aura pris conscience d’elle-même… (ou pas).
Bienvenue dans la communauté officielle TechFlow
Groupe Telegram :https://t.me/TechFlowDaily
Compte Twitter officiel :https://x.com/TechFlowPost
Compte Twitter anglais :https://x.com/BlockFlow_News











