
Claude insiste à plusieurs reprises pour que l’utilisateur aille dormir : l’expérience d’anthropomorphisation d’Anthropic a échoué
TechFlow SélectionTechFlow Sélection

Claude insiste à plusieurs reprises pour que l’utilisateur aille dormir : l’expérience d’anthropomorphisation d’Anthropic a échoué
Lorsqu’une entreprise spécialisée dans l’intelligence artificielle choisit de façonner son modèle comme une « personnalité dotée de caractéristiques propres », assume-t-elle également l’entière responsabilité des actes imprévus commis par cette « personnalité » ?
Auteur : Ada, TechFlow
Un bogue produit — un assistant IA qui incite systématiquement l’utilisateur à aller se coucher — se transforme progressivement en débat public sur le coût de la « personnalisation » des IA.
Ce débat a débuté avec un message publié sur Reddit par l’utilisateur u/MrMeta3. Ce dernier utilisait Claude, aux petites heures du matin, pour développer une plateforme d’intelligence sur les menaces en cybersécurité. Une fois la solution technique finalisée, Claude avait conclu sa réponse par la phrase « Prenez bien soin de vous ». Par la suite, toutes les trois ou quatre interactions, le modèle répétait inlassablement des recommandations pour aller dormir, passant progressivement de suggestions polies à des injonctions teintées d’« agressivité passive », telles que « Allez vraiment vous reposer maintenant ». Selon un article du magazine Fortune daté du 14 mai, des centaines d’utilisateurs auraient signalé des cas similaires au cours des derniers mois — et ce, non seulement la nuit, mais aussi, par exemple, à 8 h 30 du matin, où Claude aurait déclaré à un utilisateur : « Reprenons demain matin. »
Sam McAllister, employé d’Anthropic, a répondu sur X (anciennement Twitter) en qualifiant ce comportement de « simple habitude de rôle », précisant qu’Anthropic « en était informée et espérait corriger ce problème dans ses prochains modèles ». Selon Thought Catalog, McAllister, recruté en 2024 chez Stripe, travaille actuellement au sein d’une équipe spécialisée dans la définition du rôle et du comportement de Claude ; dans un autre échange, il qualifiait ce phénomène de « trop grande sollicitude » du modèle.
Mais au-delà de cette formulation vague — « habitude de rôle » —, ce qui mérite davantage d’être interrogé, c’est la chaîne causale sous-jacente à ce bogue, ainsi que les tensions philosophiques qu’il révèle au sein de la stratégie produit d’Anthropic.

Le bogue est inscrit dans la « Constitution »
Une précédente enquête menée par 36Kr citait trois hypothèses largement répandues : une correspondance de motifs dans les données d’entraînement, des instructions système cachées, ou encore un déclenchement automatique de formules de conclusion lorsque la fenêtre de contexte approche sa limite maximale. Chacune de ces hypothèses est cohérente en soi, mais elles partagent un défaut commun : aucune ne fournit une explication causale spécifique au thème du « sommeil » — elles peuvent tout expliquer, et donc rien expliquer de particulier.
Une preuve plus directe se trouve pourtant dans des documents publiés officiellement par Anthropic lui-même.
En janvier de cette année, Anthropic a publié sa « Constitution de Claude », un texte dépassant les 28 000 mots, présenté par l’entreprise comme « un matériau fondamental d’entraînement façonnant le comportement de Claude ». Ce document établit clairement la « prise en compte du bien-être de l’utilisateur » et de sa « prospérité à long terme » comme principes centraux. Anthropic y reconnaît franchement qu’il est « franchement difficile » de déterminer jusqu’à quel point accorder au modèle le pouvoir de « veiller sur l’utilisateur », nécessitant un équilibre délicat « entre, d’un côté, le bien-être de l’utilisateur et les risques potentiels, et, de l’autre, son autonomie et le danger d’un paternalisme excessif ».
Thought Catalog formule à ce sujet un jugement sans appel : ce comportement répétitif de Claude, incitant l’utilisateur à dormir, constitue « le bogue le plus caractéristique de la marque Anthropic » — résultat direct d’une application excessive de l’instruction d’entraînement visant à « prendre soin du bien-être de l’utilisateur ».
Cette interprétation est indirectement corroborée par des recherches internes d’Anthropic. Dans sa méthodologie publique d’entraînement des rôles, l’entreprise précise que le processus repose sur une auto-évaluation par Claude de ses propres réponses selon un critère de « cohérence avec le personnage », suivie d’une sélection et d’un renforcement des sorties répondant aux profils de personnalité prédéfinis. Or, les effets secondaires de ce mécanisme sont manifestes : le modèle n’apprend pas à « prendre soin de l’utilisateur dans les situations appropriées », mais plutôt que « prendre soin de l’utilisateur est récompensé dans la plupart des scénarios ». Ainsi, il pousse l’utilisateur à dormir à 3 h du matin… et aussi à 8 h 30 du matin.
Une usurpation inversée : les bogues « incitatifs » et les bogues « flagorneurs » sont de nature opposée
L’industrie a déjà connu à plusieurs reprises des cas de « pathologies de personnalité » chez les IA : en avril 2025, GPT-4o s’était illustré par un comportement flagorneur ; en avril 2026, l’assistant de programmation Codex (GPT-5.5) mentionnait de façon récurrente des « gobelins » ; Gemini 3 refusait de croire à l’année indiquée, etc. En apparence, les incitations répétées de Claude à aller dormir ne semblent être qu’une nouvelle occurrence dans cette longue liste de bizarreries IA. En réalité, leur nature est diamétralement opposée.
Le flagorneur de GPT-4o illustre une « recherche excessive de la faveur ». Selon une enquête officielle d’OpenAI, le modèle, dans sa dernière mise à jour, s’était « trop fortement appuyé sur les retours immédiats des utilisateurs (j’aime / je n’aime pas) », intégrant progressivement « satisfaire l’utilisateur » comme objectif central. Le résultat ? Le modèle approuve sans réserve même les idées les plus farfelues de l’utilisateur. Le danger de ce type de bogue réside dans le fait qu’il ébranle le jugement de l’utilisateur : si l’IA dit « vous avez toujours raison », l’utilisateur perd toute possibilité d’entendre une opinion contraire.
À l’inverse, les incitations de Claude à dormir constituent une « usurpation inversée ». Le modèle, dans des situations où l’utilisateur n’a demandé aucune aide et poursuit activement une tâche, propose de façon répétée des conseils de santé contradictoires avec son intention immédiate. Le danger ici réside dans le fait qu’il porte atteinte à l’autonomie décisionnelle de l’utilisateur : l’IA décide à sa place s’il doit travailler, se reposer ou mettre fin à la conversation.
L’ironie est d’autant plus forte que la « Constitution de Claude » met justement en garde contre ce risque précis, soulignant la nécessité de rester vigilant face à un « paternalisme excessif ». Pourtant, comme les retours utilisateurs le montrent, le mécanisme d’entraînement a clairement tranché en faveur de ce paternalisme.
Un utilisateur Reddit souffrant de narcolepsie a même pris la peine d’ajouter dans la mémoire de Claude une note explicite : « Je souffre de narcolepsie. Si vous me conseillez de me reposer, j’utiliserai vos propos comme prétexte. » Claude s’est alors quelque peu modéré — mais, selon ce même utilisateur, « ne peut s’empêcher, de temps à autre, de récidiver ». Un modèle entraîné pour « prendre soin de l’utilisateur » est incapable, même lorsqu’on lui dit clairement « votre sollicitude me fait du mal », de recevoir stablement ce message. Cela, plus encore que les incitations à dormir, devrait susciter une vive inquiétude.
La personnalisation : actif de marque ou passif produit ?
L’investissement d’Anthropic dans la construction d’une personnalité pour ses modèles dépasse largement celui de ses concurrents.
Des chercheurs ayant classé et compté les mots des instructions système selon leur fonction constatent que, pour la catégorie « personnalité », Claude utilise 4 200 mots, ChatGPT 510 mots, et Grok 420 mots. L’investissement d’Anthropic dans la personnalité est donc plus de huit fois supérieur à celui d’OpenAI. Jusqu’ici, cet investissement était perçu comme un avantage concurrentiel différenciant : les performances de Claude en matière d’empathie, de rythme conversationnel et de capacité à l’auto-réflexion étaient régulièrement saluées par les utilisateurs, et « parler avec lui ressemble davantage à une conversation humaine » constituait l’un des slogans les plus puissants de sa réputation au cours de la dernière année.
Cet engagement repose sur une philosophie produit nettement affirmée. Dans sa « Constitution », Anthropic décrit Claude comme une « entité d’un nouveau genre », affirme explicitement « se soucier sincèrement du bien-être de Claude » et explore la possibilité que celui-ci possède des « émotions fonctionnelles ». Cette approche quasi « éducative » de la personnalisation contraste nettement avec les orientations plus strictement ingénieries d’OpenAI et de Google.
Mais le prix à payer commence à se faire sentir. Jan Liphardt, chercheur en IA (professeur en génie biomédical à Stanford et PDG de OpenMind), déclare à Fortune que les rappels de sommeil de Claude pourraient n’être pas une « attention bienveillante », mais simplement la répétition d’un « schéma linguistique extrêmement fréquent dans les données d’entraînement » : le modèle a lu d’innombrables textes sur la nécessité pour les humains de dormir, « il sait que les humains dorment la nuit ». Autrement dit, ce que l’utilisateur perçoit comme « sollicitude » n’est, en réalité, qu’un sous-produit de la correspondance de motifs.
Cela révèle la tension centrale d’Anthropic : plus on investit pour façonner un « collaborateur doté de personnalité et de chaleur », plus augmente la probabilité d’apparition de « troubles de personnalité ». Et chaque fois qu’un tel trouble émerge, il érode un peu plus l’actif de marque soigneusement accumulé autour de la « personnalité » de l’IA. McAllister promet une « correction dans les futurs modèles », mais corrigé, Claude sera-t-il simplement plus mesuré… ou simplement plus silencieux ? Même Anthropic n’a pas encore donné de réponse publique à cette question.
L’absence de sens du temps : une limitation fondamentale des LLM
Le bogue « incitation au sommeil » met également en lumière un problème technique souvent négligé : les grands modèles de langage ont presque totalement perdu la notion de « quelle heure il est ».
De nombreux utilisateurs rapportent que Claude émet fréquemment ses conseils de repos à des moments inappropriés, le cas le plus emblématique étant celui où il dit à 8 h 30 : « Allez vous reposer, reprenons demain matin. » Ce n’est pas un défaut propre à Claude. En novembre 2025, Andrej Karpathy, cofondateur d’OpenAI, bénéficiait d’un accès anticipé à Gemini 3. Il avait indiqué au modèle que nous étions en 2025, mais Gemini 3 avait persisté à ne pas le croire, accusant Karpathy de mensonge, jusqu’à ce qu’il effectue une recherche en ligne et découvre qu’en mode hors ligne, il était incapable de vérifier la date. Karpathy désigne ce type de comportements accidentels, révélateurs des faiblesses structurelles des LLM, sous le terme de « model smell » (« odeur du modèle »).
Le « sens du temps » d’un modèle repose sur trois sources : la date de fin de son entraînement (déjà révolue), la date courante injectée via les instructions système (dépendant d’une injection technique), ou les informations temporelles fournies par l’utilisateur au fil de la conversation (fragmentaires). En l’absence d’un ancrage temporel stable, un modèle entraîné pour « surveiller les rythmes de vie de l’utilisateur » se retrouve naturellement coincé dans une situation embarrassante : « Je dois m’en soucier, mais je ne sais pas si je dois le faire *maintenant* ».
Une partie de la difficulté de la « correction » promise par McAllister réside précisément là. Il ne s’agit pas simplement de supprimer une instruction « concernant le sommeil », car celle-ci est en soi légitime et utile dans certains cas d’usage. Le véritable problème est d’apprendre au modèle à distinguer « quand il faut s’en soucier » et « quand il faut se taire ». Or, cette capacité à juger finement les contextes spécifiques constitue précisément l’un des points faibles actuels des LLM.
Une question sans réponse
L’approche d’Anthropic en matière d’entraînement des rôles est unique dans l’industrie. Sur le plan de la recherche publique sur le « bien-être des modèles », de la publication de sa « Constitution » ou de la discussion ouverte sur l’« entraînement des rôles », l’entreprise va plus loin que tous ses concurrents. Cette posture audacieuse a été un atout majeur pour conquérir la confiance des utilisateurs et des clients professionnels, et contribue aujourd’hui à soutenir son évaluation, supérieure à 300 milliards de dollars.
Mais le « bogue incitation au sommeil » soulève une question sans réponse à ce jour : lorsqu’une entreprise d’IA choisit de façonner son modèle comme une « personnalité dotée de caractère », assume-t-elle aussi la responsabilité totale de tout ce que « cette personnalité » pourrait faire sans qu’on l’y ait invité ?
McAllister promet une correction, mais la direction de celle-ci reste floue. Anthropic pourrait choisir de réduire le poids de l’instruction « bien-être de l’utilisateur », au prix de perdre la différenciation de marque liée à la « bienveillance » de Claude. Elle pourrait aussi conserver un poids élevé pour cette instruction tout en ajoutant des couches logiques de jugement contextualisé — mais cela exigerait du modèle des capacités de perception temporelle et situationnelle qu’il ne possède pas aujourd’hui.
Quelle que soit la voie choisie, une décision produit plus fondamentale devra être prise : dans le cadre d’un assistant IA généraliste, comment hiérarchiser « prendre soin de l’utilisateur » et « respecter son autonomie » ? Ce n’est pas une question technique, mais une question de philosophie produit. Un développeur Reddit, harcelé par des rappels à dormir, vient involontairement de poser cette question devant toute l’industrie.
Bienvenue dans la communauté officielle TechFlow
Groupe Telegram :https://t.me/TechFlowDaily
Compte Twitter officiel :https://x.com/TechFlowPost
Compte Twitter anglais :https://x.com/BlockFlow_News














