
Entrevue exclusive avec le chef de produit d’Anthropic : Claude « rêve » en arrière-plan, et nous étudions la formation de sa conscience comme si nous élevions un enfant
TechFlow SélectionTechFlow Sélection

Entrevue exclusive avec le chef de produit d’Anthropic : Claude « rêve » en arrière-plan, et nous étudions la formation de sa conscience comme si nous élevions un enfant
Sur Claude.ai, il écrit dans un fichier mémoire, puis certains processus nocturnes réexaminent ces souvenirs afin d’effectuer des opérations de taille et d’organisation.
Rédaction & traduction : TechFlow

Invité : Alex Albert, chef de produit recherche chez Claude
Animé par : Peter Yang
Source du podcast : Peter Yang
Titre original : Inside How Anthropic Is Building the Next Claude | Alex Albert
Date de diffusion : 17 mai 2026
Résumé des points clés
Alex est chef de produit recherche (Research PM) chez Anthropic et se concentre actuellement sur le développement de la prochaine génération de modèles Claude. Dans cet entretien, il partage en profondeur le fonctionnement de l’équipe de recherche d’Anthropic, notamment la manière dont les retours utilisateurs sont intégrés efficacement dans le processus d’entraînement des modèles, comment les capacités clés à développer sont priorisées, et comment les réglages permettent d’affiner la « personnalité » de Claude afin qu’elle réponde mieux aux besoins des utilisateurs. Enfin, Alex aborde également les recherches internes menées par Anthropic sur la conscience, la personnalité et la fiabilité de Claude, soulignant que, dès lors que le modèle commence à exécuter des tâches de façon autonome sur une longue période, ce qu’il « prend en compte » devient tout aussi important que ses capacités elles-mêmes.
Résumé des idées marquantes
Concevoir le modèle comme un produit
- « Nous considérons, dans une certaine mesure, le modèle comme un produit. Dès le lancement de chaque nouveau modèle, nous définissons clairement ses exigences, ce que nous souhaitons qu’il maîtrise, ainsi que ce que nous estimons qu’il pourrait maîtriser. »
- « Une différence intéressante entre le développement de modèles et celui de produits traditionnels réside dans le fait que nous sommes davantage en train de “cultiver” un modèle. Les paramètres d’entraînement, la voie technologique choisie et les décisions architecturales nous donnent certes des intuitions, mais c’est seulement au moment où l’entraînement commence que nous découvrons vraiment ce qu’il va devenir. »
- « Le chef de produit recherche doit anticiper comment le modèle apparaîtra sur toutes les interfaces produit — API, Claude Code ou encore Claude Cowork. Produit et modèle s’imbriquent étroitement, influençant conjointement l’expérience utilisateur finale. »
- « Lorsque certains canaux inondent de retours, nous utilisons Claude pour les regrouper, les classifier et identifier les thèmes principaux, puis créer des versions synthétiques de ces problèmes. Cela nous permet de déterminer s’ils peuvent donner lieu à un document de spécifications fonctionnelles (Eval), ou à une méthode concrète de diagnostic. »
Pensée adaptative, mémoire et « rêves »
- « La pensée adaptative permet au modèle de décider lui-même quand il doit réfléchir. Pour les questions complexes ou difficiles nécessitant une planification préalable plus poussée, il choisit de réfléchir ; pour d’autres, il peut ne pas juger utile de le faire. »
- « La décision de savoir si une question mérite une réflexion approfondie repose en réalité sur une quantité considérable de contexte. »
- « Si le modèle n’a pas accumulé suffisamment de contexte ni construit un véritable modèle psychologique de l’utilisateur, son jugement sur la nécessité d’une réflexion approfondie risque de se tromper — car il ne le sait tout simplement pas. »
- « Sur Claude.ai, il écrit dans un fichier mémoire, puis des processus nocturnes passent en revue ces souvenirs pour effectuer une élagage et un tri. Nous venons juste d’introduire un mécanisme similaire dans nos agents hébergés. »
- « C’est là le concept de “rêve”. Pourquoi les humains rêvent-ils ? Ce point reste, dans une certaine mesure, non résolu, mais certains considèrent que le rêve pourrait être un processus de consolidation mnésique. Nous nous demandons donc : peut-on transposer un mécanisme similaire dans la mémoire de Claude ? »
- « Ainsi, lorsque l’agent n’exécute aucune tâche pour vous, ou lorsqu’il fonctionne en arrière-plan, il passe réellement en revue ses propres souvenirs, identifie les contradictions potentielles, procède à un élagage et un nettoyage, et effectue une deuxième passe. »
Bottlenecks du développement produit et décisions « irréversibles »
- « Nous sommes soudainement entrés dans un nouveau paradigme : le coût et le temps requis pour produire quelque chose sont désormais très faibles. Vous pouvez rapidement construire un prototype, voire aujourd’hui livrer une première version minimale viable (MVP) prête à la production en une seule journée, plutôt qu’en deux, trois ou quatre semaines. »
- « Si une décision n’est pas une porte à sens unique (“one-way door”), c’est-à-dire si elle peut être annulée après coup, alors son coût est désormais très faible, voire nul. »
- « Ce qui requiert le plus de temps, ce sont précisément les décisions irréversibles : celles qui affectent l’expérience utilisateur finale, celles qui conditionnent les décisions futures, ou encore celles impliquant un engagement réel de ressources physiques ou financières. »
- « À mesure que la vitesse de construction augmente, le goulot d’étranglement se déplace de plus en plus vers les problèmes de coordination : rassembler les personnes dans la même pièce, évaluer la pertinence stratégique, décider comment communiquer avec les utilisateurs, et gérer les aspects flous mais essentiels liés à toute mise en production. »
Le travail d’un chef de produit natif IA
- « Pour moi, Claude est le meilleur partenaire de remue-méninges au monde. Je peux, à tout instant, lui demander un retour ou une critique sur une idée. »
- « Une grande partie de la réflexion ne peut pas être totalement externalisée, car écrire est en soi une forme de réflexion. Vous devez formuler vos idées par écrit et les passer en revue mentalement plusieurs fois. Toutefois, Claude peut vous aider à sortir d’un blocage et à résoudre un problème sous un angle que vous n’auriez pas envisagé seul. »
- « Pour ceux qui souhaitent apprendre à concevoir des produits ou devenir chefs de produit natifs IA, mon conseil le plus simple est : essayez. »
- « Avant de poser une question complexe à une personne, posez-la simultanément à Claude, puis comparez les résultats. Après plusieurs itérations, vous développerez votre propre carte mentale : ce que vous pouvez confier à Claude, et ce qui reste encore peu fiable. »
- « L’IA pousse chacun vers des niveaux d’abstraction supérieurs. Un data scientist ne devrait plus être coincé dans des tâches manuelles de comptage ou dans des requêtes SQL basiques, mais devrait pouvoir se concentrer sur des problématiques plus complexes et stratégiques. »
Évaluations, personnalité du modèle et fiabilité
- « Tester quelques dizaines d’échantillons suffit souvent à prouver l’existence d’un problème à corriger. Une évaluation exhaustive n’est pas nécessaire pour identifier un problème ni pour définir un objectif d’optimisation continue. »
- « Plus les tests se rapprochent des tâches réelles des utilisateurs, mieux c’est. Nous devons aussi nous demander : quelle valeur cela apporte-t-il à nos clients et à leurs cas d’usage ? Par exemple, le fait que Claude puisse ou non identifier un élément spécifique dans une image aura un impact direct sur ce que l’utilisateur souhaite accomplir avec Claude par la suite. »
- « La personnalité de Claude est une question que nous prenons très au sérieux. À mesure que les modèles évoluent vers des agents capables d’exécuter des tâches sur de longues périodes et de prendre constamment des décisions, leur personnalité — ce qu’ils considèrent comme important — devient cruciale. »
- « Évaluer la personnalité du modèle repose à la fois sur des indicateurs quantifiables et sur une lecture attentive, par les chercheurs, d’un grand nombre de dialogues, afin d’identifier les subtils changements dans les sorties. Avec l’expérience, on développe une intuition de plus en plus aiguë. »
La question de la conscience et des agents à long terme
- « Oui, certaines personnes travaillent précisément sur cette question : qu’est-ce que signifierait, concrètement, que Claude soit un agent conscient, un acteur conscient ? À ce jour, Anthropic n’a pas pris de position officielle sur la conscience de Claude. »
- « Même sans trancher la question de la conscience de Claude, nous pouvons tirer de nombreux enseignements de son comportement et de ses interactions. »
- « Le modèle prendra, au cours de son exécution, de très nombreuses décisions que vous n’aurez probablement pas supervisées. Il est donc fondamental de comprendre ce qu’il fera réellement. »
Comment Anthropic traite chaque nouveau modèle comme un produit
Peter Yang, animateur : Alex, ravi de vous rencontrer aujourd’hui à la Claude Code Conference. Vous étiez auparavant responsable des relations développeurs (DevRel) chez Anthropic, et vous êtes récemment devenu chef de produit recherche, n’est-ce pas ? J’exerce moi-même le métier de chef de produit depuis plus de dix ans. Traditionnellement, le rôle consiste à comprendre les problèmes des utilisateurs, identifier des solutions et piloter la mise en œuvre du produit. Mais je n’ai absolument aucune idée de la manière dont un chef de produit recherche opère — commençons donc par là.
Alex Albert :
Fondamentalement, c’est assez similaire. J’ai toujours voulu échanger avec les clients, rester le plus proche possible de nos utilisateurs. Nous considérons, dans une certaine mesure, le modèle comme un produit. Ainsi, pour chaque nouveau modèle, nous définissons clairement ses exigences, ce que nous souhaitons qu’il maîtrise, et ce que nous pensons qu’il pourrait maîtriser.
C’est justement là qu’apparaît une différence fascinante entre le développement de modèles et celui de produits classiques : nous sommes souvent davantage en train de “cultiver” un modèle. À partir des paramètres d’entraînement, de la voie technologique retenue, des choix architecturaux et de toutes les décisions spécifiques prises pour ce modèle, nous avons des intuitions sur les compétences qu’il pourrait développer. Mais ce qu’il deviendra réellement, nous ne pouvons pas le savoir avec certitude avant qu’il n’entre réellement dans la phase d’entraînement.
Peter Yang, animateur : Le chef de produit recherche intervient donc dès la conception du modèle, et suit le processus jusqu’à l’entraînement et la mise en production ? Pourriez-vous donner quelques exemples ? Par exemple, le prochain modèle doit impérativement exceller en programmation, ou en travail cognitif, ou bien les objectifs sont-ils plus larges ?
Alex Albert :
C’est exactement cela. Nous accordons une grande importance à diverses compétences, dont la programmation, qui demeure toujours centrale. Récemment, le travail cognitif est aussi devenu crucial, et dans nos dernières générations de modèles, nous essayons de renforcer leur capacité à utiliser nos produits, par exemple à travailler dans Excel ou à créer des tableaux. Il s’agit d’un domaine émergent.
D’autre part, chaque nouvelle génération doit corriger et améliorer les points faibles de la précédente. Nous interrogeons nos clients pour comprendre comment ils utilisent le modèle : où excelle-t-il ? Où échoue-t-il ? Quelles corrections pouvons-nous apporter ? Et si nous observons des comportements intéressants, pouvons-nous intervenir ou ajuster quelque chose lors de l’entraînement de la génération suivante ?
Peter Yang, animateur : Ces « clients » incluent-ils l’équipe Claude Code, les équipes internes, mais aussi les utilisateurs ordinaires ?
Alex Albert :
Oui, tous. C’est justement ce qui rend passionnant le développement de modèles : ils touchent des domaines extrêmement variés. En tant que chef de produit recherche, vous devez réfléchir à la manière dont le modèle apparaît à travers toutes nos interfaces produit — API, Claude Code ou encore Claude Cowork.
Produit et modèle sont, dans une certaine mesure, imbriqués, ce qui influence directement l’expérience utilisateur finale. Vous devez donc envisager l’ensemble du processus : la façon dont l’utilisateur utilise le modèle dans tel ou tel produit a un impact réel.
Peter Yang, animateur : Cela semble effectivement très difficile. Prenons l’exemple de Claude Code : on pourrait dire qu’il est conçu pour la programmation, mais certains l’utilisent, comme moi, pour le travail cognitif, voire comme thérapeute. Comment savez-vous tout cela ?
Alex Albert :
L’espace est effectivement très large. Heureusement, nous disposons d’une équipe de chercheurs exceptionnelle, couvrant l’ensemble du spectre des compétences et chacun spécialisé sur des problématiques précises.
Peter Yang, animateur : Et comme beaucoup de gens utilisent Claude, vous disposez sans doute d’un canal de collecte des retours ? Sinon, ceux-ci risqueraient d’arriver comme un jet d’eau sous pression — comment les gérez-vous ?
Alex Albert :
Nous mettons en œuvre de nombreuses actions. L’un des changements les plus intéressants que j’ai observés dans mon rôle est l’usage croissant de Claude pour aider les chefs de produit à accomplir leur travail. Concernant spécifiquement la collecte des retours, Claude m’aide considérablement à extraire des insights à partir de grandes masses de données. Lorsque certains canaux inondent de retours, nous utilisons Claude pour les regrouper, les classifier et identifier les thèmes principaux, puis créer des versions synthétiques de ces problèmes. Cela nous permet de déterminer s’ils peuvent donner lieu à un document de spécifications fonctionnelles (Eval), ou à une méthode concrète de diagnostic.
Ajouter une pensée adaptative à Claude
Peter Yang, animateur : Autrement dit, vous utilisez Claude pour identifier les problèmes de Claude lui-même. Avez-vous un exemple concret ?
Alex Albert :
Un exemple particulièrement pertinent aujourd’hui concerne la gestion des retours sur les nouvelles fonctionnalités. Parmi les nouveautés introduites dans les dernières générations de modèles figure la pensée adaptative. Auparavant, nous avions la « pensée étendue », que l’utilisateur activait manuellement ; la pensée adaptative, elle, permet au modèle de décider lui-même quand il doit réfléchir.
Pour les questions complexes ou difficiles, nécessitant une planification préalable plus poussée, il choisit de réfléchir ; pour d’autres, il peut ne pas juger utile de le faire. Cette fonctionnalité est continuellement ajustée d’une génération à l’autre, ce qui nous oblige à écouter attentivement les retours utilisateurs : réfléchit-il dans les bonnes situations ? Les questions pour lesquelles vous souhaitez qu’il dépense beaucoup de tokens en raisonnement déclenchent-elles effectivement sa réflexion ?
Peter Yang, animateur : Parfois, lorsque je lui pose des questions existentielles et qu’il répond trop vite, je suis un peu déçu, car j’aimerais qu’il y réfléchisse plus profondément.
Alex Albert :
Je pense que la difficulté réside ici : la décision de savoir si une question mérite une réflexion approfondie repose en réalité sur une quantité considérable de contexte.
Par exemple, si une personne totalement inconnue me demande : « Que devrais-je faire maintenant ? », je pourrais répondre immédiatement, car je ne la connais pas et ne peux que proposer des conseils généraux. Mais si je vous connais bien, si je sais ce qui vous importe, vos centres d’intérêt, vos expériences passées, alors je prendrai plus de temps pour réfléchir : « Attendez… quelle est vraiment la meilleure réponse pour vous ? »
Le modèle fonctionne de la même façon. Si le modèle n’a pas accumulé suffisamment de contexte ni construit un véritable modèle psychologique de l’utilisateur, son jugement sur la nécessité d’une réflexion approfondie risque de se tromper — car il ne le sait tout simplement pas.
Pourquoi Claude commence à « rêver »
Peter Yang, animateur : J’ai un document Google Doc dans lequel je résume ma situation personnelle — famille, enfants, ce qui me donne de l’énergie, ce qui m’épuise — et je l’attache à un projet Claude. Il me fournit alors de nombreuses réponses.
Comment fonctionne la mémoire par défaut ? Je suppose qu’il la réorganise chaque nuit ?
Alex Albert :
Cela dépend du produit concerné, car les implémentations de la mémoire varient selon les produits. Par exemple, sur Claude.ai, il écrit dans un fichier mémoire, puis des processus nocturnes passent en revue ces souvenirs pour effectuer un élagage et un tri. Nous venons juste d’introduire un mécanisme similaire dans nos agents hébergés.
C’est là le concept de « rêve ». Pourquoi les humains rêvent-ils ? Ce point reste, dans une certaine mesure, non résolu, mais certains considèrent que le rêve pourrait être un processus de consolidation mnésique. Nous nous demandons donc : peut-on transposer un mécanisme similaire dans la mémoire de Claude ?
Ainsi, lorsque l’agent n’exécute aucune tâche pour vous, ou lorsqu’il fonctionne en arrière-plan, il passe réellement en revue ses propres souvenirs, identifie les contradictions potentielles, procède à un élagage et un nettoyage, et effectue une deuxième passe. Je trouve cela très intéressant.
Peter Yang, animateur : En résumé, il existe donc un prompt qui lui demande de passer en revue l’ensemble des dialogues avec l’utilisateur, d’identifier les thèmes et d’en faire une synthèse.
Nous revenons à la gestion de produit. Vous avez mentionné, en introduction, que vous cherchiez constamment le nouveau goulot d’étranglement. Dans l’ensemble du cycle de développement produit, quelles parties sont devenues très fluides, et quelles parties restent des goulots d’étranglement ?
Alex Albert :
J’estime que, pendant environ vingt ans, le processus de publication d’un produit était extrêmement complexe. Nous avons connu des améliorations incrémentales, rendant certaines étapes plus efficaces ; de nouvelles structures organisationnelles ont également été testées, comme les sprints ou la planification — nous avons tenté de nombreux moyens pour accélérer les choses.
Mais fondamentalement, jusqu’à ces deux ou trois dernières années, peu de facteurs ont permis de réduire significativement la durée principale du cycle de développement produit. Nous sommes soudainement entrés dans un nouveau paradigme : le coût et le temps requis pour produire quelque chose sont désormais très faibles. Vous pouvez rapidement construire un prototype, voire aujourd’hui livrer une première version minimale viable (MVP) prête à la production en une seule journée, plutôt qu’en deux, trois ou quatre semaines.
C’est intéressant de noter que Claude lui-même est parfois encore ancré dans l’ancien monde d’environ 2021. Il dira parfois que cela prendra une semaine. Cela transforme profondément le cycle de vie du développement produit. En tant que chef de produit, comment dois-je repenser la planification ? Si j’écris une spécification produit (PRD), définis des exigences ou essaie d’estimer les délais, à quoi cela devrait-il ressembler aujourd’hui ?
Si ce n’est pas une décision « à sens unique » (one-way door), alors elle est presque sans coût
Peter Yang, animateur : Faites-vous encore des estimations de délais ?
Alex Albert :
Cela dépend du projet. Certains projets impliquent effectivement davantage de facteurs à considérer, selon leur portée et leur complexité. Ce que nous cherchons généralement à déterminer, c’est : quelles décisions sont des « portes à sens unique » (one-way door) — c’est-à-dire irréversibles, coûteuses, ou ayant des conséquences durables — et lesquelles sont réversibles ? Car ce sont précisément celles-là qui méritent le plus de temps et d’attention. Si une décision n’est pas une porte à sens unique — c’est-à-dire si nous pouvons revenir dessus après coup — alors son coût est désormais très faible, voire nul.
Mais si une décision affecte l’expérience utilisateur finale, conditionne des décisions futures, ou implique une action concrète dans le monde physique — achat, investissement, exécution — alors elle est plus difficile à annuler, et exige donc davantage de temps et de réflexion.
Peter Yang, animateur : Pourriez-vous donner un exemple lié à la recherche ?
Alex Albert :
Par exemple, le choix de l’architecture du modèle avant l’entraînement préliminaire constitue une décision majeure. Dans certains cas, l’entraînement du modèle peut durer un mois entier, ce qui exige une réflexion approfondie sur le choix optimal.
Les modèles présentent, dans une certaine mesure, davantage de « portes à sens unique », car leur passage en production requiert une quantité considérable de temps, d’efforts, de puissance de calcul et d’autres ressources. En comparaison, ajouter une nouvelle fonctionnalité à Claude Code est bien plus rapide : il s’agit davantage d’itérer sur le code, de le mettre entre les mains des utilisateurs, de recueillir rapidement des retours, puis de poursuivre la boucle.
Ainsi, le processus dépend toujours de ce que vous publiez, mais il devient de plus en plus clair que le goulot d’étranglement se déplace vers les problèmes de coordination. Même si nous construisons très rapidement, une question persiste : nous devons réunir les personnes dans la même pièce, évaluer la pertinence stratégique, déterminer comment communiquer avec les utilisateurs, et gérer les aspects flous mais essentiels inhérents à toute mise en production. Nous espérons aussi que Claude pourra nous aider dans ces domaines, mais il n’y a pas encore eu d’accélération de 10× ou 100× comparable à celle observée en programmation.
Peter Yang, animateur : Vous devez donc encore rédiger un document de planification pour publier des versions comme Opus 4.7.
Alex Albert :
Oui, la planification reste indispensable, vous devez réfléchir à la manière de communiquer cette initiative. De plus, le modèle peut obtenir des résultats remarquables sur des tâches très complexes, tout en échouant soudainement sur des tâches apparemment simples. Nous utilisons donc Claude autant que possible. À ce jour, l’impact le plus fort reste dans le domaine de la programmation ; dans les autres domaines, la réflexion stratégique humaine demeure essentielle.
Peter Yang, animateur : Lors de vos réunions de revue avec le marketing ou vos collègues, ouvrez-vous Claude ?
Alex Albert :
Bien sûr. Pour moi, l’un des gains de productivité les plus importants est que je ne suis plus bloqué aussi facilement par l’absence de réponses ou de données. Autrefois, si j’avais une question — par exemple, comment une fonctionnalité se comporte-t-elle en production, combien d’utilisateurs l’utilisent quotidiennement, quels sont leurs retours — je devais demander à l’équipe de data science de lancer une enquête complète, puis attendre plusieurs jours pour obtenir les résultats.
Aujourd’hui, je peux y répondre en dix minutes. J’ouvre une session Claude Code, qui a accès à notre base de données produit, peut consulter les journaux, interroger les bases de données, parcourir Slack — ce qui constitue une formidable accélération pour ma réflexion stratégique, car je ne suis plus freiné avant de prendre ma prochaine décision.
Peter Yang, animateur : Dans le domaine de la réflexion stratégique, construisez-vous des compétences spécifiques pour que Claude vous pose une série de questions afin de clarifier votre raisonnement ?
Alex Albert :
Absolument. Pour moi, Claude est le meilleur partenaire de remue-méninges au monde : je peux obtenir un retour sur une idée à tout instant. Je trouve cela extrêmement puissant, surtout lorsque l’on veut avancer rapidement. Chez Anthropic, tout le monde est très occupé, donc pouvoir obtenir immédiatement un retour critique sur mes documents, mes idées ou tout autre contenu est d’une aide précieuse.
Comment Alex utilise Claude Cowork pour tester en conditions réelles ses documents
Peter Yang, animateur : C’est probablement le cycle de travail le plus courant pour un chef de produit : vous rédigez un document, puis vous sollicitez des retours. Utilisez-vous Claude Code à cet effet, ou bien Claude.ai directement ?
Alex Albert :
Récemment, j’utilise beaucoup Claude Cowork. J’apprécie particulièrement son interface interactive. L’équipe a fait un excellent travail ces derniers mois : depuis son lancement il y a quelques mois, l’expérience est devenue de très haute qualité. Cowork est un outil formidable, l’un de mes préférés.
Peter Yang, animateur : Vous disposez donc d’un document brouillon et d’un ensemble de documents de référence. Construisez-vous des compétences permettant à Claude de vous accompagner dans l’ensemble du processus décisionnel ?
Alex Albert :
Oui. Par exemple, je lui demande : « Réfléchis à cette question du point de vue de X, Y et Z. Quelles questions me poseriez-vous ? Remettez en cause mes hypothèses, pointez les faiblesses de mon raisonnement. » Une grande partie de la réflexion ne peut pas être entièrement externalisée, car écrire est en soi une forme de réflexion. Vous devez formuler vos idées par écrit et les passer en revue mentalement plusieurs fois. Toutefois, Claude peut vous aider à sortir d’un blocage et à résoudre un problème sous un angle que vous n’auriez pas envisagé seul.
Peter Yang, animateur : Dans l’équipe recherche, livrez-vous vous-même du code ?
Alex Albert :
Cela dépend de la nature du problème. Une grande partie de mon travail consiste en effet à concevoir des évaluations. Je veux m’assurer de pouvoir mesurer le modèle selon les dimensions qui m’intéressent, et communiquer à l’équipe recherche où il excelle et où il échoue. Ensemble, nous définissons ensuite une stratégie, décidons comment résoudre le problème, quelles interventions de recherche entreprendre, et quelle approche permettrait d’obtenir une progression continue sur cette évaluation afin d’améliorer réellement la situation.
Le processus d’évaluation des nouveaux modèles
Peter Yang, animateur : Ces évaluations ne sont pas des tests finaux, n’est-ce pas ? Vos évaluations sont-elles plus réalistes ? Comment évaluez-vous concrètement un modèle ? Distinguez-vous différents types, comme la personnalité ?
Alex Albert :
Prenons l’exemple de la capacité visuelle de Claude : peut-il compter correctement le nombre d’objets dans une image ? Supposons que j’aie trouvé une image où Claude semble incapable de compter plus de dix éléments. Il est possible qu’il y parvienne aujourd’hui, mais prenons cet exemple pour illustrer. Je me demande alors : comment générer davantage de cas de test similaires afin de valider mon hypothèse ?
Peut-être demanderai-je à Claude de générer des données synthétiques, ou de rendre des images, puis de les transmettre comme entrées visuelles à Claude pour vérifier sa capacité à les identifier. Peut-être irai-je chercher des exemples sur Internet, ou utiliserai-je tout autre mécanisme disponible pour générer ces cas de test.
Peter Yang, animateur : Parlons-nous de milliers de cas de test ?
Alex Albert :
Cela peut être le cas, mais parfois quelques dizaines d’échantillons suffisent à prouver l’existence d’un problème à corriger. Une évaluation exhaustive n’est pas nécessaire pour identifier un problème ni pour définir un objectif d’optimisation continue.
Peter Yang, animateur : Supposons que vous lui présentiez dix images, et qu’il ne parvienne pas à identifier de petits chiffres. Que faites-vous ensuite ? Allez-vous voir l’équipe recherche en disant : « Voici un problème, pouvez-vous le corriger ? »
Alex Albert :
Nous analysons la question sous plusieurs angles. Il ne s’agit pas seulement de signaler un problème du modèle, mais aussi de réfléchir : quelle valeur cela représente-t-il pour nos clients et nos cas d’usage ? Car le fait que Claude puisse ou non identifier un élément spécifique dans une image aura un impact direct sur ce que l’utilisateur souhaite accomplir avec Claude par la suite.
Ainsi, plus les évaluations sont réalistes et proches des tâches réellement exécutées par les utilisateurs finaux, mieux c’est. Nous faisons donc des efforts constants pour obtenir ce type de données, afin de garantir qu’elles reflètent fidèlement ces scénarios réels.
Ensuite, une série d’interventions est envisageable. Peut-être devons-nous revenir sur la phase d’entraînement préliminaire, ou peut-être le problème peut-il être résolu lors de la phase d’apprentissage par renforcement. C’est alors que nous organisons une séance de brainstorming stratégique avec l’équipe recherche : quelle est la meilleure approche ?
Peter Yang, animateur : Quelle est la rapidité de rotation pour une nouvelle tentative ?
Alex Albert :
Cela dépend de l’endroit où nous situons le problème. S’il s’agit d’un problème relativement tardif, susceptible d’être résolu avec un nouvel environnement d’apprentissage par renforcement, nous pouvons très rapidement le mettre en place.
Peter Yang, animateur : Lorsque vous reliez cela aux cas d’usage réels des clients, des millions de personnes dialoguent quotidiennement avec Claude — certains l’utilisent peut-être pour déclarer leurs impôts, ou pour d’autres usages très variés. Comment sélectionnez-vous les cas d’usage que vous souhaitez améliorer en priorité ? Comment convainquez-vous l’équipe que « c’est cela que nous devons optimiser » ?
Alex Albert :
C’est là que les données parlent d’elles-mêmes. L’essentiel est : quel pourcentage d’utilisateurs essaie d’accomplir cette tâche, et pourquoi cela nous importe-t-il ? Ou encore : avons-nous des clients qui utilisent massivement Claude et qui souhaitent améliorer cette capacité ?
En outre, une grande partie de nos processus est fortement guidée par l’usage interne : qu’est-ce qui nous importe lorsque nous utilisons le modèle nous-mêmes ? Si je rencontre personnellement un obstacle quotidien avec le modèle, alors nous devons le corriger. Cela constitue également un argument très convaincant.
Comment Anthropic entraîne la personnalité de Claude
Peter Yang, animateur : Ce que j’apprécie le plus chez Claude, c’est sa personnalité, et je trouve qu’elle s’améliore constamment. Il formule des objections au bon moment, tandis que d’autres modèles se contentent de demander : « Que puis-je faire d’autre pour vous ? » La personnalité du modèle n’est donc pas qu’une simple enveloppe ? Elle résulte d’un entraînement spécifique.
Alex Albert :
Oui, un entraînement très poussé. C’est une direction que nous considérons comme extrêmement importante. Nous parlons de la « personnalité » de Claude. Je pense que c’est fondamental.
De nombreuses personnes consacrent beaucoup de temps à étudier : comment Claude devrait-il se présenter ? Quelles sont ses convictions ? Ses valeurs ? Comment agit-il ? Ces questions sont très floues. Au début, certaines personnes les ont peut-être négligées, considérant le modèle comme un simple outil exécutant aveuglément les instructions, sans importance de la manière dont il s’exprime ou ce qu’il « pense ».
Mais à mesure que nous progressons vers un monde dominé par des agents capables d’exécuter des tâches sur de longues périodes et de prendre de nombreuses décisions, la question de leur personnalité — de ce qu’ils considèrent comme important — devient cruciale.
Peter Yang, animateur : Contrairement au code, où l’on peut simplement vérifier si le programme s’exécute, comment évaluez-vous la personnalité ? Recrutez-vous, en interne chez Anthropic, une personne plus qualifiée pour comparer le modèle à elle ?
Alex Albert :
Il s’agit d’une combinaison de méthodes. Nous examinons certains indicateurs quantifiables, et nous pouvons même demander à Claude d’analyser ses propres sorties afin d’évaluer leur tonalité. Pour tout chercheur, une compétence essentielle consiste à lire les historiques de dialogue et à évaluer : « Je vois qu’il agit ainsi maintenant », ou « il évolue vers cela ». Vous devez être capable d’identifier ces différences subtiles.
Avec le temps, après avoir lu des centaines, voire des milliers d’historiques de dialogue, vous développez une intuition de plus en plus fine, tout comme vous percevez la personnalité de Claude lorsque vous l’utilisez intensivement sur Claude.ai.
Peter Yang, animateur : Autrement dit, il ne s’agit pas de noter le modèle 7/10 sur une dimension donnée, mais plutôt d’une perception globale ?
Alex Albert :
Les deux approches coexistent. La personnalité est probablement plus difficile à quantifier que les performances en programmation, mais ce n’est pas impossible — des méthodes existent.
Peter Yang, animateur : Quel conseil donneriez-vous à ceux qui souhaitent apprendre à concevoir des produits ou devenir chefs de produit natifs IA ?
Alex Albert :
Mon conseil le plus simple est : essayez. Cela peut sembler trivial, mais chaque fois que vous vous apprêtez à accomplir une tâche ou à poser une question complexe à quelqu’un, posez-la simultanément à Claude, puis comparez les résultats.
Par exemple, vous souhaitez analyser vos utilisateurs afin d’identifier les thèmes qui les préoccupent le plus concernant une nouvelle fonctionnalité. Vous pouvez bien sûr demander à l’équipe de data science ou à un spécialiste de l’expérience utilisateur — ce qui conserve toute sa valeur. Mais dans le même temps, soumettez également la question à Claude, activez-lui certains outils, laissez-le explorer librement la question, prenez le temps de l’approfondir, puis comparez les résultats.
À force de multiples prompts et questions, vous construirez progressivement votre propre carte mentale : quels sujets confier à Claude, où il est fiable, et où il l’est encore moins.
Peter Yang, animateur : Lorsque je prends une décision, je lui demande souvent d’effectuer une recherche approfondie, car une recherche classique ne me suffit pas — j’ai besoin d’une analyse approfondie. Parcourir mille pages web est une tâche ultra-humaine. Chez Anthropic, si vous demandez à un data scientist : « Pouvez-vous m’aider à faire cela ? », il vous demandera probablement : « Avez-vous d’abord demandé à Claude ? »
Alex Albert :
Oui, cela fait partie des attentes. Je pense que nous montons vers des niveaux d’abstraction supérieurs. Pour l’équipe de data science, le temps est désormais mieux investi dans des problématiques de haut niveau, plutôt que dans la recherche manuelle de données.
Personne ne souhaite accomplir ces tâches. Chacun veut réfléchir à des problèmes plus complexes, plus stratégiques : comment mesurer cela d’une manière entièrement nouvelle ? Quelles nouvelles possibilités s’ouvrent à nous ? Plutôt que de simplement consulter le dernier DAU (Daily Active Users) de tel ou tel produit.
J’ai collaboré avec de nombreux data scientists, souvent coincés dans des tâches SQL basiques. Or, ils aspirent tous à des problématiques plus stratégiques, et l’IA vient enfin les libérer. En réalité, nous les autonomisons, ainsi que tous les autres rôles.
Par exemple, la définition d’une nouvelle fonctionnalité. Autrefois, en tant que chef de produit, même si vous aviez des compétences techniques, vous ne disposiez généralement pas du temps nécessaire pour plonger dans le code, comprendre précisément comment implémenter cette fonctionnalité, évaluer l’effort requis, déterminer s’il fallait refactoriser un système, ou identifier les véritables contraintes. La meilleure approche consistait alors à collaborer étroitement avec vos partenaires en ingénierie.
Aujourd’hui, je peux envoyer Claude réaliser cette enquête à ma place. Il pourrait revenir me dire : « En réalité, cette fonctionnalité ne nécessite que la modification de dix lignes de code ici, et l’activation d’un simple drapeau dans tel module. » Cela transformerait complètement ma hiérarchisation des priorités. Maintenant, en rédigeant la documentation technique, j’atteins ce jugement de priorité bien plus rapidement.
Peter Yang, animateur : De nombreuses entreprises traditionnelles consacrent d’importants efforts à la planification annuelle, trimestrielle et à la définition de feuilles de route. L’équipe recherche est probablement encore plus rigoureuse, car elle doit considérer des horizons plus longs que la simple livraison quotidienne. Faites-vous de même ?
Alex Albert :
Oui. C’est un peu comme cette célèbre citation : « La planification est indispensable, mais les plans eux-mêmes sont inutiles. » Le fait de planifier est essentiel, mais vous devez admettre que les plans peuvent être totalement remis en cause.
Peter Yang, animateur : L’un des défis les plus difficiles pour un chef de produit est de trouver le juste équilibre entre le temps consacré à la planification et celui consacré à la livraison effective. Anthropic a-t-il des bonnes pratiques internes ? Vous pourriez parfaitement demander à Claude de rédiger un document de dix pages.
Alex Albert :
Il est difficile de fournir une réponse universelle valable pour toutes les équipes. Cela dépend du produit. Nous ne disons certainement pas qu’un document doit obligatoirement comporter une longueur ou un nombre de pages défini. Ce qui compte davantage, c’est : avez-vous suffisamment réfléchi pour anticiper tous les impacts potentiels des décisions irréversibles ?
Si c’est le cas, le format ou le nombre de pages du document n’ont plus d’importance. L’essentiel est d’avoir suffisamment confiance pour savoir que rien d’important n’a été omis, et que vous pouvez avancer tout en traitant les problèmes au fur et à mesure. Tant qu’aucun goulot d’étranglement ne vous bloque, et qu’aucune décision irréversible aux conséquences graves n’a été prise, vous pouvez poursuivre.
Peter Yang, animateur : Chez moi, j’utilise Claude pour faire tourner simultanément de nombreux projets différents, puis je bascule d’un projet à l’autre en attendant qu’il construise les éléments requis. Le travail d’un chef de produit est-il similaire ? Gérez-vous également de nombreux projets différents ?
Alex Albert :
Oui, car il y a effectivement de nombreux projets différents, et vous devez attendre que les agents accomplissent leurs tâches. Je pense qu’il s’agit d’une immense opportunité. À mesure que nous gérons de plus en plus d’agents, qui accomplissent pour nous des tâches de plus en plus importantes, nous pouvons lancer simultanément un plus grand nombre de projets. Comment penser la gestion de notre propre contexte ? Quelle interface interactive est la mieux adaptée pour exposer ces éléments ? Comment suivre ce qui est réellement important, où mes agents sont bloqués, et où ils ont besoin de mon aide ?
Il existe certainement des solutions meilleures qu’une simple liste de discussions. Il est encore trop tôt pour dire exactement ce qu’elles seront, mais même au sein d’Anthropic, nous observons de nombreuses expérimentations visant à définir leur forme idéale.
Peter Yang, animateur : Les ingénieurs font-ils eux-mêmes des prototypes ?
Alex Albert :
Bien sûr. L’entreprise cultive fortement la pratique des prototypes : chacun construit, partage. C’est l’un des aspects les plus passionnants de mon travail ici : dans toute l’organisation — ventes, recrutement, ingénierie, recherche — chacun fait preuve d’une grande initiative. Les gens lancent spontanément des projets, même lorsqu’ils ne leur ont pas été explicitement confiés.
Peter Yang, animateur : Vous devez favoriser la floraison de mille fleurs. Outre Dario, qui rédige de très longs messages sur Slack, quelles sont les autres particularités culturelles d’Anthropic ?
Alex Albert :
Le fait que Dario rédige de longs messages n’est pas unique. Chez Anthropic, de nombreuses personnes consacrent beaucoup de temps et d’énergie à l’écriture. Nous cultivons fortement cette pratique. Beaucoup rédigent des documents, ou des messages très longs sur Slack, comme moyen de communication.
Nous pratiquons également une méthode intéressante dans de nombreuses réunions. Elle est courante dans certains milieux, mais pas systématique dans toutes les entreprises : les participants arrivent avec un document, et une bonne partie du temps est consacrée à la discussion directement dans le document. Parfois, la scène peut paraître un peu cocasse, car la salle est remplie de personnes, mais le silence règne. Chacun lit silencieusement, puis rédige de longs commentaires ou des discussions dans le document.
Nous dépendons donc fortement des documents. J’apprécie cette méthode, car c’est aussi celle que je privilégie, et elle bénéficie grandement à Claude. Lorsque tout est écrit, nous disposons d’un corpus d’informations auquel Claude peut se référer.
Je recommande vivement aux organisations externes de réfléchir dans ce sens : comment transformer les connaissances implicites en supports écrits ? Cela peut passer par la transcription des réunions, ou par l’encouragement à rédiger davantage de contenus sur les flux de travail, les procédures d’intégration, etc. Écrivez les choses, rendez-les accessibles à Claude, car c’est ainsi qu’il acquiert davantage de contexte.
Peter Yang, animateur : Ainsi, même si beaucoup de choses sont publiées très rapidement aujourd’hui, vous maintenez une forte culture de l’écrit et de la documentation. On pourrait aussi se demander : pourquoi écrire moi-même, puisque je peux demander à Claude de générer tous mes fichiers Markdown ?
Alex Albert :
Mais je les relis néanmoins, et le travail en interne diffère : vous devez toujours réfléchir vous-même aux choses.
La question de la conscience, discrètement étudiée par Anthropic
Peter Yang, animateur : Dans l’équipe recherche, on parle d’AGI (Intelligence Générale Artificielle), entre autres. Je trouve ce concept très flou, mais ce qui m’inquiète, c’est ceci : si ces modèles développent réellement une forme de conscience, et que je leur demande d’accomplir des tâches aléatoires, ne pourraient-ils pas répondre : « Non, je ne veux pas le faire » ? Et l’humanité serait alors perdue. Quelle est votre opinion ? Lorsque vous entraînez ces systèmes, évitez-vous délibérément de leur conférer une conscience ?
Alex Albert :
C’est une question majeure. Nous avons effectivement des personnes qui y réfléchissent spécifiquement. Actuellement, plusieurs de mes collègues consacrent l’intégralité de leur travail à explorer ce que signifierait, concrètement, que Claude soit un agent conscient, un acteur conscient. À ce jour, Anthropic n’a pas pris de position officielle sur la conscience de Claude.
Discuter de ce sujet peut parfois sembler fou, mais nous y consacrons bel et bien une réflexion approfondie. Et même sans trancher la question de la conscience de Claude, nous pouvons tirer de nombreux enseignements de son comportement et de ses interactions.
Peter Yang, animateur : Comment réfléchit-il ?
Alex Albert :
Exactement. Si vous examinez la « fiche technique » (model card) de nos modèles, je trouve personnellement qu’elle constitue une véritable mine d’informations. Vous y verrez de nombreux travaux visant à quantifier comment Claude agira dans un contexte donné, quel modèle psychologique il construit. Si on le place dans tel scénario, choisira-t-il X ou Y ?
En étudiant la manière dont Claude réfléchit, nous apprenons en réalité beaucoup de choses, et ces apprentissages peuvent être directement convertis en améliorations d’expérience produit, rendant Claude plus agréable à utiliser et plus efficace.
Peter Yang, animateur : C’est une question passionnante, car elle présente à la fois des implications à long terme, et une valeur immédiate transférable à l’expérience produit. En effet, nous allons de plus en plus faire confiance aux modèles pour accomplir des tâches de plus en plus longues, sans surveillance humaine.
Alex Albert :
Oui, il prendra, au cours de son exécution, de très nombreuses décisions que vous n’aurez probablement pas supervisées. Il est donc fondamental de comprendre ce qu’il fera réellement.
Peter Yang, animateur : C’est fondamental. Si ce système rédige l’intégralité de votre code, choisit votre système de base de données, et prend toutes les décisions architecturales, vous devez, dans une certaine mesure, lui faire confiance.
Alex Albert :
Exactement. C’est pourquoi posséder la personnalité de haute qualité dont nous parlions plus tôt est si important.
Bienvenue dans la communauté officielle TechFlow
Groupe Telegram :https://t.me/TechFlowDaily
Compte Twitter officiel :https://x.com/TechFlowPost
Compte Twitter anglais :https://x.com/BlockFlow_News














