
Entretien récent avec David Luan, ancien employé d'OpenAI : DeepSeek n'a pas changé la narration autour de la technologie de l'intelligence artificielle
TechFlow SélectionTechFlow Sélection

Entretien récent avec David Luan, ancien employé d'OpenAI : DeepSeek n'a pas changé la narration autour de la technologie de l'intelligence artificielle
Obtenir plus d'intelligence à moindre coût ne signifie pas que vous cesserez de chercher l'intelligence.
Auteur : MD
Production : Liangming Company

Récemment, sur le podcast « Unsupervised Learning » de Redpoint Ventures, le partenaire de Redpoint Jacob Effron a interviewé David Luan. Ils ont discuté des enseignements que DeepSeek apporte à la recherche et à la pratique dans le domaine des grands modèles, abordant les limites actuelles des modèles d’IA et les directions potentielles de percée.
David Luan est un ancien employé d’OpenAI. Diplômé de Yale en 2009, il a d’abord rejoint iRobot pour travailler sur les robots, puis a occupé divers postes (y compris chez Microsoft), avant de rejoindre OpenAI en 2017 alors que l'entreprise était encore à ses débuts, avec seulement 35 personnes dans l'équipe R&D. Dans cet entretien, il explique que son choix de rejoindre une entreprise d’intelligence artificielle découle de son intérêt pour les robots, affirmant que « la principale limitation des robots réside dans le niveau d’intelligence des algorithmes sous-jacents ».
En 2020, David Luan quitte OpenAI pour rejoindre Google, mais peu de temps après, il fonde Adept avec deux collègues rencontrés chez Google, en tant que PDG. En août dernier, il rejoint Amazon en tant que responsable du laboratoire AGI à San Francisco.
Voici le texte de l'interview traduit par Liangming Company (légèrement édité) :
Les limites des grands modèles et la valeur de l'apprentissage par renforcement
Jacob : David Luan dirige le laboratoire AGI d’Amazon. Précédemment, il était cofondateur et PDG d’Adept, société ayant levé plus de 400 millions de dollars pour développer des agents IA. Il a été vice-président ingénierie chez OpenAI, participant à plusieurs percées clés. Je suis Jacob Effron.
Aujourd’hui, David et moi avons abordé de nombreux sujets intéressants, notamment son avis sur DeepSeek, ses prévisions concernant l’évolution future des modèles, nous avons discuté de l’état actuel des agents et de comment les rendre fiables, ainsi que du moment où ils deviendront omniprésents. Il a également partagé quelques anecdotes fascinantes sur les débuts d’OpenAI et sa culture unique. Ce fut un échange très intéressant car David et moi nous connaissons depuis plus de dix ans. Je pense que les auditeurs apprécieront beaucoup. Merci, David, d’avoir accepté notre invitation.
David : Merci de m’avoir invité. Cela va être passionnant, étant donné que nous nous connaissons depuis plus de dix ans.
Jacob : Je me souviens quand tu as rejoint OpenAI, je trouvais cela intéressant, mais pas sûr que ce soit un bon choix professionnel. Manifestement, tu as toujours su voir les opportunités bien avant les autres.
David : J’ai eu beaucoup de chance, car j’ai toujours été passionné par les robots, et (à l’époque) la principale limitation des robots résidait dans le niveau d’intelligence des algorithmes fondamentaux. J’ai donc commencé à travailler sur l’intelligence artificielle, et c’est vraiment incroyable de voir ces technologies progresser de mon vivant.
Jacob : Aujourd'hui, je veux discuter avec toi de plusieurs sujets. Commençons par un sujet brûlant : la forte réaction suscitée par DeepSeek ces dernières semaines. Tout le monde en parle, les actions ont chuté. Certains disent que cela nuit à OpenAI et Anthropic. À présent, les esprits semblent s’être calmés. Mais je suis curieux : quels sont, selon toi, les aspects corrects et incorrects de cette discussion générale sur l’impact de l’événement ?
David : Je me souviens de ce matin-là, tout le monde parlait de DeepSeek. En me réveillant, j’ai vu cinq appels manqués. Je me suis demandé ce qui se passait. La dernière fois que cela s’était produit, c’était lors de l’effondrement de SVB (Silicon Valley Bank), car tous les investisseurs m’appelaient pour que je retire mes fonds de SVB et de First Republic. J’ai donc pensé qu’un événement grave venait de se produire. En lisant l’actualité, j’ai découvert que les actions avaient chuté à cause de la sortie de DeepSeek R1. J’ai immédiatement compris que tout le monde se trompait complètement sur ce point. Ce que DeepSeek a fait est excellent, mais cela fait partie d’une narration plus large — d’abord, nous apprenons à rendre les nouveaux grands modèles plus intelligents, puis nous apprenons à les rendre plus efficaces.
C’est donc un tournant. Ce que les gens comprennent mal, c’est que le fait de pouvoir obtenir plus d’intelligence à moindre coût ne signifie pas que vous allez arrêter de chercher l’intelligence. Bien au contraire, vous allez utiliser davantage d’intelligence. Une fois que le marché aura compris cela, nous retrouverons la rationalité.
Jacob : Étant donné que les modèles de base semblent avoir été formés sur la base d’OpenAI, on peut faire agir les modèles DeepSeek comme ChatGPT de différentes façons. À l’avenir, compte tenu de la distillation de connaissances, OpenAI et Anthropic vont-ils cesser de publier ces modèles de manière aussi ouverte ?
David : Je pense que ce qui va se produire, c’est que les gens voudront toujours construire les modèles les plus intelligents, mais parfois ces modèles ne seront pas efficaces en termes d’inférence. Donc, je pense que nous verrons de plus en plus souvent que, même si les gens n’en parlent pas explicitement, ils formeront en interne de gigantesques « modèles professeurs » (teacher models), utilisant toutes les ressources de calcul disponibles. Puis ils essaieront de les compresser en modèles efficaces adaptés aux clients.
Le problème majeur que je vois actuellement, c’est que j’imagine les cas d’utilisation de l’IA comme des cercles concentriques de complexité. Le niveau le plus interne pourrait être une simple conversation avec un modèle linguistique de base, chose que GPT-2 faisait déjà bien. Chaque couche supplémentaire d’intelligence — comme le calcul mental, la programmation, ou plus tard les agents, voire la découverte de médicaments — nécessite des modèles plus intelligents. Mais chaque niveau d’intelligence précédent devient presque si bon marché qu’il peut être quantifié (quantize, réduire la précision numérique du modèle pour diminuer la consommation de ressources).
Jacob : Cela m’amène à la tendance du calcul au moment de l’inférence (test-time compute). Cela semble être une voie très prometteuse, surtout dans des domaines faciles à vérifier comme la programmation ou les mathématiques. Jusqu’où peut-on aller avec ce paradigme ?
David : Il existe toute une série d’articles et de podcasts documentant mes discussions sur la construction de l’AGI (intelligence artificielle générale) au fil des ans.
Jacob : Ajoutons-y quelque chose de nouveau.
David : Nous pouvons prouver maintenant que nous avons cette conversation. Mais dès 2020, quand nous avons commencé à voir l’émergence de GPT-2, GPT-3 était probablement déjà en développement ou achevé. Nous commencions à penser à GPT-4, dans un monde où les gens doutaient que la simple prédiction du prochain token (next token prediction) suffise à résoudre tous les problèmes d’AGI.
Mon opinion, ainsi que celle de certains autour de moi, est non. La raison est que si un modèle est entraîné à prédire le prochain token, il est essentiellement pénalisé lorsqu’il découvre une nouvelle connaissance, car celle-ci n’est pas dans les données d’entraînement. Nous devons donc examiner d’autres paradigmes connus d’apprentissage machine capables de découvrir réellement de nouvelles connaissances. Nous savons que l’apprentissage par renforcement (RL) peut y parvenir, RL peut le faire dans la recherche, n’est-ce pas ? Oui, ou comme AlphaGo, qui a peut-être été la première démonstration grand public de l’utilisation du RL pour découvrir de nouvelles connaissances. La question a toujours été : quand allons-nous combiner les grands modèles linguistiques (LLMs) avec le RL pour créer des systèmes possédant toute la connaissance humaine et capables de construire dessus ?
Jacob : Alors, pour des domaines difficiles à vérifier, comme la santé ou le droit, ce paradigme du calcul à l’inférence peut-il nous permettre de construire des modèles capables de traiter ces questions ? Ou allons-nous devenir très bons en programmation et en maths, mais incapables de raconter une blague ?
David : C’est un sujet de débat, j’ai une opinion très claire.
Jacob : Quelle est ta réponse ?
David : Les capacités de généralisation de ces modèles sont plus fortes que vous ne l’imaginez. Tout le monde dit : « J’ai utilisé GPT-1, il est meilleur en maths, mais quand il réfléchit, il est un peu moins bon que ChatGPT ou d’autres modèles. » Je pense que ce ne sont que des petites ondulations sur la route vers des modèles plus puissants. Aujourd’hui, nous voyons déjà des signes indiquant que en validant explicitement si le modèle a correctement résolu un problème (comme on le voit chez DeepSeek), cela conduit effectivement à un transfert sur des problèmes légèrement flous dans des domaines similaires. Tout le monde s’y emploie, mon équipe et d’autres équipes travaillent dur pour résoudre les préférences humaines dans ces tâches complexes, afin de satisfaire ces préférences.
Jacob : Oui. Et tu dois toujours pouvoir construire un modèle capable de valider, par exemple, « cette sortie est un bon avis juridique » ou « cette sortie est un bon diagnostic médical », ce qui est manifestement bien plus difficile que de valider une preuve mathématique ou de savoir si un code fonctionne.
David : Je pense que nous tirons parti de l’écart entre la capacité des modèles à juger s’ils ont bien fait leur travail — la même architecture de poids neuronaux étant meilleure pour évaluer si elle a bien accompli une tâche que pour générer la bonne réponse. Nous exploitons constamment ce fait, grâce à certains outils de RL, pour lui donner une sensation interne de ce qui constitue un bon travail.
Jacob : Quels problèmes de recherche doivent être résolus pour vraiment déployer de tels modèles ?
David : Il y en a tellement que je vais probablement n’en citer que trois. Premièrement, je pense que le premier problème est de savoir comment construire une organisation et des processus pour fabriquer des modèles de manière fiable.
Je dis toujours à mon équipe et aux personnes avec qui je collabore : aujourd’hui, si vous dirigez un laboratoire d’intelligence artificielle moderne, votre travail n’est pas de construire un modèle, mais de construire une usine capable de produire des modèles de manière fiable. Quand vous adoptez cette vision, votre stratégie d’investissement change complètement. Tant que la reproductibilité n’est pas atteinte, je pense qu’il n’y a pas beaucoup de progrès. Nous venons juste de passer de l’alchimie à l’industrialisation, la manière de construire ces modèles a changé. Sans cette base, ces modèles ne fonctionneraient pas.
Je pense que la suite, c’est que vous devez aller lentement pour aller vite. Mais je crois que c’est la première partie. Je suis toujours convaincu que les gens sont attirés par les algorithmes parce qu’ils semblent cool, sexy. Mais si l’on regarde ce qui a vraiment permis tout cela, c’est en réalité des problèmes d’ingénierie. Par exemple, comment réaliser du calcul massif sur grappes (clusters) pour garantir qu’ils fonctionnent de façon fiable pendant assez longtemps ? Si un nœud tombe en panne, vous ne perdez pas trop de temps sur votre tâche. Pour repousser les limites de l’échelle, c’est un vrai problème.
Maintenant, tout le domaine de l’apprentissage par renforcement (RL) va rapidement entrer dans un monde où il y aura de nombreux centres de données, chacun effectuant de nombreuses inférences sur le modèle de base, peut-être testant dans de nouveaux environnements amenés par les clients, pour apprendre à améliorer le modèle, et renvoyant ces nouvelles connaissances vers un emplacement central, afin que le modèle apprenne à devenir plus intelligent.
Jacob : Certaines personnes comme Yann LeCun critiquent récemment les limites des grands modèles linguistiques (LLMs). Je voudrais que tu résumes cette critique pour nos auditeurs, puis que tu donnes ton avis sur ceux qui affirment que ces modèles ne pourront jamais penser de façon véritablement originale.
David : Je pense que nous avons déjà des contre-exemples. AlphaGo est une forme de pensée originale. Si vous revenez aux premiers travaux d’OpenAI, nous utilisions le RL pour jouer à des jeux Flash ; si vous avez cet âge, vous vous souvenez peut-être de MiniClip et de choses similaires. Ceux-ci étaient des distractions adolescentes, mais il était fascinant de les voir devenir la pierre angulaire de l’IA. Nous étudiions comment utiliser nos algorithmes pour réussir simultanément ces jeux, et vous découvriez vite qu’ils apprenaient à finir rapidement en exploitant des bugs, comme traverser les murs, des choses que les humains n’avaient jamais faites.
Jacob : Sur le plan de la validation, il s’agit surtout de trouver des méthodes astucieuses pour valider ces différents domaines.
David : Tu utilises simplement le modèle.
Comment construire des agents fiables
Jacob : Je voudrais maintenant parler du monde des agents. Comment décrirais-tu l’état actuel de ces modèles ?
David : Je reste extrêmement enthousiaste à propos des agents. Cela me ramène à 2020-2021, lorsque la première vague de modèles vraiment puissants comme GPT-4 est apparue. En les essayant, on sentait un immense potentiel — il pouvait composer d’excellents morceaux de rap, faire de superbes remarques sarcastiques, et additionner des nombres à trois chiffres sans problème. Mais quand on lui demandait « aide-moi à commander une pizza », il se contentait d’imiter le mode de conversation du service client Domino’s, sans jamais accomplir la tâche concrète. Cela révélait clairement une grave lacune de ces systèmes, n’est-ce pas ?
Depuis lors, j’ai été convaincu qu’il fallait résoudre le problème des agents. Lorsque je travaillais chez Google, nous avons commencé à étudier ce qu’on appellera plus tard « l’utilisation d’outils » — comment montrer à un grand modèle linguistique (LLM) des interfaces d’action pour qu’il décide seul quand agir. Bien que le milieu académique l’ait toujours appelé « agent », le grand public n’avait pas encore une perception uniforme. Nous avons donc tenté de créer un nouveau terme, « grand modèle d’action » (Large Action Model), pour remplacer « grand modèle linguistique » (Large Language Model), ce concept a suscité quelques discussions. Mais finalement, le secteur a choisi le terme « agent » (Agent), aujourd’hui tellement galvaudé qu’il a perdu son sens authentique, ce qui est regrettable, mais c’était cool d’être la première entreprise moderne asiatique à explorer ce domaine.
Quand nous avons fondé Adept, les meilleurs LLM open source étaient médiocres. Comme il n’existait pas encore de LLM multimodal (comme les modèles acceptant des images, tels que GPT-4v plus tard), nous avons dû entraîner notre propre modèle depuis zéro. Nous avons dû tout faire nous-mêmes, un peu comme fonder une entreprise internet en 2000 et devoir appeler TSMC pour fabriquer vos propres puces — c’était complètement fou.
Ainsi, ce que nous avons appris, c’est que sans les techniques RL d’aujourd’hui, les grands modèles linguistiques sont fondamentalement des cloneurs comportementaux (behavioral cloners) — ils reproduisent ce qu’ils ont vu dans leurs données d’entraînement, ce qui signifie que dès qu’ils rencontrent une situation inédite, leur capacité de généralisation est faible et leur comportement devient imprévisible. Adept s’est donc concentré dès le départ sur l’intelligence utile. Que signifie l’utilité ? Ce n’est pas sortir une démo impressionnante qui devient virale sur Twitter. C’est remettre ces technologies entre les mains des gens pour qu’ils n’aient plus à faire les tâches fastidieuses que la plupart des travailleurs intellectuels doivent subir, comme déplacer des fichiers sur ordinateur. Ces travailleurs intellectuels tiennent avant tout à la fiabilité. Un de nos premiers cas d’usage était : pouvons-nous aider les gens à traiter leurs factures ?
Jacob : Tout le monde adore traiter les factures (rire). Pour ces modèles universels, cela semble être un point de départ naturel.
David : C’est un excellent « Hello World ». Personne ne faisait vraiment cela à l’époque, nous avons donc choisi un cas d’usage évident. Nous avons fait d'autres projets comme Excel. Si ce système supprime un tiers des entrées de votre QuickBooks une fois sur sept, vous ne l'utiliserez plus jamais. La fiabilité reste un problème, même aujourd’hui. Des systèmes comme Operator sont très impressionnants, ils semblent surpasser d'autres agents informatiques cloud. Mais si vous examinez ces deux systèmes, ils se concentrent tous deux sur l'exécution de tâches bout en bout, par exemple, vous tapez « je veux que tu m'aides à trouver 55 endroits pour des week-ends » et il essaie de terminer la tâche. Mais la fiabilité bout en bout est très faible, nécessitant beaucoup d'interventions humaines. Nous n'avons pas encore atteint le stade où les entreprises peuvent réellement faire confiance à ces systèmes pour une solution "sans intervention".
Jacob : Nous devons résoudre ce problème. Peut-être pourriez-vous expliquer à nos auditeurs ce qu'il faut réellement faire pour transformer un modèle de base multimodal existant en un grand modèle d'action ?
David : Je peux en parler à un niveau plus élevé, mais fondamentalement, deux choses sont nécessaires. La première est un problème d'ingénierie : comment présenter les actions possibles d'une manière compréhensible par le modèle. Par exemple, voici les API que vous pouvez appeler, voici les éléments d'interface utilisateur accessibles. Apprenons-lui un peu le fonctionnement d'Expedia.com ou de SAP. C'est du travail de recherche et d'ingénierie. C'est la première étape : lui donner une conscience de ses capacités et des compétences d'action de base.
La deuxième partie est la plus intéressante : comment lui apprendre à planifier, raisonner, replanifier, suivre les instructions de l'utilisateur, voire inférer ce que l'utilisateur veut vraiment et accomplir ces tâches. C'est un défi de R&D ardu, très différent du travail classique sur les modèles linguistiques, car le travail habituel consiste à « générer un texte », même le travail actuel sur le raisonnement, comme les problèmes mathématiques, aboutit à une réponse finale.
C’est donc un processus à une seule étape, même s’il implique une réflexion en plusieurs étapes, il fournit simplement la réponse. Ici, c’est un processus décisionnel complètement multi-étapes, impliquant des retours en arrière, des tentatives de prédiction des conséquences de ses actions, et la prise de conscience que le bouton de suppression peut être dangereux. Vous devez tout mettre en place dès le départ.
Ensuite, vous le placez dans un environnement bac à sable pour qu’il apprenne par lui-même. La meilleure analogie est celle d’Andrej Karpathy (membre fondateur d’OpenAI, a créé en 2024 Eureka Labs, une institution d’IA et d’éducation), qui a dit que l’entraînement moderne de l’IA ressemble un peu à la structure d’un manuel scolaire. D’abord, vous avez l’explication complète d’un phénomène physique, puis quelques exemples de problèmes. La première partie est la pré-formation, les exemples sont le réglage fin supervisé, et la dernière étape est un problème ouvert, peut-être avec une réponse à la fin du manuel. Nous suivons simplement ce processus.

Description des grands modèles par Andrej Karpathy (source : X.com, Liangming Company)
Jacob : Tu as certainement beaucoup réfléchi à la manière dont ces agents vont réellement s’insérer dans le monde. Deux questions. D’abord, tu as mentionné que le problème partiel réside dans la capacité du modèle à savoir ce qu’il peut accéder. Alors, au fil du temps, comment les modèles interagiront-ils avec les navigateurs et les programmes ? Serait-ce similaire à l’interaction humaine ? Ou uniquement via du code ? Y a-t-il d’autres méthodes ?
David : Si je dois commenter ce domaine, je pense que le problème majeur actuel est que les gens manquent de créativité dans la manière d’interagir avec ces grands modèles et agents de plus en plus intelligents. Vous vous souvenez quand l’iPhone est sorti, puis l’App Store, les gens ont commencé à créer toutes sortes d’applications, comme un bouton qui fait un rot, ou une application qui verse de la bière dans votre bouche en inclinant le téléphone. Nos interfaces sont aujourd’hui comme ça, elles semblent mauvaises, car le chat est une interaction extrêmement limitée et à faible débit, du moins dans certains aspects. Par exemple, je ne veux pas passer sept tours de dialogue pour choisir les ingrédients de ma pizza.
Ce manque de créativité me frustre. Je pense en partie parce que les excellents designers produits capables de nous aider à résoudre ces problèmes ne comprennent pas encore vraiment les limites de ces modèles. Cela change rapidement, mais inversement, jusqu’à présent, ceux qui font avancer la technologie la considèrent toujours comme « je livre ici une boîte noire », plutôt que « je livre ici une expérience ».
Quand cela changera, j’espère voir des systèmes où, en interagissant avec un agent, il synthétise réellement une interface utilisateur multimodale pour lister ce dont il a besoin de vous, et crée un contexte partagé entre humain et IA, au lieu du paradigme actuel où vous ne faites que discuter avec lui. C’est plutôt comme si vous et lui faisiez ensemble quelque chose sur l’ordinateur, en regardant l’écran, plus en parallèle qu’en vertical.
Jacob : Tu as mentionné que Operator est impressionnant mais parfois imparfait. Quand penses-tu que nous aurons des agents fiables ?
David : Je pense que Operator est formidable, mais actuellement tout le domaine manque encore la dernière pièce du puzzle.
Jacob : Sachant que dans l’histoire de la conduite autonome, dès 1995, ils ont fait une démonstration où un véhicule a traversé le pays, accomplissant 99 % du trajet.
David : Oui.
Jacob : Devrons-nous attendre encore 30 ans ?
David : Non, car je pense que nous avons déjà les bons outils.
Jacob : Tu as mentionné précédemment que l’AGI (intelligence artificielle générale) n’était pas si loin.
David : Le principal jalon que je cherche dans le domaine des agents est que je puisse donner n’importe quelle tâche à l’agent pendant l’entraînement, revenir quelques jours plus tard, et il l’aura accomplie à 100 %. Oui, comme si l’humain avait apporté une amélioration de fiabilité de 5 %, mais l’agent a appris à résoudre le problème.
Jacob : Comme tu l’as dit, quand tu as fondé Adept, il n’y avait pas vraiment de modèles open source, encore moins de modèles multimodaux open source. Penses-tu que quelqu’un lançant aujourd’hui une entreprise comme Adept, une startup, pourrait réussir ici ? Ou est-ce que ce seront finalement les entreprises de modèles de base et les fournisseurs géants de cloud qui feront avancer le secteur ?
David : J’ai beaucoup d’incertitude sur cette question. Mais mon avis actuel est que personnellement, l’AGI n’est pas si loin.
Jacob : Quand tu parles d’AGI, comment le définis-tu ?
David : Un modèle capable d’accomplir sur un ordinateur toute tâche utile qu’un humain peut faire, c’est une partie de la définition. Une autre définition que j’aime est qu’il s’agit d’un modèle capable d’apprendre aussi vite que les humains à faire ces choses. Je pense que ce n’est pas si loin, mais je ne pense pas non plus que cela se répandra rapidement dans la société. Comme nous le savons, selon la loi d’Amdahl, une fois que vous accélérez réellement une chose, d’autres deviennent des goulets d’étranglement, et l’accélération globale n’est pas aussi grande que prévu.
Donc, je pense que nous aurons cette technologie, mais la capacité des humains à l’utiliser efficacement restera limitée pendant longtemps. Beaucoup de mes collègues appellent cela un « excès de capacité » (capability overhang), un énorme excès de capacité.
Jacob : As-tu déjà eu des réflexions initiales sur les facteurs d’accélération possibles une fois que nous aurons ces capacités ?
David : Cela dépend des gens. C’est sur la conception conjointe de l’interaction avec les modèles et sur l’utilisation de ces modèles. Ce sera une question d’acceptation sociale. Imaginez qu’un modèle sorte demain en disant : « J’ai inventé une toute nouvelle façon de faire les choses, tout le monde devrait l’utiliser. » Les humains devront faire la paix avec cela et décider si c’est vraiment une meilleure solution, ce qui ne se fera pas aussi vite que nous le pensons.
Jacob : Comme tu l’as dit, même si les laboratoires sont les premiers à développer ces modèles, il pourrait exister une opportunité pour les startups de combler réellement l’écart entre les capacités des modèles et ce que les utilisateurs finaux veulent vraiment.
David : Je suis presque certain que c’est ce qui se passera. Car au fond, je crois toujours fermement qu’dans un monde avec AGI, les relations humaines comptent vraiment. En fin de compte, comprendre et posséder la relation client, et être plus proche d’eux pour mieux connaître leurs besoins, sera plus important que de simplement contrôler un outil que de nombreux autres laboratoires possèdent aussi.
Jacob : Comment penses-tu que les humains utiliseront les ordinateurs dans les dix prochaines années ? Tous ces modèles atteignent ta définition d’AGI. Est-ce que je serai encore assis devant un ordinateur ? Quelle est ta vision de l’interaction future entre les humains et ces technologies ?
David : Je pense que nous aurons de nouvelles boîtes à outils pour interagir avec les ordinateurs. Aujourd’hui, il y a encore des gens qui utilisent la ligne de commande, n’est-ce pas ? Tout comme les gens utilisent encore des interfaces graphiques (GUI). À l’avenir, les gens continueront d’utiliser des interfaces vocales. Mais je pense qu’ils utiliseront aussi davantage l’informatique ambiante (ambient computing). Et je pense qu’un indicateur auquel nous devrions prêter attention est le levier (leverage) obtenu par unité d’énergie dépensée par les humains lors de l’interaction avec les ordinateurs. Je pense que cet indicateur continuera de croître à mesure que ces systèmes évoluent.
Jacob : Peut-être pourrions-nous parler un peu de ce monde futur des modèles, et de savoir si nous aurons finalement des modèles spécialisés par domaine ?
David : Prenons l’exemple hypothétique d’un modèle expert juridique. Vous voudriez probablement que cet expert juridique connaisse certains faits fondamentaux sur le monde.
Jacob : Beaucoup de gens font d’abord un diplôme général avant d’aller à la faculté de droit.
David : Exactement. Donc je pense qu’il y aura des modèles spécialisés par domaine, mais je ne veux pas masquer le point principal en disant simplement qu’il y en aura. Je pense qu’il y en aura pour des raisons techniques, mais aussi pour des raisons politiques.
Jacob : C’est intéressant, que veux-tu dire ?
David : C’est comme certaines entreprises qui ne veulent vraiment pas que leurs données soient mélangées. Imaginez une grande banque avec un département ventes et trading, et un département banque d’investissement. Des employés IA ou des LLMs soutiennent ces départements, tout comme aujourd’hui ces employés ne peuvent pas partager d’informations, les modèles ne devraient pas pouvoir partager d’informations via leurs poids.
Jacob : Penses-tu qu’il reste d’autres choses à résoudre ? Sur le plan des modèles, tu sembles très confiant que si nous étendons simplement la puissance de calcul actuelle, nous serons très proches de résoudre les problèmes. Mais y a-t-il d’autres défis technologiques majeurs à surmonter pour continuer à étendre l’intelligence des modèles ?
David : En fait, je ne suis pas d’accord avec l’idée que si vous appliquez simplement les technologies actuelles à un cluster de calcul de deux ans plus tard, tout fonctionnera miraculeusement. Bien que l’échelle reste cruciale, ma confiance vient de l’analyse des problèmes ouverts fondamentaux actuels — nous devons évaluer la difficulté de leur résolution. Existe-t-il des super-problèmes qui nécessitent une innovation radicale ? Par exemple, remplacer complètement l’algorithme de descente de gradient (note : algorithme central d’optimisation des paramètres dans les modèles d’apprentissage profond, mettant à jour les paramètres selon la direction opposée du gradient de la fonction de perte), ou dépendre d’ordinateurs quantiques pour atteindre l’AGI ? Mais je ne pense pas que ce soient des chemins technologiques inévitables.
Jacob : Quand de nouveaux modèles sortent, comment les évalues-tu ? As-tu des questions fixes pour les tester, ou comment juges-tu la qualité de ces nouveaux modèles ?
David : Ma méthodologie d’évaluation repose sur deux principes fondamentaux : Simplicité méthodologique (Methodological Simplicity) : c’est la caractéristique la plus fascinante du domaine de l’apprentissage profond — quand une recherche est accompagnée d’un document méthodologique (de plus en plus rare aujourd’hui), il suffit d’examiner son approche pour découvrir parfois une solution plus simple et plus efficace que les solutions traditionnelles. Ces percées entrent souvent dans le canon de l’apprentissage profond et provoquent des moments d’épiphanie du type « cela montre vraiment la beauté de l’algorithme ».
Décalage des benchmarks (Benchmark Misalignment) : l’hype actuel dans le domaine a fait que de nombreux benchmarks sont déconnectés des besoins réels des modèles, mais sont excessivement valorisés dans les processus de R&D. Ces tests sont fondamentalement un jeu. La complexité de l’évaluation et de la mesure est gravement sous-estimée — comparée à bien des axes de recherche actuels, elle mériterait bien plus de reconnaissance académique et de ressources.
Les accumulations technologiques différenciées sont en réalité rares
Jacob : Il semble que chacun ait ses propres benchmarks internes, qu’ils ne publient pas, comme des choses auxquelles ils croient davantage. On voit qu’OpenAI a des modèles qui se comportent mieux dans de nombreux benchmarks de programmation, mais tout le monde utilise les modèles d’Anthropic, sachant qu’ils sont meilleurs. Observer l’évolution de ce domaine est intéressant. J’aimerais entendre ton retour sur Amazon, comment vois-tu le rôle d’Amazon dans l’écosystème plus large ?
David : Oui, Amazon est un endroit très intéressant. En fait, j’y ai beaucoup appris. Amazon s’engage très sérieusement à construire des systèmes d’intelligence générale, en particulier des agents d’intelligence générale. Je pense que ce qui est vraiment cool, c’est que tout le monde chez Amazon comprend que le calcul lui-même est en train de se transformer, passant des éléments fondamentaux que nous connaissons aux appels de grands modèles ou de grands agents, ce qui pourrait devenir l’élément fondamental le plus important du calcul à venir. Les gens s’en soucient énormément, c’est formidable.
Je trouve intéressant que je dirige l’activité agent d’Amazon, et c’est cool de voir à quel point les agents touchent à de vastes domaines dans une grande entreprise comme Amazon. Peter et moi avons ouvert un nouveau laboratoire de recherche à San Francisco pour Amazon, en grande partie parce que de nombreux dirigeants d’Amazon croient vraiment que nous avons besoin de nouvelles percées scientifiques pour résoudre les principaux problèmes vers l’AGI que nous avons discutés précédemment.
Jacob : Portes-tu ton attention sur certaines architectures alternatives ou domaines de recherche plus avancés ?
David : Voyons voir. Je surveille toujours ce qui pourrait nous aider à mieux mapper l’apprentissage des modèles sur le calcul. Pouvons-nous utiliser plus efficacement davantage de calcul ? Cela donne un effet multiplicateur énorme sur ce que nous pouvons faire. Mais en réalité, je passe plus de temps à observer les centres de données et les puces, car je trouve cela très intéressant. Il y a actuellement des développements intéressants en cours.
Jacob : L’un des principaux moteurs du développement des modèles semble être l’annotation des données, et manifestement, tous les laboratoires y consacrent d’importantes sommes. Dans le paradigme du calcul à l’inférence, cela reste-t-il pertinent ? Quelle est ta vision de ce problème ?
David : Ce qui me vient d’abord à l’esprit, ce sont deux tâches liées à l’annotation des données. La première est d’enseigner au modèle les bases d’une tâche en clonant le comportement humain. Si vous avez des données de haute qualité, vous pouvez mieux activer ce que le modèle a déjà vu pendant la pré-formation. La deuxième tâche, c’est d’apprendre au modèle ce qui est bien ou mal, pour les tâches floues. Je pense que ces deux aspects restent très importants…
Bienvenue dans la communauté officielle TechFlow
Groupe Telegram :https://t.me/TechFlowDaily
Compte Twitter officiel :https://x.com/TechFlowPost
Compte Twitter anglais :https://x.com/BlockFlow_News












