Entretien YC : La personne qui a fondé DeepMind attend désormais le « moment Einstein » de l’IA

2026.04.30

Partager vers

TechFlow SélectionTechFlow Sélection

Entretien YC : La personne qui a fondé DeepMind attend désormais le « moment Einstein » de l’IA

« Des problèmes liés à l’apprentissage continu, au raisonnement à long terme et à certains aspects de la mémoire restent encore à résoudre ; une IA générale (AGI) devra les résoudre tous. »

2026.04.30 - 09:17:02

Dédié à des analyses Web3 approfondies

Rédaction et traduction : TechFlow

Invité : Demis Hassabis (fondateur de DeepMind, lauréat du prix Nobel de chimie 2024, directeur de Google DeepMind)

Animé par : Gary Tan

Source du podcast : Y Combinator

Titre original : Demis Hassabis : Agents, AGI et la prochaine grande percée scientifique

Date de diffusion : 29 avril 2026

Introduction rédactionnelle

Demis Hassabis, PDG de Google DeepMind et lauréat du prix Nobel de chimie, était l’invité de Y Combinator pour évoquer les avancées clés encore nécessaires sur la voie de l’AGI, formuler des conseils aux entrepreneurs souhaitant conserver leur avantage concurrentiel, et identifier les domaines susceptibles d’accueillir la prochaine grande percée scientifique. Pour les entrepreneurs en technologies profondes, le jugement le plus opérationnel est le suivant : si vous lancez aujourd’hui un projet technologique exigeant une décennie de développement, vous devez impérativement intégrer dans votre planification l’émergence imminente de l’AGI. Par ailleurs, Demis Hassabis a également révélé qu’Isomorphic Labs — société spécialisée dans la découverte de médicaments fondée à partir de DeepMind — s’apprête à annoncer une nouvelle majeure.

Citations marquantes

Itinéraire et calendrier vers l’AGI

« Les composants technologiques actuels feront presque certainement partie de l’architecture finale de l’AGI. »
« Des problèmes liés à l’apprentissage continu, au raisonnement à long terme et à certains aspects de la mémoire restent non résolus ; l’AGI devra tous les régler. »
« Si, comme moi, vous estimez que l’AGI sera réalisée vers 2030, et que vous démarrez aujourd’hui un projet technologique exigeant, alors vous devez absolument prendre en compte le fait que l’AGI interviendra probablement en cours de route. »

Mémoire et fenêtre contextuelle

« La fenêtre contextuelle correspond approximativement à la mémoire de travail. Chez l’humain, la mémoire de travail moyenne ne retient que sept chiffres environ, tandis que nos modèles disposent de fenêtres contextuelles pouvant atteindre des millions, voire des dizaines de millions de tokens. Le problème, c’est que nous y chargeons tout sans discernement, y compris des informations inutiles ou erronées — une pratique actuellement très brutale. »
« Pour traiter un flux vidéo en temps réel en stockant tous les tokens, une fenêtre de un million de tokens ne suffit en réalité qu’à environ vingt minutes. »

Défauts du raisonnement

« J’aime bien faire jouer Gemini aux échecs. Parfois, il perçoit qu’un coup est mauvais, mais ne parvient pas à trouver une alternative meilleure, et finit donc par revenir sur ce même coup défavorable après avoir tourné en rond. Or un système de raisonnement rigoureux ne devrait jamais se comporter ainsi. »
« D’un côté, il résout des problèmes de niveau médaille d’or aux Olympiades internationales de mathématiques (IMO), mais d’un autre, il commet des erreurs élémentaires de calcul arithmétique dès que la formulation de la question change légèrement. Il lui manque apparemment quelque chose dans sa capacité à s’interroger sur ses propres processus cognitifs. »

Agents et créativité

« Pour atteindre l’AGI, vous devez disposer d’un système capable d’agir de façon autonome afin de résoudre des problèmes à votre place. Les agents représentent précisément cette voie, et je pense que nous n’en sommes qu’aux prémices. »
« Je n’ai encore vu personne créer un jeu vidéo AAA classé premier dans les magasins d’applications en utilisant la méthode “vibe coding”. Avec les ressources actuellement mobilisées, cela devrait être possible, mais cela ne s’est pas encore produit. Cela signifie qu’il manque encore quelque chose, soit au niveau des outils, soit au niveau des procédures. »

Distillation et petits modèles

« Notre hypothèse est qu’après six mois à un an suivant la sortie d’un modèle Pro de pointe, ses capacités peuvent être compressées dans un modèle extrêmement léger, exécutable directement sur des appareils embarqués. Nous n’avons pas encore rencontré de limite théorique liée à la densité d’information. »

Découvertes scientifiques et « test d’Einstein »

« J’appelle parfois cela le “test d’Einstein” : peut-on entraîner un système uniquement avec les connaissances disponibles en 1901, puis lui demander de redécouvrir indépendamment les résultats obtenus par Einstein en 1905, notamment la théorie de la relativité restreinte ? Une fois cette capacité atteinte, ces systèmes seront proches de la capacité à inventer véritablement du nouveau. »
« Résoudre l’un des problèmes du millénaire constituerait déjà une réalisation remarquable. Mais ce serait encore plus difficile de formuler un ensemble entièrement nouveau de problèmes du millénaire, jugés par les meilleurs mathématiciens comme tout aussi profonds et dignes d’une vie entière de recherche. »

Conseils aux entrepreneurs en technologies profondes

« S’attaquer à des problèmes difficiles ou à des problèmes simples revient à peu près au même : seule la nature de la difficulté diffère. La vie est courte ; mieux vaut concentrer son énergie sur des choses qui ne seront tout simplement pas faites si vous ne les entreprenez pas vous-même. »

Voie vers la réalisation de l’AGI

Gary Tan : Vous réfléchissez à l’AGI depuis plus longtemps que quasiment n’importe qui. En observant le paradigme actuel, quelle proportion de l’architecture finale de l’AGI considérez-vous comme déjà acquise ? Et quels sont, selon vous, les éléments fondamentaux encore manquants ?

Demis Hassabis : L’entraînement préalable à grande échelle, le RLHF (apprentissage par renforcement avec feedback humain), la chaîne de raisonnement (« chain-of-thought ») — je suis convaincu que tous ces éléments feront partie de l’architecture finale de l’AGI. Ces techniques ont déjà démontré tant de choses au fil du temps. Je ne peux guère imaginer que, dans deux ans, nous découvrions qu’elles mènent dans une impasse : cela ne me paraît pas crédible. Toutefois, au-delà de ces composants existants, il pourrait encore manquer un ou deux éléments essentiels : l’apprentissage continu, le raisonnement à long terme, certains aspects de la mémoire — autant de questions encore non résolues. L’AGI devra toutes les régler. Peut-être que les technologies actuelles, combinées à quelques innovations incrémentales, permettront d’atteindre cet objectif ; mais il se peut aussi qu’un ou deux points critiques majeurs restent à franchir. Je ne crois pas qu’il y en ait davantage. Quant à savoir si de tels points critiques non résolus existent, j’évalue la probabilité à environ cinquante-cinquante. C’est pourquoi, chez Google DeepMind, nous poursuivons activement les deux pistes en parallèle.

Gary Tan : J’ai eu affaire à de nombreux systèmes d’agents, et ce qui m’a le plus frappé, c’est que, sous le capot, ils reposent tous sur les mêmes poids. Le concept d’apprentissage continu est donc particulièrement intéressant, car, pour l’instant, nous utilisons essentiellement du « scotch » pour bricoler des solutions, comme ces cycles de « rêves nocturnes » dont on parle.

Demis Hassabis : Oui, ces cycles de rêve sont fascinants. Nous avons déjà réfléchi à cette question dans le cadre de l’intégration de la mémoire épisodique. Ma thèse portait justement sur la manière dont l’hippocampe intègre élégamment de nouvelles connaissances dans les structures cognitives préexistantes. Le cerveau excelle dans ce domaine. Ce processus se déroule pendant le sommeil, notamment durant le sommeil paradoxal (REM sleep), où les expériences significatives sont rejouées afin d’en tirer profit. Notre premier programme Atari, DQN (réseau Q profond), publié par DeepMind en 2013, avait réussi à maîtriser les jeux Atari grâce à la technique du « replay d’expérience », inspirée directement des neurosciences : rejouer systématiquement les trajectoires ayant conduit au succès. C’était en 2013 — une époque quasi préhistorique dans le domaine de l’IA — mais cette méthode était alors cruciale.

Je partage votre avis : pour l’instant, nous bricolons effectivement avec du « scotch ». Nous bourrons tout dans la fenêtre contextuelle. Cela ne semble pas juste. Même si nous construisons des machines plutôt que des cerveaux biologiques, et que, théoriquement, nous pouvons disposer de fenêtres contextuelles allant jusqu’à des millions ou des dizaines de millions de tokens, avec une mémoire parfaitement fiable, le coût de recherche et de récupération des informations demeure un défi. Au moment précis où une décision concrète doit être prise, identifier l’information véritablement pertinente n’est pas simple, même si l’on peut tout stocker. Je pense donc qu’il reste encore beaucoup de place pour l’innovation dans le domaine de la mémoire.

Gary Tan : Honnêtement, une fenêtre contextuelle d’un million de tokens est bien plus grande que ce que j’aurais imaginé, et permet déjà d’accomplir beaucoup de choses.

Demis Hassabis : Elle est effectivement suffisante pour la plupart des usages auxquels elle est destinée. Mais réfléchissez-y : la fenêtre contextuelle correspond approximativement à la mémoire de travail. Chez l’humain, la mémoire de travail moyenne ne retient que sept chiffres environ, tandis que nos modèles disposent de fenêtres contextuelles allant jusqu’à des millions, voire des dizaines de millions de tokens. Le problème, c’est que nous y chargeons tout sans discernement, y compris des informations inutiles ou erronées — une pratique actuellement très brutale. Et si vous souhaitez traiter un flux vidéo en temps réel en stockant naïvement tous les tokens, un million de tokens ne suffit en réalité qu’à environ vingt minutes. Or, si vous voulez que le système comprenne votre situation personnelle sur une période de un à deux mois, cela reste largement insuffisant.

Gary Tan : DeepMind s’est toujours profondément investi dans l’apprentissage par renforcement et la recherche. Dans quelle mesure cette philosophie est-elle intégrée à la construction actuelle de Gemini ? L’apprentissage par renforcement est-il encore sous-estimé ?

Demis Hassabis : Il l’est probablement encore. L’intérêt pour cette approche connaît des hauts et des bas. Depuis le premier jour de la création de DeepMind, nous travaillons sur des systèmes d’agents. Tous nos travaux sur Atari et AlphaGo relèvent fondamentalement de l’apprentissage par renforcement appliqué à des agents autonomes capables de définir des objectifs, de prendre des décisions et d’élaborer des plans. Bien sûr, nous avons choisi initialement le domaine des jeux, car leur complexité est maîtrisable, avant de progressivement passer à des jeux plus complexes, comme AlphaStar après AlphaGo — nous avons pratiquement couvert l’ensemble des jeux possibles.

La question suivante était : pouvons-nous généraliser ces modèles en modèles du monde ou modèles linguistiques, et non plus seulement en modèles de jeux ? C’est exactement ce que nous avons fait ces dernières années. Aujourd’hui, les modes de pensée et les raisonnements en chaîne des principaux modèles sont, en substance, un retour aux idées pionnières d’AlphaGo. Beaucoup de nos travaux antérieurs sont fortement pertinents aujourd’hui, et nous réexaminons ces anciennes idées à une échelle plus grande et de façon plus universelle, y compris des méthodes telles que la recherche arborescente de Monte Carlo (Monte Carlo tree search). Les concepts d’AlphaGo et d’AlphaZero sont étroitement liés aux modèles fondamentaux actuels, et je pense que la majeure partie des progrès à venir proviendra précisément de là.

Distillation et petits modèles

Gary Tan : Pour devenir plus intelligents, il faut aujourd’hui des modèles plus grands, mais les techniques de distillation progressent aussi, rendant les petits modèles de plus en plus rapides. Vos modèles Flash sont très performants : ils atteignent environ 95 % des performances des modèles de pointe, mais à un dixième du coût. Est-ce exact ?

Demis Hassabis : Je considère cela comme l’un de nos principaux atouts. Il faut d’abord construire les modèles les plus grands afin d’obtenir les capacités de pointe. L’un de nos principaux avantages réside justement dans notre capacité à distiller rapidement ces capacités et à les compresser dans des modèles de plus en plus petits. La méthode de distillation a d’ailleurs été inventée par nous-mêmes, et nous restons aujourd’hui les meilleurs au monde dans ce domaine. Par ailleurs, nous avons une forte motivation commerciale pour y parvenir. Nous sommes probablement la plus grande plateforme mondiale d’applications IA. Grâce à AI Overviews, AI Mode et Gemini, chaque produit Google — cartes, YouTube, etc. — intègre désormais Gemini ou des technologies connexes. Cela concerne des milliards d’utilisateurs, ainsi que plusieurs produits touchant chacun des milliards d’utilisateurs. Ils doivent donc être extrêmement rapides, efficaces, peu coûteux et à faible latence. Cela nous motive fortement à repousser les limites de l’efficacité des modèles Flash et Flash-Lite, et j’espère que cela bénéficiera finalement à tous les usages professionnels des utilisateurs.

Gary Tan : Je me demande jusqu’où peuvent aller l’intelligence de ces petits modèles. Existe-t-il une limite à la distillation ? Un modèle de 50 milliards ou de 400 milliards de paramètres peut-il être aussi intelligent que les plus grands modèles de pointe actuels ?

Demis Hassabis : Je ne crois pas avoir atteint une limite théorique issue de la théorie de l’information, du moins personne n’en connaît actuellement l’existence. Peut-être qu’un jour nous rencontrerons un plafond de densité d’information, mais pour l’instant, notre hypothèse est qu’après six mois à un an suivant la sortie d’un modèle Pro de pointe, ses capacités peuvent être compressées dans un modèle extrêmement petit, presque exécutable directement sur des appareils embarqués. Vous pouvez observer cela sur les modèles Gemma : notre modèle Gemma 4 offre des performances remarquables pour sa taille, grâce à des techniques avancées de distillation et d’optimisation de l’efficacité des petits modèles. Je ne vois donc aucune limite théorique à ce stade, et je pense que nous en sommes encore très loin.

Gary Tan : Il existe actuellement un phénomène stupéfiant : la quantité de travail qu’un ingénieur peut accomplir est environ 500 à 1 000 fois supérieure à ce qu’il pouvait faire il y a six mois. Certains d’entre vous dans cette salle produisent probablement l’équivalent de 1 000 fois le travail d’un ingénieur Google des années 2000. Steve Yegge a parlé de ce phénomène.

Demis Hassabis : Cela me remplit d’enthousiasme. Les petits modèles présentent de nombreux avantages. Le premier est leur faible coût, et leur rapidité procure également des bénéfices tangibles. Lors de la rédaction de code ou d’autres tâches, vous pouvez itérer plus vite, surtout lorsqu’ils sont utilisés en collaboration avec un système. Un système rapide, même s’il n’est pas à la pointe — par exemple s’il atteint 90 à 95 % des performances de pointe — est souvent amplement suffisant, et les gains en vitesse d’itération compensent largement la perte de 10 %.

Un autre grand axe consiste à déployer ces modèles directement sur des appareils embarqués, non seulement pour des raisons d’efficacité, mais aussi pour garantir la confidentialité et la sécurité. Pensez aux appareils traitant des informations extrêmement personnelles, ou aux robots : pour un robot domestique, vous souhaiterez qu’un modèle puissant et efficace fonctionne localement, délégant uniquement des tâches spécifiques aux grands modèles hébergés dans le cloud. Le traitement local des flux audio et vidéo, avec les données restant sur place, représente selon moi un état final idéal.

Mémoire et raisonnement

Gary Tan : Revenons sur la question de la fenêtre contextuelle et de la mémoire. Actuellement, les modèles sont sans état ; si l’apprentissage continu devenait une réalité, comment serait l’expérience des développeurs ? Comment guideriez-vous un tel modèle ?

Demis Hassabis : C’est une question fascinante. L’absence d’apprentissage continu constitue un goulot d’étranglement critique empêchant les agents actuels d’accomplir des tâches complètes. Les agents actuels sont très utiles pour des segments locaux de tâches : vous pouvez les combiner pour réaliser des choses impressionnantes, mais ils ne s’adaptent pas bien à votre environnement spécifique. C’est pourquoi ils ne sont pas encore véritablement « lancés et oubliés » : ils doivent pouvoir apprendre à partir de votre contexte particulier. Pour atteindre une intelligence générale pleinement universelle, ce problème doit être résolu.

Gary Tan : Où en est le raisonnement ? Les chaînes de raisonnement des modèles sont aujourd’hui très fortes, mais ils commettent encore des erreurs que même un étudiant brillant ne ferait pas. Que faut-il modifier concrètement ? Quelles avancées attendez-vous dans ce domaine ?

Demis Hassabis : Il reste encore une grande marge d’innovation dans les paradigmes de raisonnement. Ce que nous faisons aujourd’hui est encore assez grossier, assez brutal. De nombreuses améliorations sont envisageables, par exemple surveiller le processus de la chaîne de raisonnement et intervenir au milieu de la réflexion. J’ai souvent l’impression que, qu’il s’agisse de nos systèmes ou de ceux de nos concurrents, ils surestiment parfois leur propre réflexion et tombent dans des boucles sans fin.

J’aime bien faire jouer Gemini aux échecs pour l’observer. En fait, tous les modèles fondamentaux de pointe sont assez médiocres aux échecs — ce qui est intéressant. Observer leurs trajectoires de réflexion est très instructif, car les échecs constituent un domaine parfaitement compris, me permettant de juger rapidement si leur raisonnement s’égare ou non. Ce que nous constatons, c’est qu’ils examinent parfois un coup, perçoivent qu’il est mauvais, mais ne trouvent pas d’alternative meilleure, et finissent donc par revenir sur ce même coup défavorable après avoir tourné en rond. Un système de raisonnement rigoureux ne devrait jamais se comporter ainsi.

Cette disparité extrême persiste encore, mais sa correction pourrait ne nécessiter qu’un ou deux ajustements. C’est pourquoi on parle de « l’intelligence dentelée » (jagged intelligence) : d’un côté, le modèle résout des problèmes de niveau médaille d’or aux IMO, mais d’un autre, il commet des erreurs élémentaires de calcul arithmétique dès que la formulation de la question change légèrement. Il lui manque apparemment quelque chose dans sa capacité à s’interroger sur ses propres processus cognitifs.

Capacités réelles des agents

Gary Tan : Les agents constituent un sujet majeur. Certains les qualifient de simple hype. Personnellement, je pense que nous n’en sommes qu’aux balbutiements. Quelle est, selon vous, l’évaluation interne de DeepMind concernant les capacités réelles des agents, et quelle est l’écart entre cette évaluation et les discours publics ?

Demis Hassabis : Je partage totalement votre avis : nous n’en sommes qu’aux balbutiements. Pour atteindre l’AGI, vous devez disposer d’un système capable d’agir de façon autonome afin de résoudre des problèmes à votre place. Cela nous a toujours semblé évident. Les agents représentent précisément cette voie, et je pense que nous n’en sommes qu’aux prémices. Tout le monde explore actuellement comment rendre les agents plus efficaces en collaboration. Nous avons mené de nombreuses expérimentations personnelles, et beaucoup d’entre vous ici présents en ont fait de même. Comment intégrer les agents dans les flux de travail, pour qu’ils apportent plus qu’un simple plus-value, mais accomplissent des tâches fondamentales ? Nous sommes encore à un stade expérimental. Ce n’est que depuis deux ou trois mois environ que nous commençons vraiment à identifier des cas d’usage particulièrement précieux. La technologie vient juste d’atteindre le niveau requis : elle n’est plus une simple démonstration ludique, mais apporte réellement de la valeur en termes de temps et d’efficacité.

Je vois souvent des personnes lancer des dizaines d’agents pour qu’ils tournent pendant des dizaines d’heures, mais je ne suis pas encore certain que le résultat obtenu justifie cet investissement.

Nous n’avons pas encore vu quelqu’un créer un jeu vidéo AAA classé premier dans les magasins d’applications en utilisant la méthode « vibe coding ». J’ai moi-même écrit du code, et beaucoup d’entre vous ont réalisé de petits démos intéressants. Aujourd’hui, je peux concevoir un prototype de « Theme Park » en une demi-heure, alors qu’à 17 ans, j’y avais consacré six mois. J’ai le sentiment que, si l’on y consacre tout un été, on peut créer quelque chose d’absolument incroyable. Cela requiert néanmoins un vrai savoir-faire, une âme et un sens esthétique — vous devez veiller à intégrer ces éléments dans tout produit que vous développez. En effet, aucun jeune n’a encore créé un jeu vendu à un million d’exemplaires, alors que, avec les outils actuels, cela devrait théoriquement être possible. Il manque donc encore quelque chose, peut-être lié au processus, peut-être aux outils. Je prévois que nous verrons de tels résultats dans les six à douze prochains mois.

Gary Tan : Dans quelle mesure cela sera-t-il entièrement automatisé ? Je ne pense pas que cela commencera par une automatisation complète. Le chemin le plus probable est que les personnes présentes ici commencent par multiplier par 1 000 leur efficacité, puis que certaines d’entre elles utilisent ces outils pour créer des applications ou des jeux à succès, avant que davantage d’étapes ne soient progressivement automatisées.

Demis Hassabis : Exactement. C’est ce que vous devriez voir en premier lieu.

Gary Tan : Une partie de la raison est aussi que certaines personnes le font déjà, mais qu’elles ne souhaitent pas publiquement révéler l’aide fournie par les agents.

Demis Hassabis : C’est possible. Mais parlons un instant de la créativité. J’évoque souvent l’exemple d’AlphaGo, et tout le monde connaît le fameux 37ᵉ coup de la deuxième partie. Pour moi, j’attendais précisément ce genre de moment. C’est après l’avoir vu que j’ai lancé des projets scientifiques comme AlphaFold. Nous avons commencé à travailler sur AlphaFold dès le lendemain de notre retour de Séoul — cela fait maintenant dix ans. Je suis justement allé en Corée du Sud pour célébrer le dixième anniversaire d’AlphaGo.

Mais sortir un simple « coup 37 » ne suffit pas. C’est certes impressionnant et utile. Mais ce système peut-il inventer le jeu de go lui-même ? Si vous lui donnez une description de haut niveau, par exemple : « un jeu dont les règles peuvent être apprises en cinq minutes, mais dont la maîtrise prend toute une vie, esthétiquement élégant, et dont une partie peut être jouée en une après-midi », et que le système vous renvoie le jeu de go, alors aujourd’hui, aucun système ne peut le faire. Pourquoi ?

Gary Tan : Peut-être que quelqu’un ici présent y parviendra.

Demis Hassabis : Si cela arrivait, cela signifierait que le problème ne réside pas dans le système lui-même, mais dans la façon dont nous l’utilisons. Ce pourrait bien être la bonne réponse. Peut-être que les systèmes actuels possèdent déjà cette capacité, mais qu’ils nécessitent un créateur suffisamment talentueux pour les piloter, leur donner l’« âme » du projet, tout en étant profondément fusionné avec les outils — presque comme une extension de lui-même. Si vous passez vos journées et vos nuits immergé dans ces outils et que vous possédez une créativité profonde, vous pourriez alors réaliser des choses hors de l’imaginaire.

Open source et modèles multimodaux

Gary Tan : Changeons de sujet pour parler de l’open source. La récente publication de Gemma permet désormais d’exécuter des modèles très performants localement. Quelle est votre opinion à ce sujet ? L’IA va-t-elle devenir un outil dont les utilisateurs auront pleinement la maîtrise, plutôt que de rester principalement dans le cloud ? Cela changera-t-il qui peut utiliser ces modèles pour construire des produits ?

Demis Hassabis : Nous sommes des partisans convaincus de l’open source et de la science ouverte. Vous avez mentionné AlphaFold : nous l’avons entièrement rendu gratuit et accessible. Nos travaux scientifiques continuent d’être publiés dans les meilleures revues académiques. Concernant Gemma, notre objectif est de créer, pour chaque catégorie de taille, des modèles mondialement compétitifs. À ce jour, Gemma a déjà été téléchargé environ 40 millions de fois, et ce n’est que depuis deux semaines et demie.

Je pense également qu’il est important d’avoir une pile technologique occidentale dans le domaine de l’open source. Les modèles open source chinois sont excellents et occupent actuellement une position de leader dans ce domaine, mais nous estimons que Gemma est très compétitif à taille égale.

Pour nous, il y a aussi un problème de ressources : personne ne dispose de la puissance de calcul supplémentaire nécessaire pour entraîner deux modèles de pointe complets. Notre décision actuelle est donc la suivante : les modèles embarqués destinés aux appareils Android, aux lunettes, aux robots, etc., doivent de préférence être des modèles ouverts, car une fois déployés sur un appareil, ils sont de facto exposés — mieux vaut donc les ouvrir totalement. Nous avons adopté une stratégie d’ouverture uniforme à l’échelle nanométrique, ce qui est également stratégiquement cohérent.

Gary Tan : Avant de monter sur scène, je vous ai montré mon système d’exploitation IA : je peux interagir directement avec Gemini via la voix. J’étais assez nerveux en vous le montrant, mais cela a fonctionné. Gemini a été conçu dès l’origine comme un modèle multimodal. J’ai utilisé de nombreux modèles, mais aucun ne rivalise actuellement avec Gemini en termes d’interaction vocale directe, de profondeur des appels d’outils et de compréhension contextuelle.

Demis Hassabis : C’est exact. L’un des avantages de la série Gemini encore trop peu reconnu est qu’elle a été conçue dès le départ comme un modèle multimodal. Cela rendait le démarrage plus difficile que s’il s’agissait uniquement de texte, mais nous sommes convaincus d’en tirer des bénéfices à long terme — et ces bénéfices commencent déjà à se concrétiser. Par exemple, dans le domaine des modèles du monde, nous avons construit Genie (modèle génératif d’environnement interactif développé par DeepMind) au-dessus de Gemini. Dans le domaine de la robotique, Gemini Robotics reposera sur un modèle fondamental multimodal, et notre avantage multimodal constituera une véritable barrière à l’entrée concurrentielle. Nous utilisons également de plus en plus Gemini chez Waymo (société d’Alphabet spécialisée dans la conduite autonome).

Imaginez un assistant numérique vous suivant dans le monde réel, peut-être sur votre téléphone ou vos lunettes, capable de comprendre votre environnement physique immédiat. Nos systèmes excellent particulièrement dans ce domaine. Nous continuerons à investir massivement dans cette direction, et je pense que notre avantage concurrentiel dans ce type de problèmes est très important.

Gary Tan : Le coût du raisonnement diminue rapidement. Lorsque le raisonnement deviendra quasiment gratuit, quels nouveaux scénarios deviendront possibles ? Votre équipe modifiera-t-elle ses priorités d’optimisation en conséquence ?

Demis Hassabis : Je ne suis pas certain que le raisonnement devienne véritablement gratuit, car le paradoxe de Jevons (selon lequel une augmentation de l’efficience entraîne une augmentation globale de la consommation) est là pour nous le rappeler. Je pense que tout le monde finira par consommer toute la puissance de calcul disponible. On peut imaginer des populations de millions d’agents travaillant collectivement, ou un petit groupe d’agents réfléchissant simultanément dans plusieurs directions avant d’intégrer leurs résultats. Nous expérimentons tous ces axes, et ils consommeront tous d’importantes ressources de raisonnement.

En matière d’énergie, si nous parvenons à résoudre quelques-uns des grands défis — la fusion nucléaire contrôlée, la supraconductivité à température ambiante, ou la conception optimale des batteries — je pense que, grâce aux sciences des matériaux, nous pourrons réduire les coûts énergétiques presque à zéro. Toutefois, des goulots d’étranglement subsistent encore dans la fabrication physique des puces, au moins pour les décennies à venir. Le raisonnement restera donc soumis à des quotas, et devra continuer à être utilisé de façon très efficace.

La prochaine percée scientifique

Gary Tan : Heureusement, les petits modèles deviennent de plus en plus intelligents. De nombreux fondateurs présents ici œuvrent dans les domaines de la biologie et des biotechnologies. AlphaFold 3 dépasse désormais la simple prédiction des protéines pour s’étendre à un spectre plus large de molécules biologiques. À quelle distance sommes-nous de la modélisation complète d’un système cellulaire ? S’agit-il d’un problème d’un tout autre niveau de difficulté ?

Demis Hassabis : Les progrès d’Isomorphic Labs sont excellents. AlphaFold ne constitue qu’une étape du processus de découverte de médicaments ; nous menons également des recherches adjacentes en biochimie, notamment la conception de composés dotés des propriétés adéquates, et une annonce majeure est imminente.

Notre objectif ultime est de créer une « cellule virtuelle » complète, un simulateur cellulaire pleinement fonctionnel sur lequel on peut appliquer des perturbations, dont les sorties sont suffisamment proches des résultats expérimentaux pour être utiles en pratique. Cela permettrait de sauter de nombreuses étapes de recherche, de générer d’importantes quantités de données synthétiques pour entraîner d’autres modèles, et de les faire prédire le comportement des cellules réelles.

J’estime qu’il nous faudra environ dix ans pour parvenir à une cellule virtuelle complète. Chez DeepMind, notre équipe scientifique commence par simuler le noyau cellulaire, car celui-ci forme un système relativement autonome. La clé de ce type de problème réside dans la capacité à isoler une « tranche » de complexité appropriée : suffisamment autonome pour permettre une approximation raisonnable de ses entrées et sorties, et sur laquelle on peut se concentrer en tant que sous-système. Du point de vue de la complexité, le noyau cellulaire constitue un choix idéal.

Un autre problème est le manque de données. J’ai discuté avec les meilleurs chercheurs spécialisés en microscopie électronique et autres techniques d’imagerie. Si l’on pouvait réaliser des images de cellules vivantes sans les tuer, ce serait une révolution. Car cela transformerait le problème en un problème visuel, et nous savons résoudre les problèmes visuels. Or, à ma connaissance, aucune technologie actuelle ne permet d’imager une cellule vivante dynamique à la résolution nanométrique sans la détruire. On peut déjà obtenir des images statiques à cette résolution, et les résultats sont déjà très fins — ce qui est passionnant — mais cela ne suffit pas à transformer directement le problème en un problème purement visuel.

Il existe donc deux voies : l’une, matérielle et axée sur les données ; l’autre, fondée sur la construction de simulateurs apprenants plus performants pour modéliser ces systèmes dynamiques.

Gary Tan : Vous ne vous concentrez pas uniquement sur la biologie. En matière de sciences des matériaux, de découverte de médicaments, de modélisation climatique ou de mathématiques, si vous deviez classer ces domaines par ordre d’impact, lequel sera le plus radicalement transformé au cours des cinq prochaines années ?

Demis Hassabis : Chaque domaine est passionnant, et c’est précisément pourquoi cela a toujours été ma plus grande passion, et la raison pour laquelle je travaille dans le domaine de l’IA depuis plus de trente ans. J’ai toujours considéré l’IA comme l’outil scientifique ultime, capable de faire progresser notre compréhension scientifique, nos découvertes, la médecine et notre perception de l’univers.

Nous formulions initialement notre mission en deux étapes. La première : résoudre le problème de l’intelligence, c’est-à-dire construire l’AGI. La seconde : utiliser cette intelligence pour résoudre tous les autres problèmes. Nous avons ensuite dû reformuler cette dernière phrase, car certaines personnes nous demandaient : « Vous parlez vraiment de *tous* les problèmes ? » C’est effectivement ce que nous entendions dire. Aujourd’hui, les gens commencent à comprendre ce que cela signifie. Plus concrètement, je fais référence à des domaines scientifiques que j’appelle des « problèmes racines » : des domaines dont la résolution ouvre des branches entières de découvertes nouvelles. AlphaFold est le prototype même de ce que nous cherchons à accomplir. Plus de trois millions de chercheurs dans le monde — presque tous les biologistes — utilisent aujourd’hui AlphaFold. Certains dirigeants de sociétés pharmaceutiques m’ont confié que presque tous les médicaments découverts à l’avenir utiliseront AlphaFold à un stade ou un autre du processus de découverte. Nous en sommes fiers, car c’est précisément ce type d’impact que nous espérons générer avec l’IA. Mais je pense que ce n’est que le début.

Je ne parviens pas à imaginer un seul domaine scientifique ou ingénierie où l’IA ne puisse pas apporter une aide précieuse. Les domaines que vous avez cités se trouvent tous, selon moi, à un stade comparable à celui d’« AlphaFold 1 » : les résultats sont prometteurs, mais les grands défis du domaine n’ont pas encore été résolus. Au cours des deux prochaines années, nous aurons beaucoup à dire sur les progrès accomplis dans tous ces domaines, des sciences des matériaux aux mathématiques.

Gary Tan : Cela ressemble à une sorte de don prométhéen, offrant à l’humanité une capacité entièrement nouvelle.

Demis Hassabis : Exactement. Et tout comme dans la légende de Prométhée, nous devons aussi aborder avec prudence la question de la manière dont cette capacité sera utilisée, où elle le sera, et des risques liés à une utilisation abusive de ces mêmes outils.

Expérience du succès

Gary Tan : De nombreuses personnes présentes ici tentent de créer des entreprises appliquant l’IA à la science. Selon vous, quelle est la différence fondamentale entre les startups qui font réellement progresser la recherche frontalière et celles qui se contentent d’ajouter une couche d’API sur des modèles fondamentaux, puis se présentent comme des « IA pour la science » ?

Demis Hassabis : Je me demande ce que je ferais aujourd’hui si je me trouvais à votre place, en train d’évaluer des projets au sein de Y Combinator. Une chose est essentielle : vous devez anticiper l’évolution des technologies IA, ce qui est en soi très difficile. Toutefois, je pense réellement qu’il existe une énorme opportunité à combiner l’évolution de l’IA avec un autre domaine technologique profond — qu’il s’agisse des matériaux, de la médecine ou d’un autre domaine scientifique véritablement complexe, en particulier ceux impliquant le monde atomique. Sur un horizon prévisible, ces domaines ne connaîtront pas de raccourcis. Ils ne seront pas balayés par la prochaine mise à jour d’un modèle fondamental. Mais si vous recherchez une orientation défensive, c’est celle que je recommanderais.

Personnellement, j’ai toujours été attiré par les technologies profondes. Ce qui est durable et véritablement valorisant n’est jamais facile. Les technologies profondes m’ont toujours fasciné. En 2010, lorsque nous avons démarré, l’IA *était* une technologie profonde — les investisseurs me disaient : « Nous savons déjà que cela ne marchera pas », et le monde académique la considérait comme une voie marginale, expérimentée dans les années 1990 puis abandonnée. Mais si vous croyez profondément en votre idée — pourquoi cette fois est-elle différente ? Quelle combinaison unique de compétences vous caractérise ? — idéalement, vous êtes vous-même expert à la fois en apprentissage automatique et dans le domaine d’application, ou vous pouvez constituer une équipe fondatrice possédant ces compétences. Alors, vous pouvez créer un impact et une valeur énormes.

Gary Tan : Cette information est cruciale. Une fois qu’une chose est accomplie, elle paraît évidente, mais avant cela, tout le monde s’y oppose.

Demis Hassabis : Bien sûr. Vous devez donc faire ce qui vous passionne vraiment. Pour moi, quoi qu’il arrive, je travaillerai sur l’IA. J’ai décidé très jeune que c’était la chose la plus influente que je puisse imaginer. Et les faits l’ont confirmé — mais cela n’aurait pas pu être le cas, peut-être sommes-nous en avance de cinquante ans. C’est aussi, pour moi, la chose la plus fascinante. Même si, aujourd’hui, nous étions encore coincés dans un petit garage, et que l’IA n’était pas encore réalisée, je trouverais quand même un moyen de continuer. Peut-être que je retournerais dans le monde académique, mais je trouverais une façon de persévérer.

Gary Tan : AlphaFold illustre un exemple où vous avez poursuivi une direction donnée et misé juste. Quelles caractéristiques rendent un domaine scientifique propice à une percée du type AlphaFold ? Existe-t-il des régularités, par exemple un type particulier de fonction objectif ?

Demis Hassabis : Je devrais vraiment prendre le temps d’écrire cela un jour. À partir d’AlphaGo, d’AlphaFold et de tous les autres projets « Alpha », j’ai tiré la leçon suivante : nos technologies actuelles donnent les meilleurs résultats dans les cas suivants. Premièrement, le problème doit présenter un espace de recherche combinatoire gigantesque — plus il est grand, mieux c’est — si vaste qu’aucune recherche exhaustive ni aucun algorithme spécialisé ne puisse le résoudre. L’espace des coups au go et l’espace des conformations protéiques dépassent tous deux le nombre d’atomes dans l’univers. Deuxièmement, vous devez pouvoir définir clairement une fonction objectif — par exemple, la minimisation de l’énergie libre d’une protéine ou la victoire aux échecs — afin que le système puisse effectuer une montée de gradient. Troisièmement, vous devez disposer de suffisamment de données, ou d’un simulateur capable de générer de grandes quantités de données synthétiques représentatives.

Si ces trois conditions sont remplies, les méthodes actuelles peuvent aller très loin pour trouver « l’aiguille dans la botte de foin » que vous recherchez. La découverte de médicaments suit le même raisonnement : il existe une molécule capable de traiter cette maladie sans effets secondaires, et si les lois de la physique le permettent, le seul problème est de la trouver de façon efficace et réalisable. AlphaFold a été la première démonstration que de tels systèmes sont capables de trouver cette aiguille dans un espace de recherche massif.

Gary Tan : Je voudrais élever le niveau de réflexion. Nous parlons ici des humains qui ont utilisé ces méthodes pour créer AlphaFold, mais il y a un niveau méta : les humains utilisent l’IA pour explorer l’espace des hypothèses possibles. À quelle distance sommes-nous d’un système IA capable de réaliser un véritable raisonnement scientifique — et non pas simplement une reconnaissance de motifs sur des données ?

Demis Hassabis : Je pense que nous en sommes très proches. Nous développons précisément de tels systèmes généraux. Nous disposons d’un système appelé « AI co-scientist », ainsi que d’algorithmes comme AlphaEvolve, capables de réaliser des tâches allant au-delà des capacités de Gemini de base. Tous les laboratoires de pointe explorent actuellement cette voie.

Toutefois, à ce jour, je n’ai personnellement pas encore vu de découverte scientifique réellement majeure attribuée à ces systèmes. Je pense qu’elle est imminente. Elle pourrait être liée à la créativité dont nous parlions précédemment, à la capacité de franchir véritablement les frontières de la connaissance actuelle. À ce niveau, ce n’est plus une simple reconnaissance de motifs, car il n’existe aucun motif à reconnaître. Ce n’est pas non plus une simple extrapolation, mais plutôt un « raisonnement analogique » (analogical reasoning), une capacité que ces systèmes ne possèdent pas encore, ou que nous n’utilisons pas encore correctement.

Dans le domaine scientifique, j’utilise souvent comme critère la capacité à formuler une hypothèse véritablement intéressante, et non pas seulement à la vérifier. Car la vérification d’une hypothèse peut elle-même être un événement extraordinaire — par exemple, démontrer la conjecture de Riemann ou résoudre l’un des problèmes du millénaire — mais peut-être ne nous en sépare-t-il plus que quelques années.

Et ce qui est encore plus difficile, c’est de formuler un ensemble entièrement nouveau de problèmes du millénaire, jugés par les meilleurs mathématiciens comme tout aussi profonds et dignes d’une vie entière de recherche. Je pense que cela représente un saut de difficulté supplémentaire, et que nous ne savons pas encore comment y parvenir. Mais je ne crois pas que ce soit de la magie : je suis convaincu que ces systèmes y parviendront un jour, peut-être après avoir résolu un ou deux défis supplémentaires.

Une façon de tester cela est ce que j’appelle parfois le « test d’Einstein » : pouvez-vous entraîner un système uniquement avec les connaissances disponibles en 1901, puis lui demander de redécouvrir indépendamment les résultats obtenus par Einstein en 1905, notamment la théorie de la relativité restreinte et ses autres articles de cette année-là ? Je pense que nous devrions vraiment mettre ce test à l’épreuve, le répéter, et observer à quel moment il devient réalisable. Une fois cela accompli, ces systèmes seront proches de la capacité à inventer véritablement du nouveau.

Conseils aux entrepreneurs

Gary Tan : Dernière question. Parmi vous, beaucoup possèdent un solide bagage technologique et souhaitent entreprendre des projets à l’échelle de ceux que vous réalisez — vous êtes l’un des plus grands organismes de recherche IA au monde. Vous venez de la ligne de front de la recherche sur l’AGI : y a-t-il une chose que vous savez aujourd’hui, mais que vous auriez aimé connaître à 25 ans ?

Demis Hassabis : Nous en avons déjà partiellement parlé. Vous découvrirez que s’attaquer à des problèmes difficiles ou à des problèmes simples revient à peu près au même : seule la nature de la difficulté diffère. Chaque chose présente sa propre forme de difficulté. Mais la vie est courte, et vos ressources sont limitées : mieux vaut concentrer toute votre énergie sur des choses qui ne seront tout simplement pas faites si vous ne les entreprenez pas vous-même. C’est là le critère à appliquer.

Un autre point : je pense que, au cours des prochaines années, les combinaisons interdisciplinaires deviendront de plus en plus courantes, et que l’IA facilitera grandement ces croisements.

Le dernier point dépend de votre calendrier personnel pour l’AGI. Le mien est fixé autour de 2030. Si vous lancez aujourd’hui un projet technologique exigeant, cela implique généralement un parcours de dix ans. Vous devez donc intégrer dans votre planification l’émergence de l’AGI en cours de route. Que signifie cela ? Ce n’est pas forcément une mauvaise nouvelle, mais vous devez l’anticiper. Votre projet pourra-t-il tirer parti de l’AGI ? Comment l’AGI interagira-t-elle avec votre projet ?

Revenons sur la relation entre AlphaFold et les systèmes IA généraux dont nous parlions plus tôt. Je peux imaginer un scénario où Gemini, Claude ou des systèmes généraux similaires appellent AlphaFold comme un outil spécialisé. Je ne pense pas que nous allons tout intégrer dans un « cerveau » unique et gigantesque : charger toutes les données protéiques dans Gemini n’aurait aucun sens, car Gemini n’a pas besoin de replier des protéines. En revenant sur la question de l’efficacité informationnelle, ces données protéiques ralentiraient inutilement ses capacités linguistiques. Une approche bien meilleure consiste à disposer de modèles très performants capables d’utiliser des outils généraux, pouvant appeler ou même entraîner des outils spécialisés, tout en gardant ces derniers comme des systèmes indépendants.

Cette réflexion mérite d’être approfondie, car elle influence directement ce que vous choisissez de construire aujourd’hui — y compris le type d’usine ou de système financier que vous mettez en place. Vous devez prendre au sérieux le calendrier de l’AGI, imaginer à quoi ressemblera ce futur monde, et concevoir des solutions qui resteront pertinentes et utiles lorsque ce monde arrivera.

Bienvenue dans la communauté officielle TechFlow

Groupe Telegram :https://t.me/TechFlowDaily

Compte Twitter officiel :https://x.com/TechFlowPost

Compte Twitter anglais :https://x.com/BlockFlow_News

Lien original

Ajouter aux favoris

Partager sur les réseaux sociaux

Auteur

深潮 TechFlow

深潮TechFlow

Entretien YC : La personne qui a fondé DeepMind attend désormais le « moment Einstein » de l’IA

TechFlow SélectionTechFlow Sélection