
Dernière interview de Jensen Huang : forcer DeepSeek et Huawei à nouer un partenariat étroit – cela fait trop peur aux États-Unis
TechFlow SélectionTechFlow Sélection

Dernière interview de Jensen Huang : forcer DeepSeek et Huawei à nouer un partenariat étroit – cela fait trop peur aux États-Unis
Concernant les exportations vers la Chine, il a critiqué sévèrement la politique extrême de contrôle des exportations, la qualifiant d’« infantile ».
Rédaction : Xiao Xiao, NetEase Intelligence
Jensen Huang, PDG de NVIDIA, a récemment accordé une interview exclusive à Dwarkesh Patel, animateur renommé du podcast technologique américain, dans laquelle il a répondu de façon exhaustive à des questions cruciales portant sur la « moats » (avantages concurrentiels durables) de l’entreprise, la concurrence avec les TPU de Google et les exportations de puces vers la Chine.
Il a souligné que la « moat » de NVIDIA s’étend désormais profondément dans la chaîne d’approvisionnement, grâce à des engagements d’achats s’élevant à plusieurs centaines de milliards de dollars conclus avec TSMC et les fournisseurs de mémoire.
Concernant la concurrence avec les TPU, Huang a indiqué que le cas d’Anthropic ne représente qu’un exemple unique et atypique de croissance des ASIC, et non une tendance générale. Le calcul accéléré proposé par NVIDIA couvre un éventail bien plus vaste que l’IA seule — incluant notamment la dynamique moléculaire, le traitement des données ou encore la mécanique des fluides — et la haute programmabilité de CUDA permet chaque année des gains de performance allant de 10 à 50 fois.
Il a également expliqué pourquoi NVIDIA ne devient pas elle-même un fournisseur de services cloud à très grande échelle. Bien que disposant de trésoreries abondantes, NVIDIA reste fidèle à son principe fondamental : ne faire que ce qui est strictement nécessaire, et le moins possible. Elle choisit donc de soutenir son écosystème via des investissements dans des entreprises telles que CoreWeave, OpenAI ou Anthropic, plutôt que de se lancer directement dans la concurrence avec ses propres clients. Il reconnaît toutefois comme une erreur personnelle de ne pas avoir investi massivement dans Anthropic plus tôt. Par ailleurs, il insiste sur le fait que, même si la révolution IA n’avait jamais eu lieu, NVIDIA serait devenue une entreprise majeure grâce au calcul accéléré dans des domaines tels que la physique, la chimie ou le traitement des données.
En ce qui concerne les exportations vers la Chine, il critique sévèrement les politiques extrêmes de contrôle des exportations, qu’il juge « puériles ». Huang précise que la puissance de calcul IA résulte d’une combinaison entre puces et énergie : bien que limitée par l’accès aux machines lithographiques EUV, la Chine dispose d’une capacité de fabrication massive de puces en nœud 7 nm. Comme les grands modèles actuels sont principalement entraînés sur l’architecture Hopper, la Chine peut parfaitement compenser les écarts de performance unitaire grâce à une énergie électrique abondante et à l’expansion de la taille de ses grappes de puces.
En outre, la vaste communauté chinoise de chercheurs en IA améliore activement les performances des modèles grâce à des avancées plus efficaces en informatique. Huang cite DeepSeek comme exemple concret et met en garde contre la gravité de ces progrès. Si de tels modèles open source de haut niveau étaient contraints de s’optimiser spécifiquement pour des plateformes matérielles locales comme celles d’Huawei — et y fonctionneraient de façon optimale — cela affaiblirait objectivement, à court terme, l’avantage global de la pile technologique américaine. Selon lui, renoncer délibérément au deuxième plus grand marché mondial pousserait la Chine à construire une architecture informatique fondamentale indépendante des États-Unis. À mesure que ces technologies, basées sur des standards ouverts, se diffuseront progressivement vers les pays du Sud, les États-Unis risquent fort de perdre leur leadership à long terme dans la compétition mondiale autour des standards de l’IA.
Voici l’intégralité de l’interview de Jensen Huang :
Le contrôle de la chaîne d’approvisionnement constitue-t-il la plus grande « moat » de NVIDIA ?
Patel : De nombreuses entreprises logicielles voient leur valorisation baisser, car on estime que l’IA va transformer les logiciels en produits de commodité. Une interprétation courante veut que NVIDIA transmette simplement ses fichiers de conception à TSMC, qui fabrique les circuits logiques et les commutateurs, puis assemble les puces HBM de SK Hynix, Micron ou Samsung avant de les intégrer dans des racks chez des ODM taïwanais. En somme, NVIDIA ne ferait que du logiciel, tandis que le matériel serait entièrement produit par d’autres. Si le logiciel devient une marchandise, NVIDIA ne subirait-elle pas le même sort ?
Huang : Quelqu’un doit finalement transformer des électrons en tokens. Ce processus est extrêmement difficile à totalement banaliser. Rendre un token plus précieux qu’un autre revient à rendre une molécule plus précieuse qu’une autre : cela exige une immense quantité de technologie, d’ingénierie, de science et d’invention. Ces travaux ne sont ni pleinement compris ni achevés. Je ne crois pas que cette banalisation puisse jamais se produire.
Mais nous rendons ce processus de plus en plus efficace. La façon dont vous formulez votre question reflète exactement mon modèle de pensée stratégique pour l’entreprise : entrée = électrons, sortie = tokens, et NVIDIA au milieu. Notre principe est de faire uniquement ce qui est indispensable, et le moins possible. « Le moins possible » signifie que tout ce que je n’ai pas besoin de faire moi-même sera confié à des partenaires, afin qu’il devienne une partie intégrante de notre écosystème.
Aujourd’hui, NVIDIA est probablement l’entreprise possédant le plus vaste écosystème de partenaires — incluant des fournisseurs en amont et en aval, toutes les sociétés informatiques, les développeurs d’applications et les fabricants de modèles. L’IA ressemble à un gâteau à cinq étages : nous avons bâti notre propre écosystème à chaque niveau. Nous faisons le minimum, mais cette part minimale que nous devons absolument assumer est extrêmement complexe — et je ne crois pas qu’elle puisse jamais être banalisée.
Par ailleurs, je ne pense pas non plus que les entreprises de logiciels professionnels soient vouées à la banalisation. La plupart d’entre elles sont aujourd’hui des fournisseurs d’outils — Excel, PowerPoint, Cadence, Synopsys, etc. Contrairement à beaucoup, je considère que le nombre d’agents intelligents (« intelligent agents ») augmentera exponentiellement, tout comme celui des utilisateurs d’outils. Le nombre d’instances de ces outils pourrait exploser.
Prenez par exemple le compilateur de conception de Synopsys : une multitude d’agents intelligents l’utiliseront pour effectuer le placement, les vérifications de règles de conception, etc. Aujourd’hui, ce qui limite notre capacité est le nombre d’ingénieurs ; demain, chaque ingénieur sera assisté par une armée d’agents intelligents. Nous pourrons explorer l’espace de conception de façons inédites, en continuant à utiliser les mêmes outils actuels. Une utilisation intensive de ces outils fera décoller les entreprises logicielles. Cela ne s’est pas encore produit parce que les agents intelligents ne savent pas encore suffisamment bien utiliser ces outils. Soit ces entreprises logicielles développeront elles-mêmes leurs propres agents, soit les agents deviendront suffisamment performants pour maîtriser ces outils — et je pense que les deux scénarios se réaliseront.
Patel : Dans vos derniers documents, j’ai vu des engagements d’achat approchant les 100 milliards de dollars auprès des fondeurs, des fabricants de mémoire et des spécialistes de l’emballage. Le cabinet de recherche SemiAnalysis estime que ce chiffre atteindra 250 milliards de dollars. Une interprétation courante est que la « moat » de NVIDIA repose sur sa capacité à verrouiller, pendant plusieurs années, l’accès à des composants rares. D’autres peuvent certes concevoir des accélérateurs, mais ils ne parviennent pas à obtenir la mémoire ou les circuits logiques nécessaires. S’agit-il là de la principale « moat » de NVIDIA pour les années à venir ?
Huang : C’est l’un des domaines où nous excellons, et où d’autres peinent à nous suivre. Nous avons pris d’importants engagements vis-à-vis de nos fournisseurs en amont : certains sont explicites, comme ceux que vous mentionnez ; d’autres sont implicites — par exemple, j’explique aux dirigeants concernés l’ampleur future du marché, pourquoi il sera si vaste, et je leur démontre clairement ma vision, ce qui les incite ensuite à investir.
Pourquoi acceptent-ils d’investir pour moi, et non pour d’autres ? Parce qu’ils savent que j’ai la capacité d’absorber toute leur production, et de la vendre via mes canaux en aval. La demande en aval de NVIDIA et sa chaîne d’approvisionnement sont si vastes que ces fournisseurs sont prêts à investir massivement en amont.
Regardez la conférence GTC : tous sont éblouis par son ampleur et son dynamisme. C’est la communauté IA tout entière qui s’y rassemble, car elle a besoin d’échanger et d’être vue. J’ai organisé ce rassemblement afin que les acteurs en aval voient ceux en amont, et vice versa, et que chacun prenne conscience des progrès accomplis. Ils y rencontrent aussi toutes les startups natives de l’IA. Ainsi, ils peuvent constater de visu la réalité de ce que je leur ai décrit. Je consacre d’importantes ressources — directement ou indirectement — pour faire comprendre à l’ensemble de la chaîne d’approvisionnement, à nos partenaires et à notre écosystème, les opportunités qui s’offrent à eux.
Certains disent que mes discours d’ouverture ressemblent à des cours magistraux, parfois même pénibles. C’est précisément mon intention. Je dois faire comprendre à toute la chaîne d’approvisionnement, à tous les niveaux, ainsi qu’à l’ensemble de l’écosystème, ce qui va se produire, pourquoi, quand, à quelle échelle — et surtout, comment penser systématiquement comme moi.
Quant à notre « moat », elle consiste en fait à anticiper l’avenir. Si nous parvenons réellement, dans les années à venir, à atteindre une capitalisation de mille milliards de dollars, nous serons naturellement capables de construire une chaîne d’approvisionnement à la hauteur. Mais cela suppose que notre activité actuelle, notre influence et la rapidité de rotation de notre activité — comparable à celle de la trésorerie — soient déjà solides. Une chaîne d’approvisionnement ne se construit pas pour une coquille vide : personne ne s’engagerait dans un tel investissement si la rotation était trop lente. Ce qui permet aujourd’hui à NVIDIA de maintenir une telle échelle, c’est la demande exceptionnellement forte en aval. Lorsque nos partenaires la voient, l’entendent et la comprennent comme une réalité tangible, cela nous permet d’accomplir, à notre échelle actuelle, tout ce que nous réalisons aujourd’hui.
Patel : Je voudrais examiner plus précisément la capacité de nos fournisseurs en amont à suivre le rythme. Vos revenus doublent depuis plusieurs années consécutives, et la puissance de calcul que vous fournissez au monde augmente chaque année de plus de deux fois.
Huang : Doubler à une telle échelle est effectivement remarquable.
Patel : Prenons les circuits logiques. Vous êtes le plus gros client de TSMC sur le nœud N3, et l’un des plus gros sur le nœud N2. SemiAnalysis observe que l’IA représentera 60 % de la capacité N3 cette année, et 86 % l’année prochaine. Si vous occupez déjà la majeure partie de cette capacité, comment pouvez-vous continuer à doubler chaque année ? Sommes-nous entrés dans une phase où la croissance de la puissance de calcul IA doit ralentir en raison de limites en amont ? Voyez-vous une solution ? En définitive, comment pouvons-nous doubler chaque année la capacité des usines de semi-conducteurs ?
Huang : À tout instant, la demande ponctuelle peut dépasser l’offre totale mondiale, en amont comme en aval. Même le nombre de plombiers peut devenir un goulot d’étranglement — ce qui s’est déjà produit.
Patel : Les plombiers devraient être invités à la prochaine édition de GTC.
Huang : Excellente idée. Mais c’est en réalité un bon signe. On souhaite qu’à un instant donné, la demande dépasse l’offre globale — l’inverse serait préoccupant. Lorsqu’un composant manque cruellement, toute l’industrie se mobilise pour y remédier. Vous remarquerez qu’on parle peu aujourd’hui de CoWoS. Car au cours des deux dernières années, nous nous sommes battus pour résoudre ce problème — et la situation s’est nettement améliorée. TSMC sait désormais que la capacité CoWoS doit suivre celle des circuits logiques et de la mémoire. Ils étendent donc CoWoS et les futures technologies d’emballage à la même vitesse qu’ils étendent les circuits logiques. C’est excellent, car CoWoS et la mémoire HBM étaient auparavant des technologies de niche, et sont devenues aujourd’hui des technologies de calcul mainstream.
Nous pouvons désormais influencer une chaîne d’approvisionnement bien plus large. Dès le début de la révolution IA, j’ai dit ces mêmes choses — il y a cinq ans. Certains y ont cru et ont investi, comme Sanjay Mehrotra, PDG de Micron, et son équipe. Je me souviens très bien de cette réunion : j’ai décrit avec précision ce qui allait se produire, pourquoi, et ce que nous observons aujourd’hui. Ils ont effectivement doublé leurs investissements. Nous collaborons sur la mémoire LPDDR et HBM, et leurs investissements massifs ont porté leurs fruits. D’autres sont arrivés plus tard, mais ils sont tous là aujourd’hui.
Chaque goulot d’étranglement attire une attention considérable. Nous anticipons désormais ces goulots plusieurs années à l’avance. Par exemple, nos investissements passés dans Lumentum, Coherent et l’écosystème de la photonique silicium ont profondément remodelé la chaîne d’approvisionnement. Nous avons construit une chaîne d’approvisionnement entière autour de TSMC, et collaborons avec eux pour développer la plateforme d’intégration photonique COUPE, inventant de nombreuses technologies et octroyant des licences de brevets à nos partenaires pour garantir l’ouverture de l’écosystème.
Nous renforçons la chaîne d’approvisionnement en inventant de nouvelles technologies, de nouveaux procédés, de nouveaux équipements de test — comme le test double-face — et en investissant dans des entreprises pour les aider à étendre leur capacité. Nous façonnons activement l’écosystème afin qu’il puisse supporter cette échelle.
Patel : Certains goulots semblent plus faciles à résoudre que d’autres, comme l’extension de la capacité CoWoS.
Huang : Nous assumons la responsabilité de surmonter le plus difficile.
Patel : Lequel ?
Huang : Les plombiers et les électriciens. C’est là que je m’inquiète des prophètes de l’apocalypse. Ils annoncent la disparition des emplois, la fin des métiers. Si nous empêchons les gens de devenir ingénieurs logiciels, nous épuiserons rapidement cette ressource. Ce genre de prédiction existait déjà il y a dix ans. Certains prophètes de l’apocalypse conseillaient de ne surtout pas devenir radiologue — vous pouvez encore trouver aujourd’hui sur Internet des vidéos affirmant que la radiologie sera le premier métier à disparaître, que le monde n’aura plus jamais besoin de radiologues. Devinez ce dont nous manquons aujourd’hui ? De radiologues.
Patel : Certaines choses peuvent être industrialisées, d’autres non. Comment pouvez-vous produire chaque année deux fois plus de circuits logiques ? En fin de compte, la mémoire et les circuits logiques sont tous deux limités par les machines lithographiques EUV. Comment pouvez-vous obtenir chaque année deux fois plus de machines EUV ?
Huang : Cette capacité peut être rapidement industrialisée — en deux ou trois ans. Il suffit d’envoyer un signal clair à la chaîne d’approvisionnement. Si on peut en fabriquer un, on peut en fabriquer dix ; si on peut en fabriquer dix, on peut en fabriquer un million. La duplication de ces équipements n’est pas difficile.
Patel : Jusqu’où allez-vous descendre dans la chaîne d’approvisionnement ? Allez-vous directement voir ASML pour leur dire : « Dans trois ans, NVIDIA devra atteindre un chiffre d’affaires annuel de deux mille milliards de dollars, et nous aurons besoin de beaucoup plus de machines EUV ? »
Huang : Certains messages doivent être transmis directement, d’autres indirectement. Si nous convainquons TSMC, ASML sera également convaincue. Il faut identifier les points critiques de blocage. Mais si TSMC est convaincue, vous aurez très vite suffisamment de machines EUV.
Je considère qu’aucun goulot d’étranglement ne persiste plus de deux ou trois ans. Parallèlement, nous multiplions l’efficacité énergétique par 10, par 20, et même par 30 à 50 entre Hopper et Blackwell. Grâce à la flexibilité de CUDA, nous inventons sans cesse de nouveaux algorithmes et de nouvelles technologies, augmentant à la fois la capacité et l’efficacité. Rien de tout cela ne m’inquiète. Ce qui m’inquiète, ce sont les éléments situés en aval : les politiques énergétiques qui freinent l’expansion énergétique, car sans énergie, on ne peut bâtir aucune nouvelle industrie — ni aucun nouveau secteur manufacturier.
Nous devons redonner à l’Amérique sa capacité industrielle. Nous devons rapatrier la fabrication de puces, d’ordinateurs et d’emballages. Nous devons produire des véhicules électriques, des robots, des « usines IA ». Sans énergie, rien de tout cela n’est possible — or l’énergie prend beaucoup de temps à déployer. La capacité de fabrication de puces est un problème résolu en deux ou trois ans. La capacité CoWoS l’est aussi.
Les TPU vont-elles briser le contrôle de NVIDIA sur la puissance de calcul IA ?
Patel : Parmi les trois modèles les plus performants au monde, deux — Claude et Gemini — sont entraînés sur les TPU de Google. Que signifie cela pour NVIDIA ?
Huang : Ce que nous faisons est radicalement différent. NVIDIA ne fabrique pas seulement une unité de traitement de tenseurs (TPU) : elle propose du calcul accéléré, applicable dans de nombreux domaines — dynamique moléculaire, chromodynamique quantique, traitement des données, données structurées ou non structurées, mécanique des fluides, physique des particules — et, bien sûr, IA.
Le calcul accéléré est bien plus vaste que cela. Bien que l’IA soit aujourd’hui au cœur des débats — et évidemment essentielle et influente — le calcul est bien plus large. NVIDIA a transformé radicalement le calcul, en passant du calcul généraliste au calcul accéléré. Notre marché couvre un champ bien plus vaste que celui de n’importe quelle TPU ou ASIC : nous sommes la seule entreprise capable d’accélérer une variété d’applications. Nous disposons d’un écosystème gigantesque, où tous les frameworks et algorithmes peuvent fonctionner sur NVIDIA.
Nos ordinateurs étant conçus pour être manipulés par d’autres, n’importe quel opérateur peut acheter nos systèmes. En revanche, la plupart des systèmes internes exigent que vous soyez vous-même l’opérateur, car leur manque de souplesse empêche toute exploitation externe. Comme n’importe qui peut construire et exploiter nos systèmes, nous sommes présents dans tous les clouds — y compris ceux de Google, Amazon, Azure et Oracle.
Si vous souhaitez louer des ressources à des tiers, vous avez besoin d’une clientèle massive issue de multiples secteurs. Si vous souhaitez les utiliser vous-même, nous pouvons bien entendu vous accompagner dans leur exploitation — comme nous l’avons fait avec xAI pour Elon Musk. Et nous pouvons doter n’importe quelle entreprise, dans n’importe quel secteur, de la capacité d’exploitation nécessaire : vous pouvez ainsi construire un supercalculateur pour Eli Lilly destiné à la recherche scientifique et à la découverte de médicaments, et nous l’exploiterons pour vous, dans le domaine entier de la découverte pharmaceutique et des sciences biologiques.
Il existe une multitude d’applications que les TPU ne peuvent pas traiter. CUDA est certes une excellente unité de traitement de tenseurs, mais elle traite aussi chaque étape du traitement des données, les calculs, l’IA, etc. Notre opportunité de marché est bien plus grande, bien plus vaste. Comme nous supportons toutes les applications actuelles, vous pouvez déployer des systèmes NVIDIA partout, en sachant qu’il y aura toujours des clients. C’est une situation totalement différente.
Patel : Vos revenus sont impressionnants, mais ils ne proviennent ni de la pharmacie ni de la physique quantique — ils proviennent presque exclusivement de l’IA. Or l’IA est une technologie sans précédent, qui connaît une croissance historique. La question devient alors : quelle architecture est la plus favorable à l’IA elle-même ? La TPU est essentiellement un vaste réseau pulsé, particulièrement adapté aux multiplications matricielles. Le GPU est plus flexible, adapté aux tâches comportant de nombreuses branches conditionnelles ou des accès mémoire irréguliers. Mais quelle est réellement la nature du travail de l’IA ? En résumé, l’IA consiste à effectuer, itérativement, des multiplications matricielles extrêmement prévisibles. Pourquoi donc consacrer de la surface sur la puce à des fonctionnalités génériques comme les planificateurs de warps ou les commutateurs entre threads et banques mémoire ? Cette surface pourrait être entièrement dédiée aux multiplications matricielles. Or la TPU est justement conçue spécifiquement pour la partie de calcul qui explose aujourd’hui. Qu’en pensez-vous ?
Huang : La multiplication matricielle est une composante essentielle de l’IA, mais pas la totalité. Si vous inventez un nouveau mécanisme d’attention, une nouvelle méthode de décomposition, ou une architecture entièrement nouvelle — comme les modèles hybrides d’espaces d’état (SSM) — vous avez besoin d’une architecture universellement programmable. Si vous créez un modèle fusionnant diffusion et auto-régression, vous avez aussi besoin d’une architecture universellement programmable. Nous pouvons exécuter tout ce que vous imaginez. C’est là tout l’avantage. Sa programmabilité rend bien plus facile l’invention de nouveaux algorithmes.
C’est justement cette capacité à inventer de nouveaux algorithmes qui explique la rapidité de l’avancée de l’IA. Les TPU, comme tout le reste, obéissent à la loi de Moore, progressant d’environ 25 % par an. Pour réaliser chaque année des bonds de 10 ou 100 fois, la seule solution est de changer radicalement, chaque année, les algorithmes et les méthodes de calcul.
C’est là l’avantage fondamental de NVIDIA. Blackwell est 50 fois plus économe en énergie que Hopper. Lorsque j’ai annoncé pour la première fois un facteur de 35, personne ne m’a cru. Plus tard, un article a affirmé que j’avais sous-estimé la réalité — qu’il s’agissait en fait de 50 fois. La loi de Moore ne permettrait pas un tel bond : nous y parvenons grâce à de nouveaux modèles, comme les modèles d’experts mixtes (MoE), que nous parallélisons, décomposons et distribuons sur l’ensemble du système de calcul. Sans CUDA, sans la capacité d’écrire profondément de nouveaux noyaux, cela serait extrêmement difficile.
C’est la combinaison d’une architecture programmable et de la capacité de conception collaborative extrême de NVIDIA. Nous pouvons même décharger certaines opérations sur la structure réseau elle-même — comme NVLink ou Spectrum-X. Nous pouvons modifier simultanément le processeur, le système, la structure réseau, les bibliothèques et les algorithmes. Sans CUDA, je ne sais même pas par où commencer.
Patel : Cela soulève une question intéressante sur les clients de NVIDIA. 60 % de vos revenus proviennent de cinq fournisseurs cloud à très grande échelle. Autrefois, vos clients étaient des professeurs menant des expériences : ils avaient besoin de CUDA, ne pouvaient pas utiliser d’autres accélérateurs, et se contentaient de faire tourner PyTorch sur CUDA, tout étant déjà optimisé. Mais ces géants du cloud ont la capacité d’écrire eux-mêmes leurs propres noyaux. En effet, pour extraire les 5 % de performance restants d’une architecture donnée, ils y sont contraints. Anthropic et Google utilisent principalement leurs propres accélérateurs — TPU et Trainium. Même OpenAI, qui utilise des GPU, a développé Triton, car elle a besoin de ses propres noyaux. Elle n’utilise pas cuBLAS ni NCCL, mais sa propre pile logicielle, pouvant aussi être compilée sur d’autres accélérateurs. Si la majorité de vos clients peuvent et font effectivement des alternatives à CUDA, dans quelle mesure CUDA reste-t-elle un facteur critique pour les applications IA de pointe tournant sur NVIDIA ?
Huang : CUDA est un écosystème riche. Si vous souhaitez développer sur n’importe quel ordinateur, choisir CUDA est une décision très judicieuse. Son écosystème est si vaste que nous supportons tous les frameworks. Si vous souhaitez écrire des noyaux personnalisés, notre contribution à Triton est considérable — le backend de Triton intègre de nombreuses technologies NVIDIA.
Nous sommes ravis d’aider chaque framework à s’améliorer. Il en existe beaucoup : Triton, vLLM, SGLang. De nouveaux frameworks d’apprentissage par renforcement apparaissent constamment, comme verl et NeMo RL. Le domaine du post-entraînement et de l’apprentissage par renforcement explose actuellement. Ainsi, si vous développez sur une architecture donnée, choisir CUDA est le plus pertinent, car vous savez que son écosystème est exceptionnel.
Vous savez que, si quelque chose ne fonctionne pas, le problème viendra probablement de votre propre code, et non de la masse colossale de systèmes sous-jacents. N’oubliez pas l’immensité de la base de code impliquée. Lorsque le système ne fonctionne pas, vous devez vous demander : « Ai-je commis une erreur, ou est-ce l’ordinateur qui se trompe ? » Vous espérez naturellement découvrir à chaque fois que c’est vous qui vous êtes trompé — car seul ce constat vous permet de garder une confiance totale dans l’ordinateur. Bien entendu, nous avons encore de nombreux bugs. Mais l’essentiel est que notre système a été testé des milliers de fois — vous pouvez donc y construire en toute confiance. C’est le premier point : la richesse, la programmabilité et la puissance de l’écosystème.
Le second point est que, en tant que développeur, ce que vous recherchez avant tout, c’est une base installée massive. Vous souhaitez que votre logiciel puisse fonctionner sur de nombreux autres ordinateurs. Vous ne développez pas uniquement pour vous-même, mais pour votre cluster, ou celui d’autrui — car vous êtes développeur de framework. L’écosystème CUDA de NVIDIA est finalement sa plus grande richesse.
Nous avons aujourd’hui des centaines de millions de GPU déployés dans le monde, dans chaque cloud. Des A10, A100, H100, H200 aux séries L, P, et bien d’autres formats et tailles. Si vous êtes une entreprise de robotique, vous souhaitez que la pile CUDA puisse fonctionner directement à l’intérieur du robot. Nous sommes presque omniprésents. Cette base installée signifie que, dès que vous développez un logiciel ou un modèle, il fonctionnera partout. Cette valeur est inestimable.
Enfin, nous sommes présents dans tous les clouds — ce qui nous rend véritablement uniques. Si vous êtes une entreprise ou un développeur IA, vous ne savez pas encore avec quel fournisseur cloud vous allez collaborer, ni où vous allez déployer vos charges de travail. Peu importe : nous sommes partout, y compris dans votre propre salle des serveurs. La richesse de l’écosystème, l’étendue de la base installée, la diversité des lieux de déploiement — combinées, elles rendent CUDA inestimable.
Patel : C’est convaincant. Mais je voudrais savoir dans quelle mesure ces avantages comptent vraiment pour vos plus gros clients. Pour beaucoup, CUDA peut avoir une grande valeur. Mais la majeure partie de vos revenus provient précisément de ces gros clients capables de construire eux-mêmes leur propre pile logicielle. En particulier, si l’IA pénètre des domaines où l’apprentissage par renforcement permet une validation rigoureuse, la question devient : qui est capable d’écrire les noyaux de multiplication matricielle et d’attention les plus rapides sur de très grands clusters ? C’est un problème d’optimisation très vérifiable.
Ces géants du cloud ont pleinement la capacité d’écrire eux-mêmes ces noyaux personnalisés. Bien sûr, le rapport qualité-prix de NVIDIA peut rester supérieur, ce qui les inciterait à continuer de choisir NVIDIA. Mais alors, la question devient : ne s’agit-il plus que d’une course à la supériorité matérielle, et au meilleur rapport entre puissance de calcul, bande passante et coût par dollar ?
Historiquement, NVIDIA a bénéficié de la « moat » de CUDA pour maintenir, sur le matériel et le logiciel IA, des marges supérieures à 70 %. Mais aujourd’hui, si vos plus gros clients ont la capacité de contourner cette « moat », pouvez-vous encore maintenir de telles marges ?
Huang : Le nombre d’ingénieurs que nous affectons à ces laboratoires IA est stupéfiant : nous travaillons avec eux pour optimiser leur pile logicielle. La raison en est simple : personne ne connaît mieux notre architecture que nous. Ces architectures ne sont pas aussi généralistes que les CPU. Un CPU ressemble un peu à une Cadillac : facile à conduire, sans excès de vitesse, et tout le monde conduit correctement, avec régulateur de vitesse — tout est simple. En revanche, les GPU et accélérateurs NVIDIA ressemblent davantage à des voitures de Formule 1. J’imagine que tout le monde peut atteindre 160 km/h, mais pousser la voiture à ses limites exige une expertise considérable. Nous utilisons massivement l’IA pour écrire des noyaux.
Je suis certain que, pendant une longue période encore, nous serons indispensables. Notre expertise permet souvent à nos partenaires laboratoires IA d’obtenir facilement un gain de performance supplémentaire de 2 fois. Après avoir optimisé un noyau ou l’ensemble de la pile logicielle, il est courant de voir la vitesse du modèle augmenter de 50 %, de 2 fois, voire de 3 fois. Compte tenu de la taille de leurs clusters Hopper et Blackwell, ce chiffre est colossal. Doubler les performances équivaut directement à doubler les revenus.
La pile de calcul NVIDIA offre le meilleur coût total de possession (TCO) au monde — personne ne peut rivaliser. Aucune plateforme ne peut me montrer un meilleur rapport performance/TCO que le nôtre. Le benchmark InferenceMAX de Dylan est là pour le prouver, accessible à tous. Mais les TPU ne participent pas aux tests, ni les Trainium. Je les encourage vivement à utiliser InferenceMAX pour démontrer leur prétendu coût d’inférence ultra-faible. C’est malheureusement difficile, car personne ne souhaite y participer.
Il en va de même pour MLPerf : j’aimerais beaucoup que Trainium démontre l’avantage de 40 % qu’il annonce constamment. J’aimerais aussi entendre parler de l’avantage coût des TPU. Mais, selon moi, ces avantages invoqués n’ont aucun fondement rationnel. Ainsi, notre succès tient simplement à notre TCO exceptionnel.
Deuxièmement, vous dites que 60 % de nos clients sont les cinq plus grands fournisseurs cloud, mais la plupart de ces activités sont orientées vers l’extérieur. Par exemple, la majeure partie des puces NVIDIA utilisées chez AWS est destinée à des clients externes, et non à un usage interne. Chez Azure, les clients sont clairement externes, tout comme chez Oracle. Ils nous privilégient parce que notre influence est immense : nous leur apportons les meilleurs clients du monde, qui construisent tous sur NVIDIA. Et ces entreprises construisent sur NVIDIA parce que notre influence et notre polyvalence sont exceptionnelles.
Je considère donc que cet effet boucle repose sur la base installée, la programmabilité de l’architecture et la richesse de l’écosystème — combinés au fait qu’il existe des milliers d’entreprises IA dans le monde. Si vous êtes une startup IA, quelle architecture choisirez-vous ? Vous choisirez la plus riche — et c’est la nôtre. Vous choisirez la base installée la plus importante — et c’est la nôtre. Vous choisirez l’écosystème le plus complet. Voilà l’effet boucle.
Combiné à tout cela, notre performance par dollar est la meilleure au monde, et le coût par token de nos clients est le plus bas. Notre performance par watt est la plus élevée au monde. Ainsi, si un partenaire construit un centre de données de 1 GW, ce centre doit produire le maximum de revenus et de tokens — ce qui équivaut directement aux revenus. Vous souhaitez maximiser la production de tokens, et nous sommes l’architecture offrant le plus de tokens par watt au monde. En outre, si votre objectif est de louer des infrastructures, nous disposons du plus grand nombre de clients au monde. Voilà pourquoi l’effet boucle fonctionne.
Patel : Intéressant. Je pense que la question fondamentale est : quelle est réellement la structure du marché ? Car même si d’autres entreprises existent, on pourrait imaginer un monde où des milliers d’entreprises IA se partagent à peu près équitablement la puissance de calcul. Mais la réalité est que, même via ces cinq fournisseurs cloud, ce sont surtout Anthropic, OpenAI et les grands laboratoires fondamentaux qui utilisent réellement la puissance de calcul sur Amazon. Ces acteurs majeurs disposent eux-mêmes des capacités et des ressources nécessaires pour faire fonctionner différents accélérateurs.
Si tout ce que vous dites sur le rapport qualité-prix, la performance par watt, etc., est vrai, pourquoi Anthropic, il y a quelques jours, a-t-elle annoncé un accord avec Broadcom et Google impliquant plusieurs gigawatts de TPU, transférant la majeure partie de sa puissance de calcul dessus ? Pour Google, les TPU représentent aussi la majeure partie de sa puissance de calcul. Ainsi, si l’on regarde ces grandes entreprises IA, leur puissance de calcul, qui était autrefois entièrement fournie par NVIDIA, ne l’est plus. Je me demande pourquoi, si tous ces avantages théoriques tiennent la route, ils ont choisi d’autres accélérateurs ?
Huang : Anthropic est un cas isolé, pas une tendance générale. Réfléchissez-y : sans Anthropic, d’où viendrait la croissance des TPU ? À 100 %, de Anthropic. De même, sans Anthropic, d’où viendrait la croissance de Trainium ? À 100 %, de Anthropic. C’est pratiquement un secret public. Ce n’est pas que les opportunités pour les ASIC se multiplient — c’est qu’il n’y a qu’un seul Anthropic.
Patel : Mais OpenAI a un accord avec AMD, et développe elle-même son accélérateur Titan.
Huang : Oui, mais tout le monde reconnaît qu’une très grande partie de sa puissance de calcul tourne encore sur NVIDIA. Nous continuons à collaborer étroitement. Je n’ai rien contre l’utilisation d’autres technologies, ou les expérimentations. Si elles ne les essayent pas, comment sauraient-elles à quel point les nôtres sont bonnes ? Parfois, il faut un rappel. Nous devons sans cesse gagner notre position actuelle.
Il y a toujours des personnes qui font des promesses extravagantes. Regardez combien de projets ASIC ont été annulés. Il ne suffit pas de vouloir construire un ASIC : il faut aussi en faire un meilleur que celui de NVIDIA — ce qui n’est pas facile. En réalité, cela n’a aucun sens, sauf si NVIDIA présentait un défaut manifeste. Or notre échelle et notre vitesse sont là : nous sommes la seule entreprise au monde à lancer chaque année de nouveaux produits, accompagnés de progrès spectaculaires.
Patel : Je suppose que leur raisonnement est le suivant : il n’est pas nécessaire d’être meilleur que NVIDIA, il suffit de ne pas être trop loin derrière — disons, pas pire de 70 %. Car ils vous paient une marge de 70 %.
Huang : Non, n’oubliez pas que la marge des ASIC est aussi très élevée. Supposons que la marge de NVIDIA soit de 70 %, et celle des ASIC de 65 %. Que gagnez-vous réellement ?
Patel : Vous parlez de sociétés comme Broadcom ?
Huang : Exactement. Vous devez payer quelqu’un d’autre. À ma connaissance, les marges des ASIC sont très élevées — leurs dirigeants le reconnaissent eux-mêmes, et en sont fiers.
Alors pourquoi ? Il y a longtemps, nous n’en avions tout simplement pas la capacité. Je n’avais pas pleinement conscience, à l’époque, de la difficulté extrême de créer un laboratoire IA fondamental comme OpenAI ou Anthropic, ni du montant colossal d’investissements requis de la part des fournisseurs. Nous n’avions pas la capacité d’investir des dizaines de milliards de dollars dans Anthropic en échange de son engagement à utiliser notre puissance de calcul. Google et AWS, eux, en avaient la capacité. Ils ont investi massivement dès le départ, et en retour, Anthropic a utilisé leur puissance de calcul. Nous, nous n’avions tout simplement pas cette capacité.
Mon erreur a été de ne pas prendre pleinement conscience qu’ils n’avaient pas d’autre choix : aucun fonds de capital-risque ne serait prêt à investir 5 à 10 milliards de dollars dans un laboratoire IA dans l’espoir qu’il devienne Anthropic. C’est une erreur que j’ai commise. Mais même si j’avais compris cela à l’époque, je ne crois pas que nous aurions eu la capacité d’agir ainsi. Je ne commettrai plus jamais cette erreur.
Je serais ravi d’investir dans OpenAI, et heureux de l’aider à s’étendre — je considère cela comme nécessaire. Plus tard, lorsque j’ai acquis cette capacité, Anthropic est venue nous voir : j’ai été ravi de devenir investisseur, et heureux de l’aider à s’étendre. À l’époque, nous ne le pouvions pas. Si je pouvais tout recommencer, et que NVIDIA avait aujourd’hui la taille qu’elle a maintenant, je le ferais sans hésiter.
Pourquoi NVIDIA ne devient-elle pas un fournisseur cloud à très grande échelle ?
Patel : Depuis des années, NVIDIA est l’entreprise qui gagne le plus d’argent dans le domaine de l’IA. Vous investissez aujourd’hui — selon les rapports, vous auriez déjà investi 30 milliards de dollars dans OpenAI et 10 milliards dans Anthropic. Leur valorisation a augmenté, et continuera vraisemblablement à le faire. Ainsi, si vous leur fournissez depuis longtemps de la puissance de calcul, et que vous voyez clairement leur trajectoire — alors qu’il y a un ou deux ans, leur valeur n’était qu’un dixième de ce qu’elle est aujourd’hui, voire moins d’un an auparavant — et que vous disposez de liquidités abondantes, alors soit NVIDIA devrait devenir elle-même un laboratoire fondamental et investir massivement, soit vous auriez dû conclure ces transactions plus tôt, à ces valorisations inférieures. Vous avez les liquidités. Alors pourquoi ne pas l’avoir fait plus tôt ?
Huang : Nous avons agi le plus tôt possible, dès que cela nous a été permis. Si j’avais pu, je l’aurais fait plus tôt. Lorsqu’Anthropic en avait besoin, nous n’avions tout simplement pas la capacité — ce n’était même pas envisagé à l’époque.
Patel : Pourquoi ? Est-ce une question de moyens financiers ?
Huang : Oui, c’est une question d’échelle de l’investissement. Nous n’avions jamais réalisé d’investissements externes à l’entreprise, encore moins à une telle échelle. Nous n’avions pas conscience de la nécessité de le faire. J’ai toujours pensé qu’ils pouvaient aller chercher du financement auprès des fonds de capital-risque, comme toutes les entreprises. Mais ce qu’ils voulaient faire dépassait largement les capacités des fonds de capital-risque. Ce qu’OpenAI voulait faire dépassait aussi largement ces capacités. Je le comprends aujourd’hui, mais je ne le savais pas à l’époque.
Mais c’est précisément là leur génie — et c’est là qu’ils sont brillants. Ils ont compris très tôt qu’ils devaient agir ainsi. Je suis ravi qu’ils l’aient fait. Même si cela a conduit Anthropic à choisir d’autres partenaires, je suis heureux que cela se soit produit. L’existence d’Anthropic est une bonne chose pour le monde, et j’en suis heureux.
Patel : Je pense que vous continuez à gagner beaucoup d’argent, et de plus en plus chaque trimestre. Puisque vous disposez de ces liquidités croissantes, que devrait faire NVIDIA ? Une réponse est qu’un écosystème entier d’intermédiaires est apparu, transformant les dépenses en capital (capex) en dépenses d’exploitation (opex) pour ces laboratoires, leur permettant de louer de la puissance de calcul. Car les puces sont coûteuses, mais elles génèrent beaucoup de revenus sur leur cycle de vie, car les modèles IA s’améliorent constamment. La valeur des tokens qu’elles produisent augmente, mais leur coût de déploiement est élevé. NVIDIA a les moyens d’effectuer des dépenses en capital. En effet, selon les rapports, vous soutenez déjà CoreWeave à hauteur de 6,3 milliards de dollars, et avez déjà investi 2 milliards. Pourquoi NVIDIA ne deviendrait-elle pas elle-même un fournisseur de services cloud ? Pourquoi ne deviendrait-elle pas un fournisseur cloud à très grande échelle, louant elle-même de la puissance de calcul ?
Huang : C’est une philosophie d’entreprise, et je la considère comme sage. Nous devons faire ce qui est nécessaire, et le moins possible. Cela signifie que, dans la construction de notre plateforme de calcul, si nous ne le faisions pas, je crois sincèrement que personne ne le ferait. Si nous n’avions pas pris les risques que nous avons pris, si nous n’avions pas développé NVLink à notre manière, si nous n’avions pas construit l’ensemble de la pile logicielle à notre manière, si nous n’avions pas créé l’écosystème à notre manière et investi 20 ans dans CUDA — tout en subissant des pertes la plupart du temps — personne ne l’aurait fait.
Si nous n’avions pas créé toutes les bibliothèques CUDA-X pour les orienter vers des domaines spécifiques, personne ne l’aurait fait. Il y a quinze ans, nous avons commencé à créer des bibliothèques spécialisées, car nous avions compris que, sans elles — qu’il s’agisse de suivi de rayons, de génération d’images, des premiers travaux IA, de traitement des données, de données structurées ou vectorielles — personne ne les aurait créées. J’en suis totalement convaincu. Nous avons créé une bibliothèque pour la photolithographie computationnelle appelée cuLitho — personne ne l’aurait faite sans nous. C’est grâce à ces actions que le calcul accéléré a pu progresser autant.
Nous devons donc faire cela, et y consacrer toute notre énergie et tous nos efforts. Or, il existe de nombreux clouds dans le monde : si je
Bienvenue dans la communauté officielle TechFlow
Groupe Telegram :https://t.me/TechFlowDaily
Compte Twitter officiel :https://x.com/TechFlowPost
Compte Twitter anglais :https://x.com/BlockFlow_News














