
Le prochain séisme de l’IA : pourquoi le véritable danger ne réside pas dans les « tueurs de SaaS », mais dans la révolution de la puissance de calcul ?
TechFlow SélectionTechFlow Sélection

Le prochain séisme de l’IA : pourquoi le véritable danger ne réside pas dans les « tueurs de SaaS », mais dans la révolution de la puissance de calcul ?
Cette révolution pourrait mettre fin plus tôt que prévu à la grande fête organisée avec soin par les « vendeurs de pelles » de l’IA.
Rédaction : Bruce
Récemment, l’ensemble du secteur technologique et de la communauté des investisseurs a les yeux rivés sur un seul phénomène : la façon dont les applications d’IA « tuent » progressivement les logiciels SaaS traditionnels. Depuis que Claude Cowork, développé par @AnthropicAI, a démontré sa capacité à rédiger des e-mails, créer des présentations PowerPoint ou analyser des tableaux Excel en un clin d’œil, une vague d’inquiétude s’est propagée sous le slogan « Les logiciels sont morts ». Certes, cela fait effectivement peur — mais si vous ne voyez que cela, vous risquez de manquer la véritable secousse tectonique.
C’est comme si nous levions tous les yeux vers des combats aériens entre drones, sans remarquer que, sous nos pieds, toute la plaque continentale est en train de bouger silencieusement. La véritable tempête se cache sous la surface, dans un coin invisible à la plupart : les fondations matérielles qui soutiennent tout l’univers de l’IA connaissent actuellement une « révolution silencieuse ».
Et cette révolution pourrait mettre fin bien plus tôt que prévu à la grande fête organisée avec soin par NVIDIA @nvidia, le principal fournisseur d’équipements pour l’IA.
Deux révolutions convergentes
Cette révolution n’est pas un événement isolé, mais le fruit de deux trajectoires technologiques apparemment indépendantes, qui s’entrecroisent comme deux armées encerclant progressivement le monopole des GPU de NVIDIA.
La première voie est celle de la « réduction algorithmique ».
Vous êtes-vous déjà demandé si un cerveau surpuissant devait mobiliser toutes ses cellules nerveuses pour résoudre un problème ? Évidemment non. DeepSeek l’a compris, et a conçu une architecture MoE (Mixture of Experts, ou « mélange d’experts »).
Imaginez une entreprise qui emploie des centaines d’experts spécialisés dans divers domaines. Or, chaque fois qu’une réunion est convoquée pour résoudre un problème, seuls deux ou trois experts pertinents sont sollicités — pas besoin de faire participer l’ensemble de l’équipe à une séance de remue-méninges collective. C’est précisément là que réside l’intelligence de MoE : il permet à un modèle massif de n’activer qu’une petite fraction de ses « experts » à chaque calcul, économisant ainsi considérablement la puissance de calcul nécessaire.
Quel en est le résultat ? Le modèle DeepSeek-V2 possède officiellement 236 milliards de « paramètres-experts », mais n’en active que 21 milliards à chaque opération — soit moins de 9 % du total. Pourtant, ses performances rivalisent avec celles de GPT-4, qui exige une activation à 100 % de ses ressources. Que signifie cela ? Désormais, la puissance de l’IA et sa consommation de puissance de calcul ne sont plus étroitement corrélées !
Jusqu’à présent, on supposait implicitement que plus une IA était performante, plus elle consommait de cartes graphiques. Aujourd’hui, DeepSeek montre qu’avec des algorithmes intelligents, on peut obtenir des résultats équivalents pour un dixième du coût. Cela remet donc radicalement en question le caractère indispensable des GPU NVIDIA.
La seconde voie est celle de la « révolution matérielle par changement de paradigme ».
Le fonctionnement de l’IA se divise en deux phases : l’entraînement et l’inférence. L’entraînement ressemble à une scolarisation : il nécessite de « lire des milliers de livres », et les cartes graphiques GPU — conçues pour le calcul massivement parallèle — excellent alors pleinement dans ce rôle. En revanche, l’inférence correspond à l’utilisation quotidienne de l’IA, où la rapidité de réponse prime.
Les GPU souffrent d’un défaut structurel lors de l’inférence : leur mémoire (HBM) est externe, ce qui entraîne des délais dus aux allers-retours des données. C’est comme un chef cuisinier dont tous les ingrédients seraient rangés dans le réfrigérateur d’une pièce voisine : même s’il court vite, il ne peut pas aller plus vite que le temps nécessaire pour traverser la pièce. Des entreprises telles que Cerebras ou Groq ont choisi une autre voie, en concevant des puces spécialisées pour l’inférence, intégrant directement la mémoire (SRAM) au sein même de la puce — les ingrédients sont alors à portée de main, permettant un accès « sans délai ».
Le marché a déjà tranché, et ce, avec des sommes concrètes. OpenAI, tout en critiquant publiquement les performances médiocres des GPU NVIDIA en inférence, a signé immédiatement un contrat de 10 milliards de dollars avec Cerebras pour louer ses services dédiés à l’inférence. NVIDIA, quant à lui, a pris peur : il a racheté Groq pour 20 milliards de dollars afin de ne pas rester à la traîne sur cette nouvelle voie stratégique.
Lorsque les deux voies se croisent : effondrement des coûts
Maintenant, combinons ces deux éléments : un modèle DeepSeek « allégé » sur le plan algorithmique, exécuté sur une puce Cerebras « zéro latence » sur le plan matériel.
Que se passe-t-il ?
Un effondrement des coûts.
Premièrement, le modèle allégé est suffisamment petit pour tenir entièrement dans la mémoire intégrée de la puce. Deuxièmement, l’absence de goulot d’étranglement lié à la mémoire externe permet une vitesse de réponse extraordinaire de l’IA. Résultat final : les coûts d’entraînement chutent de 90 % grâce à l’architecture MoE, tandis que les coûts d’inférence diminuent encore d’un ordre de grandeur supplémentaire grâce au matériel spécialisé et au calcul creux (sparse computing). Au total, le coût global de développement et d’exploitation d’une IA de niveau mondial pourrait ne représenter plus que 10 à 15 % de celui d’une solution basée sur des GPU traditionnels.
Ce n’est pas une simple amélioration : c’est une rupture de paradigme.
Le trône de NVIDIA voit son tapis discretement retiré
Vous comprenez désormais pourquoi ce phénomène est bien plus dangereux que la « panique Cowork ».
La valorisation actuelle de NVIDIA, qui dépasse plusieurs milliers de milliards de dollars, repose sur une histoire simple : « L’IA est l’avenir, et cet avenir dépend obligatoirement de mes GPU. » Or, les fondations de cette histoire sont aujourd’hui ébranlées.
Sur le marché de l’entraînement, même si NVIDIA conserve un quasi-monopole, si ses clients peuvent accomplir leurs tâches avec seulement un dixième des cartes graphiques, la taille globale de ce marché pourrait fortement se contracter.
Sur le marché de l’inférence — une part dix fois plus importante que celle de l’entraînement — NVIDIA ne détient pas seulement aucun avantage absolu ; il est assiégé de toutes parts par des acteurs tels que Google ou Cerebras. Même son plus gros client, OpenAI, commence à le quitter.
Dès que Wall Street prendra conscience que la « pelle » de NVIDIA n’est plus la seule option disponible — ni même la meilleure — que deviendront les valorisations boursières fondées sur l’hypothèse d’un « monopole durable » ? Je pense que la réponse est claire pour tous.
Ainsi, le plus grand cygne noir des six prochains mois ne sera probablement pas l’apparition d’une nouvelle application IA venant remplacer tel ou tel acteur, mais plutôt une brève actualité technique apparemment anodine : par exemple, une nouvelle publication scientifique mettant en lumière l’efficacité accrue des algorithmes MoE, ou un rapport indiquant une forte progression des parts de marché des puces spécialisées pour l’inférence — annonçant ainsi, discrètement, l’entrée dans une nouvelle phase de la guerre pour la puissance de calcul.
Lorsque la « pelle » du vendeur de pelles cesse d’être la seule option, son âge d’or pourrait bien toucher à sa fin.
Bienvenue dans la communauté officielle TechFlow
Groupe Telegram :https://t.me/TechFlowDaily
Compte Twitter officiel :https://x.com/TechFlowPost
Compte Twitter anglais :https://x.com/BlockFlow_News













