
La contre-offensive chinoise en matière de puissance de calcul pour l’IA
TechFlow SélectionTechFlow Sélection

La contre-offensive chinoise en matière de puissance de calcul pour l’IA
Le prix à payer est, en soi, un progrès.
Texte : Sleepy.txt
Il y a huit ans, ZTE a connu un arrêt cardiaque.
Le 16 avril 2018, une interdiction émise par le Bureau of Industry and Security (BIS) du Département américain du Commerce a mis brutalement à l’arrêt ZTE Corporation, quatrième équipementier télécom mondial, employant 80 000 personnes et générant un chiffre d’affaires annuel dépassant le milliard de yuans. L’interdiction était simple : pendant sept ans, aucune entreprise américaine ne pourrait fournir à ZTE des composants, marchandises, logiciels ou technologies.
Sans les puces Qualcomm, la production des stations de base s’est arrêtée. Sans la licence Android de Google, les smartphones n’avaient plus de système exploitable. Vingt-trois jours plus tard, ZTE publiait un communiqué annonçant que ses principales activités étaient devenues impossibles.
ZTE a finalement survécu, mais au prix de 1,4 milliard de dollars américains.
Une amende de 1 milliard de dollars, versée en une seule fois ; un dépôt de garantie de 400 millions de dollars, placé sur un compte séquestre dans une banque américaine. En outre, tous les cadres dirigeants ont été remplacés, et une équipe de surveillance de la conformité américaine a été autorisée à s’installer au sein de l’entreprise. En 2018, ZTE a enregistré une perte nette de 7 milliards de yuans, son chiffre d’affaires ayant chuté de 21,4 % en glissement annuel.
Dans une lettre interne, Yin Yimin, alors président de ZTE, écrivait : « Nous opérons dans un secteur complexe, fortement dépendant des chaînes d’approvisionnement mondiales. » À l’époque, cette phrase sonnait à la fois comme une réflexion et comme une expression d’impuissance.
Huit ans plus tard, le 26 février 2026, DeepSeek, licorne chinoise spécialisée en intelligence artificielle, a annoncé que son modèle multmodal de grande taille V4, prochainement lancé, privilégierait une collaboration approfondie avec des fabricants nationaux de puces, réalisant ainsi pour la première fois un flux de travail complet — de l’entraînement préliminaire à l’ajustement fin — sans recourir aux solutions NVIDIA.
Autrement dit : nous n’utilisons plus NVIDIA.
Dès l’annonce, la réaction initiale des marchés a été la méfiance. NVIDIA détient plus de 90 % des parts de marché mondiales des puces d’entraînement IA : abandonner ce leader est-il rationnel sur le plan commercial ?
Mais derrière ce choix de DeepSeek se cache une question bien plus vaste que la simple logique commerciale : quelle forme d’indépendance en matière de puissance de calcul l’IA chinoise doit-elle véritablement conquérir ?
Qu’est-ce qui est réellement bloqué ?
Beaucoup pensent que les restrictions sur les puces visent uniquement le matériel. Or, ce qui étouffe véritablement les entreprises chinoises d’IA, c’est un outil appelé CUDA.
CUDA, acronyme de « Compute Unified Device Architecture », est une plateforme de calcul parallèle et un modèle de programmation développé par NVIDIA dès 2006. Il permet aux développeurs d’accéder directement à la puissance de calcul des GPU NVIDIA afin d’accélérer diverses tâches complexes.
Avant l’ère de l’IA, cet outil n’était utilisé que par une poignée de passionnés. Mais avec l’essor des réseaux de neurones profonds, CUDA est devenu la fondation entière de l’industrie de l’IA.
L’entraînement des grands modèles d’IA repose essentiellement sur des opérations matricielles massives — précisément le type de calcul pour lequel les GPU sont conçus.
Grâce à une stratégie anticipée de plus d’une décennie, NVIDIA a bâti, via CUDA, une chaîne complète d’outils couvrant l’ensemble de la pile technologique, du matériel sous-jacent aux applications hautes couches. Aujourd’hui, tous les principaux frameworks d’IA — de TensorFlow (Google) à PyTorch (Meta) — sont profondément intégrés à CUDA au niveau de leur noyau.
Un doctorant spécialisé en IA commence dès son premier jour d’études à apprendre, programmer et expérimenter dans un environnement CUDA. Chaque ligne de code qu’il écrit renforce davantage la « citadelle » de NVIDIA.
À fin 2025, l’écosystème CUDA comptait plus de 4,5 millions de développeurs, couvrait plus de 3 000 applications accélérées par GPU, et était utilisé par plus de 40 000 entreprises dans le monde. Ce chiffre signifie que plus de 90 % des développeurs IA mondiaux sont verrouillés dans l’écosystème NVIDIA.
La redoutable force de CUDA réside dans son effet boule de neige : plus il y a de développeurs utilisant CUDA, plus il existe d’outils, de bibliothèques et de codes, et plus l’écosystème devient florissant ; plus il est florissant, plus il attire de nouveaux développeurs. Une fois lancée, cette dynamique devient presque impossible à inverser.
Résultat : NVIDIA vous vend la pelle la plus coûteuse tout en définissant la seule posture autorisée pour creuser. Vous souhaitez changer de pelle ? Libre à vous. Mais vous devrez alors réécrire intégralement, depuis zéro, toutes les expériences, outils et lignes de code accumulés durant plus d’une décennie par les dizaines de milliers de cerveaux les plus brillants du monde, qui ont tous travaillé selon cette posture unique.
Qui paiera ce coût ?
Ainsi, lorsque, le 7 octobre 2022, la première vague de restrictions du BIS est entrée en vigueur — interdisant l’exportation vers la Chine des puces A100 et H100 de NVIDIA — les entreprises chinoises d’IA ont ressenti collectivement, pour la première fois, une sensation d’étouffement similaire à celle vécue par ZTE. NVIDIA a ensuite lancé ses versions « spécifiques à la Chine » A800 et H800, réduisant intentionnellement la bande passante d’interconnexion entre puces afin de maintenir un approvisionnement minimal.
Mais un an plus tard, le 17 octobre 2023, une deuxième vague de restrictions est venue resserrer encore davantage les contrôles : les A800 et H800 ont également été interdits, et 13 entreprises chinoises ont été inscrites sur la liste des entités. NVIDIA a donc dû introduire une version encore plus fortement bridée : le H20. En décembre 2024, lors de la dernière vague de restrictions adoptée sous l’administration Biden, même l’exportation du H20 a été strictement limitée.
Trois vagues de restrictions, chaque fois plus sévères.
Mais cette fois-ci, le scénario ne suit pas du tout celui de ZTE.
Une percée asymétrique
Sous le coup des sanctions, beaucoup pensaient que le rêve chinois des grands modèles d’IA allait prendre fin.
Ils se sont tous trompés. Face au blocus, les entreprises chinoises n’ont pas choisi l’affrontement frontal, mais ont engagé une percée stratégique. Le premier champ de bataille de cette percée ne se trouvait pas dans le domaine des puces, mais dans celui des algorithmes.
De fin 2024 à 2025, les entreprises chinoises d’IA se sont massivement tournées vers une direction technique précise : les modèles d’experts mixtes (« Mixture of Experts », MoE).
En résumé, cela consiste à diviser un modèle gigantesque en de nombreux petits « experts », activant seulement ceux qui sont les plus pertinents pour une tâche donnée, plutôt que de mobiliser l’intégralité du modèle.
Le V3 de DeepSeek illustre parfaitement cette approche. Avec 671 milliards de paramètres, il n’active que 37 milliards d’entre eux lors de chaque inférence — soit seulement 5,5 % du total. Pour son entraînement, il a requis 2 048 GPU NVIDIA H800 pendant 58 jours, pour un coût total de 5,576 millions de dollars américains. À titre de comparaison, les estimations externes du coût d’entraînement de GPT-4 s’élèvent à environ 78 millions de dollars. La différence est d’un ordre de grandeur.
Cette optimisation extrême au niveau des algorithmes se reflète directement dans les prix. Le tarif API de DeepSeek est de 0,028 à 0,28 dollar américain par million de tokens en entrée, et de 0,42 dollar en sortie. Celui de GPT-4o s’élève à 5 dollars en entrée et 15 dollars en sortie. Claude Opus est encore plus cher : 15 dollars en entrée, 75 dollars en sortie. En termes de rapport prix/performances, DeepSeek est ainsi 25 à 75 fois moins coûteux que Claude.
Cet écart de prix a eu un retentissement considérable sur le marché mondial des développeurs. En février 2026, sur OpenRouter — la plus grande plateforme mondiale d’agrégation d’API de modèles d’IA — la demande hebdomadaire de modèles chinois a bondi de 127 % en trois semaines, dépassant pour la première fois celle des modèles américains. Un an plus tôt, les modèles chinois représentaient moins de 2 % du volume total sur OpenRouter. Un an plus tard, leur part de marché a augmenté de 421 %, atteignant près de 60 %.
Derrière ces chiffres se cache une évolution structurelle souvent négligée. À partir de la seconde moitié de 2025, le scénario principal d’application de l’IA a progressivement basculé de la simple conversation vers les agents autonomes (« Agents »). Dans ce dernier cas, la consommation de tokens pour une tâche donnée est 10 à 100 fois supérieure à celle d’une discussion classique. Lorsque la consommation de tokens augmente exponentiellement, le prix devient un facteur déterminant. La rentabilité extrême des modèles chinois tombe exactement à point nommé.
Or, le problème demeure : la réduction des coûts d’inférence ne résout pas le problème fondamental de l’entraînement. Si un grand modèle ne peut être continuellement réentraîné et itéré sur les données les plus récentes, ses capacités se dégradent rapidement. Et l’entraînement reste ce gouffre insatiable en puissance de calcul.
Alors, où trouver la « pelle » indispensable à l’entraînement ?
Le remplaçant devient le choix principal
Xinghua, petite ville du Jiangsu, est réputée pour ses produits en acier inoxydable et ses aliments santé — jusqu’à présent, elle n’avait aucun lien avec l’IA. Pourtant, en 2025, une chaîne de production de serveurs nationaux de calcul, longue de 148 mètres, y a été inaugurée après seulement 180 jours entre la signature du contrat et la mise en service.
Au cœur de cette chaîne figurent deux puces entièrement conçues en Chine : le processeur Loongson 3C6000 et la carte d’accélération IA TaiChu YuanQi T100. Le Loongson 3C6000 dispose d’un jeu d’instructions et d’une microarchitecture entièrement développés en interne. TaiChu YuanQi, issue du Centre national de supercalcul de Wuxi et de l’équipe de l’Université Tsinghua, repose sur une architecture hétérogène à très nombreux cœurs.
À pleine capacité, cette chaîne produit un serveur toutes les cinq minutes. Son investissement total s’élève à 1,1 milliard de yuans, avec une capacité de production annuelle prévue de 100 000 unités.
Plus important encore, des grappes de calcul de plusieurs dizaines de milliers de cartes, construites autour de ces puces nationales, commencent désormais à assumer de véritables tâches d’entraînement de grands modèles.
En janvier 2026, Zhipu AI et Huawei ont conjointement lancé GLM-Image, le premier modèle génératif d’images SOTA entièrement entraîné sur des puces nationales. En février, le grand modèle « Xingchen » (Étoiles), doté de plusieurs centaines de milliards de paramètres, appartenant à China Telecom, a achevé son entraînement complet sur un pool national de calcul à 10 000 cartes, situé à Lingang (Shanghai).
Ces exemples revêtent une importance capitale : ils démontrent qu’en Chine, les puces nationales ont franchi un cap décisif — passant de la simple utilisation pour l’inférence à une capacité avérée d’entraînement. C’est là une rupture qualitative. L’inférence ne nécessite que l’exécution d’un modèle déjà entraîné, exigeant donc relativement peu de performances de la puce ; l’entraînement, lui, implique le traitement de volumes massifs de données, des calculs complexes de gradients et des mises à jour de paramètres, imposant des exigences bien supérieures — d’un ordre de grandeur — en termes de puissance de calcul, de bande passante d’interconnexion et d’écosystème logiciel.
Le fer de lance de ces efforts est constitué par les puces Ascend de Huawei. À fin 2025, l’écosystème Ascend comptait plus de 4 millions de développeurs, plus de 3 000 partenaires, et 43 des principaux modèles d’IA du secteur avaient achevé leur entraînement préliminaire sur cette plateforme, tandis que plus de 200 modèles open source avaient été adaptés. Lors du Mobile World Congress (MWC) du 2 mars 2026, Huawei a présenté pour la première fois sur les marchés internationaux sa nouvelle infrastructure de calcul SuperPoD.
La puissance de calcul FP16 de l’Ascend 910B est désormais comparable à celle de l’A100 de NVIDIA. Bien qu’un écart subsiste, celui-ci a cessé d’être un obstacle infranchissable pour devenir une lacune comblable, puis progressivement une limite surmontable. La construction d’un écosystème ne peut attendre que la perfection du matériel : elle doit démarrer dès que le matériel atteint un niveau suffisant, et se développer à grande échelle afin de faire pression, via les besoins réels des utilisateurs, sur l’amélioration continue du matériel et des logiciels. Les objectifs d’adoption de serveurs de calcul nationaux par ByteDance, Tencent et Baidu devraient doubler en 2026 par rapport à l’année précédente. Selon les données du Ministère de l’Industrie et des Technologies de l’information (MIIT), la capacité totale de calcul intelligent en Chine s’élève désormais à 1 590 EFLOPS. L’année 2026 marque ainsi le début de la déployment à grande échelle des infrastructures nationales de calcul.
La pénurie d’électricité aux États-Unis et l’expansion internationale de la Chine
Début 2026, l’État de Virginie — qui abrite une part considérable du trafic mondial des centres de données — a suspendu l’autorisation de nouveaux projets de centres de données. La Géorgie a suivi, prolongeant cette suspension jusqu’en 2027. L’Illinois et le Michigan ont également adopté des mesures restrictives similaires.
Selon l’Agence internationale de l’énergie (AIE), la consommation électrique des centres de données américains s’est élevée à 183 térawattheures (TWh) en 2024, soit environ 4 % de la consommation nationale totale. D’ici 2030, ce chiffre devrait doubler pour atteindre 426 TWh, représentant potentiellement plus de 12 % de la consommation globale. Le PDG d’Arm estime même que, d’ici 2030, les centres de données dédiés à l’IA consommeront entre 20 % et 25 % de l’électricité produite aux États-Unis.
Le réseau électrique américain est déjà à bout de souffle. Le réseau PJM, couvrant 13 États de la région Est, fait face à un déficit de capacité de 6 GW. D’ici 2033, le déficit national de capacité électrique atteindra 175 GW — l’équivalent de la consommation de 130 millions de foyers. Le coût de gros de l’électricité dans les régions concentrant les centres de données a augmenté de 267 % par rapport à il y a cinq ans.
L’aboutissement ultime de la puissance de calcul, c’est l’énergie. Sur ce plan, l’écart entre la Chine et les États-Unis est encore plus large que celui qui sépare leurs puces — mais dans le sens inverse.
La Chine produit annuellement 10,4 billions de kWh d’électricité, contre 4,2 billions aux États-Unis : soit 2,5 fois plus. Plus crucial encore, la consommation d’électricité domestique représente seulement 15 % de la consommation totale en Chine, contre 36 % aux États-Unis. Cela signifie que la Chine dispose d’une marge industrielle bien plus large pouvant être consacrée au développement de l’infrastructure de calcul.
Sur le plan des tarifs, l’électricité coûte entre 0,12 et 0,15 dollar par kilowattheure dans les zones américaines où se concentrent les entreprises d’IA, tandis que le tarif industriel dans l’Ouest chinois est d’environ 0,03 dollar — soit un quart à un cinquième du prix américain.
La croissance annuelle de la production électrique chinoise est désormais sept fois supérieure à celle des États-Unis.
Alors que les États-Unis peinent à répondre à leurs besoins électriques, l’IA chinoise s’exporte discrètement. Mais cette fois, ce n’est ni un produit, ni une usine, qui traverse les frontières : c’est le token.
Le token — unité minimale de traitement de l’information par un modèle d’IA — devient une nouvelle marchandise numérique. Produit dans les « usines » chinoises de calcul, il est acheminé vers le monde entier via les câbles sous-marins.
Les données de répartition géographique des utilisateurs de DeepSeek parlent d’elles-mêmes : 30,7 % en Chine, 13,6 % en Inde, 6,9 % en Indonésie, 4,3 % aux États-Unis, 3,2 % en France. DeepSeek prend en charge 37 langues et connaît un grand succès sur les marchés émergents comme le Brésil. Au total, 26 000 entreprises dans le monde ont ouvert un compte, et 3 200 institutions ont déployé sa version entreprise.
En 2025, 58 % des nouvelles startups IA ont intégré DeepSeek dans leur stack technologique. En Chine, DeepSeek détient 89 % du marché. Dans d’autres pays soumis à des sanctions, sa part de marché varie entre 40 % et 60 %.
Ce tableau rappelle fortement une autre guerre, menée il y a quarante ans, pour l’autonomie industrielle.
En 1986, à Tokyo, sous la forte pression américaine, le gouvernement japonais a signé l’« Accord semi-conducteurs États-Unis-Japon ». Ses trois dispositions clés étaient les suivantes : ouvrir le marché japonais des semi-conducteurs, garantir aux entreprises américaines une part de marché supérieure à 20 % au Japon ; interdire toute exportation japonaise de semi-conducteurs à des prix inférieurs à leur coût de production ; imposer des droits de douane punitifs de 100 % sur les puces japonaises exportées vers les États-Unis, dont la valeur atteignait 300 millions de dollars. Par ailleurs, les États-Unis ont rejeté la tentative de rachat de Fairchild Semiconductor par Fujitsu.
Cette année-là, l’industrie japonaise des semi-conducteurs se trouvait à son apogée. En 1988, le Japon détenait 51 % du marché mondial, contre 36,8 % aux États-Unis. Parmi les dix premiers fabricants mondiaux, six étaient japonais : NEC (2ᵉ), Toshiba (3ᵉ), Hitachi (5ᵉ), Fujitsu (7ᵉ), Mitsubishi (8ᵉ) et Panasonic (9ᵉ). En 1985, Intel avait subi une perte de 173 millions de dollars dans sa lutte contre les fabricants japonais, frôlant la faillite.
Mais tout a changé après la signature de l’accord.
Les États-Unis ont exercé une pression généralisée sur les entreprises japonaises via des enquêtes « Section 301 », tout en soutenant activement Samsung et SK Hynix en Corée du Sud, qui ont inondé le marché japonais avec des produits à des prix inférieurs. La part japonaise sur le marché des DRAM est ainsi tombée de 80 % à 10 %. En 2017, la part japonaise du marché mondial des circuits intégrés (IC) ne représentait plus que 7 %. Des géants jadis incontestés ont été soit scindés, soit rachetés, soit contraints de quitter le marché dans une spirale de pertes incessantes.
La tragédie de l’industrie japonaise des semi-conducteurs réside dans le fait qu’elle s’est contentée d’être le meilleur producteur au sein d’un système mondial de division du travail dominé par une seule puissance extérieure, sans jamais envisager de construire un écosystème indépendant propre. Lorsque la marée s’est retirée, elle s’est rendu compte qu’elle ne possédait rien d’autre que la capacité de production elle-même.
L’industrie chinoise de l’IA se trouve aujourd’hui à un carrefour semblable, mais fondamentalement différent.
Le point commun réside dans la pression extérieure considérable à laquelle nous sommes confrontés : trois vagues successives de restrictions sur les puces, toujours plus sévères, et un mur écosystémique CUDA toujours aussi élevé.
La différence, c’est que cette fois-ci, nous avons choisi une voie bien plus difficile. Depuis l’optimisation extrême des algorithmes, jusqu’à la transition des puces nationales de l’inférence à l’entraînement, en passant par l’accumulation de 4 millions de développeurs dans l’écosystème Ascend et l’expansion internationale des tokens, chaque étape de ce parcours contribue à bâtir un écosystème industriel indépendant — une ambition que le Japon n’a jamais eue.
Conclusion
Le 27 février 2026, trois communiqués de résultats financiers proviennent simultanément de sociétés chinoises spécialisées dans les puces IA.
Cambricon : chiffre d’affaires en hausse de 453 %, bénéfice net annuel réalisé pour la première fois. Moore Threads : chiffre d’affaires en hausse de 243 %, mais perte nette de 1 milliard de yuans.沐曦 (Muxi) : chiffre d’affaires en hausse de 121 %, perte nette proche de 800 millions de yuans.
Moitié feu, moitié eau.
Le feu, c’est la soif extrême du marché. Les 95 % de vide laissés par Jensen Huang sont progressivement comblés, centimètre par centimètre, par les chiffres de chiffre d’affaires de ces entreprises nationales. Peu importe leur performance réelle, peu importe l’état de leur écosystème : le marché a besoin d’un second choix, à côté de NVIDIA. C’est une opportunité structurelle exceptionnelle, ouverte par la géopolitique.
L’eau, c’est le coût énorme de la construction d’un écosystème. Chaque centime de perte représente un investissement réel dans la course à rattraper l’écosystème CUDA : recherche et développement, subventions logicielles, ingénieurs déployés sur site chez les clients pour résoudre, un par un, les problèmes de compilation. Ces pertes ne traduisent pas une mauvaise gestion, mais constituent la « taxe de guerre » incontournable pour construire un écosystème indépendant.
Ces trois rapports financiers décrivent plus honnêtement que tout autre document sectoriel la réalité de cette guerre du calcul. Ce n’est pas une victoire triomphale, mais une bataille de position sanglante, où l’on avance tout en saignant.
Pourtant, la nature même de la guerre a bel et bien changé. Il y a huit ans, la question était : « Allons-nous survivre ? » Aujourd’hui, la question est : « Combien coûtera notre survie ? »
Le coût lui-même est déjà un progrès.
Bienvenue dans la communauté officielle TechFlow
Groupe Telegram :https://t.me/TechFlowDaily
Compte Twitter officiel :https://x.com/TechFlowPost
Compte Twitter anglais :https://x.com/BlockFlow_News












