
L’économie des usines de jetons est en train de redéfinir l’ensemble du secteur de l’intelligence artificielle.
TechFlow SélectionTechFlow Sélection

L’économie des usines de jetons est en train de redéfinir l’ensemble du secteur de l’intelligence artificielle.
En seulement deux ans, le secteur des jetons a accompli un retournement spectaculaire : passant d’une phase de dépenses effrénées et de surcapacité à une situation de pénurie d’offre, accompagnée d’une hausse conjointe des volumes et des prix.
Auteur : Haishan
De la « guerre des prix » sur les jetons (tokens) à bas coût en 2024 à la hausse simultanée des tarifs annoncée en 2026 par Alibaba Cloud, Tencent Cloud et Baidu Intelligent Cloud.
En seulement deux ans, l’industrie des tokens a accompli un retournement spectaculaire : passant d’une course effrénée aux pertes, marquée par une surcapacité de production, à une situation de pénurie structurelle où l’offre ne parvient plus à suivre la demande, entraînant une hausse conjointe des volumes et des prix.
Depuis le début de l’année 2026, le secteur boursier chinois de l’infrastructure de calcul pour l’IA a enregistré une progression cumulée supérieure à 55 %. Des entreprises leaders en modèles linguistiques volumineux (LLM), telles que Moonshot (« Lune obscure ») et Zhipu AI, ont dépassé 1 milliard de yuans de revenus mensuels ; certaines ont même généré, en seulement 20 jours, davantage de revenus qu’elles n’en avaient réalisé sur l’ensemble de l’année 2025.
Cette révolution industrielle, qualifiée par Jensen Huang de « macroéconomie des usines à tokens », dépasse largement une simple vague spéculative technologique. Elle constitue désormais une tendance inéluctable, portée par une explosion réelle de la demande, un déséquilibre structurel entre offre et demande, ainsi qu’une concurrence mondiale accrue pour l’accès à l’énergie et à la puissance de calcul. La refonte de sa logique sous-jacente est en train de redéfinir intégralement les règles du jeu dans toute l’industrie de l’IA — et, plus profondément encore, les fondements mêmes du fonctionnement du monde.
01 Le « pétrole » de la nouvelle ère
L’essence de ce tournant industriel réside dans la transition globale du secteur de l’IA, d’une « course aux armements en modèles » vers une « course aux capacités de production de tokens ».
Avant 2024, la narration dominante était la suivante : « Plus les paramètres d’un modèle sont nombreux, plus il est intelligent ». Les principaux acteurs dépensaient des sommes colossales pour entraîner des modèles volumineux, tout en offrant des tokens gratuitement ou à prix cassé afin de conquérir des parts de marché — au point d’atteindre une situation aberrante où « vendre des tokens revenait moins cher que vendre de l’eau minérale ».
Mais l’explosion soudaine, en février 2026, de l’agent intelligent OpenClaw (surnommé « Homard ») a définitivement brisé ce paradigme.
Les grands modèles traditionnels fonctionnent selon un mode d’interaction « humain → IA », limité à un seul tour de dialogue, consommant entre 1 000 et 3 000 tokens. En revanche, les agents intelligents adoptent une architecture itérative « planifier–agir–observer–réfléchir », nécessitant des dizaines, voire des centaines d’appels au modèle pour traiter une tâche complexe : une tâche moyenne consomme environ 100 000 tokens, tandis qu’une tâche très complexe peut atteindre le million — ce qui leur vaut le surnom d’« écrabouilleurs de tokens » dans le secteur.
Les données publiées par l’Administration nationale des données confirment cette explosion : la consommation quotidienne moyenne de tokens en Chine est passée de 100 milliards au début de 2024 à 140 billions (140 000 milliards) en mars 2026 — soit une croissance supérieure à 1 000 fois en deux ans, et une hausse de 40 % rien que durant le premier trimestre 2026 par rapport à la fin de l’année 2025.
La narration sectorielle s’est dès lors totalement inversée : on ne compare plus les « plafonds d’intelligence » des modèles, mais bien la capacité de chacun à produire des quantités massives de tokens à moindre coût et de façon stable — autrement dit, à contrôler l’approvisionnement intelligent.
Face à une demande exponentielle, la rigidité structurelle du déséquilibre offre-demande constitue désormais le principal soutien à la vigueur persistante du marché des tokens. Ce déséquilibre n’est pas une fluctuation temporaire, mais bien une contradiction structurelle déterminée par les cycles longs de la chaîne de valeur.
Du côté de l’offre, trois goulots d’étranglement quasi insurmontables se font jour : premièrement, la production des composants matériels clés est monopolisée, et son extension prend un temps extrêmement long.
La mémoire à haute bande passante (HBM) est le « cœur » des serveurs IA. Samsung, SK Hynix et Micron détiennent collectivement plus de 95 % de la capacité mondiale de production. Or, leur cycle d’extension de capacité s’étend sur 24 à 36 mois, ce qui a généré, en 2026, un déficit HBM supérieur à 40 %.
Sous la pression de cette pénurie, le prix de la mémoire DDR5 standard a augmenté de 300 % en six mois ; une barrette de mémoire serveur de 256 Go coûte désormais plus de 40 000 yuans. Le délai de livraison des serveurs IA est passé de trois mois à douze mois.
Deuxièmement, l’électricité et l’énergie constituent le goulot d’étranglement le plus « invisible » mais le plus critique. La puissance électrique requise par un rack de centre de calcul intelligent est 10 à 20 fois supérieure à celle d’un centre de données traditionnel ; le coût de l’électricité représente plus de 60 % du coût total de production des tokens. Or, la construction des infrastructures électriques associées à de grands centres de données prend de trois à cinq ans. Dans les régions orientales de Chine, les quotas de puissance informatique sont devenus si rares qu’ils se négocient désormais « à coup de billet ».
Troisièmement, les capacités d’infrastructures et d’exploitation-maintenance ne parviennent pas à suivre l’explosion de la demande. Le taux de pénétration des centres de données à refroidissement liquide est passé de 15 % en 2024 à 45 % en 2026, mais les compétences techniques spécialisées et les capacités de construction restent gravement insuffisantes — ce qui empêche de nombreux parcs de calcul déjà construits de fonctionner à pleine charge.
Du côté de la demande, en revanche, une dynamique explosive en « trois étapes » se déploie, avec une persistance extrême de la croissance.
La première étape est la généralisation des agents intelligents grand public : les utilisateurs individuels passent progressivement d’un usage purement ludique ou conversationnel à l’emploi d’assistants IA pour la gestion de leurs courriels, la programmation ou la planification personnelle. Leur consommation quotidienne moyenne de tokens passe de quelques dizaines à plusieurs milliers — voire, à terme, à plusieurs dizaines de milliers.
La deuxième étape correspond au déploiement généralisé des applications productives en entreprise (B2B). L’IA cesse d’être perçue comme un simple outil « bonus » : les tokens deviennent un facteur de production central. Par exemple, Kunlun Tech et 58.com consomment chacun plus de 1 billion de tokens par mois ; la transformation numérique de secteurs tels que l’industrie manufacturière, la finance ou la santé libère une demande de tokens à l’échelle de plusieurs billions.
La troisième étape est l’essor de la demande internationale : les tokens générés par les grands modèles chinois coûtent 1/5 à 1/3 de ceux des modèles étrangers Claude ou GPT, ce qui leur permet de conquérir rapidement les marchés d’Asie du Sud-Est, du Moyen-Orient et d’Amérique latine grâce à leur excellent rapport qualité-prix. Au premier trimestre 2026, les revenus tirés à l’étranger par les fournisseurs chinois de services cloud ont bondi de 320 %, devenant ainsi un nouveau moteur de croissance.
Plus profondément, le token est en train de devenir la matière première fondamentale de l’ère de l’intelligence artificielle, remodelant l’ensemble du système de valeur de l’économie numérique. Tout comme l’électricité constituait l’énergie centrale de l’ère industrielle, et le trafic (traffic) l’actif central de l’ère internet, le token est aujourd’hui la ressource productive centrale de l’ère intelligente : il est mesurable, quantifiable, négociable — et il forme désormais l’ancrage universel de valeur reliant l’offre de puissance de calcul à la demande d’intelligence.
Ce changement induit une révolution complète des modèles économiques : le secteur quitte définitivement la voie classique de l’internet — « brûler de l’argent pour gagner de la taille » — pour entrer dans une nouvelle ère fondée sur la facturation à l’usage et pilotée par la rentabilité.
Les grandes entreprises adoptent majoritairement une stratégie consistant à « subventionner les utilisateurs grand public pour cultiver leurs habitudes, puis monétiser massivement les clients professionnels ». Ainsi, les tokens sont offerts gratuitement pendant une période limitée aux particuliers, tandis que les entreprises sont facturées précisément en fonction de leur consommation réelle. Au premier trimestre 2026, la marge brute des activités IA des principaux fournisseurs cloud a généralement dépassé 35 %, marquant la première réalisation d’une rentabilité à grande échelle.
Pour la Chine, cette révolution industrielle autour des tokens représente une opportunité historique de rattrapage accéléré. Le pays dispose du coût le plus bas au monde pour l’électricité verte, des infrastructures de calcul les plus complètes (sa capacité de production de serveurs représente plus de 60 % de la part mondiale), des cas d’usage les plus vastes et des modèles linguistiques volumineux les plus compétitifs sur le plan prix-performance — autant d’atouts lui permettant de remplir toutes les conditions pour devenir la « fabrique mondiale de tokens ».
Tout comme la Chine est devenue jadis la « fabrique du monde » grâce à ses avantages de coûts, elle est aujourd’hui en train de dominer la production et l’approvisionnement mondiaux en tokens, tirée par ses atouts combinés en matière d’énergie, de puissance de calcul et d’applications concrètes.
À court terme, le déséquilibre offre-demande devrait perdurer jusqu’à la fin de 2027, maintenant les prix des tokens à un niveau élevé et accélérant fortement la concentration sectorielle.
À long terme, avec la montée en puissance progressive des capacités de production de puces et l’optimisation de l’efficacité des modèles, les tokens entreront dans une ère de « prix abordable », pénétrant chaque recoin de l’économie nationale pour devenir le moteur central de la croissance numérique.
02 Quelle est la situation actuelle des segments spécialisés ?
Parallèlement au retournement global de l’industrie des tokens — passant d’une « guerre des prix » à une « pénurie structurelle » — ses différents segments connaissent une différenciation structurelle.
Une dynamique distincte émerge désormais : contrôle des prix en amont, amélioration des marges en aval, et monétisation en aval. Les trois grands segments — la production matérielle de puissance de calcul (amont), la coordination centrale des tokens (aval), et le déploiement concret dans des scénarios applicatifs (aval) — présentent chacun des barrières spécifiques, des niveaux de vitalité sectorielle contrastés et des logiques de répartition de la valeur radicalement différentes.
Premièrement, le matériel de puissance de calcul en amont, cœur de la « fabrique de tokens », constitue une exigence impérative dans un contexte de forte concentration oligopolistique.
Il couvre quatre sous-segments clés : les puces IA, les serveurs de calcul, les systèmes de refroidissement liquide et l’exploitation des centres de calcul intelligent. Ce segment est caractérisé par une structure oligopolistique marquée.
Les puces IA constituent le moteur central de la production de tokens. À l’échelle mondiale, NVIDIA détient plus de 90 % du marché des GPU haut de gamme.
Cependant, les leaders chinois de substitution locale progressent rapidement sur le marché coté A : la puce Cambricon « Simeng 590 » est désormais produite à grande échelle, adaptée aussi bien à l’inférence qu’à l’entraînement des grands modèles ; ses revenus issus des puces IA ont augmenté de 320 % au premier trimestre 2026.
Le produit DCU de Hygon Information connaît une pénétration supérieure à 30 % dans les centres de calcul intelligents chinois, et collabore étroitement avec des acteurs de premier plan tels que Sugon et Inspur. La série GPU JM9 de Jingjia Micro est déjà déployée dans des scénarios critiques de la souveraineté technologique (« xinchuang »), notamment dans les administrations publiques et le secteur financier, consolidant ainsi sa position de fournisseur central de GPU génériques chinois.
Les serveurs de calcul constituent le support physique de la capacité de production de tokens. Les leaders cotés A détiennent environ la moitié du marché mondial.
Inspur conserve sa place de leader mondial sur le marché des serveurs IA : ses volumes expédiés ont augmenté de 180 % au premier trimestre 2026. Sugon domine le marché national des serveurs à refroidissement liquide et fournit le support matériel à plus de 80 % des centres nationaux de calcul intelligent.
Le refroidissement liquide est une exigence impérative pour les centres de calcul à forte densité énergétique. Son taux de pénétration est passé de 15 % en 2024 à 45 % en 2026.
Overt (« Yingweike ») est le leader absolu du secteur du refroidissement liquide, liée contractuellement à NVIDIA, Inspur et Huawei. Ses commandes dans ce domaine ont augmenté de 210 % en 2026.
Shenling Environment a déployé ses solutions de centres de données à refroidissement liquide dans plusieurs centres nationaux de calcul intelligent, avec une croissance des commandes supérieure à 150 %.
Dans le segment de l’exploitation des centres de calcul intelligent, Baosight Software, Guanghuan New Network et Runze Intelligent Computing, grâce à leurs emplacements stratégiques et à leurs ressources en électricité verte, sont devenus les plus grands opérateurs tiers de centres de calcul intelligent en Chine. Leurs revenus tirés de la location de puissance de calcul ont tous augmenté de plus de 100 % au premier trimestre 2026.
Ensuite, le segment intermédiaire — les « hubs de tokens » — évolue d’une guerre des prix vers une guerre de la valeur.
Le segment intermédiaire de l’industrie des tokens assume les fonctions centrales de coordination de la puissance de calcul, de fourniture de services modélaires et de sortie normalisée des tokens. Ses acteurs se divisent principalement en deux catégories : les fabricants de grands modèles et les fournisseurs de services cloud.
Les leaders chinois de grands modèles cotés A ont désormais défini des parcours commerciaux clairs pour leurs tokens.
Par exemple, le modèle « TianGong » de Kunlun Tech dépasse désormais 1,2 trillion de tokens appelés quotidiennement ; il compte plus de 120 000 clients professionnels payants et propose un service d’entreprise à un tarif n’excédant qu’un quart de celui des modèles étrangers. Ses revenus issus de l’IA ont augmenté de 450 % au premier trimestre 2026.
Le modèle « Xinghuo » de iFLYTEK se concentre sur des scénarios verticaux tels que l’éducation, la santé et le travail de bureau, et 70 % de sa consommation de tokens provient d’applications professionnelles productives.
Du côté des fournisseurs de services cloud, bien qu’Alibaba Cloud, Tencent Cloud et VolcEngine ne soient pas cotés sur le marché A, les entreprises chinoises de leur écosystème en tirent pleinement profit : Yonyou Network et Kingdee International (cotée à Hong Kong) développent des applications IA pour les entreprises sur la base d’Alibaba Cloud, devenant ainsi des canaux essentiels de consommation de tokens.
Enfin, les scénarios applicatifs en aval, véritable débouché ultime de la valeur des tokens, s’insèrent progressivement dans les usages grand public (C) et les besoins professionnels (B).
Les applications en aval peuvent être classées en trois catégories : les usages grand public (C), les services professionnels (B) et la numérisation des secteurs verticaux. Les volumes de consommation de tokens et les rythmes de commercialisation varient fortement selon les scénarios.
Les scénarios grand public (C) mettent l’accent sur l’accessibilité universelle, centrés principalement sur les assistants IA personnels, la génération de contenus et la conception créative.
Sur le marché A, Wanxing Technology, avec ses logiciels créatifs IA (« MiaoYing Factory », « Wanxing AI Painting »), compte plus de 5,5 millions d’utilisateurs payants à l’échelle mondiale. Sa consommation de tokens a augmenté de 320 % au premier trimestre 2026, tandis que l’optimisation de ses modèles a permis de réduire de 40 % le coût de tokens par utilisateur.
Colorful Information Technology propose une boîte mail IA et un assistant intelligent de bureau dont les utilisateurs cumulés dépassent 300 millions, avec une consommation quotidienne moyenne de tokens supérieure à 500 milliards.
Les services professionnels (B) représentent la principale source de consommation de tokens, absorbant plus de 65 % du volume total.
Par exemple, le service d’assistance à l’investissement IA de Tonghuashun couvre plus de 100 millions d’investisseurs particuliers, avec une consommation quotidienne moyenne de tokens dépassant 800 milliards. Ses revenus liés à l’IA ont augmenté de 190 % au premier trimestre 2026.
La plateforme IA industrielle de SUPCON fournit des services intelligents de maintenance prédictive aux secteurs de la chimie et de l’énergie : la consommation annuelle moyenne de tokens par usine dépasse 5 millions.
Le système d’aide au diagnostic médical IA de Rundar Medical est déployé dans plus de 3 000 hôpitaux à travers la Chine, traitant quotidiennement plus de 200 milliards de tokens issus de textes médicaux.
Globalement, les scénarios verticaux professionnels (B) constituent le moteur de croissance à long terme de l’industrie des tokens. La transformation IA des domaines tels que la conduite autonome, la fabrication intelligente et la finance numérique libère une demande de tokens à l’échelle de plusieurs trillions.
03 Quelles entreprises sont en plein vent ?
Selon les lois structurelles du secteur, l’industrie des tokens a entièrement quitté la phase de « compétition entre modèles » pour entrer dans celle de la « compétition sur la capacité de production et la monétisation ». Le déséquilibre offre-demande, combiné à une accélération rapide de la valorisation commerciale, a permis à six entreprises leaders cotées A de s’ancrer solidement dans les trois grands segments — matériel de puissance de calcul (amont), modèles intermédiaires (aval) et applications en aval — devenant ainsi les actifs les plus prometteurs de cette économie des « mille milliards de tokens ».
Premièrement, Inspur Information, leader absolu des serveurs IA et pilier de la capacité de production de tokens. Entreprise numéro un mondiale sur le marché des serveurs IA, Inspur constitue le support matériel central permettant le fonctionnement des « usines à tokens » à l’échelle mondiale. Grâce à un partenariat étroit avec NVIDIA, elle bénéficie d’un accès prioritaire aux allocations de GPU haut de gamme, ce qui renforce des barrières d’approvisionnement et d’échelle absolument incontournables.
Au premier trimestre 2026, ses volumes expédiés de serveurs IA ont augmenté de plus de 150 % en glissement annuel, sa part de marché mondiale a dépassé 25 %, et ses commandes non encore livrées avoisinent les 40 milliards de yuans, avec des livraisons programmées jusqu’à la fin de 2027 — ce qui en fait l’actif le plus fiable et le plus déterminé du secteur.
Deuxièmement, Overt (« Yingweike »), leader du refroidissement liquide et « cœur refroidissant » des usines à tokens. Avec l’augmentation drastique de la densité de puissance des centres de calcul intelligents, le refroidissement liquide est devenu une exigence indispensable à la production à grande échelle de tokens. Son taux de pénétration est passé de 15 % en 2024 à 45 % en 2026. Au premier trimestre 2026, ses revenus issus du refroidissement liquide ont augmenté de plus de 210 % en glissement annuel, et sa visibilité sur les commandes s’étend jusqu’en 2027 — ce qui en fait l’actif le plus sensible à la croissance dans le segment amont.
Troisièmement, Kunlun Tech, pionnière de la commercialisation des grands modèles et référence en matière de monétisation des tokens. Kunlun Tech est la première entreprise cotée A à avoir réalisé une rentabilité à grande échelle sur les tokens. Son service d’entreprise est proposé à un prix n’excédant qu’un tiers à un quart de celui des modèles étrangers, ce qui lui permet de conquérir rapidement le marché des petites et moyennes entreprises.
Au premier trimestre 2026, sa consommation quotidienne moyenne de tokens a dépassé 1,2 trillion, avec plus de 120 000 clients professionnels payants. Ses revenus issus de l’IA ont augmenté de plus de 450 % en glissement annuel, avec une marge brute maintenue au-dessus de 42 % — ce qui en fait l’actif le plus pur et le plus directement lié à la monétisation des tokens sur le marché A.
Quatrièmement, iFLYTEK, leader des grands modèles verticaux et vecteur central des tokens sectoriels. iFLYTEK s’est profondément ancrée dans des domaines verticaux tels que l’éducation, la santé et l’industrie. Plus de 70 % de la consommation de tokens générée par son modèle « Xinghuo » provient d’applications professionnelles productives, ce qui confère à la demande une rigidité extrême.
Grâce à ses années d’expérience accumulée dans ces secteurs, iFLYTEK dispose de barrières solides en termes de scénarios d’usage et de données. Ses commandes de services personnalisés de tokens pour les administrations et les entreprises augmentent rapidement, et la part de ses revenus liés à l’IA devrait dépasser 60 % en 2026. À mesure que la pénétration de l’IA dans les secteurs verticaux continuera de s’accroître, l’entreprise bénéficiera pleinement des dividendes de long terme liés à la demande de tokens découlant de la numérisation industrielle.
Enfin, Wanxing Technology, leader des applications IA grand public à l’international et pivot central de la consommation individuelle de tokens. Wanxing Technology est le leader mondial des outils créatifs IA grand public, ses produits de montage vidéo et de peinture IA comptant plus de 5,5 millions d’utilisateurs payants. Une fois toutes les fonctions IA pleinement déployées, la volonté de paiement des utilisateurs et leur durée d’utilisation ont considérablement augmenté : sa consommation de tokens a augmenté de plus de 320 % au premier trimestre 2026.
Dans l’ensemble, cette vague de croissance autour des tokens constitue une opportunité à long terme, portée par la demande réelle. À court terme, on peut privilégier les leaders matériels en amont tels qu’Inspur Information et Overt. À moyen terme, il convient de se positionner sur des références commerciales telles que Kunlun Tech. À long terme, les leaders des scénarios verticaux comme iFLYTEK offrent les perspectives les plus prometteuses. Les entreprises de qualité bénéficieront ainsi d’une double hausse — tant de leurs résultats que de leurs valorisations — dans ce cycle de croissance exceptionnellement dynamique.
Bienvenue dans la communauté officielle TechFlow
Groupe Telegram :https://t.me/TechFlowDaily
Compte Twitter officiel :https://x.com/TechFlowPost
Compte Twitter anglais :https://x.com/BlockFlow_News














