
Comprendre en un seul article le nouveau modèle de l’économie des jetons
TechFlow SélectionTechFlow Sélection

Comprendre en un seul article le nouveau modèle de l’économie des jetons
Une couche intermédiaire de distribution de jetons, reliant les fournisseurs de grands modèles aux développeurs, est en pleine émergence : les véritables marges se trouvent dans l’accélération de l’inférence, l’intégration entreprise et la mise en œuvre concrète dans des scénarios d’usage.
Rédaction : Zhao Ying
Source : WallStreetCN
La monétisation des applications d’IA évolue progressivement de la vente de logiciels ou d’abonnements vers la vente de capacités d’appel de jetons (« Token »). Ici, le terme « Token » désigne l’unité minimale d’information traitée par les grands modèles linguistiques (LLM), ainsi que la base de facturation, de règlement et de consommation des API de ces modèles. À mesure que le volume d’appels augmente, les jetons commencent à être achetés, routés, fractionnés et revendus comme une véritable « réserve de stock ».
Dans une étude récente sur le secteur des médias, Chen Liangdong, analyste chez Huayuan Securities, résume cette évolution fondamentale ainsi : « L’exploitation des jetons est en train de donner naissance à un nouveau marché intermédiaire — à savoir l’exploration de modèles de distribution de jetons reliant les fabricants de grands modèles (en amont) aux développeurs, entreprises et particuliers (en aval). En substance, il s’agit d’une infrastructure de liquidité pour le réseau mondial de gros à détail des jetons. »
Le contexte d’émergence de ce modèle économique n’est pas complexe : d’un côté, la demande chinoise de jetons connaît une croissance exponentielle — le volume quotidien moyen d’appels était de 100 milliards début 2024, a atteint 100 000 milliards fin 2025, puis a dépassé 140 000 milliards en mars 2026 ; de l’autre, les grands modèles chinois ont franchi une nouvelle étape en termes de performances, figurant désormais dans le peloton de tête mondial sur certains classements et en volume d’appels. La demande augmente, le nombre de modèles se multiplie, mais les verrous réels du commerce se situent désormais au niveau des paiements, des réseaux, des interfaces, de la conformité réglementaire, des canaux de distribution et de l’intégration opérationnelle.
Toutefois, la distribution de jetons ne saurait se réduire à une simple « revente de quotas d’API ». La marge la plus mince provient de la différence entre le prix d’achat et celui de revente ; la part la plus substantielle provient plutôt de l’accélération du calcul d’inférence, de la standardisation des interfaces, de l’ingénierie des prompts destinée aux entreprises, de l’orchestration d’agents (Agent), du choix optimal de modèles et de l’intégration aux systèmes informatiques métiers. Précisément parce que les barrières à l’entrée sont relativement faibles, les risques inhérents à ce marché sont tout aussi directs : intensification de la concurrence, nécessité de financement anticipé et risque de créances douteuses, changements de politique des fournisseurs de modèles en amont — autant de facteurs susceptibles de comprimer les marges du maillon intermédiaire.
Les jetons ont désormais leurs « grossistes » et leurs « détaillants »
La chaîne de distribution des jetons implique trois catégories d’acteurs.
En amont figurent les fournisseurs de modèles, tels que la série Seedance de ByteDance, la série Qwen d’Alibaba, la série GLM de Zhipu AI, la série Kimi de Moonshot, ou encore la série DeepSeek — ils constituent la source première d’approvisionnement en jetons.
Au centre se trouvent les plateformes de distribution, chargées d’intégrer les ressources de modèles provenant de l’amont, puis de les redistribuer aux utilisateurs finaux. Leur rôle va bien au-delà d’une simple revente de quotas : elles doivent notamment convertir les protocoles d’interface propres à chaque modèle en un format d’API unique, permettant ainsi aux clients aval d’accéder à plusieurs modèles via une seule clé API.
En aval se trouvent les véritables consommateurs de jetons : particuliers, développeurs, entreprises clientes, voire des distributeurs secondaires.
La valeur ajoutée de ce maillon intermédiaire réside principalement dans plusieurs domaines : une connectivité directe locale réduisant les obstacles liés aux réseaux ; une compatibilité unique (un seul code suffit pour accéder à plusieurs modèles) ; la prise en charge de paiements individuels et professionnels ; des coûts unitaires potentiellement réduits grâce à des achats groupés ; et la consolidation sur une même plateforme de modèles variés tels que GPT, Claude, DeepSeek ou Kimi — ce qui diminue considérablement les coûts d’intégration répétée pour les développeurs.
Ainsi, la distribution de jetons apparaît comme un modèle léger, ne nécessitant ni l’entraînement de grands modèles ni le déploiement massif de grappes serveurs. Ses actifs clés deviennent alors le système centralisé de routage et d’orchestration des API, les ressources de modèles issues de l’amont, les canaux commerciaux et la capacité de service.
L’explosion du volume d’appels constitue le carburant le plus direct de ce modèle économique
Pour que le modèle d’exploitation des jetons soit viable, un volume de consommation suffisamment élevé est indispensable.
En Chine, le volume quotidien moyen d’appels de jetons est passé de 100 milliards à plus de 140 000 milliards en seulement deux ans — une croissance supérieure à 1 000 fois. Cette expansion provient à la fois du déploiement croissant d’agents spécialisés dans divers secteurs verticaux, et de l’intégration progressive de l’IA générative dans davantage de processus métiers par les entreprises.
Selon les données d’IDC, la trajectoire est encore plus spectaculaire : le nombre d’agents intelligents actifs dans les entreprises chinoises devrait dépasser 350 millions d’ici 2031, avec un taux de croissance annuel composé (TCAC) supérieur à 135 % ; par ailleurs, à mesure que la densité et la complexité des tâches confiées aux agents augmentent, leur consommation annuelle de jetons pourrait croître de plus de 30 fois par an.
Ce phénomène est déjà observable chez les agents exécutifs. Ainsi, sur la plateforme OpenRouter, la consommation hebdomadaire de jetons par OpenClaw est passée de 0,81 T (téra-jeton) entre le 2 février et le 16 mars 2026, à 4,97 T, tandis que sa part dans le volume total est montée de 8,31 % à 24,36 %.
Dès lors que les jetons deviennent un produit de grande consommation, les processus d’achat, de tarification, de routage et de règlement qui leur sont associés se structurent naturellement en couches distinctes. Les fournisseurs de modèles ne sont pas forcément en mesure de servir directement chaque client, et les utilisateurs finaux ne souhaitent pas nécessairement intégrer séparément chacun des modèles disponibles — c’est précisément dans cet espace que s’inscrit le maillon intermédiaire.
La rentabilité des modèles chinois ouvre la voie à l’exportation des jetons
L’amélioration des performances des grands modèles chinois constitue le facteur décisif permettant de faire passer la distribution de jetons du marché national au marché transfrontalier.
Selon les données de SuperCLUE, les modèles chinois tels que DouBao (ByteDance) ou la série DeepSeek obtiennent désormais des scores globaux supérieurs à 70 points, réduisant significativement l’écart avec les modèles leaders internationaux tels que GPT-5.4 ou Gemini ; quant à Qwen, Kimi ou GLM de Zhipu AI, ils forment également des hiérarchies clairement différenciées.
Sur OpenRouter, au cours de la semaine allant jusqu’au 10 mai 2026, le modèle Hy3 preview (gratuit) de Tencent occupait la première place en volume d’appels ; parmi les cinq, dix et vingt premiers modèles, on comptait respectivement 2, 6 et 9 modèles chinois.
Un changement encore plus emblématique s’est produit au premier trimestre 2026. Du 9 au 15 février, les modèles chinois ont généré sur OpenRouter un volume d’appels de 4,12 billions de jetons, dépassant pour la première fois le volume américain correspondant de 2,94 billions. Du 16 au 22 février, ce volume hebdomadaire chinois a grimpé à 5,16 billions de jetons ; parmi les cinq modèles les plus sollicités sur la plateforme, quatre étaient issus de sociétés chinoises — MiniMax M2.5, Kimi K2.5, GLM-5 de Zhipu AI et DeepSeek V3.2 — représentant à eux seuls 85,7 % du volume total des cinq premiers.
L’avantage concurrentiel en matière de prix est également frappant. Le coût d’entrée (input) pour MiniMax M2.5 et GLM-5 s’élève à 0,30 USD par million de jetons, contre 5 USD pour Claude Opus 4.6 ; en sortie (output), les prix sont respectivement de 1,10 USD (MiniMax M2.5), 2,55 USD (GLM-5) et 25 USD (Claude Opus 4.6). Dans des scénarios à forte consommation de jetons — tels que les agents IA ou le développement de code — cet avantage en termes de rapport qualité-prix ne fait que s’amplifier.
L’imperfection de la répartition mondiale des ressources IA transforme les plateformes de routage en « stations de transit »
La distribution de jetons ne résout pas uniquement les problèmes de prix, mais aussi ceux de la mauvaise allocation des ressources.
En raison des restrictions géographiques d’accès, des contraintes réglementaires et des seuils de paiement élevés, les grands modèles internationaux ne peuvent pas toujours atteindre directement certains utilisateurs, notamment les développeurs basés en Chine continentale. Inversement, les modèles chinois de haute qualité rencontrent eux-mêmes des difficultés lorsqu’ils cherchent à pénétrer les marchés étrangers — localisation, déploiement de canaux de distribution et acquisition de clients posent autant de défis.
Cette asymétrie alimente la demande de transferts transfrontaliers, de routage agrégé et de distribution hiérarchisée.
OpenRouter en constitue déjà un exemple typique. Son volume de traitement de jetons est passé de 5 à 7 billions par semaine en 2025, à plus de 20 billions par semaine en avril 2026 ; son chiffre d’affaires annuel a dépassé 50 millions de dollars américains en 2026, soit environ cinq fois plus que les revenus annuels déclarés de plus de 10 millions de dollars en octobre 2025.
Des plateformes similaires existent également en Chine. SiliconFlow est une plateforme cloud tout-en-un pour grands modèles, reposant sur un moteur d’inférence propriétaire permettant une accélération efficace des calculs, tout en offrant des services de modèles de grande taille adaptés aux entreprises. Au 31 décembre 2025, la plateforme comptait plus de 9 millions d’utilisateurs inscrits, dont plus de 10 000 entreprises, et hébergeait plus de 150 modèles.
Même des capitaux américains liés à la sphère politique se sont lancés dans ce domaine. Le 5 mai 2026, WLFI — société de cryptomonnaies étroitement associée à Donald Trump et à sa famille — a collaboré avec WorldClaw pour lancer WorldRouter, une plateforme intégrant plus de 300 modèles, dont Claude, GPT et Gemini, avec des transactions libellées en USD 1 et des tarifs inférieurs d’environ 30 % aux tarifs publics officiels.
Le profit réel ne réside pas nécessairement dans la « marge de revente »
Trois modes de génération de revenus caractérisent la distribution de jetons.
Le premier est la marge de revente : la plateforme achète en gros des quotas d’API auprès des fournisseurs de modèles en amont, puis les revend à ses clients en aval avec une majoration. OpenRouter applique ainsi une surcharge d’environ 5,5 % sur ses coûts d’approvisionnement — un cas emblématique de ce modèle.
Le second est la prime technologique : la plateforme réduit le coût unitaire d’exécution d’un jeton grâce à un moteur d’inférence propriétaire, permettant ainsi de générer une marge brute même lorsque le prix de vente reste proche, voire inférieur, aux tarifs officiels. Les technologies SiliconLLM et OneDiff de SiliconFlow accélèrent respectivement de 10 fois les inférences de modèles linguistiques et de 3 fois la génération d’images à partir de texte, ramenant ainsi le coût d’appel des API de grands modèles à un dixième du niveau industriel.
Le troisième est la fourniture de services à valeur ajoutée destinés aux entreprises. Le coût global du déploiement de l’IA pour une entreprise ne se limite pas au prix unitaire des jetons : il englobe également l’ingénierie des prompts, le choix multicritères entre modèles, l’intégration aux systèmes métiers, l’orchestration des flux de travail, la gestion des opérations et la formation des employés aux compétences IA. Une fois que le prix de base des jetons baisse, ces coûts implicites deviennent justement des leviers de monétisation privilégiés.
La plateforme MaaS (Model-as-a-Service) d’entreprise de SiliconFlow illustre parfaitement cette approche : elle propose aux entreprises trois niveaux de services — entraînement et affinage des modèles, déploiement et inférence, soutien au développement d’applications — couvrant le traitement des données, l’ajustement fin des modèles (fine-tuning), l’ingénierie des prompts et les techniques RAG (Retrieval-Augmented Generation), et livrant finalement des fonctionnalités sous forme d’API normalisées aux secteurs de l’énergie, de la finance ou du gouvernement.
Marketing, séries courtes, jeux vidéo et e-commerce : des scénarios à forte consommation de jetons
Pour générer des revenus, la distribution de jetons doit inévitablement s’ancrer dans des usages concrets.
Les applications d’IA générative pénètrent progressivement des secteurs tels que la santé, les transports, la fabrication industrielle, ou encore le soutien à la prise de décision stratégique et à la gestion d’entreprise. Toutefois, de nombreuses entreprises disposent encore de bases fragiles en matière de transformation numérique, accumulent insuffisamment d’actifs de données et investissent peu en puissance de calcul — ce qui rend difficile un déploiement direct de capacités IA.
À l’inverse, les agences de marketing disposent déjà de clients et de scénarios d’application concrets — notamment dans les domaines des séries courtes, des mangas animés, des jeux vidéo ou de l’e-commerce — où la demande de jetons est à la fois plus immédiate et plus pérenne. Pour ces entreprises, l’opportunité ne réside pas seulement dans la revente de capacités de modèles, mais surtout dans l’intégration des jetons aux processus de génération de contenus, de diffusion publicitaire, de production de supports ou de création vidéo pour leurs clients.
Les pistes d’investissement suivent deux axes principaux :
La première concerne les entreprises dotées de modèles de haute qualité, telles qu’Alibaba, Tencent Holdings, Kuaishou, Kunlun Tech, Zhipu AI ou MiniMax.
La seconde concerne celles possédant des scénarios d’usage riches en jetons et une clientèle de qualité — notamment des entreprises disposant de ressources clients à l’international et d’expertise en marketing, prêtes à investir activement dans les domaines du marketing IA et de la vidéo IA, comme Yidian Tianxia ou BlueFocus.
Les risques sont tangibles : faible seuil d’entrée, besoin de financement anticipé, pouvoir décisionnel exclusif des fournisseurs en amont
Bien que le modèle économique de distribution de jetons soit léger, sa « mo moat » (sa barrière à l’entrée) n’est pas intrinsèquement profonde.
La concurrence entre pairs constitue le premier risque. Ce type d’activité présente un faible seuil technique : dès lors qu’un acteur majeur entre sur le marché avec des avantages financiers, commerciaux et logistiques, il peut rapidement dupliquer le modèle et comprimer les marges.
Le financement anticipé et le risque de créances douteuses constituent le deuxième risque. Les distributeurs accordent souvent à leurs clients aval des conditions de paiement mensuelles ou trimestrielles, tandis qu’ils doivent payer comptant leurs fournisseurs en amont pour acquérir des quotas d’API. Plus le volume de consommation de jetons augmente, plus la pression de financement anticipé s’accroît ; en cas de retards de paiement de la part des clients, le risque de créances douteuses augmente proportionnellement.
Les changements de politique des fournisseurs de modèles en amont constituent le troisième risque. Ces derniers détiennent le contrôle absolu sur les prix des API et les règles d’accès, pouvant à tout moment modifier leurs tarifs ou restreindre l’accès tiers. Pour le maillon intermédiaire, il s’agit là du facteur le plus difficile à maîtriser.
Bienvenue dans la communauté officielle TechFlow
Groupe Telegram :https://t.me/TechFlowDaily
Compte Twitter officiel :https://x.com/TechFlowPost
Compte Twitter anglais :https://x.com/BlockFlow_News














