TechFlow rapporte que, le 27 juin, Brian Armstrong, PDG de Coinbase, a publié un message présentant les derniers progrès réalisés par l’entreprise en matière d’optimisation des coûts liés à l’IA.
Armstrong explique que, face à la croissance continue de l’utilisation de l’IA et de la consommation de jetons (tokens), la maîtrise des coûts ne passe pas par des restrictions imposées aux employés ni par des rappels fréquents concernant les budgets, mais plutôt par l’optimisation du modèle par défaut, des mécanismes de routage des tâches et des stratégies de mise en cache.
Il révèle que Coinbase expérimente, via sa passerelle interne de modèles linguistiques volumineux (LLM), l’utilisation de modèles open-weight tels que GLM 5.2 et Kimi 2.7 comme options par défaut, tout en permettant aux ingénieurs de choisir d’autres modèles selon les besoins spécifiques de chaque tâche. Selon les données, 91 % des employés n’ont jamais atteint leur plafond d’utilisation de l’IA ; Coinbase a donc choisi de ne pas resserrer ces quotas, mais d’améliorer l’efficacité globale grâce à des solutions basées sur des modèles moins coûteux.
En ce qui concerne le routage des modèles, Coinbase procède à un prétraitement des prompts (instructions) et attribue automatiquement chaque tâche au modèle le plus adapté, en tenant compte à la fois du taux de réussite de la mise en cache (cache hit rate) et des tarifs propres à chaque modèle. Armstrong estime que des tâches complexes telles que la planification ou le raisonnement peuvent nécessiter des modèles de pointe, tandis que les tâches d’exécution ne requièrent pas forcément des modèles plus coûteux. À l’avenir, le choix du modèle devrait être effectué de manière automatisée par l’IA elle-même, plutôt que dépendre de décisions humaines.
Par ailleurs, il souligne que le taux de réussite de la mise en cache constitue l’un des facteurs clés influençant les coûts liés à l’IA. Coinbase a intégré un mécanisme « aware » de mise en cache dans son flux de requêtes afin d’accroître le taux de réutilisation des résultats historiques. Par exemple, après avoir optimisé sa stratégie de mise en cache, LibreChat a vu son taux de réussite passer de 5 % à 60 %.
Armstrong ajoute également que l’entreprise demande à ses ingénieurs de maintenir les contextes aussi concis que possible : ouvrir une nouvelle session lors du changement de tâche, réduire la portée du contexte lié aux fichiers et désactiver les outils non utilisés, afin de limiter la consommation inutile de jetons.
Selon lui, grâce à ces mesures, Coinbase est parvenue à réduire de près de 50 % ses dépenses liées à l’IA, tout en maintenant une croissance continue de la consommation de jetons.




