
L’anxiété des investisseurs en IA en 2026 : lorsque les modèles « dévorent » tout, quels sont encore les moats des startups ?
TechFlow SélectionTechFlow Sélection

L’anxiété des investisseurs en IA en 2026 : lorsque les modèles « dévorent » tout, quels sont encore les moats des startups ?
Panique des investisseurs en 2026 autour de l’IA : donnez tout votre argent à Anthropic et à NVIDIA, puis allez dormir.
Auteur : Sarah Guo
Traduction : TechFlow
Introduction de TechFlow : Lorsque les grands modèles commencent à surpasser systématiquement les humains sur tous les classements, les investisseurs tombent dans un état de désespoir : « À part Anthropic et NVIDIA, que reste-t-il à financer ? » Cette investisseuse de premier plan de la Silicon Valley explique, à l’aide de données et d’exemples concrets, que la véritable moine n’est pas visible sur les classements — elle réside précisément là où les benchmarks ne peuvent rien mesurer.
Milieu 2026 : une forme de « folie collective » s’empare des investisseurs en IA — un désespoir profond : « Rien ne vaut plus la peine d’être financé ; nous devrions investir tout notre argent dans Anthropic et NVIDIA, puis rentrer chez nous. »
J’ai moi-même jamais éprouvé ce sentiment. Je suis convaincue depuis longtemps que les modèles me dépassent de plusieurs générations ; j’achèterais volontiers Anthropic et NVIDIA au prix du marché ; tous mes amis les plus brillants sont largement persuadés que l’amélioration autonome réussira bientôt — pourtant, je ne ressens pas ce désespoir.
Ce désespoir n’est pas irrationnel. Le raisonnement est le suivant : si les modèles progressent continuellement dans tous les domaines, alors chaque entreprise construite sur leur base n’est qu’un simple emballage superficiel, destiné à être absorbée ; la seule valeur durable réside dans la puissance de calcul et les poids les plus avancés.
Prenons l’exemple des logiciels — le cas le plus invoqué par les tenants du désespoir. Lorsqu’il a été lancé en 2024, Devin ne parvenait à résoudre que 13 % des tâches standard sur les benchmarks logiciels, et fut donc largement ignoré. Un an et demi plus tard, les meilleurs agents atteignent des scores supérieurs à 80 et accomplissent déjà des missions réelles au sein de Goldman Sachs et de l’armée américaine. Presque tout le monde en tire la même conclusion erronée : les modèles ont « mangé » l’ingénierie logicielle. Or, dès lors que les modèles absorbent la partie la plus facile à mesurer de l’ingénierie logicielle, nous redécouvrons ce que de nombreuses équipes savaient déjà : l’ingénierie résiste fondamentalement à la mesure, et la partie la plus facile à quantifier n’est pas nécessairement la plus importante.
Mert Demirer du MIT et ses collaborateurs ont enfin fourni des chiffres : parmi plus de 100 000 développeurs, les agents de codage les plus récents augmentent d’environ 180 % le volume de code écrit, tandis que le volume effectivement publié augmente d’environ 30 %. Écrire du code coûte désormais moins cher. La part restante continue de dépendre entièrement de l’intervention humaine — et demeure cruciale. Bien entendu, l’impact net reste spectaculaire.
Un benchmark mesure ce qui peut être mesuré, et ce qui peut être mesuré peut aussi être utilisé comme cible d’entraînement. C’est pourquoi les agents de codage mûrissent les premiers : le compilateur est un vérificateur gratuit, la suite de tests est un vérificateur gratuit, et lorsque la réponse se vérifie elle-même gratuitement, on peut affiner sans cesse jusqu’à la battre. Mais passer un test ne dit jamais si une modification est pertinente pour une base de code ancienne de dix ans, dotée de trois modules aux justifications non documentées, dont le pipeline de déploiement repose sur un job cron maintenu tant bien que mal par quelqu’un qui refuse d’en revendiquer la paternité.
Cette forme de « justesse » ne peut être lue sur aucun classement — ni sur aucune autre source. On ne la découvre qu’en faisant fonctionner suffisamment longtemps un système complexe dans le monde réel, afin de vérifier son efficacité effective ; or, des modèles plus intelligents ne font pas tourner le monde plus vite. Personne ne fait passer de tests unitaires à l’échelle de Google et ne se contente de croire au « vert » du résultat ; on y croit parce que le système a résisté pendant des années à des charges réelles. Une telle justesse est non seulement privée, mais constitue aussi une moine lente, indestructible par le capital. Même les optimistes reconnaissent que l’horloge ne peut être accélérée : Noam Brown, pionnier des modèles de raisonnement chez OpenAI, a récemment écrit que la seule méthode fiable pour évaluer un agent sur une période d’un an pourrait bien être… de le faire fonctionner pendant un an.
Comme l’a dit Gabe Pereyra, l’automatisation véritable ne consiste pas simplement à améliorer les modèles. Elle implique la convergence simultanée de produit, modèle, flux de travail et entreprise — or, trois de ces quatre éléments évoluent à la vitesse organisationnelle.
Ce qui bouge — les personnes — échappe totalement aux benchmarks : convaincre un associé sceptique de modifier sa façon de travailler, maintenir la cohésion d’une équipe durant une refonte. Voilà pourquoi, lorsqu’on recrute un PDG, la capacité à gérer les relations humaines compte au moins autant que les compétences analytiques — et des modèles plus intelligents ne changeront pas ce rapport de poids. Les retours sont flous, les échéances s’étendent sur plusieurs années, et la confiance appartient à une personne. Toutes les entreprises que je connais ont mis à disposition de leurs ingénieurs les modèles de codage les plus avancés, mais aucune n’a transformé son organisation technique à un rythme comparable. L’adoption a pris un trimestre — quelle progression incroyable en termes de tokens ! — mais la refonte prendra plusieurs années.
Ce qui disparaît est visible. Or, le travail à forte valeur ajoutée est structurellement invisible : tout ce qui peut figurer sur un classement peut aussi servir d’objectif d’entraînement ; ainsi, tout ce qui est mesurable est déjà engagé sur la voie de la marchandisation. Ce processus prend du temps et ne sera jamais achevé, mais sa direction est irréversible. Pour reprendre les termes monétaires employés par mon ami Matt MacInnis, de Rippling : les tokens dépensés pour répondre à des questions générales valent presque rien, car n’importe quel modèle peut y répondre ; en revanche, ceux consacrés au raisonnement sur les données propres à votre entreprise ont une valeur bien plus élevée, car ils accomplissent ce que vous souhaitez vraiment — et non pas simplement quelque chose qui semble plausible.
Le travail visible est « mangé » sous deux angles. Par le bas : la saturation des tâches. Dès qu’une tâche peut être vérifiée à moindre coût, les acheteurs cessent de demander quel modèle l’a réalisée, et commencent à s’interroger sur son coût ; le travail échoit alors au modèle open source ou distillé le moins cher de la semaine. Partout où ils produisent un impact, les marges finissent toujours par compter. Par le haut : les laboratoires tentent de faire « digérer » aux modèles leurs propres échafaudages. La recherche (retrieval), le routage entre appels coûteux et bon marché, l’utilisation d’outils, voire les stratégies de raisonnement — tous les dispositifs qui entouraient autrefois les modèles sont intégrés dans leurs poids, jusqu’à ce que l’emballage soit lui-même le modèle. C’est là l’absorption de l’avant-garde. La pression sur les marges agit aussi en sens inverse : un agent général doit être prêt à tout faire, ce qui coûte cher, tandis qu’une application spécialisée peut ajuster son flux de travail jusqu’à ce qu’il fonctionne avec une fraction minime de tokens dépensés — et contrairement aux laboratoires qui vendent ces tokens, elle conserve la marge.
Ainsi, pour tout type de travail, on peut poser deux questions. Sa justesse est-elle privée et coûteuse à établir ? S’agit-il d’une vérité qui n’existe que dans les données internes d’une organisation ? Est-il isolé, verrouillé dans un système auquel on ne peut accéder ? En confrontant cela au degré de saturation de la tâche, on obtient une matrice 2×2. Les tâches saturées à réponse publique constituent des « tokens marchands », appartenant aux modèles open source. Les tâches avant-gardistes à réponse publique — celles des benchmarks de codage — sont le terrain de prédilection des laboratoires, car lorsque l’évaluation est gratuite, la posséder ne représente pas grand-chose. Le vrai prix se trouve dans le dernier quadrant : les tâches avant-gardistes dont la justesse n’est pas entraînable. On peut l’observer dans les nuages d’inférence hébergeant les pionniers natifs de l’IA : la grande majorité des tokens y sont générés par des modèles personnalisés, non par des modèles open source généralistes.
La hauteur du mur menant à ce dernier quadrant varie fortement. Une base de code jouet d’un seul développeur est portable et standardisée : l’escalade est courte. En revanche, les systèmes de production bancaire ne sont ni l’un ni l’autre : vous n’obtiendrez pas les droits root pour avoir été 2 % plus performant sur SWE-Bench Verified.
Les capacités absorbent beaucoup de choses, mais des modèles meilleurs ne transforment pas les faits fondamentaux privés en faits publics. Ils ne détiennent aucune licence, ne signent aucune responsabilité, ne possèdent aucun document de l’entreprise, et ne peuvent être poursuivis en justice si leur réponse est erronée. L’intelligence n’est pas ici le goulot d’étranglement. Ce sont la licence et la responsabilité. On peut imaginer un modèle infiniment plus intelligent que n’importe qui, qui devrait néanmoins obtenir l’autorisation d’entrer, et pour lequel quelqu’un devrait signer en son nom les résultats produits.
Cette porte comporte une serrure et un loquet. La serrure est l’environnement : vous ne pouvez vérifier si l’IA accomplit une tâche utile qu’après avoir acquis la confiance interne du système, passé les audits de sécurité, réalisé l’intégration, et signé un contrat engageant votre responsabilité sur les résultats. Le loquet est l’utilisateur. Aujourd’hui, la plupart des médecins américains ouvrent quotidiennement OpenEvidence — aucune quantité de puissance de calcul ne peut acheter cette habitude. Même si un laboratoire formait demain un modèle médical parfait, il ne pénétrerait ni dans les habitudes des médecins, ni dans les processus décisionnels de l’Université de Californie à San Francisco, car la confiance se construit lentement, sur la base de relations, nécessite l’assentiment implicite des utilisateurs — et non leur effacement via une descente de gradient.
Cela aussi est du travail. Une application conquiert sa place dans ce quadrant « non entraînable » en accomplissant un travail discret : organiser la réalité privée de l’entreprise afin que le modèle puisse y agir, fournir au modèle les outils nécessaires à l’action, collaborer avec les clients pour transformer la réalité de leurs employés. Une société offrant des services de traduction est difficile à copier — or, la traduction ne prend jamais fin. L’intégration et la maintenance durent aussi longtemps que les relations elles-mêmes, et sont remportées par des équipes plaçant des ingénieurs spécialisés et des outils directement aux côtés des clients.
Prenons l’exemple d’un cabinet juridique prestigieux : son activité fusion-acquisition (M&A) traite chaque année près de mille transactions. Pour des raisons de confidentialité et bien d’autres encore, il est impossible de laisser des centaines d’assistants télécharger individuellement les dossiers clients sur leurs postes et demander à un agent général de les parcourir. Même si cela était possible, les apprentissages seraient fragmentés, corrigés un assistant à la fois, sans jamais voir comment la transaction entière s’articule. Les signaux essentiels existent au niveau de la transaction, qui possède une structure propre : pour les M&A, il s’agit des accords de confidentialité, des listes de termes, de la diligence raisonnable, des accords d’achat, des documents annexes et des listes de livraison ; pour les litiges en propriété intellectuelle, ce sont les requêtes, la découverte probatoire, les antériorités, puis davantage de requêtes. Chaque domaine métier possède sa propre structure, et ni les avocats ni les outils ne sont interchangeables entre domaines. Or, les problèmes réellement résolus par le cabinet se situent à un niveau supérieur : faire fonctionner simultanément chaque domaine métier, comme le font les associés les plus expérimentés qui pilotent des centaines de dossiers en parallèle, intègrent de nouveaux dossiers et forment leurs assistants. Transformer un tel cabinet n’est pas une tâche unique pour laquelle on pourrait concevoir un benchmark. Cela exige un opérateur capable d’appliquer une approche fondée sur l’analyse des données, avec des objectifs extrêmement flous, des retours incomplets, des échéances très longues, dans un environnement en perpétuel mouvement.
Malheureusement, cette valeur invisible est aussi difficile à vendre — pour les mêmes raisons qu’elle est difficile à marchandiser : les entreprises ne peuvent pas juger de l’extérieur si l’IA transformera ou non leurs opérations, tout comme aucun benchmark ne le peut. Les entreprises les plus performantes cessent donc d’essayer de le prouver depuis l’extérieur, et pénètrent à l’intérieur pour chiffrer les résultats. Sierra facture ses agents uniquement lorsqu’ils résolvent un problème client, et ne facture pas lorsqu’ils renvoient la demande à un humain — le prix devient alors lui-même l’évaluation, ce qui ne fonctionne que si Sierra détient la définition de ce qu’est une « résolution ». Cognition applique la même démarche avec Devin dans le domaine logiciel, en proposant une « garantie de performance », qui ne peut être assurée que dans un système où l’on bénéficie déjà de la confiance nécessaire.
Même les services de tokens — que tout le monde qualifie volontiers de « pure marchandise » — ne fonctionnent pas comme de vrais produits marchands. Les meilleures entreprises natives de l’IA concentrent leurs services sur un ou deux fournisseurs (Baseten ou Fireworks), car le coût par token se marchandise selon un calendrier prévisible, tandis que la fiabilité sous trafic réel et l’accès garanti à une puissance de calcul rare ne se marchandisent pas. Le lieu où vous déployez vos services est un choix distinct de celui des modèles que vous utilisez. Le seul élément qui fonctionne comme une marchandise dans l’inférence est le prix.
Une objection fréquemment soulevée est que les laboratoires sont vos fournisseurs — pourquoi ne lanceraient-ils pas leur propre produit premier degré à perte pour vous écraser, ou ne retireraient-ils pas votre accès à leur API afin de conquérir eux-mêmes le marché ? C’est la version réaliste du désespoir, qui ne tient que si la couche modèle était un jeu à un seul joueur. Or, ce n’est clairement pas le cas — elle ressemble plutôt à une course à trois joueurs et demi, avec une poignée d’acteurs internationaux en retard de six mois sur l’entraînement, et une alliance en pleine expansion dont la taille a quintuplé depuis l’an dernier. Les clients veulent une concurrence entre fournisseurs, et les laboratoires préfèrent la part de marché à la disparition d’une application quelconque.
On observe cela sur les marchés où les laboratoires s’affrontent frontalement. Dans le chat grand public, le meilleur modèle n’a jamais remporté la victoire de façon simple. ChatGPT conserve sa position dominante après des années de concurrence réelle ; les parts qu’il perd aujourd’hui vont à Gemini, grâce à la force d’Android et de la recherche — non grâce à un modèle meilleur. Anthropic, actuellement classée par les marchés prédictifs (et par l’ambiance générale sur Internet) comme détenant le meilleur modèle, n’est presque pas présente dans le chat grand public, mais a su bâtir une activité solide dans les entreprises et le codage. Si un modèle meilleur ne parvient pas à détourner les utilisateurs de ses concurrents dans l’application la plus centrale, il ne franchira pas non plus les dossiers hospitaliers ou les responsabilités bancaires par simple intégration. Les choix du grand public aujourd’hui ne reposent pas uniquement sur le codage. Si l’avant-garde reste dense, ce qui se situe au-dessus aura de la valeur.
Lorsqu’un travail ne peut être évalué de l’extérieur, quelqu’un à l’intérieur doit décider ce qu’est une « bonne réponse » — et cette décision constitue l’ensemble du jeu. Un nombre suffisant de ces décisions, formalisées, devient un benchmark. Harvey a publié un benchmark juridique, Sierra un benchmark pour les agents vocaux. On gagne le droit de définir ce qu’est une « bonne réponse » dans un domaine donné en devenant celui que ce domaine utilise déjà — ces entreprises ont acquis ce droit par la lutte pour une adoption réelle.
Les évaluations qui déterminent les enjeux financiers sont privées et spécifiques à chaque entreprise : « Quelle réponse acceptera cette entreprise, dans ce type de dossier, comme étant une bonne prestation ? » Cette question est loin d’être résolue, car la profondeur du droit rend tout test public insignifiant. OpenEvidence détermine ce qu’est une réponse clinique sûre. Il ne s’agit pas ici de véritables mesures, mais de jugements sur ce qui est vrai ou bon, formalisés jusqu’à devenir la référence contre laquelle tous les autres seront évalués — une autorité que même les laboratoires fondamentaux, aussi intelligents soient-ils, ne peuvent établir, car ce statut n’existe que dans l’intimité du domaine concerné. Cette autorité tend à rester là où elle se trouve déjà. Ce sont les avocats expérimentés qui rédigent les benchmarks juridiques. Ce sont les médecins qui définissent ce qu’est une réponse clinique sûre. Et « résolu » signifie ce que toute entreprise déjà cliente décide que cela signifie.
L’absorption de l’avant-garde progresse constamment, car nous apprenons sans cesse à mesurer davantage de tâches, et ce qui est mesurable est absorbé. Le sol « non entraînable » se rétrécit sous les pieds de ceux qui y sont debout, si bien qu’on ne peut pas trouver un point défensif stable et s’y reposer. On avance sans cesse vers tout ce qui ne peut encore être évalué, et on réévalue sans cesse ses positions. Sur une tâche étroite, avec vos propres données privées et vos propres critères d’évaluation, vous pouvez former un modèle à la pointe et le faire surpasser les modèles généraux là où cela compte — ce modèle spécialisé devient alors une composante de votre moine. À l’inverse, rivaliser sur les modèles généraux est une guerre de capitaux : vous serez battu par celui qui dispose de la plus grande puissance de calcul — un piège pour les entreprises ayant un accès superficiel et limité aux tâches visibles. Elles promettent de survivre en dépassant l’avant-garde sur les tâches générales — or, les vainqueurs semblent décidés principalement par la taille des centres de données, et les fins habituelles ne sont pas des champions indépendants, mais des acquisitions par des acteurs dotés d’une puissance de calcul abondante.
Tout cela relève de la défense. L’offensive est plus difficile : choisir en premier lieu quoi construire. C’est ce que j’ai cherché pendant un an — et j’ai peut-être trouvé trois fois. Les modèles n’y aident pas. Ils feront tout ce que vous leur ordonnerez, mais ne vous diront pas ce qui vaut la peine d’être ordonné — or, vous ne pouvez pas créer de benchmark pour cela, donc vous ne pouvez pas l’apprendre. C’est aussi pourquoi les entreprises existantes ne raflent pas tout : elles conservent leur territoire actuel, et la prochaine innovation vient de ceux qui identifient les usages avant le reste d’entre nous. Peut-être l’intention est-elle une ressource plus rare que la puissance de calcul.
Le désespoir a raison à moitié. Cette couche d’emballage superficiel est effectivement en train d’être absorbée ; beaucoup de ce qui ressemble aujourd’hui à une entreprise n’est qu’un simple emballage. Mais il se trompe sur ce qui subsistera. Le mécanisme est clair ; la destination ne l’est pas. Je parie sur la direction : l’intelligence devient sans cesse moins chère, tandis que la valeur glisse inexorablement vers les rares endroits que les modèles ne peuvent atteindre. Ce qui n’est pas entraînable possède une valeur historique. Alors choisissez-en un, faites ce travail discret de traduction, commencez à formaliser ce que « bien » signifie là-bas — car quelqu’un le fera. Le score de benchmark le plus cité cette année est une carte d’un territoire sur le point de devenir inutile, et une notification annonçant qui va perdre le droit de dire ce qui compte comme « bien ».
Bienvenue dans la communauté officielle TechFlow
Groupe Telegram :https://t.me/TechFlowDaily
Compte Twitter officiel :https://x.com/TechFlowPost
Compte Twitter anglais :https://x.com/BlockFlow_News














