
Discutons franchement des agents : sont-ils des « collègues » ou des « outils » ? Quelles en sont réellement les opportunités entrepreneuriales et la valeur ?
TechFlow SélectionTechFlow Sélection

Discutons franchement des agents : sont-ils des « collègues » ou des « outils » ? Quelles en sont réellement les opportunités entrepreneuriales et la valeur ?
Les produits d'IA passent progressivement du statut d'« outil » à celui de « relation », et les humains doivent décider quel type de relation établir.
Rédaction : Moonshot
Source : GeekPark
2025 est l’année où les Agents ont enclenché la vitesse supérieure.
Depuis l’émerveillement provoqué par DeepSeek au début de l’année jusqu’à l’apparition successive de GPT-4o et Claude 3.5, les frontières des grands modèles sont repoussées sans cesse. Pourtant, ce qui a véritablement tendu les nerfs de toute la chaîne industrielle de l’IA n’est pas l’amélioration des performances des modèles, mais bien l’irruption soudaine des Agents.
Le succès fulgurant de produits tels que Manus ou Devin réaffirme un consensus clair : les grands modèles ne seront plus seulement des outils, mais deviendront des entités intelligentes capables d’auto-gestion.
C’est ainsi que les Agents deviennent le deuxième phénomène technologique après les grands modèles à susciter un accord quasi-unanime dans la communauté mondiale de la tech.
Des réorganisations stratégiques menées par les géants aux startups qui suivent rapidement, les Agents deviennent une direction sur laquelle tout le monde mise. Toutefois, malgré l’émergence massive de produits orientés consommateur (Côté C) et l’enthousiasme des développeurs, très peu de projets parviennent à créer une boucle de valeur utilisateur viable. De plus en plus de produits sombrent dans l’anxiété consistant à « appliquer de nouvelles technologies à d’anciens besoins ».
Après la vague de chaleur, le marché retrouve son calme : les Agents représentent-ils vraiment une refonte paradigmatique ou simplement un nouvel habillage ? La divergence entre voies « générales » et « verticales » offre-t-elle réellement un espace commercial durable ? Et derrière cette idée de « nouvelle entrée », s’agit-il d’une évolution des modes d’interaction ou d’un simple reflet du monde ancien ?
En creusant ces questions, on découvre que le véritable seuil des Agents pourrait ne pas résider dans la puissance du modèle, mais dans les infrastructures fondamentales dont ils dépendent pour exister. Environnement d’exécution contrôlable, système de mémoire, prise de contexte, appel d’outils — chaque module de base manquant constitue un obstacle majeur empêchant les Agents de passer du stade de démonstration à celui d’utilisation pratique.
Ces problèmes techniques fondamentaux forment le plus grand frein à la transformation des Agents d’un « jouet à la mode » en un « outil productif », mais constituent aussi précisément l’océan bleu entrepreneurial le plus certain et le plus valorisable aujourd’hui.
Dans cette phase où l’offre excède largement la demande encore floue, nous souhaitons, à travers cet échange, répondre à une question de plus en plus pressante : où se trouvent les véritables enjeux et opportunités des Agents ?
Dans cet entretien approfondi, nous avons invité Li Guangmi, fondateur de Shixiang Tech, et Zhong Kaiqi, responsable de la recherche IA chez Shixiang Tech. Ces deux praticiens vont, à partir de plusieurs dimensions — forme produit, chemin technologique, modèle économique, expérience utilisateur et construction d’infrastructures — analyser pour nous les vrais défis et les vraies opportunités actuels des Agents.
Nous suivrons leur raisonnement pour explorer où se nichent réellement les opportunités pour les startups face aux géants ; comment tracer un chemin pragmatique allant progressivement de « Copilote » à « Agent » ; et pourquoi le domaine du codage (Coding), apparemment vertical, est considéré comme une « zone de valeur élevée » et un « indicateur clé » vers l’AGI.
Enfin, ce dialogue s’étendra vers l’avenir, pour jeter un regard sur la nouvelle relation de collaboration entre humains et Agents, ainsi que sur les défis fondamentaux et les immenses opportunités liés à la construction des prochaines infrastructures intelligentes.
Points clés
-
Dans le domaine des Agents généralistes, la meilleure approche est celle du « modèle en tant qu’Agent » (Model as Agent).
-
Construire un Agent ne nécessite pas de « penser la fin dès le début ». On peut commencer par un Copilote, collecter des données utilisateurs, améliorer l’expérience et conquérir les mentalités, puis progressivement effectuer la transition.
-
L’AGI pourrait être atteint en premier lieu dans l’environnement du codage, car il s’agit du cadre le plus simple permettant de développer les capacités fondamentales de l’IA. Le codage est la « machine universelle » de ce monde : grâce à lui, l’IA peut construire et créer. Le codage pourrait absorber jusqu’à 90 % de la valeur générée par l’industrie des grands modèles.
-
Un produit véritablement « natif IA » ne sert pas uniquement les humains : il doit servir simultanément les IA. Un vrai produit natif IA intègre une mécanique bidirectionnelle servant à la fois l’humain et l’IA.
-
Les produits IA d’aujourd’hui passent de la catégorie « outil » à celle de « relation ». Les humains n’établissent pas de relations avec des outils, mais peuvent en avoir avec une IA dotée de mémoire, qui vous comprend et avec laquelle on peut partager une complicité intellectuelle.
Ce qui suit est la transcription de l’émission en direct « Ce Soir, Tech Talk », retranscrite et organisée par GeekPark.
01 Sous l’effervescence, quels produits Agents se distinguent déjà ?
Zhang Peng : Depuis quelque temps, tout le monde parle des Agents, considérés comme un sujet crucial de cette période, et une opportunité rare pour les startups.
J’ai remarqué que Shixiang Tech a mené des recherches approfondies sur les systèmes d’Agents, et analysé de nombreux produits connexes. Je voudrais d’abord entendre vos avis : quels produits Agents récents vous ont particulièrement marqués ? Pourquoi ?
Li Guangmi : Deux produits m’ont particulièrement marqué. D’abord, les performances de programmation de Claude par Anthropic, ensuite, la fonctionnalité Deep Research de ChatGPT d’OpenAI.
Pour ce qui concerne Claude, c’est surtout sa capacité de programmation. J’ai une opinion : le codage (Coding) est l’indicateur prédictif le plus important pour mesurer l’AGI. Si l’IA ne parvient pas à développer massivement et de bout en bout des applications logicielles, ses progrès dans d’autres domaines seront également lents. Nous devons d’abord atteindre une ASI (super-intelligence artificielle) forte dans le codage, avant que d’autres domaines puissent s’accélérer. Autrement dit, réalisons d’abord l’AGI dans l’environnement numérique, puis étendons-le ailleurs.

Le premier programmeur IA au monde, Devin|Source image : Cognition Labs
Pour Deep Research, cela m’aide énormément. J’utilise presque quotidiennement cette fonction. C’est essentiellement un Agent de recherche, capable de récupérer de nombreuses pages web et documents. L’expérience est excellente, elle a considérablement élargi mon espace de recherche.
Zhang Peng : Cage, de votre point de vue, quels produits vous ont marqué ?
Zhong Kaiqi (Cage) : Permettez-moi d’abord de présenter le modèle mental que j’utilise pour observer et utiliser les Agents, puis je citerai un ou deux produits emblématiques dans chaque catégorie.
Tout d’abord, on entend souvent la question : Agent généraliste ou Agent vertical ? Selon nous, les meilleurs Agents généralistes adoptent le modèle du « modèle en tant qu’Agent » (Model as Agent). Par exemple, Deep Research d’OpenAI mentionné par Guangmi, ou le nouveau modèle o3 d’OpenAI, sont des exemples typiques de cette approche. Ils intègrent tous les composants d’un Agent — grand modèle de langage (LLM), contexte (Context), utilisation d’outils (Tool Use) et environnement (Environment) — et subissent un entraînement par renforcement de bout en bout. Résultat : ils excellent dans toutes sortes de tâches de recherche d’information.
Voici donc mon « propos provocateur » : les besoins des Agents généralistes se résument principalement à deux catégories — la recherche d’information et la rédaction légère de code — et GPT-4o les remplit déjà très bien. Ainsi, le marché des Agents généralistes appartient essentiellement aux grandes entreprises de modèles. Il est difficile pour une startup de réussir uniquement en ciblant des besoins généralistes.
Les startups qui m’impressionnent sont presque toutes concentrées sur des domaines verticaux.
Si l’on parle des secteurs B2B, on peut comparer le travail humain au travail frontal et au travail back-office.
Le travail back-office est caractérisé par sa forte répétitivité et ses exigences élevées en termes de concurrence, avec souvent une longue procédure opérationnelle standardisée (SOP). De nombreuses tâches conviennent parfaitement à l’exécution ponctuelle par un Agent IA, et sont adaptées à l’apprentissage par renforcement dans un vaste espace exploratoire. Parmi les exemples représentatifs, je citerais des startups spécialisées dans l’IA pour la science, développant des systèmes multi-agents (Multi-agent system).
Dans ces systèmes, diverses tâches scientifiques sont incluses : recherche bibliographique, planification d’expériences, prédiction des avancées de pointe et analyse de données. Leur particularité réside dans le fait qu’ils ne se limitent pas à un seul Agent comme Deep Research, mais constituent des systèmes complexes capables d’atteindre une résolution plus fine pour les processus scientifiques. L’un de leurs aspects intéressants est la fonction « Contradiction Finding » (détection de contradictions), capable de traiter des tâches adversariales, par exemple identifier les incohérences entre deux articles publiés dans des revues prestigieuses. Cela illustre un paradigme très intéressant pour les Agents de recherche.
Le travail frontal implique souvent des interactions humaines, des communications externes. Actuellement, les Agents vocaux conviennent bien ici, notamment dans les domaines médicaux (rappels téléphoniques d’infirmières), du recrutement ou de la logistique.
Je souhaite mentionner une entreprise nommée HappyRobot. Elle s’est positionnée sur un scénario apparemment mineur : les communications téléphoniques dans la logistique et la chaîne d’approvisionnement. Par exemple, si un chauffeur routier rencontre un problème ou si la marchandise arrive, l’Agent peut rapidement l’appeler. Ici, l’Agent met en valeur une capacité particulière : répondre 24 heures sur 24, 7 jours sur 7, et réagir instantanément. Pour la majorité des besoins logistiques, cela suffit amplement.
Au-delà de ces deux catégories, certains cas particuliers existent, comme les Agents de codage.
02 De Copilote à Agent : existe-t-il un chemin plus pragmatique ?
Zhong Kaiqi : Dans le domaine du développement logiciel, l’enthousiasme entrepreneurial est très fort actuellement. Un bon exemple est Cursor. Avec le lancement de Cursor 1.0, un produit initialement perçu comme un Copilote (conducteur assisté) s’est transformé en un Agent complet. Il peut opérer en arrière-plan de manière asynchrone, possède une fonction de mémoire — exactement ce que nous imaginons pour un Agent.
La comparaison entre Cursor et Devin est instructive. Elle nous montre qu’il n’est pas nécessaire de « penser la fin dès le départ » pour construire un Agent. On peut commencer par un Copilote, collecter des données utilisateurs, optimiser l’expérience, conquérir les mentalités, puis progressivement effectuer la transition. En Chine, Minus AI est un bon exemple : leur produit initial était également conçu sous forme de Copilote.
Enfin, j’utilise aussi le concept d’« environnement » pour distinguer différents Agents. Par exemple, l’environnement de Manus est une machine virtuelle (Virtual Machine), celui de Devin est le navigateur, flowith utilise un carnet de notes, SheetZero un tableau, Lovart une toile de dessin, etc. Cet « environnement » correspond à la définition d’environnement dans l’apprentissage par renforcement, et fournit un critère de classification pertinent.

flowith, par une startup chinoise|Source image : flowith
Zhang Peng : Parlons plus en détail de l’exemple Cursor. Quelle est sa stack technique et son parcours d’évolution ?
Zhong Kaiqi (Cage) : L’analogie avec la conduite autonome est parlante. À ce jour, même Tesla n’ose pas retirer complètement le volant, les freins et l’accélérateur. Cela signifie que, pour les décisions critiques, l’IA ne peut pas encore surpasser l’humain. Tant que les capacités de l’IA restent comparables à celles de l’humain, certaines décisions clés nécessiteront toujours l’intervention humaine. C’est précisément ce que Cursor a compris dès le départ.
La première fonctionnalité qu’ils ont introduite correspond à un besoin humain fondamental : la complétion automatique (Autocompletion). Ils ont rendu cette fonction accessible via la touche Tab. Grâce à des modèles comme Claude 3.5, Cursor a porté le taux de précision de la complétion à plus de 90 %. À ce niveau de fiabilité, je peux l’utiliser 5 à 10 fois consécutivement dans un flux de travail, créant ainsi une expérience de « flow ». C’est la première étape de Cursor en tant que Copilote.
La deuxième étape concerne la refactorisation de code (Code Refactoring). Tant Devin que Cursor visaient ce besoin, mais Cursor l’a mieux réalisé. Lorsque j’exprime une demande, un dialogue s’ouvre, et Cursor active un mode de modification parallèle en dehors du fichier pour refactoriser le code.
À ses débuts, ce taux de précision n’était pas élevé, mais comme les utilisateurs perçoivent le produit comme un Copilote, ils acceptent aisément cette imperfection. De plus, l’équipe a correctement anticipé que les capacités de codage des modèles allaient rapidement s’améliorer. En affinant progressivement les fonctionnalités tout en attendant l’évolution des modèles, les capacités d’Agent ont naturellement émergé.
La troisième étape est l’état actuel de Cursor : un Agent relativement autonome, fonctionnant en arrière-plan. Derrière, il dispose d’un environnement similaire à un bac à sable. Pendant que je travaille, je peux lui assigner des tâches que je ne souhaite pas faire moi-même. Il les exécute en arrière-plan en utilisant mes ressources informatiques, me permettant ainsi de me concentrer sur mes tâches principales.
Finalement, il me transmet les résultats de manière asynchrone, comme un e-mail ou un message Feishu. Ce processus a permis une transition fluide de Copilote à Autopilote (ou Agent).
L’essentiel est de saisir le mode d’interaction humain : commencer par des interactions synchrones que les utilisateurs acceptent facilement, afin de collecter massivement données et retours.
03 Pourquoi le codage est-il l’« épreuve cruciale » vers l’AGI ?
Zhang Peng : Guangmi vient de dire : « Le codage est la clé vers l’AGI. Sans y parvenir, les autres domaines seront difficiles. » Pourquoi ?
Li Guangmi : Plusieurs raisons. Premièrement, les données de code sont les plus propres, les plus faciles à boucler, et les résultats sont vérifiables. J’ai une hypothèse : les chatbots pourraient ne pas bénéficier d’un « cercle vertueux de données » (feedback loop où les interactions génèrent des données qui améliorent le modèle, produisant ainsi des résultats meilleurs et davantage de données). Mais dans le domaine du code, un tel cercle est possible, car on peut réaliser plusieurs cycles d’apprentissage par renforcement, et le codage constitue l’environnement clé pour ces cycles.
J’interprète le code à la fois comme un outil de programmation, mais surtout comme un environnement permettant d’atteindre l’AGI. L’AGI pourrait d’abord émerger ici car c’est l’environnement le plus simple, capable de développer les compétences fondamentales de l’IA. Si l’IA ne peut pas développer une application logicielle de bout en bout, elle aura encore plus de mal ailleurs. Si elle ne peut pas remplacer massivement les développeurs basiques dans un futur proche, elle peinera dans d’autres domaines.
En outre, l’amélioration des capacités de codage renforce aussi la capacité de suivi des instructions. Par exemple, pour traiter des prompts longs, Claude est nettement meilleur, ce que nous attribuons logiquement à ses compétences en codage.
Un autre point : je pense que l’AGI émergera d’abord dans le monde numérique. Dans les deux années à venir, les Agents pourront accomplir presque tout ce que les humains font sur téléphone ou ordinateur. Soit via un codage simple, soit en invoquant d’autres outils virtuels. Réaliser d’abord l’AGI dans le monde numérique, le faire avancer rapidement — c’est là la grande logique.
04 Comment juger un bon Agent ?
Zhang Peng : Le codage est la « machine universelle » de ce monde : avec lui, l’IA peut construire et créer. De plus, ce domaine est relativement structuré, idéal pour l’IA. Outre l’expérience utilisateur, selon quels critères évaluez-vous le potentiel d’un Agent ?
Zhong Kaiqi (Cage) : Un bon Agent doit d’abord disposer d’un environnement propice à la création d’un cercle vertueux de données, et ces données doivent être vérifiables.
Récemment, les chercheurs d’Anthropic parlent beaucoup du terme RLVR (Reinforcement Learning from Verifiable Reward), où le « V » signifie « reward vérifiable ». Le code et les mathématiques sont des domaines standards de vérifiabilité : une fois la tâche terminée, on peut immédiatement valider sa justesse, ce qui crée naturellement un cercle vertueux de données.

Fonctionnement du cercle vertueux de données|Source image : NVIDIA
Construire un produit Agent, c’est donc construire un tel environnement. Dans cet environnement, peu importe que la tâche réussisse ou échoue — car les Agents échoueront forcément aujourd’hui. L’essentiel est que, lors de l’échec, l’Agent collecte des données significatives, non du bruit, pouvant guider l’optimisation du produit. Ces données peuvent même servir de point de départ à un environnement d’apprentissage par renforcement.
Deuxièmement, le produit est-il suffisamment « Agent-Natif » ? Cela signifie qu’en concevant le produit, on doit penser simultanément aux besoins humains et aux besoins de l’Agent. Un exemple typique est The Browser Company : pourquoi créer un nouveau navigateur ? Parce que Arc était conçu uniquement pour améliorer l’efficacité des utilisateurs humains. Le nouveau navigateur, en revanche, inclut des fonctionnalités destinées à être utilisées par l’Agent IA lui-même. Quand la logique fondamentale de conception change, cela devient crucial.
Sur le plan des résultats, l’évaluation objective reste essentielle :
1. Taux de tâches terminées + taux de réussite : d’abord, la tâche doit pouvoir être achevée, pour que l’utilisateur reçoive au moins un retour. Ensuite, le taux de réussite. Sur une tâche en 10 étapes, si chaque étape a une précision de 90 %, le taux de réussite global tombe à 35 %. Il faut donc optimiser chaque transition. Actuellement, un seuil acceptable dans l’industrie serait un taux de réussite supérieur à 50 %.
2. Coût et efficacité : coût computationnel (token cost) et coût temporel pour l’utilisateur. Si GPT-4o met 3 minutes pour exécuter une tâche, et qu’un autre Agent prend 30 minutes, cela représente une énorme perte pour l’utilisateur. Pendant ces 30 minutes, la consommation de calcul est colossale, ce qui nuit à l’effet d’échelle.
3. Indicateurs utilisateurs : le plus classique est l’adhérence (stickiness). Après un usage expérimental, l’utilisateur revient-il régulièrement ? Par exemple, ratio DAU/MAU, taux de rétention mensuelle, taux de conversion payant — ces indicateurs sont fondamentaux pour éviter que l’entreprise ne connaisse qu’une « fausse prospérité » (five minutes of fame).
Li Guangmi : Je rajoute un angle : l’adéquation entre l’Agent et les capacités actuelles du modèle. Aujourd’hui, 80 % des capacités d’un Agent dépendent du modèle moteur. Par exemple, quand GPT est passé à 3.5, le paradigme de conversation multiround est apparu, rendant viable le format Chatbot. La montée en puissance de Cursor découle aussi du niveau atteint par Claude 3.5, qui a rendu possible sa fonction de complétion de code.
Devin est sorti un peu trop tôt, selon moi. L’équipe fondatrice doit bien comprendre les limites des modèles : savoir où en sont les modèles aujourd’hui et dans six mois, car cela détermine directement les objectifs réalisables par l’Agent.
Zhang Peng : Qu’est-ce qu’un produit « natif IA » ? Je pense qu’un produit natif IA ne sert pas seulement les humains : il doit aussi servir l’IA.
En d’autres termes, si un produit ne contient pas de données exploitables pour réglage, ni d’environnement préparé pour le travail futur de l’IA, alors il n’utilise l’IA que comme outil de réduction de coûts et d’amélioration d’efficacité. Un tel produit a une durée de vie limitée, facilement englouti par la vague technologique. Un vrai produit natif IA intègre une mécanique bidirectionnelle servant à la fois l’humain et l’IA. En bref, pendant que l’IA sert l’utilisateur, l’utilisateur sert-il aussi l’IA ?
Zhong Kaiqi (Cage) : J’adore ce concept. Les données d’Agent n’existent pas dans le monde réel : personne ne décompose consciencieusement son processus de pensée lorsqu’il accomplit une tâche. Que faire ? Une solution est de faire appel à des sociétés d’annotation spécialisées. L’autre est de mobiliser les utilisateurs, en capturant leur mode d’usage réel et le fonctionnement interne de l’Agent.
Zhang Peng : Si l’on veut que les humains « nourrissent » l’IA via des Agents, quelles tâches sont les plus précieuses ?
Zhong Kaiqi (Cage) : Plutôt que de penser à nourrir l’IA avec des données, demandons-nous quelles sont les forces de l’IA à amplifier. Prenons la recherche scientifique : avant AlphaGo, les humains pensaient que le go et les mathématiques étaient les plus difficiles. Or, avec l’apprentissage par renforcement, ces domaines sont devenus paradoxalement les plus simples pour l’IA. Même chose en science : depuis longtemps, aucun chercheur humain ne maîtrise tous les détails de chaque discipline, mais l’IA le peut. C’est pourquoi nous devons fournir davantage de données et de services pour l’accompagner. Ces tâches offrent des retours plus vérifiables. À l’avenir, ce pourrait être l’humain qui « agite les tubes à essai » pour l’IA, lui indiquant si le résultat est juste ou faux, aidant ensemble à éclairer l’arbre technologique.
Li Guangmi : Le démarrage à froid des données est inévitable. Créer un Agent, c’est comme lancer une startup : le fondateur doit faire le démarrage à froid, s’impliquer personnellement. Ensuite, construire l’environnement devient crucial, car il détermine la direction de l’Agent. Plus tard, encore plus important, construire le système de récompense (Reward). Je pense que l’environnement et la récompense sont deux facteurs clés. Sur cette base, l’entrepreneur Agent n’a plus qu’à jouer le rôle de « PDG » de l’Agent. Aujourd’hui, l’IA peut déjà écrire du code que les humains ne comprennent pas mais qui fonctionne. Nous n’avons pas besoin de comprendre intégralement la logique bout-en-bout de l’apprentissage par renforcement. Il suffit de bien définir l’environnement et la récompense.
05 Vers quelle forme commerciale évolueront les Agents ?
Zhang Peng : Récemment, de nombreux Agents B2B sont apparus, notamment aux États-Unis. Leur modèle commercial et leur stratégie de croissance ont-ils changé ? De nouveaux modèles apparaissent-ils ?
Zhong Kaiqi (Cage) : La caractéristique majeure actuelle est que de plus en plus de produits, bien que centrés sur le consommateur (Côté C), sont adoptés « du bas vers le haut » (bottom-up) au sein des entreprises. Cursor en est l’exemple type. En dehors de lui, de nombreux Agents IA ou produits Copilote sont d’abord utilisés individuellement par les employés. On s’éloigne donc du modèle SaaS traditionnel, qui nécessite de convaincre d’abord le DSI et de signer des contrats un par un. Du moins, ce n’est plus la première étape.
Un autre produit intéressant est OpenEvidence, qui cible les médecins. Ils commencent par conquérir cette communauté, puis intègrent progressivement des publicités pour dispositifs médicaux et médicaments. Ces activités n’ont pas besoin de partenariats hospitaliers initiaux, car les négociations avec les hôpitaux sont très lentes. La vitesse est cruciale pour les startups IA : seule une barrière technologique ne suffit pas. Il faut croître par cette approche ascendante.

La licorne IA médicale OpenEvidence|Source image : OpenEvidence
Concernant les modèles économiques, une tendance émerge : la progression progressive d’une tarification basée sur le coût (Cost-based) vers une tarification basée sur la valeur (Value-based).
1. Basé sur le coût : comme les services cloud traditionnels, ajoutant une couche de valeur logicielle au-dessus du coût CPU/GPU.
2. Paiement à l’acte : pour les Agents, on paie par « action ». Par exemple, l’Agent logistique mentionné plus tôt facture quelques centimes par appel passé à un chauffeur.
3. Paiement par workflow : un niveau d’abstraction supérieur consiste à facturer par « flux de travail ». Par exemple, accomplir toute une commande logistique. Cela s’éloigne du coût, s’approche de la valeur, car l’Agent participe réellement au travail. Mais cela nécessite un scénario relativement cadré.
4. Paiement à la performance : encore supérieur, le paiement par « résultat ». Comme les Agents ont un taux de réussite imparfait, les utilisateurs veulent payer uniquement pour les résultats réussis. Cela exige une excellence extrême dans la qualité du produit.
5. Paiement par Agent : à l’avenir, on pourrait payer réellement par « Agent ». Par exemple, Hippocratic AI propose une infirmière IA. Aux États-Unis, embaucher une infirmière humaine coûte environ 40 dollars de l’heure, tandis que leur infirmière IA coûte 9 à 10 dollars, soit une réduction de 75 %. Sur un marché à main-d’œuvre chère comme les États-Unis, c’est très rationnel. Si les Agents deviennent meilleurs, on pourrait même leur verser des primes ou des bonus annuels. Ce sont des innovations dans le modèle économique.
Li Guangmi : Ce que nous attendons le plus, c’est la tarification basée sur la valeur (Value-based). Par exemple, Manus AI crée un site web : cette prestation vaut-elle 300 dollars ? Crée une application : vaut-elle 50 000 dollars ? Aujourd’hui, la valeur des tâches est encore difficile à évaluer. Trouver une bonne méthode de mesure et de tarification est un terrain d’exploration pour les entrepreneurs.
Par ailleurs, Cage a mentionné le paiement par Agent, comme un contrat de travail. À l’avenir, en embauchant un Agent, faudra-t-il lui donner une « carte d’identité » ? Un « contrat de travail » ? C’est en réalité un contrat intelligent (smart contract). J’attends avec intérêt la manière dont les contrats intelligents du domaine Crypto pourraient s’appliquer aux Agents du monde numérique. Une fois la tâche accomplie, grâce à une bonne méthode de mesure, répartir les bénéfices économiques. Voilà une opportunité de convergence entre Agents et contrats intelligents Crypto.
06 Quelle forme prendra la relation de collaboration entre humains et Agents ?
Zhang Peng : Récemment, dans le domaine des Agents de codage, deux expressions reviennent souvent : « Human in the loop » et « Human on the loop ». De quoi parle-t-on ?
Zhong Kaiqi (Cage) : « Human on the loop » signifie que l’humain intervient le moins possible dans la boucle décisionnelle, n’intervenant qu’aux moments critiques. Un peu comme le FSD de Tesla, qui alerte l’humain pour reprendre le contrôle en cas de décision dangereuse. Dans le monde virtuel, cela correspond souvent à une collaboration asynchrone. L’humain peut intervenir sur les décisions clés lorsque l’IA hésite.
« Human in the loop » implique plutôt que l’IA « pingue » fréquemment l’humain pour confirmer une action. Par exemple, Minus AI : à droite, un environnement virtuel permet de voir en temps réel ce que l’Agent fait dans le navigateur — comme une boîte transparente, donnant une idée claire de ses intentions.
Ces deux concepts ne sont pas noirs ou blancs, mais forment un spectre. Actuellement, on est plutôt dans le « in the loop » : l’humain doit approuver à de nombreux points critiques. La raison est simple : le logiciel n’en est pas encore là, et en cas de problème, quelqu’un doit assumer la responsabilité. Le volant et les pédales ne disparaîtront pas.
On peut prévoir que, pour les tâches hautement répétitives, le résultat final sera que l’humain ne voit que des résumés, avec un haut degré d’automatisation. Pour les cas complexes, par exemple faire analyser des rapports pathologiques par l’IA, on peut augmenter volontairement le taux de faux positifs de l’Agent, le rendant plus sensible aux anomalies, puis envoyer ces cas par e-mail à un médecin humain (mode « on the loop »). Ainsi, même si le médecin doit examiner plus de cas, tous les cas classés « négatifs » par l’Agent peuvent être validés automatiquement. Si seulement 20 % des rapports sont réellement complexes, la bande passante du médecin est déjà multipliée par 5. Inutile donc de trop s’attarder sur « in » ou « on » : il suffit de trouver le bon point d’équilibre pour optimiser la collaboration homme-machine.
Li Guangmi : La question posée par Peng cache une immense opportunité : la « nouvelle interaction » et la façon dont humains et Agents collaborent. On peut la simplifier en synchrone (en ligne) et asynchrone (hors ligne). Par exemple, une visioconférence exige une présence en temps réel. Mais si je suis PDG et que je donne des tâches à mes collaborateurs, le suivi est asynchrone.
L’enjeu plus profond est : une fois les Agents déployés à grande échelle, comment humains et Agents interagiront-ils ? Et comment interagiront les Agents entre eux ? C’est une exploration passionnante. Aujourd’hui, nous interagissons encore par texte avec l’IA, mais demain, les modes d’interaction avec les Agents seront multiples. Certains fonctionneront en arrière-plan, d’autres exigeront une supervision humaine. Explorer de nouvelles interactions est une énorme opportunité.
07 Capacité excédentaire, demande insuffisante : quand apparaîtra la « tuerie » des Agents ?
Zhang Peng : Les Agents de codage restent globalement sur la trajectoire des IDE. Y aura-t-il un changement ? Si tout le monde s’engouffre sur ce chemin, comment les nouveaux venus pourront-ils rattraper Cursor ?
Zhong Kaiqi (Cage) : L’IDE n’est qu’un environnement. Recréer un autre IDE n’a pas beaucoup de valeur. En revanche, développer un Agent dans un IDE ou un autre bon environnement a du sens. Je me demande si ses utilisateurs sont uniquement des développeurs professionnels, ou s’il peut s’étendre aux « développeurs civils » — ces travailleurs de bureau ayant des besoins d’automatisation.
Qu’est-ce qui manque aujourd’hui ? Pas la capacité d’offre, car des produits comme Cursor ont déjà amplifié la capacité de codage IA de 10 à 100 fois. Avant, pour créer un produit, il fallait externaliser à une équipe IT, avec un coût d’erreur élevé. Maintenant, en théorie, je peux exprimer une idée et tester pour 20 dollars par mois.
Ce qui manque, c’est la demande. On applique des anciens besoins à de nouvelles technologies, un peu comme « chercher des clous avec un marteau ». Les besoins actuels consistent surtout à créer des pages d’accueil (landing page) ou des sites web basiques. Il faut trouver une forme produit cadrée. C’est un peu comme à l’époque des moteurs de recommandation : une excellente technologie, qui a trouvé sa forme grand public avec le « fil d’actualité ». Mais dans le codage IA, on n’a pas encore trouvé de produit tueur comme le fil d’actualité.
Li Guangmi : Je pense que le codage pourrait capter jusqu’à 90 % de la valeur de l’industrie des grands modèles. Comment cette valeur émergera-t-elle ? Actuellement, la première étape consiste encore à servir les 30 millions de programmeurs mondiaux. Prenons Photoshop : il sert 20 à 30 millions de designers professionnels, avec une barrière d’entrée élevée. Mais quand des outils comme Jianying, Canva ou Meitu sont apparus, 500 millions, voire plus, d’utilisateurs ont pu les utiliser et créer du contenu viral.
Le codage a un avantage : c’est une plateforme d’expression créative. Plus de 90 % des tâches sociales peuvent s’exprimer par du code, ce qui en fait potentiellement une plateforme créative. Avant, le développement d’applications avait une barrière très haute, laissant de nombreux besoins de longue traîne insatisfaits. Quand cette barrière baisse fortement, ces besoins émergent. J’attends une « explosion d’applications ». Internet mobile a généré comme données principales du contenu. Cette vague IA pourrait générer
Bienvenue dans la communauté officielle TechFlow
Groupe Telegram :https://t.me/TechFlowDaily
Compte Twitter officiel :https://x.com/TechFlowPost
Compte Twitter anglais :https://x.com/BlockFlow_News














