
Lorsque le goulot d’étranglement de l’IA n’est plus le modèle : pratiques et réflexions de Perseus Yang sur la construction d’un écosystème open source
TechFlow SélectionTechFlow Sélection

Lorsque le goulot d’étranglement de l’IA n’est plus le modèle : pratiques et réflexions de Perseus Yang sur la construction d’un écosystème open source
Les modèles continueront de s’améliorer, mais ce n’est pas à partir des modèles eux-mêmes que surgiront les réponses aux questions suivantes : qui définira la manière dont un agent interagit avec le monde réel ? Qui décidera sous quelle forme les connaissances spécialisées doivent être codées et diffusées ?
Auteur : Liu Jun
En 2026, un consensus émerge progressivement au sein du secteur de l’IA : la capacité des modèles n’est plus le goulot d’étranglement. L’écart se situe désormais à l’extérieur des modèles — dans le codage des connaissances spécialisées, dans les interfaces entre les agents et le monde réel, et dans le degré de maturité des chaînes d’outils. Cet écart est comblé par la communauté open source, et à une vitesse dépassant toutes les attentes. OpenClaw a recueilli 60 000 étoiles GitHub en 72 heures, puis dépassé les 350 000 étoiles trois mois plus tard. L’écosystème de compétences (Skills) de Claude Code est passé de 50 à plus de 334 compétences en six mois. Hermes Agent adopte une approche encore plus radicale, permettant aux agents de construire eux-mêmes des compétences réutilisables. Selon les données de Vela Partners, au cours des 90 derniers jours, les deux catégories « assistants IA personnels » et « plugins Agentic Skill » ont cumulé 244 000 nouvelles étoiles GitHub. Nous assistons à une véritable explosion des Skills.
Le travail de Perseus Yang s’inscrit au cœur de cette explosion. Diplômé en mathématiques et en informatique de Cornell, membre du Forbes Business Council et lauréat de la bourse THINC Fellowship, il a participé ces dernières années, sur GitHub, à plus d’une dizaine de projets open source liés à l’IA, couvrant des domaines tels que l’extension des compétences des agents, le contrôle des appareils mobiles, les outils d’optimisation des moteurs IA, les agents d’analyse de données géospatiales (GEO), les flux de travail d’automatisation de contenus et les infrastructures de protocoles de paiement. Son trait distinctif réside dans sa double expertise : une solide formation technique associée à un sens aigu du produit. Il ne se contente pas d’écrire du code ; il part des besoins utilisateurs pour définir précisément à quoi doit ressembler un outil, puis le conçoit intégralement — de bout en bout — et en assure le déploiement.
Ci-dessous figurent plusieurs jugements fondamentaux qu’il a formulés au fil de ce processus.
Premier jugement : Le système de compétences (Skill system) constitue l’infrastructure la plus sous-estimée de l’ère des agents IA
Après qu’Anthropic eut publié, fin 2025, les « Agent Skills » comme standard ouvert, l’interface en ligne de commande Codex d’OpenAI adopta également le même format SKILL.md. Le registre ClawHub d’OpenClaw a déjà accumulé plus de 13 000 compétences issues des contributions communautaires, tandis que l’écosystème de Claude Code suit rapidement ce mouvement. La portée des compétences va bien au-delà du simple ajout de « plug-ins » aux agents. Fondamentalement, elles permettent à des personnes ne maîtrisant pas la programmation de participer à la programmation IA. Un responsable marketing peut rédiger un fichier SKILL.md en langage naturel afin d’enseigner un nouveau flux de travail à un agent. Il s’agit là d’une véritable transition de paradigme : la puissance réelle de l’IA ne dépend pas du nombre de paramètres du modèle, mais des connaissances spécialisées qui y sont injectées — et les compétences étendent ce pouvoir d’injecter des savoirs, non plus uniquement aux ingénieurs, mais à tous.
Cependant, Perseus observe un problème : la très grande majorité des compétences se concentrent sur le domaine de l’ingénierie — revues de code, conception front-end, DevOps, tests — tandis que les savoirs spécialisés hors ingénierie restent presque entièrement absents de toute codification systématique sous forme de compétences. Cela signifie que la couverture de l’écosystème de compétences est loin d’atteindre ses limites potentielles.
Cette observation a motivé toute une série de travaux open source menés par Perseus dans le domaine des chaînes d’outils GTM (Go-to-Market). Le plus emblématique est GTM Engineer Skills, un ensemble de compétences compatibles avec Claude Code et Codex, couvrant l’intégralité du flux de travail relatif à la découvertabilité des moteurs IA. Ce projet compte actuellement plus de 600 étoiles GitHub. Il transforme en flux automatisé exécutable par une seule personne des tâches traditionnellement collaboratives impliquant des experts SEO, des stratèges éditoriaux et des développeurs front-end : audit de la découvrabilité IA d’un site web, optimisation de la structure des contenus, recherche de mots-clés, et couche de visualisation des données interprétable par machine. L’outil d’audit ne se contente pas de formuler des recommandations : après avoir détecté automatiquement le framework front-end utilisé, il génère directement du code correctif pouvant être soumis immédiatement sous forme de « pull request ». Dans la même veine, Perseus a développé un outil complémentaire d’analyse GEO capable d’envoyer simultanément des requêtes à ChatGPT, Claude, Gemini et Perplexity, puis d’analyser la fréquence des mentions de marque, les sentiments exprimés, la part de marché et le positionnement concurrentiel, pour produire des rapports HTML interactifs et des données structurées.
L’efficacité concrète de cet ensemble d’outils en démontre pleinement la valeur produit. Des entreprises telles qu’Articuler AI et Axis Robotics ont utilisé GTM Engineer Skills pour accomplir, en quelques heures seulement, l’intégralité du processus allant de la phase de recherche à la mise en place d’un centre de ressources — une tâche qui, selon les méthodes traditionnelles, nécessite habituellement plusieurs dizaines d’heures de collaboration transversale. Cette différence d’efficacité ne repose pas sur la puissance des modèles, mais sur la profonde compréhension et la décomposition produit de Perseus du flux de travail GTM : il traduit une exigence floue — « améliorer la découvrabilité IA » — en une suite d’étapes standardisées, exécutables séquentiellement par un agent, chacune dotée d’entrées, de sorties et de critères de vérification de qualité clairement définis. Cette chaîne d’outils est aujourd’hui adoptée par une dizaine de startups ainsi que par plusieurs entreprises du classement Fortune Global 500. Les outils open source constituent l’entrée d’accès, tandis que les produits commerciaux en constituent l’extension à grande échelle — tous deux reposant sur le même noyau technologique.
Ce projet possède une valeur intrinsèque, mais Perseus considère comme plus important encore le principe qu’il valide : les capacités du système de compétences ne se limitent en aucun cas au seul domaine de l’ingénierie. Toute expertise professionnelle pouvant être décrite de façon structurée — stratégie produit, go-to-market, analyse commerciale — peut être codifiée sous forme de compétences exploitables par les agents.
Deuxième jugement : La frontière opérationnelle des agents IA ne doit pas se limiter au navigateur et aux API
En 2026, les discussions autour des agents sont dominées par les « agents navigateur » et l’intégration aux API. LangGraph, CrewAI et Google ADK forment un écosystème florissant d’orchestration multi-agents. Pourtant, Perseus identifie un angle structurel aveugle : la majorité des activités numériques mondiales se déroulent dans des applications natives mobiles — réseaux sociaux, paiements, jeux vidéo, messagerie — or ces applications ne disposent ni d’API publiques, ni d’équivalent navigateur. Aucun cadre existant ne permet d’interagir avec WeChat, TikTok, WhatsApp ou Alipay. Le smartphone constitue l’interface de calcul la plus répandue au monde, mais l’infrastructure des agents natifs mobiles est quasi inexistante.
Perseus s’interroge ainsi : pourquoi tout le monde enseigne-t-il à l’IA comment manipuler un navigateur, sans personne pour lui apprendre sérieusement à piloter un smartphone ? La prospérité des agents navigateur tient largement au fait que le web est naturellement propice à l’automatisation : DOM, API, chaînes d’outils matures telles que Playwright. Le smartphone, quant à lui, appartient à un univers totalement différent. Les applications natives sont des « boîtes noires », dépourvues de descriptions structurées de leurs interfaces ; leur manipulation ne peut se faire qu’en simulant les gestes humains — touches et glissements. La difficulté ne réside pas tant dans la capacité du LLM à déterminer si un bouton doit être pressé, mais bien dans la nécessité de reconstruire intégralement, à partir de zéro, toute l’infrastructure d’exécution : gestion de la connexion aux appareils, analyse de l’état de l’écran, protocole d’exclusion mutuelle entre agents partageant un même appareil, délimitation sécurisée des opérations sensibles.
Ce jugement a conduit à la création d’OpenPocket : un cadre open source permettant à un agent piloté par un LLM d’opérer de façon autonome des appareils Android via ADB. Le projet compte actuellement une dizaine de contributeurs et plus de 500 commits. Les usages réels qui en sont faits sont particulièrement révélateurs : gestion automatique de comptes sur les réseaux sociaux, réponse aux messages instantanés à votre place, traitement des paiements et factures sur mobile, voire jeu automatisé de jeux mobiles. Un scénario typique consiste à demander à l’agent, en langage naturel : « Ouvre Slack chaque matin à 8 heures pour effectuer la connexion », ce qui déclenche l’exécution persistante de cette tâche dans une session isolée, transformant une action manuelle répétitive quotidienne en une automatisation fonctionnant en arrière-plan.
Dans ce projet, Perseus a pris plusieurs décisions architecturales et produit qu’il juge essentielles. Premièrement, l’agent peut créer automatiquement de nouvelles compétences pendant son exécution : lorsqu’il rencontre un processus opérationnel inédit, il peut sauvegarder les étapes apprises sous forme de fichiers SKILL.md réutilisables, puis les invoquer directement lors des prochaines exécutions. Cela signifie que l’agent n’est pas un outil aux capacités fixes, mais un système qui s’améliore continuellement avec l’usage. Deuxièmement, toute opération sensible doit impérativement être validée par un humain, plutôt que laissée à l’appréciation autonome de l’agent. Pour Perseus, le danger le plus grave lié aux agents autonomes ne réside pas dans leurs erreurs, mais dans leur capacité à commettre des erreurs « avec assurance », en croyant fermement les avoir évitées. Troisièmement, chaque agent fonctionne dans un environnement entièrement isolé, lié à un appareil, une configuration et un état de session spécifiques, ce qui permet l’exécution simultanée de plusieurs agents sans interférence mutuelle. Si seuls les ingénieurs TypeScript pouvaient étendre les capacités des agents, cet écosystème ne pourrait jamais atteindre une croissance significative. C’est pourquoi OpenPocket, tout comme Claude Code, adopte SKILL.md comme format standard d’extension des capacités.
L’ensemble du système prend en charge plus de 29 configurations LLM différentes ; les smartphones des agents sont strictement isolés des téléphones personnels des utilisateurs, et toutes les données restent stockées localement. En 2026, alors que l’OWASP vient d’inclure « l’usage abusif des outils » dans sa liste des dix principaux risques liés aux agents IA, et que les obligations relatives aux systèmes à haut risque prévues par la loi européenne sur l’IA (EU AI Act) entreront bientôt en vigueur, une conception locale par défaut et centrée sur la supervision humaine ne relève pas d’une prudence excessive, mais constitue une condition préalable indispensable à l’intégration des agents dans des scénarios réels.
Troisième jugement : La valeur de l’open source ne réside pas dans le code lui-même, mais dans la définition des standards au niveau de l’infrastructure
La conception qu’a Perseus de l’open source ne se limite pas à « publier du code sur GitHub ». Il insiste régulièrement sur un point : l’écosystème open source de l’IA en 2026 traverse une période charnière où les standards ne sont pas encore figés. Les modèles architecturaux et les spécifications d’interfaces adoptés par la communauté aujourd’hui deviendront, dans les années à venir, les infrastructures par défaut de l’ensemble du secteur. Durant cette fenêtre temporelle, définir un créneau écologique est bien plus stratégique que d’optimiser une solution déjà existante.
Concrètement, son projet de compétences a permis de réaliser une avancée technologique significative : démontrer que le format SKILL.md n’est pas simplement un conteneur d’outils techniques, mais bien un standard suffisamment universel de codage des connaissances spécialisées. Dès lors qu’un même fichier SKILL.md peut être chargé et exécuté indifféremment par Claude Code, l’interface en ligne de commande Codex d’OpenAI et OpenClaw, il devient, de facto, une « unité de compétence portable » au sein de l’écosystème des agents IA. Perseus a intégralement encapsulé dans ce format le flux de travail complet du go-to-market — un domaine non technique — et a réussi à en automatiser intégralement, de bout en bout, le cycle allant de l’audit à la correction du code. Cette réussite constitue une validation substantielle de la généralité et de la robustesse de ce standard de compétences.
Son projet d’agent mobile, quant à lui, comble une lacune architecturale critique au niveau d’exécution des agents. Les cadres d’agents existants s’appuient, pour l’appel aux outils, sur des interfaces structurées — soit des API, soit le DOM. OpenPocket, lui, doit opérer dans un environnement totalement dépourvu d’interfaces structurées, se fondant exclusivement sur l’analyse des pixels affichés à l’écran et l’injection d’événements tactiles. Cela oblige le projet à repenser entièrement, depuis les fondations, la boucle perception-décision-exécution des agents, notamment en ce qui concerne l’analyse en temps réel de l’état des appareils, le protocole d’exclusion mutuelle entre agents partageant un même appareil, et les mécanismes de reprise automatique après échec d’une opération. Il ne s’agit pas d’une simple adaptation des cadres d’agents existants, mais bien d’une architecture originale, issue d’une évolution indépendante, conçue spécifiquement pour résoudre le défi de l’« opération autonome dans un environnement dépourvu d’API ».
Il convient de mentionner brièvement deux aspects de la conception technique de ces projets. OpenPocket adopte une architecture en trois couches séparées — Manager, Gateway et Agent Runtime — chacune pouvant évoluer indépendamment, ce qui permet aux contributeurs communautaires de ne se concentrer que sur la couche dont ils maîtrisent les subtilités. Chaque compétence de GTM Engineer Skills suit une conception de pipeline par étapes, où la sortie d’une étape constitue l’entrée de la suivante, avec des points de contrôle obligatoires de qualité intermédiaires. Le flux de travail peut ainsi être interrompu et repris à n’importe quelle étape, et toute erreur peut être localisée précisément à l’étape concernée. Tous ces choix architecturaux poursuivent un objectif unique : permettre aux utilisateurs réels de faire confiance à ces projets open source dans des environnements de production.
D’un point de vue produit, ces deux projets partagent également un trait commun : dès la phase de conception, Perseus place systématiquement en tête de ses décisions architecturales les questions « Qui va l’utiliser ? » et « Comment l’étendre ? ». Les utilisateurs cibles de GTM Engineer Skills ne sont pas les ingénieurs, mais les équipes de croissance (growth teams) ; ainsi, chaque compétence dispose d’un contrat clair d’entrées/sorties et d’un mécanisme de vérification de qualité intégré, permettant aux utilisateurs non techniques de comprendre précisément ce que fait l’agent. Quant aux mécanismes d’extension SKILL.md d’OpenPocket, aux tâches planifiées en langage naturel et aux connecteurs multi-canaux (Telegram, Discord, WhatsApp, interface CLI), ils visent tous à abaisser les barrières d’entrée pour les utilisateurs non techniques. Pour Perseus, un projet open source d’infrastructure qui ne serait utilisable que par des ingénieurs aurait pour plafond la taille de la communauté d’ingénieurs. Une conception véritablement porteuse de levier est celle qui permet à tous les professionnels, quel que soit leur domaine, d’étendre collectivement les capacités des agents.
Ce mode d’action traverse l’ensemble de ses projets : il ne s’agit pas de développer des applications au-dessus de cadres existants, mais d’identifier, au niveau de l’infrastructure de l’écosystème des agents, les composants manquants — puis de les concevoir et de les construire.
Une vision plus large
L’écosystème open source de l’IA en 2026 traverse un moment comparable à celui vécu par l’écosystème cloud-native au début des années 2010 : les standards et les outils au niveau de l’infrastructure sont en train d’être définis, et ces définitions orienteront les trajectoires de développement du secteur pendant plusieurs années à venir. Durant cette fenêtre temporelle, chaque format de compétence adopté par la communauté, chaque modèle architectural d’agent validé, chaque vide écologique comblé, participe activement à la construction de la prochaine couche d’interface de l’IA.
Ce que fait Perseus Yang est simple : il utilise ses compétences techniques et son esprit produit pour explorer, aux avant-postes de la technologie de l’ère IA, les nouveaux paradigmes. Les modèles continueront à s’améliorer, mais ce ne sera pas d’eux que surgiront les réponses aux questions fondamentales : qui définira la manière dont les agents interagissent avec le monde réel ? Qui décidera de la forme sous laquelle les connaissances spécialisées doivent être codées et diffusées ? Ces réponses ne peuvent naître que de l’expérimentation concrète, pas à pas, par ceux qui construisent réellement les choses.
Bienvenue dans la communauté officielle TechFlow
Groupe Telegram :https://t.me/TechFlowDaily
Compte Twitter officiel :https://x.com/TechFlowPost
Compte Twitter anglais :https://x.com/BlockFlow_News













