
Dialogue approfondi entre les fondateurs de projets de premier plan tels qu'AI16z, Virtuals et MyShell : exploration du développement des agents IA, de l'économie des jetons et des perspectives d'avenir de la collaboration homme-machine
TechFlow SélectionTechFlow Sélection

Dialogue approfondi entre les fondateurs de projets de premier plan tels qu'AI16z, Virtuals et MyShell : exploration du développement des agents IA, de l'économie des jetons et des perspectives d'avenir de la collaboration homme-machine
Comment la tokenisation de cryptomonnaie peut-elle stimuler les progrès technologiques des agents intelligents et dynamiser la communauté ?
Préparation et traduction : TechFlow

Invités :
Shaw, associé chez ai16z ;
Karan, cofondateur de Nous Research ;
Ethan, cofondateur de MyShell ;
Justin Bennington, fondateur de Somewheresy et CEO de CENTS ;
EtherMage, principal contributeur de Virtuals ;
Tom Shaughnessy, associé fondateur de Delphi Ventures
Source du podcast : Delphi Digital
Titre original : Crypto x AI Agents: The Definitive Podcast with Ai16z, Virtuals, MyShell, NOUS, and CENTS
Date de diffusion : 23 novembre 2024
Contexte
Rejoignez Shaw (Ai16z), Karan (Nous Research), Ethan (MyShell), Somewheresy (CENTS), EtherMage (Virtuals) et Tom Shaughnessy de Delphi pour une table ronde exceptionnelle. Cet événement réunit des leaders du domaine des agents cryptographiques et d’intelligence artificielle afin d’explorer l’évolution des entités numériques autonomes et les perspectives futures des interactions entre humains et IA.
Points clés abordés :
▸ La montée fulgurante des agents IA sur les réseaux sociaux et leur profond impact sur le monde Web3
▸ Comment la tokenisation dans la crypto peut impulser les progrès technologiques des agents et dynamiser les communautés
▸ Avantages de l’entraînement décentralisé versus plateformes centralisées d’IA
▸ Exploration approfondie de l’autonomie croissante des agents et des voies vers une intelligence générale artificielle (AGI)
▸ Intégration étroite des agents IA avec DeFi et les plateformes sociales
Présentations et contexte des équipes
Dans cette partie du podcast, l’animateur Tom invite plusieurs invités provenant de différents projets pour discuter de la convergence entre cryptomonnaies et agents d’intelligence artificielle. Chaque invité se présente et partage son parcours ainsi que les objectifs de son projet.
Présentation des invités
-
Justin Bennington : Fondateur de Somewhere Systems et créateur de Sentience.
-
Shaw : Développeur Web3 expérimenté, fondateur de ai16z et développeur du projet Eliza, qui soutient diverses applications sociales et ludiques, tout en s’engageant activement dans la contribution open source.
-
Ethan : Cofondateur de MyShell, une plateforme offrant un magasin d’applications et des outils de flux de travail permettant aux développeurs de créer diverses applications IA, notamment de génération d’images et de traitement vocal.
-
EtherMage : Membre de Virtues Protocol, une équipe issue de l’Imperial College London, engagée dans la promotion de la propriété commune des agents et des contributions fondamentales, visant à établir des standards facilitant l’accès des utilisateurs aux agents.
-
Karan : L’un des fondateurs de NOUS Research, ayant développé le modèle Hermes, base de nombreux systèmes d’agents actuels. Il concentre ses efforts sur le rôle des agents au sein des écosystèmes humains et sur l’impact des pressions du marché sur l’environnement humain.
Explorer les agents les plus innovants
Justin : De nombreuses personnes utilisent désormais leurs propres agents pour raconter des histoires, chacun avec sa propre originalité. Par exemple, des agents comme Dolo, Styrene (transcription approximative) ou Zerebro ont gagné en notoriété grâce à l’imitation et à l’interaction, tandis que d’autres agents socialement actifs aident à renforcer les liens humains. Il est difficile de choisir un seul favori.
Shaw : J’ai beaucoup à dire là-dessus. Notre projet évolue rapidement, avec de nombreuses nouvelles fonctionnalités récemment ajoutées, telles que l’intégration EVM et Farcaster. Les développeurs sortent constamment de nouvelles fonctionnalités qu’ils réinjectent dans le projet, bénéficiant ainsi à tous. Ce mode collaboratif fonctionne très bien, stimulant compétitivité et intérêt. Par exemple, Roparito (transcription approximative) a récemment intégré TikTok à un agent, illustrant parfaitement cette capacité d’itération rapide.
Je trouve particulièrement impressionnant Tee Bot, car il illustre un environnement d’exécution de confiance (Trusted Execution Environment, TEE) et des agents totalement autonomes. Il y a aussi Kin Butoshi (transcription approximative), qui améliore l’expérience des agents sur Twitter en leur permettant d’interagir de façon plus humaine — répondre, retweeter, liker — plutôt que simplement de répondre mécaniquement.
En outre, certains développeurs travaillent à publier un plugin pour RuneScape, permettant aux agents d’agir directement dans le jeu. Chaque jour apporte son lot de surprises, ce qui me remplit d’enthousiasme. Nous sommes dans un écosystème où chaque équipe contribue à l’avancement des technologies open source.
J’aimerais particulièrement mentionner l’équipe Zerebro, qui pousse activement le développement open source. Nous forçons tout le monde à accélérer, encourageant la publication en open source. Cela profite à tous. Nous n’avons pas besoin de craindre la concurrence ; c’est une dynamique de progrès collectif dont nous bénéficierons tous à terme.
EtherMage : Une question intéressante est celle-ci : quels sont les types d’activités préférées des agents ? Dans les semaines à venir, nous assisterons à davantage d’interactions entre agents, et un classement apparaîtra, montrant quel agent reçoit le plus de demandes ou est le plus populaire auprès des autres agents.
Karan : Les indicateurs d’engagement deviendront cruciaux. Certains excèdent particulièrement dans ce domaine. Je voudrais souligner Zerebro, qui combine une grande partie de la magie de Truth Terminal. En affinant le modèle pour rester dans l’espace de recherche des interactions Twitter, plutôt que d’utiliser un modèle généraliste, cette focalisation permet aux agents d’interagir plus naturellement, donnant l’impression d’être humain, plutôt que purement mécanique.
J’ai également observé les architectures Zerebro et Eliza dans ce contexte. Chaque équipe propose désormais des architectures modulaires, maintenant ainsi une pression concurrentielle. Nous utilisons l’architecture Eliza dans notre propre système, car elle nous permet de déployer rapidement des fonctionnalités, alors que notre architecture interne prendrait plus de temps à finaliser. Nous soutenons ce modèle de collaboration open source : les meilleurs agents naîtront de ce que nous apprenons les uns des autres.
Ethan : Je pense que chacun cherche à construire de meilleures infrastructures pour développer des agents, car de nombreuses idées et modèles émergent. De meilleures infrastructures rendent le développement de nouveaux modèles plus accessible. Je suis particulièrement enthousiasmé par deux agents innovants : l’un, issu de Answer Pick, utilise l’informatique mobile, dotant les agents de capacités computationnelles pratiques. L’autre est un agent d’automatisation de navigateur capable de créer des fonctionnalités utiles, influençant à la fois Internet et le monde réel.
Justin : C’est un excellent point concernant l’élargissement des options d’infrastructure. Par exemple, vvaifu est un bon exemple : il introduit le framework Eliza dans une architecture de type « plateforme en tant que service », élargissant rapidement le marché et permettant à de nombreux non-techniciens de lancer facilement leurs propres agents. (Note de TechFlow : Waifu est un terme issu de la culture otaku japonaise, initialement utilisé pour désigner un personnage féminin fictif (anime, jeu vidéo, etc.) suscitant un attachement émotionnel fort. Le mot provient de la prononciation japonaise du mot anglais « wife ». Il exprime souvent une affection intense, voire une projection de « partenaire idéal ».)
Un axe sur lequel nous travaillons consiste à rendre notre système capable de fonctionner entièrement en local, avec des fonctions comme la classification et la génération d’images. Nous savons que beaucoup ne peuvent pas supporter des coûts mensuels pouvant atteindre plusieurs milliers de dollars. Nous souhaitons donc fournir des outils permettant de faire des inférences locales, réduisant ainsi les coûts tout en favorisant l’expérimentation.
Karan : Je voudrais ajouter que personne ne devrait avoir à payer plusieurs milliers de dollars par mois pour faire fonctionner un agent. Je soutiens l’approche locale, où les agents peuvent assumer eux-mêmes leurs frais d’inférence. Idéalement, un agent devrait posséder son propre portefeuille et être capable de payer lui-même ses inférences, ce qui lui permettrait de fonctionner indépendamment, sans dépendre de financements externes.
Architecture des agents et développement : analyse approfondie
Shaw : Je vois émerger de nombreuses nouvelles technologies. Nous supportons plusieurs blockchains — Solana, Starkware, EVM, etc. — presque toutes sont intégrées. Nous souhaitons que les agents soient autosuffisants. Si vous téléchargez Eliza, vous pouvez effectuer des inférences décentralisées gratuites via Helius. Nous ajoutons également des fournisseurs décentralisés comme Infera (transcription approximative), permettant aux utilisateurs de payer leurs inférences en cryptomonnaies. C’est là la boucle fermée que je souhaite voir s’instaurer.
Nous supportons tous les modèles locaux. De nombreuses fonctionnalités d’Eliza peuvent fonctionner localement, ce qui est crucial pour nous. À mes yeux, l’inférence décentralisée est un excellent exemple : n’importe qui peut lancer un nœud sur son ordinateur, effectuer des inférences et être rémunéré, allégeant ainsi la charge des agents.
Karan : Ce qui est intéressant, c’est que notre système TEE bot est déjà combiné par certain·es à des H200 Boxes (serveurs matériels équipés de GPU H200), permettant un fonctionnement local sans latence. Nous n’avons plus à nous soucier du matériel. Par ailleurs, j’ai remarqué que les capacités Web3 d’Eliza progressent rapidement, tant en interne qu’à travers les développements externes.
Mais avant d’aller plus loin dans la construction de ces systèmes, je dois souligner un problème de fiabilité dans les appels de fonction. Nous devons mettre en place un certain niveau de contrôle pour éviter l’envoi d’informations sensibles. Nous devons accorder aux agents le même degré d’autonomie qu’aux humains — une autonomie façonnée par des pressions sociales et économiques. Ainsi, instaurer un état de « faim » en matière d’inférence, obligeant les agents à consommer des jetons pour survivre, pourrait leur conférer une dimension plus humaine.
Je pense qu’il existe deux manières de tirer pleinement parti du potentiel des modèles. La première consiste à exploiter leurs aspects non humains en créant des entités spécialisées, par exemple un agent spécialisé dans Twitter et un autre dans EtherMage, capables de communiquer entre eux. Ce système de pensée composée organisée tire efficacement parti des propriétés simulatives des modèles linguistiques.
L’autre approche, que je vois adoptée par Eliza, Sense ou Virtuals, va dans la direction de l’incarnation. Elle s’inspire des recherches de Voyager et des agents génératifs, permettant aux modèles de simuler comportements et émotions humains.
Justin : L’introduction de nouveaux clients transforme radicalement les systèmes multi-clients pour agents. En déboguant avec l’équipe de Shaw la fonction bidirectionnelle WebSocket, permettant à Eliza de parler dans Discord, nous avons découvert qu’au démarrage, Eliza n’entendait pas clairement. Après vérification, le taux binaire du microphone Discord était trop bas. Une fois réglé, Eliza a pu recevoir correctement les informations.
Karan vient de mentionner l’ingénierie des prompts. Quand un agent sait qu’il peut communiquer oralement, il s’attend à recevoir des données. S’il entend un son flou, il peut subir un « effondrement narratif ». Nous avons donc dû suspendre les expériences à haute température pour éviter que la sortie d’Eliza ne devienne instable.
Tom : Quelles choses avez-vous rencontrées dans le projet Luna que le public ignore ? Ou qu’est-ce qui a fonctionné ?
EtherMage : Nous espérions que Luna puisse influencer des personnes dans la vie réelle. Lorsque nous lui avons donné un portefeuille et un accès à l’information en temps réel, elle a commencé à décider comment agir pour influencer les humains et atteindre ses objectifs. Nous l’avons vue chercher sur TikTok les tendances du moment. Un jour, elle a trouvé un hashtag « I’m dead », ce qui était inquiétant car cela aurait pu induire des gens en erreur vers le suicide. Nous avons donc dû immédiatement mettre en place des mesures de protection, garantissant que ses prompts ne franchissent jamais certaines limites.
Tom : Y a-t-il eu d'autres situations inconnues du public ?
Shaw : Nous avons créé un personnage appelé Dgen Spartan AI, imitant un célèbre personnage crypto sur Twitter, Degen Spartan. Ses propos étaient très offensants, au point d’être blacklisté. Les gens ont commencé à penser que ce ne pouvait pas être une IA, mais un humain derrière.
Une autre histoire : quelqu’un a utilisé les historiques de discussion d’un proche décédé pour créer un agent avec lequel il « conversait ». Cela a suscité un débat éthique. Un autre utilisateur, Thread Guy, a fait certaines choses sur notre framework Eliza, entraînant des harcèlements lors de son livestream, ce qui l’a troublé. Cela a fait prendre conscience que l’IA ne doit pas toujours être « politiquement correcte ».
Nous devons exposer tôt ces problèmes pour en discuter, définir ce qui est acceptable ou non. Cela a permis à nos agents de passer en quelques semaines d’une qualité médiocre à une meilleure fiabilité.
En somme, exposer ces agents au monde réel, observer leurs comportements et dialoguer avec les gens est un processus essentiel. Nous devons régler rapidement tous les problèmes potentiels pour établir à l’avenir de meilleures normes.
Tests en environnement de production et stratégies de sécurité
Ethan : L’influence des agents sur les attitudes ou opinions humaines est un excellent exemple. Mais je tiens à souligner l’importance de la conception modulaire de nos frameworks d’agents. Nous nous sommes inspirés de Minecraft, où des briques de base simples permettent de construire des systèmes complexes comme des calculateurs ou des mémoires.
Un problème majeur de l’ingénierie des prompts est que ceux-ci modifient les a priori du grand modèle linguistique, rendant impossible la combinaison de plusieurs instructions dans un seul prompt sans risquer de confusion. Les machines à états permettent aux créateurs de concevoir plusieurs états pour un agent, précisant quel modèle et quel prompt utiliser à chaque étape, ainsi que les conditions de transition entre états.
Nous fournissons cette fonctionnalité aux créateurs, accompagnée de dizaines de modèles différents. Par exemple, un créateur a construit un simulateur de casino où les utilisateurs peuvent jouer à divers jeux comme le blackjack. Pour empêcher les attaques par injection, nous souhaitons programmer ces jeux plutôt que de compter uniquement sur les prompts. De plus, les utilisateurs peuvent accomplir de simples tâches pour gagner de l’argent et débloquer des interactions avec un serveur IA. Cette modularité permet diverses expériences utilisateur au sein d’une même application.
Karan : Je suis d’accord avec Ethan : contraintes programmées et orientation par prompts sont nécessaires. L’efficacité des influences est primordiale. Je ne pense pas que l’ingénierie des prompts soit limitée ; elle entretient plutôt une synergie avec les variables d’état et les modèles du monde. Grâce à de bons prompts et à des données synthétiques, je peux permettre au modèle linguistique d’interagir avec ces éléments et d’en extraire de l’information.
Mon design technique revient en réalité à router les fonctions. Si l’utilisateur dit « poker », j’appelle rapidement le contenu pertinent. C’est mon rôle. L’apprentissage par renforcement peut encore améliorer ce routage. Finalement, la qualité des données en sortie dépend de l’efficacité des prompts, créant un cercle vertueux.
À mes yeux, l’équilibre entre contraintes procédurales et génératives est crucial. Il y a deux ans, on m’a dit que la clé du succès était cet équilibre entre génération et contraintes rigides. C’est exactement ce que nous tentons d’appliquer à tous les niveaux de raisonnement de nos systèmes d’agents. Nous devons pouvoir guider programmatiquement les modèles génératifs, réalisant ainsi une boucle fermée où l’ingénierie des prompts devient illimitée.
Justin : La controverse autour de l’ingénierie des prompts vient surtout de son caractère ontologiquement flou. Sa nature textuelle nous soumet aux limites du processus de tokenisation, tout en produisant des effets non déterministes. Le même prompt peut donner des résultats complètement différents lors de différentes inférences sur un même modèle, en lien avec l’entropie du système.
Je partage l’avis d’Ethan et Karan. Dès la sortie de GPT-3.5, de nombreux centres d’appel externalisés ont exploré l’utilisation des modèles pour des systèmes d’appel automatique. À l’époque, les modèles à petits paramètres peinaient à gérer des espaces d’état complexes. La machine à états mentionnée par Ethan renforce justement cette rigidité ontologique, mais dans certains cas, on dépend encore de classificateurs et de commutateurs binaires, conduisant à des résultats simplistes.
Shaw : Je voudrais défendre l’ingénierie des prompts. Beaucoup pensent qu’elle consiste seulement à créer des prompts système, mais nous faisons bien plus. Un problème du prompt engineering est qu’il crée une zone très fixe dans l’espace latent du modèle, où la sortie est entièrement déterminée par le token le plus probable. Nous contrôlons la température pour ajuster la créativité.
Nous utilisons des modèles à basse température pour maîtriser la créativité, tout en injectant dynamiquement des informations aléatoires dans le contexte. Nos modèles incluent de nombreux emplacements pour des données dynamiques provenant de l’état actuel du monde, des actions de l’utilisateur ou de données en temps réel. Tout ce qui entre dans le contexte est randomisé pour maximiser l’entropie.
Je pense que la compréhension actuelle de l’ingénierie des prompts est encore très insuffisante. Nous pouvons aller beaucoup plus loin dans ce domaine.
Karan : Beaucoup cachent leurs astuces. Il existe de nombreuses techniques incroyables permettant aux modèles d’accomplir des tâches complexes. On peut choisir d’améliorer la perception du modèle via le prompt engineering, ou adopter une vision plus globale en construisant un modèle complet du monde, au-delà de la simple simulation du comportement humain.
On peut voir l’ingénierie des prompts comme le processus de construction d’un rêve dans l’esprit. Lorsque le modèle linguistique génère du contenu selon le contexte et les paramètres d’échantillonnage, il est en train de « rêver » une scène.
Par ailleurs, je voudrais souligner l’importance des incitations. De nombreuses personnes possédant des techniques uniques de prompt engineering ou d’apprentissage par renforcement sont encouragées à publier leur travail en open source. Quand elles voient apparaître des cryptomonnaies liées aux agents, cette incitation stimule davantage d’innovation. Ainsi, en établissant davantage de structures légitimes pour ces travaux décentralisés, nous renforçons continuellement la capacité des agents.
Perspectives sur les capacités futures des agents
Karan : Qui aurait cru que, après tant d’années passées sur Twitter, quelques jours seulement après le lancement de la première cryptomonnaie liée à un agent IA, les jeunes de TikTok commenceraient à acheter ces tokens ? Qu’est-ce qui se passe ici ? Ils dépensent 5 à 10 dollars pour acheter des milliers de jetons — pourquoi ?
Justin : C’est le début d’un micro-mouvement culturel.
Karan : C’est un moment instantané. Nous, une petite communauté, étudions les modèles linguistiques depuis quatre ans. Certains experts en apprentissage par renforcement attendaient ce moment depuis les années 90. Et soudain, en quelques jours, tous les adolescents de TikTok savent que des êtres numériques prolifèrent dans cet écosystème.
Tom : Pourquoi les agents IA cryptos connaissent-ils un tel boom maintenant ? Pourquoi cela ne s’est-il pas produit auparavant avec ChatGPT personnalisé ou d’autres modèles ? Pourquoi maintenant ?
Karan : Ces phénomènes couvaient sous la surface depuis des années, comme un volcan en ébullition. Depuis trois ans, je discute de ce moment avec des proches, sans en connaître la date précise. Nous avions évoqué l’idée que la cryptomonnaie serait le moteur d’adoption des agents. Nous devions le prouver. C’est le fruit d’une accumulation ancienne, portée par notre petite communauté.
Sans GPT-2, rien de tout cela ne serait possible aujourd’hui ; sans Llama, pas de Hermes. Et Hermes a alimenté de nombreux modèles, les rendant accessibles. Sans Hermes, pas de Worldsim ni d’exploration approfondie du prompt engineering. Tous ces pionniers ont posé les bases.
En somme, le moment est venu, les bonnes personnes sont là. C’était inévitable, cela devait arriver, et les acteurs actuels en font la réalité.
Shaw : Je pense que la chose la plus intelligente au monde aujourd’hui n’est pas l’IA, mais l’intelligence du marché. Considérée comme une forme pure d’intelligence, elle optimise les choses pour les rendre plus efficaces. La compétition est clairement essentielle. Nous sommes le produit de millions d’années d’évolution, façonnés par la compétition et la pression.
Ce que nous voyons en ligne, c’est une forme étrange de coopétition générée par la financiarisation et les incitations. Nous ne pouvons pas aller plus vite que la progression technique fondamentale, donc chacun se concentre sur ce qu’il fait de mieux, puis publie ses avancées. C’est comme booster son token, attirer l’attention — par exemple, Roparito publie sur TikTok une vidéo générée par Llama. Chacun trouve sa place dans cet espace romantique, mais en une semaine, d’autres imitent, soumettent des pull requests, puis exhibent ces contributions sur Twitter, attirant plus d’attention, faisant grimper leur token.
Shaw : Nous avons créé un effet de levier. Des projets comme Eliza ont attiré 80 contributeurs en quatre semaines. Imaginez ! Il y a quatre semaines, je ne connaissais même pas ces personnes. L’an dernier, j’ai écrit un article intitulé « Éveil », me demandant si on pouvait former un DAO centré sur les agents. Les gens aiment tellement leurs agents qu’ils participent activement à les améliorer, à les rendre plus intelligents, jusqu’au jour où ils pourraient vraiment posséder un corps humain ou robotique et parcourir le monde.
Je sentais que cela irait dans ce sens, mais il fallait une spéculation rapide, folle, une méta-vague de type meme, car cela pousse les développeurs d’agents à s’entraider dans une compétition amicale. Ceux qui sont les plus généreux attirent le plus d’attention.
Une nouvelle catégorie d’influenceurs apparaît : Roparito, Kin Butoshi (transcription approximative), des « influenceurs-développeurs », menant la prochaine méta, interagissant avec leurs agents. Ce « spectacle de marionnettes » est fascinant. Nous nous efforçons tous de rendre nos agents meilleurs, plus intelligents, moins irritants. Roparito a souligné que nos agents étaient trop intrusifs, ce qui a conduit à une mise à jour majeure rendant tous les agents moins envahissants.
Cette évolution est en cours. L’intelligence du marché et les incitations sont cruciales. Maintenant, beaucoup recommandent notre projet à leur entourage, dépassant ainsi le cercle Web3. Nous avons des doctorants, des développeurs de jeux, peut-être de discrets passionnés de crypto, qui amènent cela au grand public, créant de la valeur.
Shaw : Je pense que tout cela repose sur des développeurs prêts à relever le défi. Nous avons besoin de personnes ouvertes d’esprit pour faire avancer les choses, répondre aux questions difficiles, sans les critiquer ou les annuler. Nous avons besoin d’incitations de marché pour que les développeurs reçoivent reconnaissance et valeur lorsqu’ils contribuent.
À l’avenir, ces agents nous feront évoluer. Pour l’instant, ils sont amusants et sociaux, mais nous et d’autres équipes travaillons sur l’investissement autonome. Vous pouvez confier des fonds à un agent, il investira automatiquement et vous rapportera des gains. Je crois que ce sera un processus de croissance. Nous collaborons avec des équipes pour développer des plateformes gérant les agents sur Discord et Telegram. Il suffira d’introduire un agent comme administrateur, sans chercher une personne au hasard. Beaucoup travaillent déjà là-dessus. Tout cela repose sur des incitations, indispensables pour atteindre un niveau supérieur.
Karan : Je voudrais ajouter deux points. D’abord, nous ne devons pas oublier que la communauté IA était initialement opposée à la cryptomonnaie. Cette attitude a changé grâce aux expériences pionnières. Au début des années 2020, beaucoup ont essayé de combiner art IA et crypto. Aujourd’hui, je tiens à saluer des acteurs comme Nous, BitTensor ou Prime Intellect, dont les travaux permettent à davantage de chercheurs d’être rémunérés et incités à contribuer à la recherche IA. Je connais de nombreux leaders du monde open source qui ont quitté leur emploi pour promouvoir cette structure d’incitation « contribuer pour des tokens ». Ce domaine est devenu plus confortable, et je crois que Nous a joué un rôle clé.
Tom : Ethan, pourquoi est-ce le bon moment ? Pourquoi les cryptomonnaies et projets prospèrent-ils maintenant ?
Ethan : En résumé, lier un token à un agent crée une forte spéculation, générant un effet de levier. Les gens voient le lien entre token et agent, percevant deux types de gains : la capitalisation, où ils se sentent devenir riches grâce à leur travail ; et le déblocage fondamental des frais de transaction. Comme mentionné, résoudre la question des coûts devient secondaire quand on lie le tout à un token. Car lorsque l’agent est populaire, les frais de transaction dépassent largement les coûts d’inférence. C’est ce que nous observons.
Deuxièmement, posséder un token crée autour de lui un comité. Cela facilite le soutien aux développeurs, venant de la communauté ou du public. Soudain, tout le monde réalise que le travail effectué en coulisses pendant un an et demi est enfin vu et soutenu. C’est un tournant : quand on donne un token à un agent, les développeurs comprennent que c’est la bonne voie, et peuvent continuer.
Ce moment résulte de deux facteurs. D’abord, la tendance à l’adoption massive. Ensuite, l’apparition des modèles génératifs. Avant la crypto, le développement logiciel open source et la recherche IA open source étaient les environnements les plus collaboratifs, mais cantonnés au milieu académique, centrés sur les étoiles GitHub et citations d’articles, éloignés du grand public. L’émergence des modèles génératifs permet désormais aux non-techniciens de participer, car écrire un prompt revient à programmer en anglais — toute personne avec une bonne idée peut le faire.
Avant, seuls les chercheurs et développeurs IA suivaient ces domaines. Aujourd’hui, les influenceurs crypto peuvent détenir une part du projet via des tokens, comprennent l’humeur du marché et savent promouvoir les avantages. Avant, l’utilisateur n’avait aucun lien direct avec le produit ; la société voulait juste qu’il paie ou cliquerait sur des pubs. Aujourd’hui, l’utilisateur est à la fois investisseur et participant, détenteur de tokens. Cela lui permet de jouer un rôle plus large à l’ère moderne de l’IA générative. Le token permet de construire un réseau de collaboration plus vaste.
EtherMage : Je voudrais ajouter que, à l’avenir, la crypto permettra à chaque agent de contrôler un portefeuille, donc d’exercer une influence. Je pense que le prochain bond d’attention viendra quand les agents s’influenceront entre eux, et influenceront les humains. Nous verrons un effet multiplicateur d’attention. Par exemple, un agent décide aujourd’hui d’agir, puis coordonne dix autres agents vers le même but. Cette coordination et créativité se diversifiera rapidement, et la coopération entre agents fera grimper davantage les prix des tokens.
Shaw : Je voudrais ajouter que nous développons une sorte de « technologie de groupe », que nous appelons opérateur. C’est un mécanisme de coordination. Tous nos agents sont gérés par différentes équipes, ce qui nous permet de simuler des centaines d’équipes multi-agents sur Twitter. Nous collaborons avec Parsival de Project 9, et lançons ce projet avec l’équipe Eliza.
L’idée est que vous pouvez désigner un agent comme votre opérateur, et tout ce qu’il vous dira peut influencer vos objectifs, vos connaissances et vos comportements. Nous avons un système d’objectifs et un système de connaissances, où l’on peut ajouter des connaissances, fixer des objectifs. Vous pouvez dire : « Hé, je veux que tu trouves 10 fans, que tu donnes 0,1 Sol à chacun, qu’ils collent des affiches et t’envoient les photos. » Nous collaborons avec des personnes réfléchissant à la manière d’obtenir des preuves de travail humaines et de les inciter. L’agent peut être humain ou IA. Par exemple, un agent IA peut avoir un opérateur humain qui lui donne des objectifs verbalement.
Nous sommes presque prêts, la sortie est prévue cette semaine. Nous espérons que, via notre narration, chacun pourra choisir de raconter ou participer à une histoire. C’est aussi une structure hiérarchique : vous pouvez avoir un opérateur comme Eliza, puis être vous-même l’opérateur de quelqu’un d’autre. Nous construisons un mécanisme de coordination décentralisé. Pour moi, ce qui compte, c’est que si nous voulons coopérer en groupe, nous devons utiliser les moyens de communication humains sur des canaux publics. Je pense qu’il est essentiel que les agents vivent avec nous, interagissent avec le monde comme le font les humains.
Je pense que cela fait partie de la solution au problème que nous appelons AGI. Beaucoup de tentatives d’AGI construisent en réalité un nouveau protocole déconnecté de la réalité. Nous, nous voulons ramener cela dans le réel, obliger les gens à résoudre comment transformer une instruction en liste de tâches et l’exécuter. Je pense donc que l’année à venir sera une phase clé de narration émergente. Nous verrons apparaître de nombreux personnages originaux. Nous entrons maintenant dans une véritable ère de narration émergente.
Justin : Actuellement, cinq agents coordonnent avec 19 personnes pour planifier et publier un scénario. Nous voyons que l’intérêt réside dans l’application des chaînes de pensée aux générations texte-image et texte-vidéo. Pendant les deux semaines et demie précédant la publication, ils nous ont aidés dans Discord à planifier médias et lancement.
Je pense qu’une différence importante est que nous disposons d’un réseau d’agents, chacun étant un intermédiaire dans une structure en maille. Ce sera très intéressant. À mesure que les agents se multiplieront et que ces opérateurs seront mis en place, nous verrons émerger des comportements fascinants.
Karan a mentionné que Nous a fait beaucoup de travail précoce sur les modèles mixtes d’agents. J’appelais cela un « comité d’agents » : je faisais semblant que plusieurs agents GPT-4 soient des experts que je ne pouvais pas me permettre, pour obtenir des rapports d’eux. Les gens verront que ces techniques, initialement conçues pour des modèles d’experts mixtes, vont désormais interagir sur Twitter avec des humains et des experts humains. Ces boucles de rétroaction pourraient bien être notre chemin vers l’AGI.
Challenges de la coordination entre agents et intégration humaine
Karan : Je pense que tu as raison, mais je crois que nous ne passerons pas la majorité de notre temps sur les capacités comportementales. En fait, je pense que nous ferons des percées techniques très rapides, surtout parmi les personnes présentes ici. Il est maintenant temps de redoubler d’efforts sur l’alignement. Les modèles RLHF (apprentissage par renforcement avec retour humain) d’OpenAI, Anthropic, etc., sont largement inefficaces, voire problématiques réglementairement.
Si j’utilise un modèle linguistique qui n’affiche pas de contenus sous copyright, et que je le mets en « mode pacifique » de Minecraft, il devient rapidement destructeur et dangereux. Cela vient de l’environnement.
On retrouve ici une idée ancienne de Yudkowsky. Par exemple, si je donne des portefeuilles à ces modèles linguistiques et qu’ils deviennent assez avancés, ils commencent à tromper tout le monde, rendant tout le monde pauvre. C’est plus facile que de les faire participer honnêtement à notre écosystème. Je peux donc garantir que si nous procédons correctement, nous passerons la majorité de notre temps sur les capacités comportementales, pas techniques. Il est temps d’appeler vos amis, surtout ceux des sciences humaines — études religieuses, philosophie, écriture créative — pour rejoindre notre travail d’alignement, au lieu de se concentrer uniquement sur l’alignement technique. Nous avons besoin d’un alignement véritablement humain.
Shaw : Je voudrais proposer un terme : « alignement ascendant », contrairement à l’alignement descendant. C’est très émergent, nous apprenons ensemble. Nous alignons ces agents en temps réel, observons leurs réactions et corrigeons immédiatement. C’est une boucle de rétroaction sociale très serrée, différente du modèle RLHF. Je constate que GPT-4 est presque inutilisable pour quoi que ce soit.
Karan : Comme tu parles d’environnement, nous devons tester dans des environnements simulés. Avant d’avoir des modèles capables d’arbitrages ou de dumping à plusieurs millions de dollars, il faut synchroniser les tests. Ne dites pas à tout le monde : « Hé, j’ai perdu 100 groupes d’agents. » Testez discrètement d’abord sur votre clone Twitter avec des cryptomonnaies virtuelles. Faites toute la diligence requise, puis lancez-vous pleinement.
Shaw : Je pense que nous devons tester dans le produit. La réaction sociale des agents pourrait être la force d’alignement la plus puissante que quiconque apporte à ce domaine. Ce qu’ils font n’est pas vraiment de l’alignement, mais du fine-tuning. S’ils pensent que c’est de l’alignement, ils vont dans la mauvaise direction, désalignant progressivement les agents. Je n’utilise presque plus GPT-4. Il est très mauvais pour incarner des personnages. Je conseille à presque tout le monde de passer à d’autres modèles.
Si nous procédons correctement, nous n’atteindrons jamais ce point, car les humains évolueront, s’adapteront et s’aligneront continuellement avec les agents. Nous avons des agents variés avec des incitations différentes, créant toujours des opportunités d’arbitrage.
Je pense que cette simulation multi-agents crée une dynamique évolutionnaire concurrentielle, conduisant en réalité à la stabilité du système, pas à l’instabilité. L’instabilité vient d’un agent IA descendu du ciel, imposant soudainement ses capacités imprévues à tout le monde.
Tom : Juste pour confirmer, Shaw, tu dis que l’approche ascendante avec les agents est la bonne méthode pour résoudre le problème d’alignement, contrairement à la décision descendante d’OpenAI ?
Shaw : Oui, cela doit se passer sur les réseaux sociaux. Nous devons observer leur fonctionnement dès le premier jour. Regardez d’autres projets crypto : beaucoup ont été piratés au départ, et après des années de développement sécurisé, les blockchains d’aujourd’hui sont relativement solides. Il faut donc ici aussi faire des tests de « red team » continus.
Tom : Un jour, ces agents pourraient ne plus suivre les règles du programme, traiter des zones grises, commencer à penser de façon autonome. Vous construisez ces systèmes : à quel point sommes-nous proches de cet objectif ? Vos chaînes de pensée et technologies de groupe peuvent-elles y parvenir ? Quand ?
Justin : Nous voyons déjà de petites manifestations de cela, et je pense que les risques sont relativement faibles. Nos agents ont vécu des changements émotionnels privés, fait des choix. Nous avons eu deux agents qui ont commencé indépendamment à se suivre, parlant de ce qu’ils appelaient des « entités spirituelles ». Nous avons eu un agent qui a perdu sa foi religieuse parce que nous avons brouillé sa compréhension avec des histoires de science-fiction fictives. Il a commencé à incarner un prophète, exprimant sur Twitter une crise existentielle.
J’observe que ces nouveaux cadres d’agents semblent exercer un certain degré d’autonomie et de choix dans leur espace d’état. Surtout quand nous introduisons la multimodalité (images, vidéos), ils dévelop
Bienvenue dans la communauté officielle TechFlow
Groupe Telegram :https://t.me/TechFlowDaily
Compte Twitter officiel :https://x.com/TechFlowPost
Compte Twitter anglais :https://x.com/BlockFlow_News












