Décortiquer les frameworks d'IA : de l'agent intelligent à l'exploration de la décentralisation

2025.01.08

Partager vers

TechFlow SélectionTechFlow Sélection

Décortiquer les frameworks d'IA : de l'agent intelligent à l'exploration de la décentralisation

Un cadre qui simplifie le processus de construction d'agents tout en offrant des combinaisons de fonctionnalités complexes continuera à dominer à l'avenir, donnant ainsi naissance à une économie créative Web3 plus intéressante que la GPT Store.

2025.01.08 - 11:09:19

Dédié à des analyses Web3 approfondies

Auteur : Zeke, chercheur chez YBB Capital

Préambule

Dans nos précédents articles, nous avons déjà abordé à plusieurs reprises l'état actuel des AI Meme et les perspectives d'avenir des AI Agent. Pourtant, la vitesse de développement et l'intensité de l'évolution du récit autour des AI Agent dépassent toute attente. En seulement deux mois depuis que « Truth Terminal » a lancé l'été des Agents, le récit combinant IA et Crypto a connu une évolution hebdomadaire. Récemment, l'attention du marché se recentre sur les projets axés sur la technologie, notamment ceux qualifiés de « projets de cadre (framework) ». Ce segment spécifique a déjà vu émerger plusieurs nouveaux venus dont la capitalisation dépasse désormais largement un milliard, voire dix milliards de dollars. Ces projets ont également donné naissance à un nouveau paradigme d'émission d'actifs : les projets lancent des jetons à partir d'un dépôt GitHub, et les Agents construits sur ces cadres peuvent eux-mêmes émettre leurs propres jetons. Un cadre comme fondement, des Agents comme couche supérieure. À l'image d'une plateforme d'émission d'actifs, un modèle d'infrastructure propre à l'ère de l'IA commence à prendre forme. Comment analyser cette nouvelle tendance ? Cet article propose une interprétation du sens des cadres IA pour la Crypto, en partant d'une introduction aux frameworks mêmes et de réflexions personnelles.

I. Qu'est-ce qu’un framework ?

Par définition, un framework IA est un outil ou une plateforme de base intégrant un ensemble de modules prédéfinis, de bibliothèques et d’outils qui simplifient la construction de modèles IA complexes. Ces cadres incluent généralement des fonctions permettant de traiter les données, d'entraîner des modèles et de réaliser des prédictions. En termes simples, on peut considérer un framework comme un système d'exploitation à l'ère de l'IA, à l'instar de Windows ou Linux sur ordinateur, ou iOS et Android sur mobile. Chaque framework présente ses propres avantages et inconvénients, et les développeurs peuvent choisir librement selon leurs besoins spécifiques.

Bien que le terme « framework IA » soit encore relativement nouveau dans le domaine Crypto, son origine remonte au moins à Theano, apparu en 2010, ce qui signifie que les frameworks IA ont déjà près de 14 ans d'histoire. Dans le monde traditionnel de l'IA, tant académique qu'industriel, il existe aujourd'hui de nombreux frameworks matures et éprouvés, tels que TensorFlow de Google, PyTorch de Meta, PaddlePaddle de Baidu ou MagicAnimate de ByteDance, chacun ayant ses points forts selon les cas d'utilisation.

Les projets de framework émergents dans la sphère Crypto sont conçus pour répondre à la forte demande en Agents générée par l'essor actuel de l'IA, puis se sont étendus à d'autres segments de la Crypto, donnant naissance à divers frameworks spécialisés. Prenons quelques exemples emblématiques de la communauté pour illustrer davantage ce phénomène.

1.1 Eliza

Prenons tout d'abord Eliza, porté par a16z. Ce framework est une plateforme de simulation multi-Agent, spécialement conçue pour créer, déployer et gérer des Agents IA autonomes. Développé en TypeScript, il offre une excellente compatibilité et facilite l'intégration avec les API.

Selon la documentation officielle, Eliza cible principalement les médias sociaux, avec un support intégré pour plusieurs plateformes. Il propose une intégration complète à Discord, y compris aux salons vocaux, automatise les comptes X/Twitter, intègre Telegram, et permet un accès direct via API. En matière de traitement de contenu, il prend en charge la lecture et l'analyse de documents PDF, l'extraction et le résumé de liens, la transcription audio, le traitement vidéo, l'analyse et description d'images, ainsi que le résumé de conversations.

Les cas d'utilisation actuels d'Eliza se divisent en quatre catégories :

1. Applications d'assistant IA : agents de support client, gestionnaires communautaires, assistants personnels ;

2. Rôles sur les réseaux sociaux : créateurs automatisés de contenu, robots d'interaction, représentants de marque ;

3. Travailleurs intellectuels : assistants à la recherche, analystes de contenu, traitements de documents ;

4. Rôles interactifs : personnages de jeu de rôle, tuteurs éducatifs, robots de divertissement.

Modèles pris en charge par Eliza :

1. Inférence locale avec modèles open source : par exemple Llama3, Qwen1.5, BERT ;

2. Inférence cloud via l'API OpenAI ;

3. Configuration par défaut : Nous Hermes Llama 3.1B ;

4. Intégration avec Claude pour les requêtes complexes.

1.2 G.A.M.E

G.A.M.E (Generative Autonomous Multimodal Entities Framework) est un framework IA multimodal auto-généré et auto-géré développé par Virtual. Son application principale concerne la conception de PNJ intelligents dans les jeux vidéo. Un aspect remarquable de ce framework est qu’il peut être utilisé même par des utilisateurs sans compétences en codage, voire aucun code du tout. D'après son interface de test, il suffit de modifier certains paramètres pour concevoir un Agent.

Sur le plan architectural, G.A.M.E repose sur une conception modulaire où plusieurs sous-systèmes travaillent en synergie. L'architecture détaillée est illustrée ci-dessous.

1. Agent Prompting Interface : l'interface par laquelle les développeurs interagissent avec le framework IA. Elle permet d'initialiser une session et de définir des paramètres tels que l'ID de session, l'ID de l'Agent et l'ID utilisateur ;

2. Perception Subsystem : le sous-système de perception reçoit les entrées, les synthétise et les transmet au moteur de planification stratégique. Il gère également les réponses du module de dialogue ;

3. Strategic Planning Engine : le cœur du framework, divisé en planificateur de haut niveau (High Level Planner) et politique de bas niveau (Low Level Policy). Le premier établit des objectifs et plans à long terme, tandis que le second traduit ces plans en actions concrètes ;

4. World Context : contient des données sur l’environnement, l’état du monde et l’état du jeu, permettant à l’Agent de comprendre son contexte ;

5. Dialogue Processing Module : gère les messages et génère des réponses ou réactions ;

6. On Chain Wallet Operator : pourrait impliquer des applications liées à la blockchain, bien que sa fonction exacte ne soit pas claire ;

7. Learning Module : apprend à partir des retours et met à jour la base de connaissances de l’Agent ;

8. Working Memory : stocke les informations à court terme telles que les dernières actions, résultats et plans en cours ;

9. Long Term Memory Processor : extrait les informations importantes concernant l’Agent et sa mémoire de travail, puis les classe selon leur importance, leur récence et leur pertinence ;

10. Agent Repository : conserve les attributs de l’Agent tels que ses objectifs, ses réflexions, son expérience et sa personnalité ;

11. Action Planner : génère des plans d’action concrets à partir des politiques de bas niveau ;

12. Plan Executor : exécute les plans d’action produits par l’Action Planner.

Flux de travail : le développeur lance l’Agent via l’interface de prompt. Le sous-système de perception capte l’entrée et la transmet au moteur de planification stratégique. Ce dernier utilise les informations provenant du système de mémoire, du contexte mondial et du dépôt d’Agents pour élaborer et exécuter un plan d’action. Le module d’apprentissage surveille en continu les résultats des actions de l’Agent et ajuste son comportement en conséquence.

Cas d’utilisation : d’après l’architecture technique, ce framework se concentre sur la prise de décision, la rétroaction, la perception et la personnalité des Agents dans des environnements virtuels. Outre les jeux, il convient également au Metaverse. La liste proposée par Virtual montre qu’un grand nombre de projets l’ont déjà adopté.

1.3 Rig

Rig est un outil open source écrit en langage Rust, conçu pour simplifier le développement d'applications basées sur de grands modèles linguistiques (LLM). Il fournit une interface unique permettant aux développeurs d'interagir facilement avec plusieurs fournisseurs de services LLM (comme OpenAI et Anthropic) et différents types de bases de données vectorielles (telles que MongoDB et Neo4j).

Caractéristiques principales :

● Interface unifiée : quelle que soit la source du LLM ou du stockage vectoriel, Rig assure un mode d’accès cohérent, réduisant fortement la complexité d’intégration ;

● Architecture modulaire : composée de couches clés telles que « abstraction des fournisseurs », « interface de stockage vectoriel » et « système d’agent intelligent », assurant flexibilité et extensibilité ;

● Sécurité de type : exploite les fonctionnalités de Rust pour garantir la sécurité des opérations d’incorporation (embedding), préservant ainsi la qualité du code et la sûreté à l’exécution ;

● Hautes performances : prend en charge la programmation asynchrone, optimise le traitement concurrent ; les fonctions intégrées de journalisation et de surveillance facilitent la maintenance et le débogage.

Flux de travail : lorsque la requête d’un utilisateur entre dans le système Rig, elle passe d’abord par la « couche d’abstraction des fournisseurs », qui standardise les différences entre les fournisseurs et assure une gestion homogène des erreurs. Ensuite, au niveau central, l’agent intelligent peut invoquer divers outils ou interroger la base vectorielle pour obtenir les informations nécessaires. Enfin, grâce à des mécanismes avancés tels que la génération améliorée par récupération (RAG), le système combine la récupération de documents et la compréhension contextuelle pour produire une réponse précise et significative, renvoyée à l’utilisateur.

Cas d’utilisation : Rig convient non seulement à la création de systèmes de réponse rapide et fiable, mais aussi à des outils efficaces de recherche documentaire, à des chatbots ou assistants virtuels dotés de capacités de perception contextuelle, voire à la création de contenu générant automatiquement du texte ou d’autres formes à partir de modèles de données existants.

1.4 ZerePy

ZerePy est un framework open source basé sur Python, conçu pour simplifier le déploiement et la gestion d’Agents IA sur la plateforme X (anciennement Twitter). Dérivé du projet Zerebro, il en reprend les fonctionnalités essentielles, mais avec une conception plus modulaire et plus facile à étendre. Son objectif est de permettre aux développeurs de créer facilement des Agents IA personnalisés et d’automatiser diverses tâches et la création de contenu sur X.

ZerePy fournit une interface en ligne de commande (CLI) pratique pour gérer et contrôler les Agents déployés « 1 ». Son architecture repose sur une conception modulaire, permettant aux développeurs d’intégrer facilement différents modules fonctionnels, tels que :

● Intégration LLM : ZerePy prend en charge les grands modèles linguistiques d’OpenAI et d’Anthropic, permettant aux développeurs de choisir le modèle le mieux adapté à leur cas d’usage. Cela permet aux Agents de générer du contenu textuel de haute qualité ;

● Intégration à la plateforme X : le framework intègre directement l’API de X, autorisant l’Agent à publier, répondre, liker, retweeter, etc. ;

● Système de connecteurs modulaires : permet d’ajouter facilement le support d’autres plateformes sociales ou services, étendant ainsi les fonctionnalités du framework ;

● Système de mémoire (planifié) : bien que pas encore pleinement implémenté dans la version actuelle, l’un des objectifs de conception de ZerePy est d’intégrer un système de mémoire, permettant à l’Agent de se souvenir des interactions passées et du contexte, afin de produire un contenu plus cohérent et personnalisé.

Bien que ZerePy et le projet Eliza d’a16z visent tous deux à construire et gérer des Agents IA, ils diffèrent légèrement par leur architecture et leurs objectifs. Eliza s’oriente davantage vers la simulation multi-agents et la recherche IA plus large, tandis que ZerePy se concentre sur la simplification du déploiement d’Agents IA sur une plateforme sociale spécifique (X), privilégiant la simplicité dans les applications pratiques.

II. Une copie de l’écosystème BTC ?

En réalité, sur le plan du parcours de développement, les Agents IA présentent de nombreux points communs avec l’écosystème BTC à la fin 2023 et au début 2024. L’évolution de l’écosystème BTC peut être résumée simplement ainsi : BRC20 – concurrence entre protocoles comme Atomical/Rune – L2 BTC – BTCFi centré sur Babylon. Les Agents IA, quant à eux, bénéficient d’une technologie IA traditionnelle mature et progressent donc plus rapidement, mais leur trajectoire globale reste très similaire. Je la résume ainsi : GOAT / ACT – concurrence entre frameworks d’Agents sociaux ou d’analyse. En termes de tendance, les projets d’infrastructure axés sur la décentralisation et la sécurité des Agents vont probablement prolonger cette vague de popularité des frameworks et devenir le thème dominant de la prochaine phase.

Ce secteur risque-t-il de connaître la même uniformisation et bulle que l’écosystème BTC ? Je pense que non. Tout d’abord, le récit des Agents IA ne vise pas à reproduire l’histoire des blockchains à contrats intelligents. Ensuite, les projets de framework actuels, qu’ils soient techniquement solides ou encore au stade du PPT ou du copier-coller, offrent au moins une nouvelle orientation pour le développement de l’infrastructure. Beaucoup comparent les frameworks IA à des plateformes d’émission d’actifs, et les Agents à des actifs. Comparés aux launchpads de Memecoin ou aux protocoles d’inscription, je trouve personnellement que les frameworks IA ressemblent davantage aux blockchains futures, et les Agents aux futurs Dapps.

Dans le monde actuel de la Crypto, nous disposons de milliers de blockchains et de dizaines de milliers de Dapps. Parmi les blockchains généralistes figurent BTC, Ethereum et diverses chaînes hétérogènes, tandis que les chaînes d’applications sont encore plus variées : chaînes de jeux, chaînes de stockage, chaînes Dex. La comparaison entre les blockchains et les frameworks IA est frappante, tout comme celle entre les Dapps et les Agents.

Lorsque l’ère de l’IA touchera la Crypto, l’évolution suivra probablement cette forme. Les débats futurs passeront des discussions EVM contre chaînes hétérogènes aux rivalités entre frameworks. La question actuelle porte surtout sur la manière de décentraliser, ou de « chaînifier ». Je pense que les futurs projets d’infrastructure IA approfondiront ce point. Par ailleurs, quel est l’intérêt de faire cela sur une blockchain ?

III. Quel sens à la mise sur chaîne ?

Quel que soit l’objet auquel elle s’associe, la blockchain doit toujours affronter une question : est-ce pertinent ? Dans un article précédent, j’ai critiqué le décalage de GameFi, où l’infrastructure a trop devancé les besoins réels. Dans mes derniers articles sur l’IA, j’ai exprimé mon scepticisme face à la combinaison actuelle d’IA x Crypto dans les domaines utilitaires. Après tout, la puissance narrative perd de sa force pour les projets traditionnels, et les rares projets ayant bien performé l’an dernier devaient justifier leur cours par des fondamentaux équivalents, voire supérieurs. À quoi l’IA peut-elle servir dans la Crypto ? J’avais alors pensé à des idées comme l’exécution d’intentions par des Agents, le Metaverse ou les Agents en tant qu’employés — des idées certes banales mais ayant un besoin réel. Mais aucune de ces applications n’exige nécessairement d’être entièrement sur chaîne, ni ne permet un bouclage logique sur le plan commercial. L’idée d’un navigateur Agent évoquée précédemment pourrait effectivement engendrer des besoins en marquage de données ou en puissance de calcul, mais l’intégration reste insuffisante, et sur le plan du calcul, la puissance centralisée garde encore l’avantage global.

En repensant au succès de DeFi, celui-ci s’est imposé face à la finance traditionnelle grâce à une meilleure accessibilité, une efficacité accrue, des coûts réduits et une sécurité sans tiers de confiance. En suivant ce raisonnement, voici quelques arguments possibles en faveur de la mise sur chaîne des Agents :

1. La chaînification des Agents permet-elle de réduire les coûts d’utilisation, augmentant ainsi l’accessibilité et le choix, et permettant aux utilisateurs ordinaires de participer à la « location » de l’IA, réservée aujourd’hui aux géants Web2 ?

2. La sécurité : selon la définition la plus simple d’un Agent, un IA capable d’interagir avec le monde réel ou virtuel. Si un Agent peut intervenir dans la réalité ou dans mon portefeuille virtuel, une solution de sécurité basée sur la blockchain devient alors une nécessité.

3. Les Agents peuvent-ils créer de nouveaux jeux financiers propres à la blockchain ? Par exemple, comme les LP dans les AMM, permettant à chacun de participer au market-making automatique. Ou encore, si les Agents ont besoin de puissance de calcul ou de marquage de données, les utilisateurs pourraient investir en stablecoin (U) dans le protocole s’ils croient au projet. Ou encore, selon les cas d’usage, de nouveaux mécanismes financiers pourraient émerger.

4. DeFi manque actuellement d’interopérabilité parfaite. Des Agents combinés à la blockchain, capables de fournir un raisonnement transparent et traçable, pourraient s’avérer plus attrayants que les navigateurs Agents des géants Internet traditionnels mentionnés dans l’article précédent.

IV. La créativité ?

À l’avenir, les projets de framework offriront des opportunités entrepreneuriales similaires à celles de GPT Store. Bien qu’il soit actuellement complexe pour un utilisateur lambda de publier un Agent via un framework, je pense que les frameworks simplifiant la création d’Agents tout en offrant des combinaisons de fonctions complexes domineront à terme. Cela donnera naissance à une économie créative Web3 plus intéressante que GPT Store.

Actuellement, GPT Store reste orienté vers l’utilitaire traditionnel, et la plupart des applications populaires sont créées par des entreprises Web2 classiques. Sur le plan des revenus, seuls les créateurs perçoivent les gains. Selon OpenAI, cette politique ne prévoit qu’un soutien financier limité, sous forme de subventions, pour certains développeurs exceptionnels aux États-Unis.

Le Web3 présente encore de nombreux besoins non satisfaits, et son modèle économique peut corriger les politiques injustes des géants Web2. De plus, nous pouvons naturellement introduire une économie communautaire pour enrichir les Agents. L’économie créative autour des Agents sera une opportunité ouverte à tous, et les futurs AI Meme seront bien plus intelligents et amusants que les Agents publiés sur GOAT ou Clanker.

Références :

1.Évolution historique et tendances des frameworks IA

2.Bybit : AI Rig Complex (ARC) : un framework pour Agents IA

3.Deep Value Memetics : Comparaison horizontale de quatre frameworks Crypto×IA : adoption, forces/faiblesses, potentiel de croissance

4.Documentation officielle d'Eliza

5.Documentation officielle de Virtual

Bienvenue dans la communauté officielle TechFlow

Groupe Telegram :https://t.me/TechFlowDaily

Compte Twitter officiel :https://x.com/TechFlowPost

Compte Twitter anglais :https://x.com/BlockFlow_News

Ajouter aux favoris

Partager sur les réseaux sociaux

Auteur

YBB Capital

@YBBCapital

Décortiquer les frameworks d'IA : de l'agent intelligent à l'exploration de la décentralisation

TechFlow SélectionTechFlow Sélection

Décortiquer les frameworks d'IA : de l'agent intelligent à l'exploration de la décentralisation

Préambule