
Variant Li Jin : Surmonter le mur des données de l'IA, les DAO de données sont d'actualité
TechFlow SélectionTechFlow Sélection

Variant Li Jin : Surmonter le mur des données de l'IA, les DAO de données sont d'actualité
Les data DAO représentent une voie potentiellement prometteuse pour générer de nouveaux jeux de données de haute qualité et surmonter le mur des données en intelligence artificielle.
Auteur : Li Jin
Traduction : TechFlow
Les DAO de données représentent une voie prometteuse pour créer de nouveaux jeux de données de haute qualité et surmonter le mur des données en intelligence artificielle.

Les récents accords importants conclus par OpenAI avec News Corp et Reddit ont mis en lumière l'importance cruciale des données de qualité dans le domaine de l'IA. Aujourd'hui, les modèles les plus avancés sont entraînés sur d'énormes volumes de données issues d'Internet. Par exemple, Common Crawl indexe environ 10 % des pages web pour l'entraînement des grands modèles linguistiques (LLM), incluant plus de 100 billions de tokens.
Une piste pour améliorer davantage les modèles d'intelligence artificielle consiste à étendre et enrichir les données sur lesquelles ils peuvent s'entraîner. Nous explorons depuis un certain temps déjà les mécanismes permettant d'agréger des données, notamment de manière décentralisée. Nous nous intéressons particulièrement à la façon dont les approches décentralisées pourraient aider à générer de nouveaux jeux de données tout en rémunérant économiquement les contributeurs et créateurs.
Ces dernières années, au sein de l'écosystème cryptographique, on a beaucoup parlé du concept de DAO de données : des collectifs d'individus qui créent, organisent et gèrent des données. Des entreprises comme Multicoin ont déjà abordé ce sujet, mais l'accélération fulgurante de l'IA constitue désormais un nouveau catalyseur justifiant la question : « Pourquoi maintenant ? ».
Les données dans l’IA actuelle
Actuellement, les modèles d’intelligence artificielle sont entraînés sur des données publiques, soit via des partenariats tels que ceux entre News Corp et Reddit, soit en extrayant des données disponibles publiquement sur Internet. Par exemple, Meta a entraîné Llama 3 sur 15 billions de tokens provenant de sources ouvertes. Ces méthodes permettent d’agréger rapidement de grandes quantités de données, mais elles présentent des limites quant au contenu collecté et aux moyens utilisés.
Premièrement, le « quoi » : le développement de l’IA est confronté à une double contrainte de qualité et de quantité de données. Leopold Aschenbrenner a écrit que le « mur des données » limite les progrès algorithmiques : « Bientôt, la méthode naïve consistant à pré-entraîner de grands modèles linguistiques sur toujours plus de données usagées commencera à rencontrer de graves goulets d’étranglement. »
L’une des façons de franchir ce mur est d’ouvrir l’accès à de nouveaux ensembles de données. Par exemple, les entreprises de modèles ne peuvent pas légalement récupérer les données derrière les murs d’authentification sans violer les conditions d’utilisation de nombreux sites web, et par définition, elles n’ont pas accès aux données non encore agrégées. De plus, il existe une vaste masse de données privées inaccessibles à l’entraînement actuel de l’IA : les Google Drive d’entreprises, les communications Slack, les données de santé personnelles ou d’autres informations sensibles.
Deuxièmement, le « comment » : dans les modèles actuels, les entreprises qui agrègent les données captent la majorité de la valeur. Dans son formulaire S-1, Reddit identifie la licence de données comme l'une de ses principales sources de revenus futures : « Nous pensons que notre avantage croissant en matière de données et de propriété intellectuelle continuera d'être un élément clé pour la formation future des grands modèles linguistiques. » Or, les utilisateurs finaux qui produisent effectivement le contenu ne tirent aucun bénéfice économique ni de ces licences ni des modèles d’IA eux-mêmes. Ce désalignement risque d’étouffer l’engagement — on assiste déjà à des poursuites contre les entreprises d’IA générative ou à des mouvements visant à exclure ses données des jeux d’entraînement. Sans parler de l’impact socio-économique d’un tel modèle où les revenus se concentrent entre les mains des entreprises de modèles ou des plateformes, au détriment des utilisateurs finaux.
L’impact des DAO de données
Les problèmes évoqués ci-dessus ont un point commun : ils pourraient être résolus grâce à des contributions massives provenant d’une communauté d’utilisateurs diversifiée et représentative. La valeur individuelle de chaque donnée pour la performance d’un modèle peut sembler négligeable, mais collectivement, un grand groupe d’utilisateurs peut agréger un jeu de données nouveau et précieux pour l’entraînement de l’IA. C’est précisément là qu’interviennent les DAO de données. Grâce à eux, les contributeurs de données peuvent non seulement bénéficier d’un retour économique, mais aussi participer à la gouvernance de l’utilisation et de la monétisation de leurs données.
Les DAO de données peuvent combler certains manques actuels dans l’écosystème des données, notamment dans les domaines suivants :
Données du monde réel
Dans le domaine des infrastructures physiques décentralisées (DEPIN), des réseaux comme Hivemapper incitent les propriétaires de dashcams à contribuer leurs données afin de recueillir les cartes les plus récentes du monde. D'autres applications incitent les utilisateurs à signaler des informations comme des fermetures ou travaux routiers. Les DEPIN peuvent être considérés comme des DAO de données du monde réel, où les jeux de données sont générés par des dispositifs matériels ou des réseaux d'utilisateurs. Ces données ont une valeur commerciale pour diverses entreprises, et les revenus sont redistribués aux contributeurs sous forme de jetons.
Données de santé personnelles
Le biohacking est un mouvement social dans lequel des individus et des communautés étudient la biologie par l’expérimentation personnelle. Par exemple, certaines personnes peuvent tester différents nootropiques, essayer divers traitements ou modifier leur environnement pour améliorer leur sommeil, voire s’injecter des médicaments expérimentaux.
Les DAO de données peuvent structurer et encourager ces activités de biohacking en organisant des expériences communes et en collectant systématiquement les résultats. Les revenus générés par les laboratoires de recherche ou les sociétés pharmaceutiques peuvent être reversés aux participants sous forme de récompenses en jetons.
Apprentissage par renforcement avec retour humain
L'ajustement fin des modèles d'IA par retour humain (RLHF) repose sur l'utilisation d'inputs humains pour améliorer les performances des systèmes d'IA. Généralement, les fournisseurs de feedback doivent être des experts dans leur domaine, capables d'évaluer efficacement les sorties du modèle. Par exemple, un laboratoire peut chercher des docteurs en mathématiques pour améliorer les capacités mathématiques de son LLM. Les récompenses en jetons peuvent attirer et motiver ces experts grâce à leur potentiel spéculatif, tandis que les paiements cryptographiques offrent un accès mondial. Des entreprises comme Sapien, Fraction et Sahara opèrent dans ce domaine.
Données privées
À mesure que les données publiques accessibles pour l'entraînement de l'IA s'épuisent, la compétition pourrait se déplacer vers les jeux de données propriétaires, y compris les données personnelles. Une grande quantité de données de haute qualité reste inaccessible derrière les murs d'authentification, dans les messages privés ou les documents confidentiels. Ces données peuvent non seulement servir efficacement à entraîner des IA personnelles, mais contiennent aussi des informations précieuses absentes du réseau public.
Toutefois, l'accès et l'utilisation de ces données soulèvent d'importants défis juridiques et éthiques. Les DAO de données peuvent offrir une solution en permettant aux participants volontaires de téléverser et monétiser leurs données tout en contrôlant leur utilisation. Par exemple, le DAO de données Reddit permet aux utilisateurs de charger leurs données exportées depuis la plateforme — commentaires, publications, historique de votes — dans une base de données pouvant vendre ou louer ces données à des entreprises d'IA, avec protection de la vie privée. Les incitations en jetons permettent aux utilisateurs de percevoir non seulement des revenus ponctuels, mais aussi des gains continus basés sur la valeur créée par l'utilisation de leurs données dans les modèles d'IA.
Questions ouvertes et défis
Bien que les avantages potentiels des DAO de données soient significatifs, plusieurs considérations et obstacles persistent.
Effets pervers des incitations
L’histoire des incitations par jetons dans l’écosystème crypto montre que les motivations externes peuvent altérer le comportement des utilisateurs. Cela impacte directement les mécanismes de collecte de données fondés sur des récompenses en jetons : celles-ci peuvent fausser la base des participants et les types de données soumises.
L’introduction d’incitations en jetons pourrait également inciter certains participants à maximiser leurs gains en soumettant des données de mauvaise qualité ou falsifiées. Ceci est particulièrement critique car la viabilité économique de ces DAO dépend de la qualité des données. Si les données collectées sont biaisées ou manipulées, la valeur du jeu de données en sera compromise.
Mesure et récompense des données
L'idée centrale des DAO de données est de récompenser les contributions via des jetons, dont la valeur à long terme devrait converger vers les revenus du DAO. Toutefois, mesurer avec précision la valeur relative des différentes contributions est difficile, car la valeur des données est subjective. Par exemple, dans le cas du biohacking : les données de certains utilisateurs sont-elles plus précieuses que celles d'autres ? Si oui, selon quels critères ? Pour les données cartographiques : les informations d'une région géographique sont-elles plus valorisées qu'une autre, et comment quantifier cette différence ? Des recherches sont en cours pour évaluer la valeur des données en fonction de leur contribution marginale à la performance du modèle (étude), mais ces méthodes peuvent être très coûteuses en calcul.
En outre, il est crucial de mettre en place des mécanismes robustes pour vérifier l’authenticité et l’exactitude des données. En l’absence de telles garanties, le système pourrait être vulnérable à des soumissions frauduleuses (comptes fictifs) ou aux attaques Sybil. Les réseaux DEPIN tentent de résoudre cela en intégrant des dispositifs matériels, mais d’autres DAO reposant uniquement sur la contribution humaine restent exposés à la manipulation.
Innovation apportée par les nouvelles données
La majeure partie du web public a déjà été utilisée pour l’entraînement, ce qui oblige les opérateurs de DAO de données à se demander si les jeux de données collectés collectivement apportent réellement une valeur ajoutée par rapport aux données existantes. Peut-on obtenir les mêmes données par d'autres moyens, comme des licences directes auprès des plateformes ? Ces questions soulignent l’importance de collecter des données véritablement nouvelles, ce qui conduit à la considération suivante : l’échelle de l’impact et des opportunités de revenus.
Échelle des opportunités de revenus
Fondamentalement, les DAO de données construisent un marché bilatéral reliant acheteurs et contributeurs de données. Leur succès dépend donc de leur capacité à attirer un ensemble stable et diversifié d’acheteurs prêts à payer pour ces données.
Les DAO doivent identifier et valider leur demande finale, en s’assurant que les opportunités de revenus sont suffisamment importantes — tant en volume total qu’en revenus par contributeur — pour inciter à la production de données en quantité et en qualité suffisantes. Par exemple, l’idée d’un DAO de données utilisateur, destiné à regrouper les préférences et historiques de navigation à des fins publicitaires, a été discutée pendant des années, mais les revenus perçus par chaque utilisateur pourraient s’avérer négligeables. (À titre de comparaison, le revenu moyen par utilisateur (ARPU) de Meta à la fin 2023 était de 13,12 $.) Avec les entreprises d’IA prévoyant de dépenser des milliers de milliards de dollars pour l’entraînement, les revenus issus des données utilisateur pourraient devenir assez attractifs pour susciter une participation massive — ce qui soulève une intéressante question : « Pourquoi maintenant ? ».
Surmonter le mur des données
Les DAO de données représentent une piste potentiellement prometteuse pour générer de nouveaux jeux de données de haute qualité et surmonter le mur des données en IA. La manière exacte dont cela se concrétisera reste à voir, mais nous sommes enthousiastes face à l’évolution de ce domaine.
Bienvenue dans la communauté officielle TechFlow
Groupe Telegram :https://t.me/TechFlowDaily
Compte Twitter officiel :https://x.com/TechFlowPost
Compte Twitter anglais :https://x.com/BlockFlow_News










