
Variant Li Jin:AIデータウォールを乗り越える、データDAOの出番到来
TechFlow厳選深潮セレクト

Variant Li Jin:AIデータウォールを乗り越える、データDAOの出番到来
データDAOは、新たな高品質なデータセットを生成し、AIのデータ壁を克服する可能性を秘めた有望な道筋を示している。
著者:Li Jin
翻訳:TechFlow
データDAOは、新たな高品質データセットを生成し、AIのデータウォールを克服するための有望な道筋を示している。

OpenAIがNews CorpやRedditと結んだ注目を集めるデータ使用許諾契約は、AIにおける高品質データの重要性を浮き彫りにしている。現在、最先端モデルは膨大なインターネットデータ上で訓練されており、たとえばCommon CrawlはLLM訓練用に約10%のウェブページをインデックス化しており、100兆トークン以上を含んでいる。
AIモデルをさらに改善する方法の一つは、モデルが学習可能なデータの規模と質を拡大・強化することである。私たちは、特に非中央集権的な方法でデータを集約する仕組みについて議論してきた。とりわけ、分散型アプローチが新しいデータセットの生成をどう支援し、貢献者やクリエイターに経済的報酬を与えるかに関心を持っている。
過去数年間、暗号資産(クリプト)分野での議論のテーマの一つが「データDAO」であり、これはデータの作成、整理、管理を行う個人の集合体である。Multicoinなどの企業はすでにこの話題に触れているが、AIの急速な進展こそがデータDAOにとって新たな「なぜ今なのか」という原動力となっている。
現在のAIにおけるデータ
現在、AIモデルはニュースコープやRedditとの提携によるデータ提供や、オープンインターネット上のデータ収集を通じて、公開データで訓練されている。例えば、MetaのLlama 3は15兆の公開ソースから得られたトークンで訓練された。これらの手法は大量のデータを迅速に集めるには有効だが、収集できるデータの内容や方法には制限がある。
第一に「何を」の問題がある:AIの発展はデータの質と量というボトルネックに直面している。Leopold Aschenbrennerは指摘しているように、「データウォール」がアルゴリズムのさらなる改善を制限している。「近い将来、不要なデータをさらに追加して言語モデルを訓練する単純なアプローチは深刻な壁にぶつかるだろう」。
このデータウォールを乗り越える方法の一つは、新たなデータセットを利用可能にすることだ。たとえば、モデル企業は多くのサイトの利用規約に違反せずにログイン後のデータを取得することはできないし、そもそもまだ収集されていないデータにもアクセスできない。また、企業のGoogle Driveや社内のSlack、個人の健康データ、プライベート情報など、現在のAI訓練では手が届かない膨大な量の個人データが存在する。
第二に「どのように」の問題がある:現行のモデルでは、データを集約する企業が大部分の価値を占有する。たとえば、RedditのS-1はデータライセンスを主要な収益源として挙げており、「当社の成長するデータ優位性と知的財産は、今後もLLMトレーニングの重要な要素になると予想される」と述べている。しかし、実際にコンテンツを生み出している最終ユーザーは、こうしたライセンス取引やAIモデル自体から経済的利益を得ていない。このような不均衡は参加意欲を損ないかねず、実際すでに訴訟や、訓練データセットへのオプトアウトの動きが出始めている。モデル企業やプラットフォームに収益が集中し、エンドユーザーに還元されないという社会経済的影響も無視できない。
データDAOの影響
上記のデータに関する課題には共通点がある:多様で代表的なユーザー層からの大規模な貢献によって恩恵を受けることだ。個々のデータポイントがモデル性能に与える価値は微小かもしれないが、集団としては大規模なユーザー群がAI訓練に価値ある新たなデータセットを形成できる。まさにここがデータDAOの出番である。データDAOを通じて、データ提供者は経済的利益を得るだけでなく、データの使用方法やマネタイズの管理にも関与できる。
データDAOは、以下のような現在のデータ領域におけるギャップを埋める可能性を秘めている。
現実世界のデータ
非中央集権型物理インフラ(DEPIN)分野では、Hivemapperのようなネットワークがドライブレコーダー所有者にインセンティブを提供することで、世界最新の地図データを収集している。アプリを通じて道路閉鎖や工事情報などのデータ提供を促す仕組みも含まれる。DEPINは現実世界のデータDAOと見なすことができ、ハードウェアデバイスやユーザーのネットワークによってデータセットが生成される。こうしたデータは企業にとって商業的価値を持ち、収益は貢献者にトークン報酬として還元される。
個人の健康データ
バイオハッキングとは、個人やコミュニティが自己実験を通じて生物学を研究する社会運動である。たとえば、個人が異なるノートロピック(認知機能向上薬)を摂取したり、睡眠の質を改善するための治療法や環境変化をテストしたり、場合によっては実験的な薬物を自己注射する例もある。
データDAOはこうしたバイオハッキング活動に構造とインセンティブを提供でき、参加者を組織して共同実験を行い、結果を体系的に収集することが可能になる。個人の健康DAOでは、研究機関や製薬企業からの収益を、結果を提供した参加者にトークン報酬として還元できる。
人間のフィードバックによる強化学習(RLHF)
AIモデルのファインチューニングに用いられる人間のフィードバック(RLHF)は、人間の入力を活用してAIシステムの性能を向上させるプロセスである。通常、フィードバック提供者はその分野の専門家である必要があり、モデルの出力を適切に評価できる能力が求められる。たとえば、研究所がLLMの数学能力を高めるために数学博士を求めるケースがある。トークン報酬は、その投機的価値によって専門家の参加を誘導・維持でき、暗号資産決済によりグローバルなアクセスも可能になる。Sapien、Fraction、Saharaなどの企業がこの分野で活動している。
プライベートデータ
AI訓練用の公開データが枯渇しつつある中で、競争の土台は独占的なデータセット、つまり個人のプライベートデータへと移行する可能性がある。ログインが必要なコンテンツやDM、個人文書などに存在する大量の高品質データは依然としてアクセス不能である。こうしたデータはパーソナルAIの訓練に非常に有効であり、公共ネットワークにはない貴重な情報を含んでいる。
しかし、こうしたデータへのアクセスと活用には、法的・倫理的な重大な課題がある。データDAOは、自発的に参加する人々が自身のデータをアップロード・マネタイズし、その使用方法を管理できる仕組みを提供することで解決策となる。たとえば、RedditデータDAOでは、ユーザーがプラットフォームからエクスポートしたコメント、投稿、投票履歴といったRedditデータをデータベースにアップロードでき、AI企業にプライバシー保護された形で販売または貸与できる。トークンインセンティブにより、ユーザーは一時的な取引だけでなく、AIモデルがそのデータを使って生み出した価値に基づく継続的な収益を得ることができる。
未解決の課題と障壁
データDAOの潜在的メリットは大きいが、考慮すべき課題や障壁もいくつか存在する。
インセンティブの歪み
暗号分野におけるトークンインセンティブの歴史から明らかなように、外的インセンティブはユーザー行動を変容させる。これは、データ収集にトークン報酬を用いる方式に直接的な影響を与える:インセンティブが参加者の構成や貢献されるデータの種類を歪める可能性がある。
トークン報酬の導入は、参加者が低品質または偽造データを提出することで報酬を最大化しようとするリスクも生む。これは特に重要である。なぜなら、こうしたデータDAOの収益機会はデータの品質に依存しているため、貢献データが歪められれば、データセット全体の価値が損なわれるからだ。
データの測定と報酬
データDAOの核心理念は、トークン報酬によって貢献者に報いることであり、長期的にはその報酬がDAOの収益と連動すると期待される。しかし、異なるデータ貢献に対する正確な報酬は困難を伴う。なぜなら、データの価値は主観的だからである。たとえばバイオハッキングの例では、あるユーザーのデータが他のユーザーのものより価値が高いのか? もしそうなら、その決定要因は何だろうか? 地図データの場合、ある地域の情報が他より価値が高いのか、その差異をどう定量化するか? 現在、モデル性能へのデータの寄与度を計算することでデータ価値を測定する研究が進められているが、これらの方法は計算負荷が大きい可能性がある。
さらに、データの真実性と正確性を検証する堅固な仕組みを構築することが不可欠である。これを怠れば、システムは不正なデータ提出(例:フェイクアカウントの作成)やシビル攻撃に脆弱になる。DEPINネットワークはハードウェアレベルでの統合によってこの問題に対処しようとしているが、ユーザー主導の貢献に依存する他のデータDAOは操作のリスクにさらされる。
新データの付加価値
公開ネットワークの大部分はすでに訓練に使われており、データDAO運営者は、分散的努力によって収集されたデータセットが本当に既存データに付加価値を持ち、研究者がプラットフォームからライセンス取得できるのか、あるいは他の手段で入手可能なのかを慎重に考える必要がある。これらは既存データを超える新たなデータ収集の重要性を強調しており、次の課題――影響の規模と収益機会――につながる。
収益機会の規模
本質的に、データDAOはデータ購入者とデータ提供者をつなぐ二面市場を構築している。データDAOの成功は、安定した多様な顧客基盤を獲得し、彼らがデータに支払う意思を持つかどうかにかかっている。
データDAOは、その最終需要を特定・検証し、総額でも、一人当たりの収益でも、必要なデータの量と質を引き出すのに十分な収益機会があることを確認しなければならない。たとえば、長年にわたり、ユーザーの嗜好や閲覧データを集約して広告用途に供するユーザーデータDAOの構想が語られてきたが、実際にそのネットワークがユーザーに還元できる収益はわずかにすぎない可能性がある。(比較として、Metaの2023年末時点の世界平均ARPUは13.12ドルだった。)AI企業が訓練に数兆ドルを費やす計画を立てている今、ユーザーデータの収益は大規模な貢献を引き起こすほど魅力的になり得る。これはデータDAOにとって興味深い「なぜ今なのか」という機会を提示している。
データウォールの克服
データDAOは、新たな高品質データセットを生み出し、AIのデータウォールを乗り越える可能性を秘めた有望な道筋を示している。具体的な実現方法はまだ未知数だが、この分野の進展に大きな期待を寄せている。
TechFlow公式コミュニティへようこそ
Telegram購読グループ:https://t.me/TechFlowDaily
Twitter公式アカウント:https://x.com/TechFlowPost
Twitter英語アカウント:https://x.com/BlockFlow_News










