
Grass創設者インタビュー:なぜ分散型AIデータ供給に参加すべきなのか?
TechFlow厳選深潮セレクト

Grass創設者インタビュー:なぜ分散型AIデータ供給に参加すべきなのか?
Grassは複数の異なる強気なナラティブ——DePin、AI、Solana——を統合している。
執筆:AYLO
翻訳:TechFlow
Grassは非常にエキサイティングなプロジェクトであり、第1または第2四半期にメインネットをリリースする予定です。現在、Grassには50万人以上のユーザーが存在します。Grassネットワークが本格稼働すれば、ユーザー数という観点から見ても、市場で最大級の暗号プロトコルの一つとなるでしょう。それはインターネット接続を持つすべての人に新たな収益源を創出しています。
Grassは複数のポジティブなストーリーを統合しています。DePin+AI+Solanaです。この記事では、Grassの創設者である0xdrej氏のインタビューを通じて多くの重要な情報を得ることができます。やや長めですが、非常に価値のある内容です。ここではGrassとは何か、どのように機能するのか、なぜSolanaを選んだのかといった点について詳しく解説します。
暗号分野に惹かれたきっかけは何ですか?
0xdrej:はい、おそらく私は初期段階で暗号資産に触れたものの、多くのチャンスを逃してきました。多くの人にとっても同じだったと思います。私が初めて暗号資産を知ったのは高校時代で、同級生がノートパソコンでビットコインをマイニングしていたのです。それ以来彼の消息は途絶えていますが、きっと今ではうまくやっていることでしょう。また、2014年にDogeのファウンテン(配布サイト)に参加したこともあります。当時Dogeが立ち上がったばかりの時期でしたが、そのアカウントのアクセス権を失ってしまいました。つまり、これが私の暗号との最初の二つの大きな出会いでした。しかし、実際に開発や研究に深く関わるようになったのは、数年前にDeFiに触れ始めてからのことです。
金融業界でしばらく働いており、従来の金融システムの仕組みにはよく理解しています。ブロックチェーン上で一般の人々がインフラ全体を再構築しているのを見るのは非常にワクワクするものです。伝統的な金融とオンチェーンで行われていることは多くの点で類似しており、それがまさに巨大な不変の台帳だからこそ、とても興味深いのです。そのため、数年前からいくつかのDeFiプロトコルに関与するようになりました。
Grassのelevator pitchとは何ですか?上層部向けにどう説明しますか?

0xdrej:私たちはこれを「分散型人工知能のためのデータ供給レイヤー」と呼んでいます。具体的には、50万以上ものブラウザ拡張によって構成されるネットワークがあり、公共のインターネットをクロールし、ウェブページのスナップショットを取得してデータベースにアップロードしています。
ポイントは、これらの計算能力を並列かつ分散して処理できる点です。そして特に重要なのは、住宅用IPアドレスを通じたインターネットへのアクセスです。なぜなら、ウェブサイトは通常、データセンターではなく一般消費者に対して特定のコンテンツを表示するように設計されているからです。この方法により、他の手段では作成できないような独自のデータセットを生成できます。
類似点としては、AIのための分散型オラクル、あるいは従来のクローリングの分散版と言えるでしょう。結局のところ、これは公共のウェブデータに特化した大規模データプロトコルなのです。
誰でもこのネットワークに参加でき、ブロックチェーンを統合することで既存のソリューションと競争できると考えたのですか?
0xdrej:さまざまなビジネスモデルを試してきました。このようなプロトコルを構築する場合、未使用の帯域幅に対してわずかな報酬を支払うだけというシンプルな方法があります。たとえば、1GBあたり固定料金を払い、その帯域を使って大規模なデータセットを収集し、そこからインサイトを抽出して収益化するのです。クローリング層からデータセット層、さらにインサイト層へと進む過程で、各ステップで少しずつ利益を得られます。
通常、これらは異なる企業が分担して行いますが、帯域を提供するユーザー(つまりすべての基盤を支えている人々)は、1GBあたりのごくわずかな固定報酬しか受け取れず、あるいは無料アプリにSDKを組み込むことで無償で帯域を使われることもあります。これは不公平だと私たちは考えました。
そこで私たちが考えたのは、「垂直方向全体にわたってユーザーに報酬を還元できる価値プールの仕組みを作れないか?」ということです。つまり、あなたのGrassノードが収集したデータを使ってAIモデルが訓練された場合、単なる生データに対する報酬だけでなく、その成果物に対しても補償されるべきだという考え方です。意味が通りますでしょうか?これが我々がオンチェーンで解決したい重大な課題の一つです。
もう一つ顕著になってきた問題は、データセットの「汚染」です。これは新しい問題のように見えますが、実際にはEC業界では長年存在していました。
例えば、eBayのようなECサイトの在庫価格を毎日クロールしようとした場合、約3000万SKUを日々取得する必要があります。eBayは、IPアドレスを遮断されてもすぐに別のIPに切り替えることを理解しており、そのため「価格トラップ」を仕掛けてきます。つまり、クローリングを検知すると、偽の価格情報を返すのです。私たちもGrassの初期段階でこれを経験し、データセンターを使った場合との違いを確認しました。
こうしたECの戦術は徐々に広告テクノロジーにも浸透してきました。特にここ一年半ほどでHoloLensが爆発的に成長したことで、自然言語処理(NLP)のデータセット領域にも影響を与え始めています。
たとえば政治家が特定のデータセットがモデル訓練に使われることを知っていれば、その管理者に接触して「特定の候補者を支持する文を千個挿入してくれ」と依頼するかもしれません。同様に、企業が資金を出して虚偽のレビューやコメントを既存のデータセットに注入することもあります。
この問題を解決するのは非常に困難です。LLMの訓練データセットは、ギガバイトやテラバイトではなく、ペタバイト単位、つまり数百万ギガバイトに及ぶからです。

したがって、LLM訓練者が「本当にMediumの全コンテンツをクロールした」と主張しても、それが本当に5000万のMedium記事かどうかを検証することは現実的ではありません。
この問題の解決策として、zk-TLS(ゼロ知識トランスポート層セキュリティ)が有効です。正直に言えば、これは高スループットのブロックチェーンがあって初めて可能になる技術です。
仕組みとしては、分散化された各ノードがインターネットをクロールする際に、リクエストの正当性を証明する「証明」を提出します。その後、ソーター(現時点では中央集権的ですが、将来的には分散化を計画)が一定量のトークンをスマートコントラクトに預けます。
承認されたリクエストを受け取ると、コントラクトがロックを解除します。これにより、そのリクエストの証明を特定のクローリング結果と紐付け、さらにデータセットそのものとも関連づけることができるのです。突然、あるデータセット内のレコードが確かに特定のウェブサイトから、特定の日時に取得されたものであるという暗号的証明が得られるようになります。
これは非常に強力です。このようなメカニズムはWeb 2.0には存在せず、ブロックチェーンがあって初めて実現可能なものです。
「データ戦争」とは何か、そしてGrassはどのように関与しているのでしょうか?

0xdrej:先ほども示唆しましたが、最初にデータを封鎖し始めたのはEC業界でした。当時、最も直接的に収益化できるデータセットだったからです。技術の進歩とともに、言語データの扱いが洗練され、この種のデータも極めて貴重になってきました。しかし、言語データが現在のように高い価値を持つようになったのは最近のことです。そのため、多くのサイトはつい最近まで、自らの言語データをどう収益化するかを真剣に考えていませんでした。それが価値に気づき、次第にインターネットからのデータ収集を制限し始めたのです。
たとえば、半年ほど前、イーロン・マスク氏はTwitterのデータがクロールされていることに気づき、すべてのユーザーに対してレート制限を導入しました。以前はTwitterはクローリングを特に阻止していませんでしたが、マスク氏はそのデータの価値を理解し、自社のAIモデル訓練に利用しようとしました。まさに私たちが予測していた通りの展開です。

Redditも同様にAPIにさまざまな制限を設けました。ご存じないかもしれませんが、GPTが学習する一般的なクローリングデータのうち、3分の2は実はRedditから取得されています。

Redditは当初、自らのデータがどれほど価値があるかを理解していませんでした。しかし、Redditの仕組みは非常に特別です。質問が投稿され、回答が寄せられ、良い答えは高く評価され、悪いものは低く評価されます。つまり、Redditのコミュニティが手動でモデル学習用の高品質データをフィルタリングしているのです。
私たちは現在、まさに「データ戦争」が進行していると予測しています。多くのウェブサイトが自らのデータを閉ざそうとしています。さらに一部の大手テック企業だけに後門を開き、AIをオープンソース開発者たちにとってアクセス不能なものにしており、これは恐ろしく、中心化のリスクを大きくしています。
Mediumも良い例です。数ヶ月前、MediumのCEOがブログで「ウェブクローラーが当社の記事をAIモデルに取り込んでいる」と述べ、データの汚染やクローラーの排除、データの非公開化を宣言しました。そのため、アカウントなしではMediumの閲覧が難しくなっています。
これにより、一般ユーザーはインターネットを利用できなくなります。企業が自らのデータを囲い込んでいるのです。
MediumのCEOは、Googleだけにはデータへのアクセスを許可しているとも述べました。一般ユーザーは適切にサイトを閲覧できませんが、Googleは無料でAIモデルの学習のためにクロールできます。その理由は、Googleが検索結果でMediumを優先表示する代わりに、SEOによる「支払い」をしているからです。これは、検索エンジンの所有がいかに強力かを示しており、データ戦争の次の大きな波です。
すべての企業がデータを巡って戦っており、人類史上これまで価格付けされてこなかったものを適正価格で獲得しようとしています。その結果、一般市民が犠牲となり、データへのアクセスが少数の機関に限定されてしまっています。これは不公平です。
驚くべきことに、今では老舗企業が、数百万人が無料でダウンロードするアプリにSDKを埋め込んでRedditなどのサイトをクロールしています。Roku TVのスクリーンセーバーや無料のスマホゲームを想像してください。開発者はSDKを含めることで報酬を得ており、そのSDKが大手企業にあなたの帯域を、住宅用IPアドレスからサイトクロールするために提供しています(彼らのIPはすでに遮断されているため)。皮肉なことに、私たちは常に利用規約に同意しており、彼らの言い分は「広告のない体験を提供している」というものです。しかし明らかに、広告の価値は利用されるデータの価値よりも遥かに低いのです。
Grassの理念は、もしデータ戦争が起きるなら、それを止めることはできないかもしれないが、少なくとも参加する選択肢を持つべきだということです。武器を売る側になるか、あるいはインターネット全体に巨大なオープンデータセットを創出し、誰もが独自のAIモデルを訓練できるようにするか――そのどちらかを選ぶ権利を持ちたいのです。
Grassに参加して恩恵を得ることは簡単ですか?

0xdrej:現在ネットワークはベータテスト中で、非常にシンプルです。必要なハードウェアはすでに皆さんのデバイスに搭載されています。必要なのは紹介コードを入手することだけです。その後、アカウントを作成するか、Sagaスマホアプリをダウンロードすればすぐに開始できます。非常にスムーズな体験です。
最近の課題は、ユーザー数の増加が予想より早かったことです。インフラの拡張に伴い、一時的に若干の問題が発生する可能性があります。
この市場の規模はどのくらいだと思いますか?
0xdrej:現在、私たちは2つ、あるいは3つの垂直領域を対象としており、それぞれが異なる市場規模を持っています。
第一に、代替データ産業です。これは200億ドル規模の市場だと考えています。ここで言う代替データとは、主にヘッジファンドが使うデータのことです。例えば、特定の店舗の価格や在庫を調査することで、企業の四半期収益を推定できます。ヘッジファンドはこうした情報に費用を払います。

ネットクローリング市場自体はまだ新興段階ですが、現在数十億ドルの価値があり、急速に成長しています。その急成長の背景にあるのが第三の市場、つまりAIです。
AIデータ市場の規模は、現在非常に定量化が難しいです。規模は日々指数関数的に拡大しており、私たちにも正確な評価は困難です。しかし、データをAI用データセットとして販売する話が出るくらいですから、巨大な機会であることは明らかです。
ユーザー数が増えるにつれて、Grassはより価値が上がり、競争力が高まるのでしょうか?
0xdrej:はい、非常に良い質問です。ネットワークが大きければ大きいほど、実用性が高まります。
例として、hivemapperを挙げましょう。非常にクールな製品とアイデアだと思います。世界地図を作成したい場合、走行している車が10台だけでは、地図の一部しか得られません。非常に限定的な用途にしか使えず、汎用性は低いでしょう。
しかし、何百万人もの運転手が世界中の道路を走れば、はるかに包括的な地図が作れます。それにより、より高品質な製品を高額で販売でき、各参加者の単位経済も大幅に改善します。
よく考えてみてください。Grassは本質的に、インターネット全体の地図を作成しているのです。
もう一つAIとは関係ない例を挙げましょう。航空券、旅行、ホテルという巨大産業です。旅行比較サイトであれば、各場所の各プロバイダーから最良の価格を取得したいでしょう。例えば、ベルリンからシンガポールへのフライト料金は、ニューヨークから見るのとベルリンから見るのでは異なることがあります。旅行比較サイトは可能な限り多くのIPアドレスから各便の価格を取得し、最適な商品を提供する必要があります。もしIPアドレスがシンガポール、中国、米国にしかなければ、ヨーロッパ内でのフライト価格を正確に取得するのは非常に困難です。ネットワークが大きくなることで、このようなユースケースが次々と解放され、非常にエキサイティングです。
ネットワークの発展に伴い、ユーザーの報酬は希薄化しないでしょうか?それともネットワークの収益性向上でバランスが取れるのでしょうか?
0xdrej:将来に関する発言は控えめにさせてください。まず第一に、ネットワークはすでに実用に近づいており、そのためベータテスト期間中に稼働時間に対する報酬を選択しています。しかし、オンライン時間への報酬は無期限には続けません。
つまり、今がただデバイスをオンラインにしておくだけでポイントを稼げる唯一の時期です。将来は、実際の帯域使用量に基づいてのみ報酬が支払われるようになります。バランスについては、先ほどの旅行の例が良い説明になります。
この分野では、ノードが多すぎることはありません。旅行比較サイトにとって、競争力を持つには、最も多くのノードを持つことが最も有利です。そのため、それが実現できれば、ネットワークを通じてさらなるコンテンツとスループットを投入していくでしょう。
Solana上で開発することを決めた理由は何ですか?
0xdrej:私たちが目指すものにとって、高スループットのチェーンは明らかに重要です。Grassネットワークがローンチすれば、ユーザー数最多の暗号プロトコルの一つになります。そのため、ユーザーをインセンティブするために非常に低いGas手数料が必要です。現在、Solanaは最もGasコストが低く、おそらく最も高速なチェーンです。まもなく導入予定の更新(例:FireDancer)も非常に楽しみで、並列トランザクション処理はまさに私たちが求めているものです。
Solana上には多くのDePINプロトコルがあり、ビジネス開発の観点からも他のDePINプロジェクトとの協力に積極的です。特に面白いのは、Solanaが独自のスマホを持っていることです。Solanaスマホの採用率は今後さらに高まると信じています。これは他のチェーンにはない強みです。私たちにとっては、Solanaスマホにアプリをインストールするのは当然の選択です。
HeliumのようなDePIN分野の他のプロジェクトからインスピレーションを得ましたか?
0xdrej:もちろんあります。DePINの根本的な理念は、自分自身に関するものです。生活の多くの場面で過剰に支払いをしており、同時に本来収益化できるはずの資源を奪われているのです。
最近のDePINによる分散化の流れ、たとえばHelium MobileやSagaスマホの取り組みは、多くの人に目を開かせました。「自分の持つ資源はこんなに多いのに、多くの場合、他人に奪われていた」と気づいたのです。しかし今、別の道があることがわかりました。つまり、そうした状況を受け入れないという選択ができるのです。これは非常に力強く、私はその流れに乗り遅れたくありませんでした。そのため、多くのインスピレーションを受けています。
将来を見据えて、2024年のGrassはどのような姿になるでしょうか?ロードマップについて教えていただけますか?
0xdrej:2024年内のどこかの時点でネットワークを全面的にスタートさせる予定です。これは誰もが予想していることでしょう。
その他、ロードマップにはzk-TLSを用いたリクエスト証明の実装があります。これによりネットワークリクエストとデータセットを結合でき、これは下半期に実現するかもしれません。また、ソーターの分散化も計画しています。実装方法はまだ確定していませんが、Grassのインフラをより簡単に運用できるようにするための、いくつかのワクワクするアイデアがあります。

ハードウェアについても検討しています。現在、Grassの利用コストはゼロですが、このまま永久に維持したいと考えています。しかし、自分のデバイスを24時間稼働させたくない、あるいはノードを自分の端末で走らせたくない人もいるでしょう。そんな人たちのために、専用のハードウェア「ボックス」を販売し、インターネットに接続してバックグラウンドで動作させるという選択肢を提供したいと思っています。個人の好みを超えて、ハードウェアにAIエージェントを内蔵し、自動で大量のクローリング作業を行うことも可能です。あなたがすべきことは座って、AIエージェントに作業を任せることだけです。まるで地図を作成する自律走行車を持つようなものです。
ネットワークにさらに貢献したいと思うなら、そのための装置を用意したいと考えています。
また、ダッシュボードに新しいゲーミフィケーション機能を追加するなど、小さな新機能の開発も進めています。Sagaユーザー専用のイースターエッグ機能の追加も検討中です。さらに、Android、iOS、Raspberry Pi、Linuxなど他のプラットフォーム向けのリリースも計画しています。ブラウザ拡張を好まない人も多くいるので、ダウンロード可能な形での提供も視野に入れています。
要するに、Grassネットワークに簡単に参加できる選択肢をより多く提供したいのです。
Grassのガバナンス構造についてはどうお考えですか?完全にコミュニティが所有する分散型ネットワークになりますか?
0xdrej:私たちの分散化にはいくつかの段階があります。第一段階は、チェーン上でユーザーの貢献を報酬化する認証メカニズムです。
第二段階は、ソーターの分散化と、クロールリクエストの承認プロセスの分散化です。ここでガバナンスが重要な役割を果たします。私たちは大規模なデータ供給ネットワークを目指しており、コミュニティメンバーが「今、このAIモデルを訓練しているので、こういうデータセットが必要だ。クロール対象をそれに向けて調整したい」と提案できるようにしたいのです。その後、ソーターはバリデータとしても機能し、正しいデータがクロールされているかを保証します。
私たちが導入したいガバナンス機能の一つは、ネットワークの保護です。分散型ネットワークでは、うまく実行されれば時間とともに市場効率が達成されます。未使用のCPUやGPUなどを法定通貨でマネタイズできるアプリは多数ありますが、初期は一定の報酬を提供しても、時間が経つにつれて報酬率を下げ、最終的にはほとんど収益が得られなくなることが多いです。
ガバナンス構造があれば、貢献者がネットワークの一部を実際に所有することで、コミュニティを守ることができます。私たちが目指すのは、Grassネットワーク上でノードを運営する全員がネットワーク自体の一部を所有する状態です。
理論的に、ネットワークをローンチするのに十分な規模をすでに確保していると思いますか?それとも、ローンチ前にさらにノード数を増やしたいですか?
0xdrej:ノードの総数に関しては、目標に非常に近づいています。ただし、特定の地理的エリアではまだそうではありません。特定地域で特定のコンテンツをクロールしたい需要があり、その需要が供給を上回っている場所もあります。すべての需要に対応できる能力を確保することが、ネットワークローンチの目標です。
ご存じの通り、テスト段階にあるため、スケーラビリティを確保するために全力を尽くしています。予想を上回るスピードで成長しているため、ネットワークへの接続やダッシュボード表示に問題が発生しているユーザーもいます。これらはフルネットワークローンチ前に解決する予定の課題です。そのため、まだテスト段階にあります。ノード数に関しては、多くの要素を考慮していますが、全体的には現状にかなり満足しています。
TechFlow公式コミュニティへようこそ
Telegram購読グループ:https://t.me/TechFlowDaily
Twitter公式アカウント:https://x.com/TechFlowPost
Twitter英語アカウント:https://x.com/BlockFlow_News












