
Variant投資パートナー:オープンソースAIのジレンマとブレークスルー、なぜ暗号技術が最後のピースなのか?
TechFlow厳選深潮セレクト

Variant投資パートナー:オープンソースAIのジレンマとブレークスルー、なぜ暗号技術が最後のピースなのか?
オープンソースのAIと暗号技術を組み合わせることで、より大規模なモデル開発を支援し、さらなるイノベーションを促進して、より高度なAIシステムを創出できる。
翻訳:TechFlow
要約
-
現在の基盤AI開発は、少数の大手テック企業による閉鎖的で競争のない体制に支配されている。
-
オープンソースソフトウェア開発は潜在的な解決策だが、基盤AIは従来のオープンソースプロジェクト(例:Linux)とは異なり、「リソース問題」に直面している。すなわち、貢献者が時間だけでなく、個人の能力を超える計算資源やデータコストも負担しなければならない点である。
-
暗号技術は、リソース提供者にインセンティブを与えることで、基盤的なオープンソースAIプロジェクトへの参加を促進し、このリソース問題を解決する可能性を秘めている。
-
オープンソースAIと暗号技術を組み合わせることで、より大規模なモデル開発が可能となり、革新が加速し、より高度なAIシステムの創造につながる。
はじめに
ピュー・リサーチセンター(Pew Research Center)が2024年に実施した調査によると、アメリカ人の64%がソーシャルメディアは国家にとって悪影響の方が大きいと感じており、78%がソーシャルメディア企業は政治において過剰な権力と影響力を持っていると回答している。また、83%の人がこれらのプラットフォームが不同意な政治的見解を意図的に検閲する可能性が高いと考えている。ソーシャルメディアに対する不満は、アメリカ社会においてほとんど唯一の共通認識とも言えるほどだ。
過去20年間のソーシャルメディアの発展史を振り返れば、このような状況は必然だったように思える。話は単純だ:少数の大手テック企業がユーザーの注目と、それ以上に重要な「ユーザーのデータ」を掌握した。当初はデータの開放に期待が寄せられたものの、こうした企業はすぐに方針を変え、データを使って破壊不可能なネットワーク効果を構築し、外部からのアクセスを遮断した。その結果が今日の現状だ——10社にも満たない大手企業がソーシャルメディア業界を寡占する「寡頭独占」状態である。この体制は彼らにとって極めて有利であり、変化を促す動機はほとんど存在しない。この構造は閉鎖的であり、競争を欠いている。
現在、AI技術の発展も同じような軌道を辿っているが、その影響はさらに深刻である。少数の大手テック企業がGPUとデータというリソースを支配し、基盤AIモデルを開発してその利用を制限している。数十億ドルもの資金を持たない新規参入者は、競合モデルを開発することは事実上不可能だ。基礎モデル一つの学習にかかる計算コストだけで数十億ドルに達し、前回の技術ブームで利益を得たソーシャルメディア企業は、独自のユーザーデータを活用することで、他者が追いつけない性能のモデルを開発している。私たちは再びソーシャルメディアの失敗を繰り返し、閉鎖的で競争のないAI世界へと向かっている。この傾向が続けば、ごく少数の大手テック企業が情報や機会へのアクセスを事実上無制限に支配することになるだろう。
オープンソースAIと「リソース問題」
もし私たちが閉鎖的なAI世界を望まないのであれば、選択肢は何だろうか?明らかな答えは、基盤モデルをオープンソースソフトウェアとして開発することだ。歴史的に、私たちが日常的に依存する多くの基盤ソフトウェアは、無数の成功したオープンソースプロジェクトによって作られてきた。例えば、Linuxの成功は、オペレーティングシステムのようなコアソフトウェアさえもオープンソースで開発可能であることを示している。それならば、なぜLLM(大規模言語モデル)はできないのだろうか?
しかし、基盤AIモデルには特殊な制約があり、これは従来のソフトウェアとは異なる点であり、従来型のオープンソースプロジェクトとしての実現可能性を大きく損なっている。具体的には、基盤AIモデルは巨額の計算資源とデータを必要とし、これらは個人の範囲をはるかに超えている。従来のオープンソースプロジェクトが人々の時間の寄付に頼るのに対し、オープンソースAIは計算能力とデータの寄付も要求する。これがいわゆる「リソース問題」である。
MetaのLLaMaモデルを例に挙げると、このリソース問題の本質がより明確になる。OpenAIやGoogleといった競合とは異なり、Metaはモデルを有料APIの背後に隠さず、誰でも無料で使える形でLLaMaの重み(weights)を公開した(一定の制限付き)。この重みには、Metaが訓練中にモデルが学習した知識が含まれており、モデルを動作させるために不可欠である。これにより、ユーザーはモデルのファインチューニングを行ったり、その出力を新しいモデルの入力として利用できる。
MetaがLLaMaの重みを公開したことは評価すべき行動だが、これは真の意味でのオープンソースソフトウェアプロジェクトとは言えない。Metaは訓練プロセスを自らの計算資源、データ、意思決定のもとで内部で管理しており、いつ公表するかを一方的に決めている。独立した研究者や開発者をコミュニティとして巻き込んでいない。なぜなら、モデルの訓練または再訓練に必要なリソース——数万枚の高性能GPU、それらを収容するデータセンター、複雑な冷却設備、そして数兆トークン(モデル訓練用のテキストデータ単位)のデータ——は、一般の個人が手に入れるにはあまりに巨大だからだ。スタンフォード大学の2024年AIインデックスレポートが指摘するように、「訓練コストの急激な上昇は、伝統的にAI研究の中心であった大学を、最先端の基盤モデル開発から実質的に排除している」。一例として、Sam AltmanはGPT-4の訓練に1億ドルかかったと述べているが、これはハードウェア投資を含まない金額だ。さらに、Metaの資本支出は2024年第2四半期に前年同期比で21億ドル増加しており、これは主にAIモデル訓練に関連するサーバー、データセンター、ネットワークインフラに向けられている。したがって、LLaMaのコミュニティ貢献者はモデルのアーキテクチャ改善の技術的能力を持っていても、そのためのリソースを実際に投入することはできない。
まとめると、従来のオープンソースソフトウェアプロジェクトとは異なり、オープンソースAIプロジェクトは貢献者に時間だけでなく、高額な計算およびデータコストの負担も求める。善意とボランティア精神だけでは、十分なリソース提供者を動員するのは非現実的だ。さらなるインセンティブが必要なのである。オープンソース大規模言語モデルBLOOMを例に取ろう。1760億パラメータを持つこのモデルは、70カ国以上、250以上の機関に所属する1000人の研究者が協力して開発した。BLOOMの成功は称賛に値する(私は全面的に支持する)が、訓練の調整に1年を要し、フランスの研究機関から300万ユーロの助成金に依存した(訓練に使われたスーパーコンピュータの資本費用は別途)。次の開発のために新たな助成金を獲得し、調整と反復を行うプロセスは非常に煩雑であり、大手テック企業の研究室と比べて開発スピードでは太刀打ちできない。BLOOMのリリースから2年以上経過しているが、チームによる後続モデルの開発はまだ聞こえてこない。
オープンソースAIを実現するためには、貢献者が自らコストを負担するのではなく、計算資源やデータを提供する者にインセンティブを与える仕組みを確立する必要がある。
なぜ暗号技術が基盤的オープンソースAIの「リソース問題」を解決できるのか
暗号技術の核心的突破は、「所有権」メカニズムを通じて、高リソースコストを要するオープンソースソフトウェアプロジェクトを可能にしたことにある。それは、貢献者が前もってリソースコストを負担するのではなく、リソース提供者をネットワークに参加させるようインセンティブを与えることで、オープンソースAIのリソース問題を解決する。
ビットコインが良い例である。最も初期の暗号プロジェクトであるビットコインは、コードが初めから公開されている完全なオープンソースソフトウェアプロジェクトだ。しかし、コードそのものがビットコインの本質ではない。ビットコインのノードソフトウェアをダウンロードしてローカルにブロックチェーンを作成しても、実際の価値はない。その価値は、個々の貢献者の計算能力をはるかに超える膨大な計算量(マイニング)によって、分散的で誰にも支配されない台帳を維持するとき初めて生まれる。基盤的オープンソースAIと同様、ビットコインも個人の能力を超えるリソースを必要とするオープンソースプロジェクトである。両者の計算リソースの必要理由は異なる——ビットコインはネットワークの改ざん防止のため、基盤AIはモデルの最適化と反復のため——だが、共通点は個人を越えたリソースの依存にある。
ビットコインをはじめとするすべての暗号ネットワークが、オープンソースソフトウェアプロジェクトにリソースを提供する参加者を動機づける「鍵」は、Tokenを通じたネットワーク所有権の付与にある。Jesseが2020年にVariant向けに執筆した設立理念で述べたように、所有権はリソース提供者に強力なインセンティブを与え、ネットワーク内の将来の収益可能性と引き換えにリソースを提供させることができる。この仕組みは、スタートアップが早期の資金不足を「汗水株式(Sweat Equity)」で解決する方法に似ている——創業者など早期の従業員に報酬として会社の株式を渡すことで、本来支払えない人材を惹きつける。暗号技術はこの「汗水株式」の概念を、時間の貢献者からリソース提供者へと拡張したのである。そのため、VariantはUniswap、Morpho、Worldなどのように、所有権メカニズムを使ってネットワーク効果を構築するプロジェクトへの投資を専門としている。
もし私たちがオープンソースAIの実現を望むなら、暗号技術による所有権メカニズムこそがリソース問題を解決する鍵となる。この仕組みにより、研究者は自分のモデル設計思想を自由にオープンソースプロジェクトに貢献できるようになる。なぜなら、その実現に必要な計算・データリソースは、将来的な所有権の獲得という見返りで提供されるからであり、研究者が莫大な初期コストを自ら負担する必要はなくなる。オープンソースAIにおける所有権はさまざまな形態を取り得るが、最も注目されるのはモデルそのものに対する所有権であり、Pluralisが提案しているアプローチである。
Pluralisが提唱するこの手法はProtocol Modelsと呼ばれる。この方式では、計算リソース提供者が特定のオープンソースモデルの訓練に計算能力を提供することで、そのモデルの将来の推論(inference)収益の一部を所有する権利を得る。この所有権は特定のモデルに紐づき、その価値はモデルの推論収益に基づくため、リソース提供者は無駄な訓練データを送信したり、モデルの品質を損なう行動を取るインセンティブを持たない(そうした行為は将来の収益予想を直接下げるため)。ただし、一つの疑問が残る:訓練プロセスでモデルの重みを計算提供者に送る必要がある場合、Pluralisはどのように所有権の安全性を保証するのか? その答えは、「モデル並列化(Model Parallelism)」技術を用いてモデルを分片化し、異なる作業者に分散配布することにある。ニューラルネットワークの重要な性質として、重みのごく一部しか知らなくても訓練に参加できるため、完全な重み集合を抽出することが困難になる。さらに、Pluralisプラットフォームでは多数の異なるモデルが同時に訓練されるため、各訓練者は異なる重みセットを扱うことになり、元のモデルを再構築するのは極めて困難になる。
Protocol Modelsの核となる考え方は、「モデルは訓練され、使用されるが、プロトコル外から完全に抜き取ることはできない(ゼロからモデルを訓練するのに必要な計算能力を上回らない限り)」ということだ。このメカニズムは、批判者がよく指摘する「閉鎖的なAI企業がオープンソースの成果を盗用する」という問題を解決する。
なぜ暗号技術+オープンソース=より良いAIなのか
記事の冒頭で、大手テック企業によるAI支配について分析し、閉鎖的AIが倫理的・規範的に問題であることを説明した。しかし、無力感が蔓延するネット時代において、こうした議論は多くの読者に響かないかもしれない。そこで、実際の成果という観点から、暗号技術を活用したオープンソースAIが本当に「より良いAI」を生み出す理由を二つ挙げたい。
第一に、暗号技術とオープンソースAIの統合により、より多くのリソースを調整でき、次世代の基盤モデル(Foundation Models)の発展を推進できる。研究によれば、計算能力とデータの増加はいずれもモデル性能の向上に寄与しており、それが基盤モデルの規模が継続的に拡大する理由でもある。ビットコインは、オープンソースソフトウェアと暗号技術が計算能力の面でどれほどの可能性を持つかをすでに示している。ビットコインは世界最大かつ最も強力な計算ネットワークとなり、その規模は大手テック企業が保有するクラウドコンピューティングリソースをはるかに凌駕している。暗号技術の特筆すべき点は、孤立した競争を協働的競争へと変換することにある。リソース提供者が共通の課題解決に向けてリソースを貢献するようインセンティブを与えることで、互いに重複した作業をせずに効率的に資源を利用できるのだ。暗号技術を活用したオープンソースAIは、グローバルな計算・データリソースを活用し、閉鎖的AIをはるかに超える規模のモデルを構築できる。例えば、Hyperbolicはすでにこのモデルの可能性を示している。彼らはオープンマーケットを通じて、誰でも低コストでGPUをレンタルできる仕組みを提供し、分散型計算リソースを最大限に活用している。
第二に、暗号技術とオープンソースAIの統合は、革新の加速をもたらす。リソース問題が解決されれば、機械学習研究は再び高度に反復的で革新的なオープンソース的本質に戻ることができるからだ。大規模言語モデル(LLM)が登場する以前、機械学習研究者は通常、自分のモデルと再現可能な設計図を公開していた。これらのモデルはオープンソースのデータセットを使い、計算需要も比較的低かったため、他の研究者がその上に改良や革新を積み重ねることが容易だった。このオープンな反復プロセスが、RNN(循環ニューラルネットワーク)、LSTM(長短期記憶)、Attention Mechanism(アテンション機構)といった系列モデリングの画期的進展を生み出し、最終的にTransformerアーキテクチャの誕生につながった。しかし、GPT-3の登場以降、このオープンな研究スタイルは変化した。OpenAIはGPT-3およびChatGPTの成功を通じて、十分な計算資源とデータを投入すれば、自然言語理解能力を持つ大規模言語モデルが構築できることを証明した。この流れはリソースのハードルを急激に押し上げ、学術界を事実上排除するとともに、大手テック企業が競争優位を維持するためにモデルアーキテクチャを公開しなくなった。この状況は、AIの最前線を推進する私たちの能力を制限している。
暗号技術を活用したオープンソースAIは、この現状を変えることができる。研究者が先端モデル上で再び反復作業を行い、「次のTransformer」を発見する可能性を拓く。この統合はリソース問題の解決にとどまらず、機械学習分野の革新活力を再び喚起し、AIの未来に広大な道を切り開くだろう。
TechFlow公式コミュニティへようこそ
Telegram購読グループ:https://t.me/TechFlowDaily
Twitter公式アカウント:https://x.com/TechFlowPost
Twitter英語アカウント:https://x.com/BlockFlow_News














