
Soraが登場し、2024年はAIとWeb3の変革元年となるか?
TechFlow厳選深潮セレクト

Soraが登場し、2024年はAIとWeb3の変革元年となるか?
Web3とAIの融合は、どのような新たな化学反応を起こすのか?
著者:YBB Capital Zeke

序論
2月16日、OpenAIは最新のテキスト制御型動画生成拡散モデル「Sora」を発表しました。複数の高品質なビジュアルデータタイプを網羅する高品質な生成動画を通じて、ジェネレーティブAIにおける新たなマイルストーンが示されました。PikaのようなAI動画生成ツールがまだ複数の画像から数秒の動画を生成している段階にあるのに対し、Soraは動画と画像の圧縮潜在空間で学習を行い、それを時空間的なパッチに分解することでスケーラブルな動画生成を実現しています。さらにこのモデルは物理世界とデジタル世界を模倣する能力も示しており、提示された60秒間のデモは「物理世界の汎用シミュレーター」と呼んでも過言ではないでしょう。
構築方法においてSoraは、過去のGPTモデルが採用した「ソースデータ-Transformer-Diffusion-躍出(エマージェンス)」という技術的アプローチを継承しています。これはつまり、その発展と成熟にはコンピューティングパワー(算力)がエンジンとして必要であることを意味します。特に動画の学習にはテキスト学習よりもはるかに大量のデータが必要であり、それに伴って算力需要はさらに拡大していくでしょう。しかし我々は以前の記事『ポテンシャルある分野の展望:非中央集権型算力市場』の中で、AI時代における算力の重要性についてすでに議論しており、最近のAI熱の高まりとともに、既に多数の算力プロジェクトが登場しています。また、受動的に恩恵を受ける他のDePINプロジェクト(ストレージ、算力など)もすでに一段階価格上昇しています。それでは、DePIN以外にWeb3とAIの融合はどのような火花を生むでしょうか?この分野にはまだどんな機会が残されているのでしょうか?本稿の主な目的は、過去の記事をアップデート・補完するとともに、AI時代におけるWeb3の可能性について考察することです。

AI発展史の三大方向
人工知能(Artificial Intelligence)とは、人間の知能を模倣・拡張・強化することを目指す新興科学技術です。1950~60年代に誕生して以来、半世紀以上にわたる発展を経て、社会生活やさまざまな業界の変革を推進する重要な技術となっています。この過程で、シンボリズム(記号主義)、コネクショニズム(接続主義)、ビヘイビオリズム(行動主義)という3つの研究方向が相互に絡み合いながら発展し、今日のAIの急速な進歩の基盤となっています。
シンボリズム(Symbolism)
別名ロジシズムまたはルール主義とも呼ばれ、記号操作によって人間の知能を模倣できることを前提としています。この手法では、問題領域内の対象、概念およびそれらの関係を記号で表現・操作し、論理的推論によって問題を解決します。専門家システムや知識表現の分野で顕著な成果を挙げています。シンボリズムの核心的な考え方は、記号操作と論理的推論によって知的行動を実現できるというもので、ここでいう記号とは現実世界に対する高度な抽象化を意味します。
コネクショニズム(Connectionism)
ニューラルネットワークアプローチとも呼ばれ、脳の構造と機能を模倣することで知能を実現しようとするものです。多くの単純な処理ユニット(ニューロンに類似)からなるネットワークを構築し、それらの間の接続強度(シナプスに類似)を調整することで学習を実現します。コネクショニズムは、データからの学習と一般化能力を特に重視しており、パターン認識、分類、連続的な入出力マッピング問題に適しています。ディープラーニングはコネクショニズムの発展形であり、画像認識、音声認識、自然言語処理などの分野で大きな突破を遂げました。
ビヘイビオリズム(Behaviorism)
バイオミメティックロボティクスや自律型知能システムの研究と密接に関連しており、エージェントが環境とのインタラクションを通じて学習することを強調します。前者二つとは異なり、内部の表現や思考プロセスの模倣ではなく、感知と行動のサイクルを通じて適応的行動を実現しようとします。ビヘイビオリズムは、知能は環境との動的なインタラクションと学習によって現れると考え、複雑かつ予測不能な環境で動作するモバイルロボットや適応制御システムに特に有効です。
これら三つの研究方向には根本的な違いがありますが、実際のAI研究や応用では互いに作用・融合しながら、AI分野の発展を共に推進しています。
AIGCの原理概要
現在爆発的な発展を遂げているジェネレーティブAI(Artificial Intelligence Generated Content、略称AIGC)は、コネクショニズムの進化と応用形態です。AIGCは人間の創造力を模倣し、新しいコンテンツを生成することができます。これらのモデルは大規模なデータセットとディープラーニングアルゴリズムを使用して訓練され、データ内に存在する基礎的な構造、関係、パターンを学習します。ユーザーの入力プロンプトに基づき、画像、動画、コード、音楽、デザイン、翻訳、質問応答、文章など、独自で新しい出力を生成できます。現在のAIGCは基本的に3つの要素から成り立っています:ディープラーニング(Deep Learning、DL)、ビッグデータ、大規模な算力です。
ディープラーニング
ディープラーニングは機械学習(ML)の一分野であり、そのアルゴリズムは人間の脳を模したニューラルネットワークです。例えば人間の脳には何百万もの相互接続されたニューロンがあり、情報の学習と処理を協調的に行います。同様に、ディープラーニングのニューラルネットワーク(または人工ニューラルネットワーク)は、コンピュータ内で協働する多層の人工ニューロンから構成されています。人工ニューロンとはノードと呼ばれるソフトウェアモジュールで、数学的計算を使ってデータを処理します。人工ニューラルネットワークはこうしたノードを用いて複雑な問題を解決するディープラーニングアルゴリズムです。

ニューラルネットワークは階層的に、入力層、隠れ層、出力層に分けられ、各層間をつなぐのがパラメータです。
● 入力層(Input Layer): ニューラルネットワークの最初の層で、外部からの入力データを受け取ります。入力層の各ニューロンは入力データの特徴に対応します。たとえば画像データを扱う場合、各ニューロンは画像のピクセル値に対応するかもしれません。
● 隠れ層(Hidden Layer): 入力層が処理したデータをより深い層へ渡します。これらの隠れ層は異なるレベルで情報を処理し、新たな情報を受けるごとに自身の振る舞いを調整します。ディープラーニングネットワークには数百もの隠れ層があり、複数の観点から問題を分析できます。たとえば未知の動物の画像を分類する必要がある場合、既知の動物と比較できます。耳の形、脚の数、瞳孔の大きさなどからそれが何の動物か判断するように、ディープニューラルネットワークの隠れ層も同様に機能します。ディープラーニングアルゴリズムが動物の画像を分類しようとする場合、各隠れ層は動物の異なる特徴を処理し、正確な分類を試みます。
● 出力層(Output Layer): ニューラルネットワークの最終層で、ネットワークの出力を生成します。出力層の各ニューロンは可能な出力カテゴリまたは値を表します。たとえば分類問題では、各出力層ニューロンが一つのカテゴリに対応し、回帰問題では出力層に一つのニューロンしかなく、その値が出力結果を示します。
● パラメータ: ニューラルネットワークでは、異なる層間の接続は重み(Weights)とバイアス(Biases)というパラメータで表されます。これらのパラメータは学習中に最適化され、ネットワークがデータ内のパターンを正確に認識し、予測を行うようにします。パラメータの増加はニューラルネットワークのモデル容量、すなわちデータ内の複雑なパターンを学習・表現する能力を高めますが、それに伴い算力需要も高まります。
ビッグデータ
効果的な学習のために、ニューラルネットワークは通常、大量で多様かつ高品質、多源のデータを必要とします。これは機械学習モデルの学習と検証の基盤です。ビッグデータを分析することで、機械学習モデルはデータ内のパターンや関係を学び、予測や分類を行えるようになります。
大規模算力
ニューラルネットワークの多層的で複雑な構造、膨大なパラメータ、ビッグデータ処理の必要性、反復的な学習方式(学習段階ではモデルが繰り返しイテレーションを必要とし、各層での順伝播・逆伝播の計算、活性化関数、損失関数、勾配の計算、重みの更新を含む)、高精度計算の必要性、並列計算能力、最適化・正則化技術、およびモデル評価・検証プロセスが、すべて高算力需要を引き起こしています。

Sora
OpenAIが最新で発表した動画生成AIモデルSoraは、多様なビジュアルデータを処理・理解するAIの能力における大きな進歩を示しています。Soraは動画圧縮ネットワークと時空間パッチ技術を採用することで、世界各地のさまざまなデバイスで撮影された膨大なビジュアルデータを統一された表現形式に変換し、複雑なビジュアルコンテンツを効率よく処理・理解できるようになりました。テキスト条件付きのDiffusionモデルに依拠することで、Soraはテキストプロンプトに応じて高度に一致した動画や画像を生成でき、極めて高い創造性と適応性を示しています。
ただし、Soraは動画生成や現実世界とのインタラクション模擬で突破を遂げたものの、依然いくつかの限界に直面しています。たとえば物理世界の模擬精度、長尺動画生成の一貫性、複雑なテキスト命令の理解、および学習・生成の効率などです。またSoraは本質的に、OpenAIが独占的な算力と先行者利益を持ち、「ビッグデータ-Transformer-Diffusion-躍出」という従来の技術経路を踏襲した「暴力的美学」にすぎず、他のAI企業は技術的迂回によって追い抜く可能性をまだ持っています。
Soraとブロックチェーンの直接的な関係は小さいですが、個人的には今後1〜2年間でSoraの影響により、他社の高品質なAI生成ツールが次々と登場し急速に発展するでしょう。その影響はWeb3内のGameFi、ソーシャル、創作プラットフォーム、DePINなど多くの分野に波及します。そのためSoraについてある程度の理解を持つことは必要です。将来、AIはどのように効果的にWeb3と統合されるのか――それは私たちが考えるべき重要なテーマです。
AI × Web3の四大アプローチ
前述の通り、ジェネレーティブAIに必要な基盤は実は3つだけです:アルゴリズム、データ、算力。一方、汎用性と生成効果の観点から見れば、AIは生産方式を破壊するツールです。ブロックチェーンの最大の役割は2つ:生産関係の再構築と非中央集権化です。両者が交差する道筋は、個人的には以下の4つがあると考えます。
非中央集権型算力
過去にすでに関連記事を書いているため、本節の主な目的は算力分野の最新状況を更新することです。AIについて話すとき、算力は常に避けて通れない要素です。Soraの登場以降、AIの算力需要は想像を絶する規模になっています。最近、スイスで開催された2024年ダボス世界経済フォーラム期間中、OpenAIのCEOサム・アルトマン氏は明言しました。「算力とエネルギーは現在最大の制約であり、将来の重要性は貨幣と同等になるだろう」と。その後2月10日、サム・アルトマンはX(旧Twitter)で驚くべき計画を発表しました。7兆ドル(中国2023年のGDPの40%相当)を調達し、グローバルな半導体産業構造を書き換え、チップ帝国を創設するというものです。算力に関する記事を書いていた当時、私の想像は国家による輸出規制や巨大企業の独占に限定されていましたが、まさか一企業が世界の半導体産業を支配しようとするとは、本当に狂気じみています。
そのため非中央集権型算力の重要性は言うまでもありません。ブロックチェーンの特性は、現在の極端な算力独占問題や専用GPU購入コストの高騰を実際に解決できる可能性があります。AIの観点から見ると、算力の利用は学習(トレーニング)と推論(インファレンス)の2方向に分けられます。学習を主眼とするプロジェクトは現時点ではほとんどなく、非中央集権ネットワークとニューラルネットワーク設計の統合、ハードウェアへの超高要求から考えて、参入障壁が非常に高く、実用化も極めて困難です。一方、推論は比較的簡単です。非中央集権ネットワーク設計が複雑ではなく、ハードウェアと帯域幅の要求も低いことから、現在主流の方向と言えます。
中央集権型算力市場の潜在的可能性は大きく、「兆単位」というキーワードによく結びつけられます。またAI時代において最も頻繁に取り上げられる話題でもあります。しかし最近急増する多数のプロジェクトを見ると、大部分は無理やり市場に乗っかって流行に便乗しているに過ぎません。常に非中央集権化という正しい旗印を掲げつつも、非中央集権ネットワークの低効率問題には一切触れません。また設計上も高度な均質化が見られ、多くのプロジェクトが酷似しています(ワンクリックL2+マイニング設計)。その結果、散漫な状況になりかねず、伝統的なAI分野からシェアを奪うのは難しいでしょう。
アルゴリズム・モデル協働システム
機械学習アルゴリズムとは、データから法則やパターンを学び、それに基づいて予測や意思決定を行うアルゴリズムのことです。アルゴリズムは技術集中型であり、その設計・最適化には高度な専門知識と技術革新が必要です。アルゴリズムはAIモデル学習の中核であり、データがいかに有用な洞察や意思決定に変換されるかを定義します。代表的なジェネレーティブAIアルゴリズムには、GAN(生成敵対ネットワーク)、VAE(変分オートエンコーダー)、Transformer(変換器)などがあり、それぞれ特定の分野(絵画、音声認識、翻訳、動画生成)や目的に応じて設計され、そのアルゴリズムで専用のAIモデルを学習させます。
これほど多くのアルゴリズムとモデルがあり、それぞれに長所がある中で、それらを統合して多才なモデルを作ることは可能でしょうか?最近注目を集めるBittensorはまさにこの方向の先駆者です。マイニング報酬によって異なるAIモデルとアルゴリズムが協働・学習し、より効率的で万能なAIモデルを創造しようとしています。同様の方向を取るプロジェクトにはCommune AI(コード協働)などもありますが、アルゴリズムとモデルは現在のAI企業にとって自社の最重要資産であり、簡単に外部に提供されることはありません。
したがって、AI協働エコシステムというストーリーは新しく面白いですが、ブロックチェーンの利点を活かしてAIアルゴリズムの孤島問題を解消する一方で、実際に価値を創出できるかどうかはまだ不明です。頭部AI企業のクローズドソースなアルゴリズムとモデルは、更新・進化・統合能力が非常に強く、たとえばOpenAIは設立から2年足らずで、初期のテキスト生成モデルから多分野生成モデルへと進化しました。Bittensorなどのプロジェクトは、モデルやアルゴリズムの適用分野において新たな道を模索する必要があります。
非中央集権型ビッグデータ
シンプルな視点から言えば、個人データをAIの学習に使用したり、データにラベル付けを行うことはブロックチェーンと非常に相性が良い方向です。注意すべきはガラデータや悪意ある行為の防止であり、またデータ保存面ではFIL、ARなどのDePINプロジェクトにも恩恵があります。複雑な視点では、ブロックチェーンデータを機械学習(ML)に使用し、ブロックチェーンデータのアクセス性を解決するのも興味深い方向です(Gizaが探っている方向の一つ)。
理論上、ブロックチェーンデータはいつでもアクセス可能で、ブロックチェーン全体の状態を反映しています。しかしブロックチェーンエコシステム外の人々にとって、このような膨大なデータ量を取得するのは容易ではありません。ブロックチェーン全体を完全に保存するには高度な専門知識と大量の専用ハードウェア資源が必要です。このデータアクセスの課題を克服するために、業界ではいくつかのソリューションが登場しています。たとえばRPCプロバイダーはAPI経由でノードにアクセス可能にし、インデックスサービスはSQLやGraphQLでデータ抽出を可能にします。これら2つの方法は課題解決に重要な役割を果たしています。しかし、これらにも限界があります。RPCサービスは大量のデータ照会を必要とする高密度利用シーンには不向きで、しばしば要求を満たせません。一方、インデックスサービスは構造化されたデータ検索を提供しますが、Web3プロトコルの複雑さゆえに効率的なクエリ構築が極めて困難で、時には数百乃至数千行の複雑なコードを書く必要がある場合もあります。この複雑さは、一般的なデータ担当者やWeb3の詳細を深く知らない人々にとって大きな障壁です。こうした制限の累積的効果は、ブロックチェーンデータのより使いやすく利用しやすい方法の必要性を浮き彫りにしており、この分野のより広範な応用と革新を促進できるでしょう。
そこでZKML(ゼロ知識証明機械学習、機械学習がブロックチェーンに与える負担を軽減)と高品質なブロックチェーンデータを組み合わせることで、ブロックチェーンのアクセシビリティを解決するデータセットを生み出す可能性があります。AIはブロックチェーンデータのアクセスしづらさのハードルを大幅に下げることができ、時間が経つにつれて、開発者、研究者、ML愛好家がより多くの高品質で関連性のあるデータセットにアクセスできるようになり、効果的で革新的なソリューションの構築に貢献できるでしょう。
AIがDappを強化
2023年にChatGPT3が爆発的に流行して以来、AIによるDapp強化は非常に一般的な方向となっています。汎用性の高いジェネレーティブAIはAPI経由で統合され、データ分析プラットフォーム、取引ロボット、ブロックチェーン百科などのアプリケーションを簡素化・知能化できます。また、チャットボット(例:Myshell)やAIパートナー(Sleepless AI)としても機能でき、ジェネレーティブAIでチェーンゲーム内のNPCを生成することも可能です。しかし技術的ハードルが低いため、多くはAPIを接続して微調整するだけで、プロジェクト自体との統合も不十分であり、あまり注目されていません。
しかしSoraの登場後、個人的にはAIによるGameFi(メタバース含む)や創作プラットフォームの強化が今後の注目ポイントになると考えます。Web3分野は草の根的な特性を持っているため、従来のゲーム会社やクリエイティブ企業と競争できる製品を生み出すのは難しいですが、Soraの出現はこの窮地を打破する可能性があります(おそらく2〜3年以内)。Soraのデモを見る限り、すでにミニドラマ制作会社と競争できるポテンシャルを持っています。Web3の活発なコミュニティ文化は多くの面白いアイデアを生み出し、制約条件が「想像力」だけになるとき、草の根型産業とトップダウン型伝統産業の間の壁は崩れるでしょう。
終章
ジェネレーティブAIツールの進化に伴い、今後も多くの画期的な「iPhoneの瞬間」を経験することになるでしょう。多くの人々がAIとWeb3の統合を馬鹿にするかもしれませんが、実際には現在の方向性に大きな問題はなく、解決すべき課題は必要性、効率、適合性の3点だけです。両者の融合はまだ探索段階ですが、この分野が次のバブル期の主流になることは妨げられません。
新しい事物に対して常に十分な好奇心と受容姿勢を持つことが、私たちに求められる心構えです。歴史的に見て、自動車が馬車に取って代わった変化は瞬く間に決着しました。またインスクリプションや過去のNFTのように、偏見を持ちすぎるとチャンスを逃してしまうだけです。
TechFlow公式コミュニティへようこそ
Telegram購読グループ:https://t.me/TechFlowDaily
Twitter公式アカウント:https://x.com/TechFlowPost
Twitter英語アカウント:https://x.com/BlockFlow_News









