Sequoia Capital:ジェネレーティブAI、創造性に満ちた新世界
TechFlow厳選深潮セレクト
Sequoia Capital:ジェネレーティブAI、創造性に満ちた新世界
人間は物事を分析するのに得意であり、機械はこの点でさらに優れている。

著者:Sonya HuangおよびPat Grady
翻訳:TechFlow
AIGC(AI生成コンテンツ)はここ最近のホットトピックであり、多数のアプリケーションが実用化されつつある中で、AIが画像、文章、音声、さらには動画までを生成する時代が、人々の日常生活に徐々に近づいてきています。
つい数時間前、Sequoia米国本社の公式ウェブサイトは、「Generative AI: A Creative New World」と題した最新記事を発表しました。これは新たなパラダイムシフト(Paradigm shift)の始まりを示しているのでしょうか?
この記事の内容を見てみましょう。原著者はSequoiaのパートナーであるSonya HuangとPat Gradyの二人ですが、興味深いことに、著者欄には明確にGPT-3の名前も記載されており、挿絵もMidjourneyによって生成されています。つまり、この記事自体がまさにAIGCの実例なのです。以下はその原文の翻訳です。新たな発見や考察につながれば幸いです。
はじめに
人間は物事を分析するのが得意ですが、機械はそれ以上に優れています。機械はデータセットを解析し、不正行為やスパムの検出、配達予定時刻の予測、あるいはどのTikTok動画をあなたに提示すべきかといったユースケースにおいて、パターンを見つけ出すことができます。こうしたタスクにおいて、機械はますます賢くなっています。これは「分析型AI(Analytical AI)」、すなわち従来型のAIと呼ばれます。
しかし人間は分析だけでなく、創造にも長けています。詩を書き、製品を設計し、ゲームを作り、コードを書きます。これまで機械は創造的な分野では人間に競う余地がなく、分析的かつ機械的な認知作業に限定されていました。しかし最近、機械は意味深く美しいものを生み出すことを始めています。この新しいカテゴリは「生成型AI(Generative AI)」と呼ばれ、既存のものを分析するのではなく、新しいものを生成することを意味しています。
生成型AIは、より高速で低コストであるばかりか、場合によっては人間の創造力を上回るようになってきています。ソーシャルメディアからゲーム、広告、建築、プログラミング、グラフィックデザイン、製品開発、法律、マーケティング、販売に至るまで、これまで人間の創造性に依存していたあらゆる産業が、機械による再構築を待っています。一部の機能は生成型AIに完全に置き換えられる可能性があり、他の機能は人間と機械が密接に反復しながら創作を行うことで活性化するでしょう。しかしいずれにせよ、生成型AIは幅広いエンド市場においてより良くなり、より速くなり、より安くなる創作を可能にするはずです。理想として描かれているのは、生成型AIが創造活動および知識労働の限界コストをゼロにまで引き下げることです。これにより、巨大な労働生産性と経済価値、そしてそれに伴う企業価値が生まれると期待されています。
生成型AIが扱える領域は知識労働と創造的作業に及び、これは数十億人の人的労働力に関わっています。生成型AIはこれらの労働者の効率と創造性を少なくとも10%向上させることができ、単にスピードと効率が上がるだけでなく、以前よりも高い能力を持つようになります。したがって、生成型AIは数兆ドル規模の経済価値を生み出す可能性を秘めています。
01. なぜ今なのか?
生成型AIは、より広義のAIと同様に、「なぜ今なのか(Why now)」という問いに対する共通の答えを持っています。より優れたモデル、より大量のデータ、より強力な計算能力です。この分野の変化の速度は捉えきれないほど速いですが、大きな文脈の中で最近の歴史を振り返ることは重要です。
第1波:小規模モデルの支配(2015年以前)。当時、言語理解における「最先端」とされるのは小規模モデルでした。これらは分析タスクに適しており、配達予測から不正取引の分類まで幅広く活用できましたが、汎用的な生成タスクに対しては表現力が不足していました。人間レベルの文章やコードの生成は依然として夢物語でした。
第2波:規模競争の時代(2015年~現在)。Google Researchによる画期的な論文「Attention is All You Need(https://arxiv.org/abs/1706.03762)」は、自然言語理解のための新しいニューラルネットワークアーキテクチャ「transformer」を紹介しました。これにより高品質な言語モデルが生成可能になり、並列処理が容易で、学習時間も短縮されました。これらのモデルは比較的簡単に特定ドメインにカスタマイズできるシンプルな学習器でした。

実際にモデルが大きくなるにつれて、人間並み、そして超人的な成果を出せるようになりました。2015年から2020年にかけて、これらのモデルの訓練に使われる計算量は6桁も増加し、文章作成、音声、画像認識、読解、言語理解の各分野で人間の能力を超える結果を出しました。特にOpenAIのGPT-3は顕著でした。GPT-2と比べて性能が飛躍的に向上し、コード生成からジョーク作成まで、Twitter上で印象的なデモを多数公開しました。
基礎研究の進展があったものの、これらのモデルはまだ普及していませんでした。非常に巨大で実行が困難(特別なGPU設定が必要)、一般に利用しにくい(非公開またはクローズドテストのみ)、クラウドサービスとしての利用コストも高額でした。こうした制約があるにもかかわらず、初期の生成型AIアプリケーションはすでに競争の舞台に登場し始めました。
第3波:より良くなり、より速く、より安価に(2022年+)。計算資源はより安価になり、拡散モデル(diffusion models)などの新技術により、学習・実行コストが低下しました。研究者たちはさらに優れたアルゴリズムと大規模なモデルの開発を続けます。開発者のアクセスはクローズドテストからオープンテストへ、あるいは一部ではオープンソースへと拡大しました。
LLM(Large Language Model:大規模言語モデル)へのアクセスを求める開発者にとって、探索とアプリ開発のゲートが今や開放され、アプリケーションが大量に登場し始めています。

第4波:キラーアプリの出現(現在)。プラットフォーム層が安定し、モデルはますます高性能・高速・低コストになり、モデルの入手が無料またはオープンソース化されつつあります。アプリケーション層の創造性は成熟期を迎えています。
スマートフォンがGPS、カメラ、ネット接続といった新機能によって新しいタイプのアプリを生み出したように、我々はこうした大規模モデルが生成型AIアプリの新たな波を引き起こすと予想しています。10年前にモバイルインターネットの転換点を切り開いたキラーアプリのように、生成型AIのキラーアプリもまもなく現れると予測され、レースは始まっています。
02. 市場構造
以下は、各カテゴリを支えるプラットフォーム層と、その上に構築される可能性のあるアプリケーションタイプを示す概念図です。

モデル
テキスト(Text)は最も進んでいる分野ですが、自然言語を正しく使いこなすのは難しく、品質が重要です。現在、これらのモデルは一般的な中短編の文章作成では非常に優れています(ただし、多くの場合反復使用や下書きとして使われます)。時間が経つにつれて、モデルはさらに改善され、高品質な出力、長文コンテンツ、特定分野での専門性の深化が期待されます。
コード生成(Code generation)は、短期的には開発者の生産性に大きな影響を与えるでしょう。GitHub Copilotの例が示す通りです。さらに、非開発者でもコードを創造的に使うことが容易になります。
画像(Images)は最近登場した現象ですが、すでにウイルス的に広がっています。Twitterで生成された画像を共有するのは、テキストよりもはるかに面白い!異なる美的スタイルを持つ画像モデルや、生成画像を編集・修正するためのさまざまな技術が次々と登場しています。
音声合成(Speech synthesis)はすでに一定の期間存在していますが、消費者・企業向けアプリケーションはようやく始まったばかりです。映画やポッドキャストのような高品質な用途では、機械的でない、人間レベルの音声が求められ、ハードルは高いです。しかし画像と同じく、今日のモデルは最適化やアプリケーション最終出力の出発点を提供しています。
動画および3Dモデルはまだ大きく遅れていますが、映画、ゲーム、VR、建築、実物製品設計といった巨大なクリエイティブ市場を開く可能性があるため、その潜在能力に注目が集まっています。今後1〜2年以内に基本的な3Dおよび動画モデルの登場が期待されます。
その他にも、音声・音楽から生物学・化学に至るまで、さまざまな分野で基盤モデルの研究開発が進められています。以下の図は、基盤モデルの進展と関連アプリケーションの実現可能性のタイムラインを示しており、2025年以降の部分はあくまで予測です。

アプリケーション
以下は私たちが注目しているいくつかのアプリケーションです。これらはほんの一例に過ぎず、実際にはもっと多くの応用が考えられます。創業者や開発者が思い描く創造的なアプリケーションに私たちは強く惹きつけられています。
コピーライティング(Copywriting):営業・マーケティング戦略やカスタマーサポートのために、ますます多くの個別化されたWebページやメールコンテンツが必要とされています。これは言語モデルの完璧な適用先です。こうしたコピーテキストは形式が単純で固定テンプレートが多く、チームの時間的・コスト的プレッシャーも大きいため、自動化および支援ソリューションへの需要は大幅に高まるでしょう。
業界特化型ライティングアシスタント(Vertical specific writing assistants):現在のライティングアシスタントの多くは汎用型ですが、法的契約書作成や脚本執筆など、特定のエンドマーケット向けに構築された生成型アプリケーションには大きなチャンスがあります。製品差別化の鍵は、特定のワークフローに合わせたモデルとUXインタラクションの微調整にあります。
コード生成(Code generation):現在のアプリケーションは開発者の生産性を大きく高めています。Copilotが導入されたプロジェクトでは、コードの約40%を生成しています。しかし、より大きなチャンスは一般ユーザーにプログラミング能力を付与することにあるかもしれません。「プロンプトの学び(learning to prompt)」が究極の高級プログラミング言語となる可能性があります。
アート生成(Art generation):美術史やポップカルチャーの世界全体が、今やこれらの大型モデルの中にエンコードされています。これにより、かつては人生をかけて習得しなければならなかったテーマやスタイルを、誰もが自由に探求できるようになります。
ゲーム(Gaming):理想は自然言語を使って複雑なシーンや操作可能なモデルを作成することですが、これはまだ遠い将来の話です。しかし短期的には、テクスチャやスカイボックスアート(skybox art)の生成といったより直接的な選択肢があります。
メディア/広告(Media/Advertising):代理店業務を自動化し、消費者に対してリアルタイムで広告コピーとクリエイティブを最適化する可能性を想像してみてください。マルチモーダル生成の好機は、販売メッセージと補完的なビジュアルを統合することにあります。
デザイン(Design):デジタル製品や実物製品のプロトタイプ作成は、労力のかかる反復的プロセスです。AIがラフなスケッチとプロンプトに基づいて高精細なレンダリングを作成することはすでに現実になっています。3Dモデルの登場により、生成デザインのプロセスは製造・生産から実物へと拡大します。次のiPhoneアプリやスニーカーが機械によって設計されるかもしれません。
ソーシャルメディアおよびデジタルコミュニティ(Social media and digital communities):生成ツールを使って自己表現する新しい方法はあるでしょうか?Midjourneyのような新しいアプリがSNS上で人間のように創作する方法を学ぶことで、新たなソーシャル体験が創出されるでしょう。

03. 生成型AIアプリの分析
生成型AIアプリとはどのようなものになるでしょうか?以下はいくつかの予測です。
知能とモデルのファインチューニング
生成型AIアプリはGPT-3やStable Diffusionといった大規模モデルの上に構築されます。こうしたアプリがユーザーからのデータを蓄積することで、モデルのファインチューニングが可能になります。これにより、特定の問題領域におけるモデルの品質と性能を向上させると同時に、モデルのサイズとコストを削減できます。
生成型AIアプリを、「大脳(big brain)」である大規模汎用モデルの上に位置するUI層と「小脳(little brain)」と見なすことができます。
形成要因
現在、生成型AIアプリは既存のソフトウェアエコシステム内にプラグインとして存在している場合が多いです。たとえば、IDE内のコード生成、FigmaやPhotoshop内の画像生成、Discordボットによるデジタルコミュニティ内での生成AIの利用などです。
また、JasperやCopy.ai(コピーライティング)、Runway(動画編集)、Mem(ノート作成)といった独立型の生成型AI Webアプリも少数存在します。
プラグイン形式は、生成型AIアプリが初期段階で採用する良い入り口といえます。これは、ユーザー獲得とモデル品質の間で生じる「卵が先か鶏が先か」のジレンマ(多くの使用データを得るために流通が必要だが、良いモデルがなければユーザーは集まらない)を克服できるからです。このような戦略は、消費者市場やソーシャル市場など他の分野でも成功を収めてきました。
インタラクションのパラダイム
現在、ほとんどの生成型AIのデモは「ワンショット」です。入力を与え、機械が出力を返し、それを採用するか破棄するかして、再度試みます。将来は反復的なサポートが可能になり、出力をもとに修正、調整、アップグレード、バリエーション生成ができるようになります。
現在、生成型AIの出力はプロトタイプや下書きとして使われています。アプリケーションは創作プロセスを進めるために複数の異なるアイデアを提示するのが得意(ロゴや建築デザインの複数案など)、また初稿作成にも優れていますが、最終的な仕上げにはユーザーの手直しが必要です(ブログ記事やコードの自動補完など)。モデルがますます賢くなり、ユーザーからのデータも活用されることで、こうした下書きはますます良くなり、やがて最終製品として十分な品質を持つようになると期待されます。
継続的な業界リーダーシップ
最高の生成型AI企業は、ユーザースティック性、データ、モデル性能の間で形成される好循環(フライホイール)を通じて、持続可能な競争優位を築くことができます。勝利を収めるには、以下の方法でこのフライホイールを実現しなければなりません。
優れたユーザースティック性→より多くのユーザースティック性をより良いモデル性能に変換(迅速な改善、モデルのファインチューニング、ユーザーの選択をトレーニングデータのラベルとして活用)→優れたモデル性能によりさらなるユーザー成長と定着を促進。
彼らは万人向けの解決を目指すのではなく、コード、デザイン、ゲームといった特定分野に集中するかもしれません。まず既存アプリへの深層統合を行い、そこから自身のアプリを展開・配布し、その後AIネイティブなワークフローで既存アプリを置き換えることを試みるかもしれません。こうしたアプリを正しい方法で構築し、ユーザーとデータを蓄積するには時間がかかりますが、最高のアプリは持続可能で、巨大な規模に成長する可能性があると信じています。
04. 困難とリスク
生成型AIは巨大な可能性を秘めていますが、ビジネスモデルや技術面で解決すべき課題は多く残っています。著作権、信頼性、安全性、コストなど重要な問題は未だ解決待ちです。
05. 視野を広げる
生成型AIはまだ非常に初期段階にあります。プラットフォーム層はようやく勢いをつけ始め、アプリケーション層はまさに始まったばかりです。
明確にしておきますが、トルストイの小説を書かせるような大規模言語モデルベースの生成型AIは必要ありません。これらのモデルはすでに、ブログ記事の下書きやロゴ・製品インターフェースのプロトタイプ生成に十分使えるレベルに達しており、中短期的には多大な価値を生み出します。
生成型AIアプリの第一波は、iPhone誕生直後のモバイルアプリ状況に似ています――多少の見せかけはあるが薄っぺらく、差別化やビジネスモデルが不明確です。しかし、こうしたアプリの中には、将来何が起きるかを垣間見る興味深い視点を提供するものもあります。一度、機械が複雑な機能コードや素晴らしい画像を生成するのを見れば、もはや私たちの仕事や創造活動に機械が関わらない未来を想像することは困難です。
もし数十年先の未来を夢見ることを許されるなら、生成型AIが私たちの仕事、創作、娯楽のあり方に深く溶け込む世界を容易に想像できます。メモは自動で書き、3Dプリンターで思い描いたものを何でも印刷でき、テキストからピクサー映画まで、Robloxのようなゲーム体験で豊かな世界を瞬時に作り出せるのです。これらは今のところSFのように思えるかもしれませんが、技術進歩のスピードは驚異的です。狭域の言語モデルからコードの自動生成まで、わずか数年の進化でした。この変化のペースを維持し、「大規模モデルのムーアの法則(Large Model Moore's Law)」に従えば、遠い未来に見える光景も、すぐそこにやってくるでしょう。
TechFlow公式コミュニティへようこそ
Telegram購読グループ:https://t.me/TechFlowDaily
Twitter公式アカウント:https://x.com/TechFlowPost
Twitter英語アカウント:https://x.com/BlockFlow_News












