
YCインタビュー:DeepMindを創設した人物が、AIの「アインシュタイン・モーメント」を待っている
TechFlow厳選深潮セレクト

YCインタビュー:DeepMindを創設した人物が、AIの「アインシュタイン・モーメント」を待っている
「継続的な学習、長期的な推論、記憶の特定の側面に関する問題はまだ解決されておらず、AGI にはこれらすべてを解決する必要があります。」
編集・翻訳:TechFlow
ゲスト:デミス・ハサビス(DeepMind共同創設者、2024年ノーベル化学賞受賞者、Google DeepMind CEO)
司会:ゲイリー・タン
ポッドキャスト元:Y Combinator
オリジナルタイトル:Demis Hassabis: Agents, AGI & The Next Big Scientific Breakthrough
放送日:2026年4月29日
編集者による序文
Google DeepMind CEOでありノーベル化学賞受賞者のデミス・ハサビス氏がY Combinatorに登場し、AGI実現への鍵となる進展、起業家がリードを維持するためのアドバイス、そして次の大規模な科学的ブレイクスルーがどこで起こるかについて語りました。特にディープテック分野の起業家にとって最も実用的な洞察は、「今日から10年間のディープテックプロジェクトを開始するなら、AGIの登場を必ず計画に組み込む必要がある」という点です。また、DeepMindから分社化されたAI医薬品開発企業Isomorphic Labsが、まもなく重大な発表を行うことも明かしました。

キーワード集
AGIのロードマップとタイムライン
- 「現在存在するこれらの技術コンポーネントは、ほぼ確実に最終的なAGIアーキテクチャの一部となるでしょう。」
- 「継続的学習、長期的推論、記憶の特定側面に関する課題はまだ解決されておらず、AGIにはこれらすべての解決が不可欠です。」
- 「もし貴方のAGI実現予測が私と同じく2030年頃であるならば、今日からディープテックプロジェクトを始める場合、AGIがその途中で登場することを必ず考慮しなければなりません。」
記憶とコンテキストウィンドウ
- 「コンテキストウィンドウは、およそ人間のワーキングメモリに相当します。人間のワーキングメモリは平均してわずか7つの数字しか保持できませんが、我々は百万~千万トークン規模のコンテキストウィンドウを持っています。しかし問題は、重要でない情報や誤った情報を含め、すべてを無差別に詰め込んでいる点にあり、現状のやり方は非常に乱暴です。」
- 「リアルタイムの動画ストリームを処理し、すべてのトークンを保存しようとすると、百万トークンでも約20分分しか持ちません。」
推論の欠陥
- 「私は時々Geminiを使ってチェスを指します。時にそれは『これは悪手だ』と気づきながらも、より良い手が見つけられず、結局ぐるぐると回って同じ悪手を選んでしまいます。しかし、正確な推論システムであればこのようなことは起こりえません。」
- 「一方ではIMO(国際数学オリンピック)金メダル級の問題を解けますが、もう一方では質問の言い回しを変えただけで小学校レベルの算数ミスを犯します。自身の思考プロセスに対する内省能力が、どうやらまだ不足しているようです。」
エージェントと創造性
- 「AGIを達成するには、能動的にユーザーの代わりに問題を解決するシステムが必要です。エージェントこそがその道筋であり、我々はまさにその始まりに立っていると感じます。」
- 「vibe coding(直感的・雰囲気重視のコーディング)でアプリストアのランキングトップに立つAAA級ゲームを完成させた事例は、いまだに見たことがありません。現在投入されているリソースからすれば理論上可能ですが、まだ実現していません。これは、ツールやプロセスのいずれかにまだ欠落しているものがあることを示唆しています。」
知識蒸留と小型モデル
- 「我々の仮説は、最先端のProモデルがリリースされてから半年~1年以内に、その能力を極めて小さなエッジデバイス上で実行可能なモデルへと圧縮できるということです。現時点では、理論上の情報密度限界に到達したという兆候はまったく見られません。」
科学的発見と「アインシュタインテスト」
- 「私はこれを時々『アインシュタインテスト』と呼んでいます。すなわち、1901年の知識のみを用いてシステムを訓練し、その後、アインシュタインが1905年に成し遂げた成果——特殊相対性理論を含む——を自立的に導き出させるかどうかを試すものです。これが可能になれば、こうしたシステムはまったく新しいものを真正に発明するところまで、あと一歩となります。」
- 「ミレニアム懸賞問題の一つを解決するだけでも極めて偉大な業績ですが、それよりもさらに難しいのは、新たなミレニアム懸賞問題のセットを提案し、それが世界トップクラスの数学者たちによって『同様に深遠で、生涯をかけて研究する価値がある』と評価されるかどうかです。」
ディープテック起業家へのアドバイス
- 「難問に取り組むことと易しい問題に取り組むことは、実はほぼ同程度の難しさです。ただ、難しさの種類が異なるだけです。人生は短く、限られたエネルギーを、『自分たちがやらなければ本当に誰もやらない』という仕事に集中すべきです。」
AGIの実現経路
ゲイリー・タン:AGIについて考え抜いてきた期間は、おそらく誰よりも長いでしょう。現在のパラダイムを踏まえると、我々はすでにAGIの最終アーキテクチャのどの程度を手に入れていますか?根本的に足りないものは何ですか?
デミス・ハサビス:大規模な事前学習、RLHF(人間フィードバック付き強化学習)、チェーン・オブ・ソート(思考の連鎖)などは、間違いなく最終的なAGIアーキテクチャの一部になるでしょう。これらの技術は、既に多くのことを証明してきました。2年後にこの道が行き止まりであると判明するなど、私には到底想像できません。それは理にかなっていません。とはいえ、既存の技術の上に、まだ1~2つの重要な要素が欠けているかもしれません。継続的学習(continual learning)、長期的推論(long-term reasoning)、記憶の特定側面については、まだ未解決の課題があります。AGIにはこれらすべての解決が求められます。既存技術に漸進的なイノベーションを加えるだけでこの水準に達する可能性もありますが、あるいは、まだ1~2つの大きなブレイクスルーが必要かもしれません。ただし、その数が2を超えるとは思えません。こうした未解決のキーポイントが存在するかどうかについて、私の個人的な判断は、50%対50%です。そのため、Google DeepMindでは、両方のアプローチを並行して進めています。
ゲイリー・タン:私は多数のエージェントシステムを扱っていますが、最も驚かされるのは、その基盤となる重みが常に同一であるという点です。そのため、継続的学習という概念は特に興味深いのです。なぜなら、現状ではいわば『テープで応急処置』しているにすぎず、例えば「夜間の夢サイクル」のような手法に頼っているからです。
デミス・ハサビス:はい、その夢サイクルはとても興味深いものです。我々はかつて、状況記憶の統合についてこの問題を検討しました。私の博士論文のテーマは、海馬がいかにして新しい知識を既存の知識体系に優雅に統合するかでした。脳はこの点において極めて優れています。特にレム睡眠(REM sleep)中に、重要な経験を再現することで学習を促進します。我々が2013年に発表したAtari用DQN(Deep Q-Network)は、Atariゲームを人間レベルでプレイできるようになりましたが、その鍵となったのが「経験再生(experience replay)」という手法でした。これは神経科学から着想を得たもので、成功した経路を何度も再生するものです。2013年といえばAI分野では文字通り「古代史」ですが、当時それは極めて重要なものでした。
ご指摘の通り、我々は今まさに「テープで応急処置」しています。すべてをコンテキストウィンドウに詰め込んでいます。これは明らかに不自然です。たとえ我々が生物の脳ではなく機械を作っているとしても、理論的には百万~千万トークン規模のコンテキストウィンドウを持ち、記憶は完璧なものにできますが、それでも検索・検出コストは残ります。今まさに意思決定を下さなければならない瞬間に、本当に関係のある情報を特定するのは容易ではありません。たとえすべてを記憶できても、です。したがって、記憶という分野にはまだまだ大きなイノベーションの余地があると考えています。
ゲイリー・タン:正直に言って、百万トークンのコンテキストウィンドウは、私の予想よりもずっと大きく、多くのことが可能です。
デミス・ハサビス:その用途に応じては十分な大きさです。しかし考えてみてください。コンテキストウィンドウは、およそ人間のワーキングメモリに相当します。人間のワーキングメモリは平均してわずか7つの数字しか保持できませんが、我々は百万~千万トークン規模のコンテキストウィンドウを持っています。問題は、重要でない情報や誤った情報も含め、すべてを無差別に詰め込んでいる点にあります。現状のやり方は非常に乱暴です。しかも、リアルタイムの動画ストリームを処理しようとするとき、単純にすべてのトークンを記録するとしたら、百万トークンでは約20分分しか持ちません。しかし、もしシステムがあなたの生活状況を1~2ヶ月間にわたって理解する必要があるなら、それではまったく足りません。
ゲイリー・タン:DeepMindは一貫して強化学習と探索に深く投資してきましたが、この哲学は、現在Geminiの構築プロセスにどれほど深く組み込まれていますか?強化学習は、やはり過小評価されていますか?
デミス・ハサビス:確かに過小評価されているかもしれません。この分野への注目度は、波のように上下しています。DeepMindが設立された日から、我々はエージェントシステムの構築に取り組んできました。AtariやAlphaGoにおけるすべての作業は、本質的に強化学習エージェントであり、目標を自律的に達成し、意思決定・計画立案を行うシステムです。もちろん、当時は複雑さをコントロールできるゲーム領域を選択しました。そして徐々に、AlphaGoの後にはAlphaStarといったより複雑なゲームへとステップアップしていきました。実質的に、我々が可能な限りあらゆるゲームを網羅してきました。
次の問いは、「こうしたモデルを、ゲーム専用ではなく、世界モデルや言語モデルとして汎化できるか?」です。過去数年間、我々はまさにこのことに取り組んできました。今日の最先端モデルが採用する思考スタイルやチェーン・オブ・ソートによる推論は、本質的にAlphaGoが開拓したものの再登場です。我々がかつて行った多くの仕事が、今日と極めて密接に関係しており、今まさにそれらの古いアイデアを、より大規模かつ汎用的な形で再検討しているところです。モンテカルロ木探索(Monte Carlo tree search)をはじめとする、さまざまな強化学習の手法も含まれます。AlphaGoおよびAlphaZeroの思想は、今日の基礎モデルと極めて密接に関係しており、今後数年の進展の多くは、ここから生まれてくると私は考えています。
知識蒸留と小型モデル
ゲイリー・タン:今はより賢くなるためにより大きなモデルが必要ですが、同時に知識蒸留技術も進化しており、小型モデルも非常に高速になります。あなたのFlashモデルは非常に強く、最先端モデルの95%の性能を発揮しながら、価格は10分の1です。そうですね?
デミス・ハサビス:これは我々のコア・アドバンテージの一つだと考えています。まず最大規模のモデルを構築して先端能力を獲得することが不可欠です。我々の最大の強みの一つは、こうした能力を迅速に蒸留・圧縮し、どんどん小型のモデルへと落とし込める点です。この蒸留という手法自体が、もともと我々が発明したものであり、今も世界トップクラスの水準を維持しています。また、これを行うビジネス上のインセンティブも非常に強いのです。我々は世界最大のAIアプリケーション・プラットフォームの一つです。AI OverviewやAI Mode、Geminiを擁し、現在Googleのすべての製品——地図、YouTubeなど——にGeminiまたは関連技術が統合されています。これは数十億人のユーザー、そして十億人規模のユーザーを抱える十数個の製品を含む巨大な規模です。それらは極めて高速で、効率的で、コストが極めて低く、遅延が極めて小さい必要があります。この要請が、Flashおよびさらに小型のFlash-Liteモデルを究極に効率化する強力な原動力となっています。最終的には、ユーザーのあらゆる業務にも役立つことを願っています。
ゲイリー・タン:こうした小型モデルがどこまで賢くなれるのか、とても興味があります。蒸留には限界があるのでしょうか?50Bまたは400Bのモデルが、今日の最大規模の最先端モデルと同等に賢くなることは可能でしょうか?
デミス・ハサビス:少なくとも現時点で、情報理論上の限界に達したという兆候はまったく見られません。誰もがその存在を確認したわけではありません。いつか情報密度の天井にぶつかるかもしれませんが、今のところ我々の仮説は、最先端のProモデルがリリースされてから半年~1年以内に、その能力を極めて小さな、エッジデバイス上で実行可能なモデルへと圧縮できるということです。Gemmaモデルでもこの傾向が見て取れます。我々のGemma 4モデルは、同規模の他のモデルと比較しても非常に高い性能を発揮します。これは大量の知識蒸留技術と小型モデル効率化技術を駆使した結果です。したがって、理論的な限界はまだ見えておらず、我々はその限界にはまだ遥かに届いていないと感じています。
ゲイリー・タン:今、とんでもない現象が起きています。エンジニアがこなせる作業量は、6か月前と比べて約500~1000倍になっています。この部屋の中には、2000年代のGoogleエンジニアの1000倍の作業量をこなしている人もいるでしょう。スティーブ・イェグはこの点について語っています。
デミス・ハサビス:私は非常にワクワクしています。小型モデルには多くの用途があります。一つはコストが低いという点です。そして、スピードが速いという点も、同様に大きなメリットです。コード作成などのタスクにおいては、特にシステムとの協働では、より高速に反復できます。最前線の性能でなくても、例えば90~95%の性能を持つ高速なシステムでも十分に機能し、その反復速度で得られる利益は、わずか10%の性能低下を十分に補って余りあるのです。
もう一つの大きな方向性は、こうしたモデルをエッジデバイス上で実行することです。効率性だけでなく、プライバシーとセキュリティの観点からも重要です。極めて個人的な情報を処理するデバイスや、ロボットを考えてみてください。家庭用ロボットの場合、ローカルで効率的かつ強力なモデルを実行し、特定のシナリオでのみタスクをクラウド上の大型モデルに委託したいと思うはずです。音声や動画ストリームはすべてローカルで処理され、データはローカルに留まります。これは、究極の理想状態になると私は想像しています。
記憶と推論
ゲイリー・タン:コンテキストと記憶に戻ります。現在のモデルは状態を持たず、継続的学習能力があれば、開発者の体験はどのように変わるでしょうか?こうしたモデルをどう導くべきでしょうか?
デミス・ハサビス:とても興味深い問いです。継続的学習の不在は、現在のエージェントが完全なタスクを遂行できないという根本的なボトルネックです。今のエージェントはタスクの局所的な部分には非常に有効で、それらを組み合わせることで素晴らしい成果を生み出すことができますが、ユーザーの具体的な環境に適応することができません。だからこそ、エージェントはまだ「放っておいても大丈夫」とは言えないのです。ユーザーの具体的な状況を学習できるようになる必要があります。完全な汎用知能を達成するには、この問題を解決しなければなりません。
ゲイリー・タン:推論の分野では、どこまで来ているのでしょうか?モデルのチェーン・オブ・ソートは非常に強力ですが、優秀な学部生が決して犯さないようなミスを依然として犯します。具体的に何を変える必要があり、推論に関してどのような進展が期待されますか?
デミス・ハサビス:思考のパラダイムには、まだ多くのイノベーションの余地があります。我々が行っていることは、いまだに非常に粗雑で、暴力的です。思考の連鎖を監視したり、途中で介入したりするなど、改善の余地は多岐にわたります。私はしばしば、我々のシステムでもライバルのシステムでも、ある種の過剰思考に陥り、ループに陥っていると感じます。
私は時々Geminiを使ってチェスを指します。すべての最先端の基礎モデルは、チェスにおいては実際のところ非常に弱く、これはとても興味深いことです。チェスは十分に理解された領域なので、その思考の軌跡を観察することは非常に価値があります。すぐにそれが逸脱しているかどうか、推論が有効かどうかを判断できるからです。我々が観察しているのは、ある一手を検討し、それが悪手であると認識しながらも、より良い手が見つけられず、結局ぐるぐると回って同じ悪手を選んでしまうというパターンです。正確な推論システムであれば、このようなことは決して起こりえません。
こうした大きなギャップは依然として存在していますが、それを修正するには、1~2つの調整で十分かもしれません。そのため、いわゆる「ギザギザの知能(jagged intelligence)」という現象が見られます。一方ではIMO金メダル級の問題を解けるのに、もう一方では質問の言い回しを変えただけで小学校レベルの算数ミスを犯してしまうのです。自身の思考プロセスに対する内省能力が、どうやらまだ不足しているようです。
エージェントの真の能力
ゲイリー・タン:エージェントは大きなトピックです。一部の人々は、これは単なる宣伝だと言います。個人的には、まだ始まったばかりだと考えています。DeepMind内部では、エージェントの能力について、外部の宣伝とどれほど乖離した現実的な評価をしているのでしょうか?
デミス・ハサビス:私もそのように考えます。我々はまさに始まったばかりです。AGIを達成するには、能動的にユーザーの代わりに問題を解決するシステムが必要です。これは我々にとって常に明確でした。エージェントこそがその道筋であり、我々はまさにその始まりに立っていると感じます。誰もが、エージェントをよりよく協働させる方法を探っています。我々は個人実験において多くの探求を行っており、この場にいる多くの方々も同様でしょう。エージェントをワークフローに統合し、単なる飾りではなく、根本的な仕事を行うようにするにはどうすればよいのか。現時点では、まだ実験段階です。最近2~3か月ほどで、初めて本当に価値のあるユースケースを見つけ始めたところです。技術もちょうどその段階に達したばかりで、もはやおもちゃのデモではなく、実際に時間と効率を提供し始めています。
私はしばしば、数十のエージェントを立ち上げて数十時間稼働させる人々を見かけますが、その出力が投入に見合うかどうかはまだ確信が持てません。
vibe codingでアプリストアのランキングトップに立つAAA級ゲームを完成させた事例は、いまだに見たことがありません。私も自分で書いてみましたが、この場にいる多くの方々も、いくつかの面白い小規模デモを作成しています。私は今や30分で『Theme Park』のプロトタイプを作成できますが、17歳の頃には6か月かかりました。私は夏休み全体を使って、本当に驚くべきものを生み出せると感じています。しかし、それでも工芸性と人間の魂、品位が必要であり、それらを自分が構築するあらゆる製品に必ず取り入れる必要があります。実際、現在のツールの投入量からすれば可能であるはずなのに、まだ子供が1,000万部売れたヒットゲームを制作したという事例はありません。何かが足りていないのです。おそらくプロセスかツールのどちらかに原因があるでしょう。私は今後6~12か月以内に、そのような成果が現れると予測しています。
ゲイリー・タン:そのうち、どの程度が完全自動化されるのでしょうか?一気に完全自動化されることはないでしょう。より現実的な経路は、この場にいる皆さんがまず1000倍の効率を達成し、そのツールを使ってヒットアプリやヒットゲームを制作する人が現れ、その後さらに多くの工程が自動化されていくというものです。
デミス・ハサビス:そうです。それがまず最初に見られるべきものです。
ゲイリー・タン:また、一部の人々は実際にそうした作業を行っていますが、エージェントがどれほど貢献したかを公に語ることを避けているという側面もあるかもしれません。
デミス・ハサビス:そうかもしれません。しかし、ここで創造性について話したいと思います。私はしばしばAlphaGoの例を挙げます。皆さんは第二局の第37手を知っているでしょう。私にとって、そのような瞬間が訪れるのを待っていたのです。それが訪れた後、私はAlphaFoldなどの科学プロジェクトを立ち上げました。我々はソウルから帰国した翌日からAlphaFoldの開発を始めました。あれから10年が経ちました。今回韓国を訪れたのも、AlphaGoの10周年を祝うためです。
しかし、単に第37手を打つだけでは不十分です。それはとてもクールで、非常に有用です。しかし、このシステムはそもそも囲碁というゲームそのものを発明できるでしょうか?もし「5分でルールを覚えられるが、一生かけてもマスターできないゲーム。美しく洗練されており、午後一杯で一局が終わる」という高次の記述を与えたら、システムが返す答えが囲碁になるでしょうか?今のシステムにはその能力はありません。なぜでしょうか?
ゲイリー・タン:この場にいる誰かが、すでにそれを成し遂げているかもしれません。
デミス・ハサビス:もし誰かがそれを成し遂げていたら、それはシステムに何かが欠けているのではなく、私たちがシステムを使う方法に問題があるということになります。それが正しい答えかもしれません。今日のシステムにはすでにその能力があるが、それを引き出すには、十分に天才的なクリエイターが必要であり、その人はプロジェクトの魂を提供し、ツールと深く融合し、ほとんどツールと一体化する必要があるのです。もし日々ツールに没頭し、深い創造性を持っているなら、想像をはるかに超えたものを生み出せるかもしれません。
オープンソースとマルチモーダルモデル
ゲイリー・タン:別の話題に移りましょう。オープンソースについてです。最近のGemmaのリリースにより、非常に強力なモデルをローカルで実行できるようになりました。あなたはどう考えますか?AIは、主にクラウドに留まるのではなく、ユーザー自身が掌握するものになるでしょうか?これにより、誰がこれらのモデルを使って製品を構築できるかが変わるでしょうか?
デミス・ハサビス:我々はオープンソースとオープンサイエンスの熱心な支持者です。ご指摘のAlphaFoldは、すべて無料で公開しました。我々の科学的研究は、今もトップクラスの学術誌に掲載されています。Gemmaに関しては、同規模のモデルにおいて世界最高水準を目指しました。現在、Gemmaのダウンロード数は約4,000万回に達しており、リリースからわずか2週間半しか経っていません。
また、オープンソース分野における西洋系の技術スタックの存在は重要だと考えています。中国のオープンソースモデルは非常に優れており、現在オープンソース分野でリードしていますが、我々はGemmaが同規模のモデルとして非常に競争力があると信じています。
また、リソースの観点からも、誰もが2つのフルサイズの最先端モデルを同時に開発する余裕はありません。そのため、我々の現在の戦略的判断は以下の通りです。エッジモデルはAndroid、スマートグラス、ロボットなどに使用されるため、オープンモデルとして作成するのが最適です。なぜなら、デバイスにデプロイされると、それらは本質的に露出してしまうため、むしろ完全にオープンにする方が理にかなっているからです。我々はナノレベルでこのオープン戦略を統一しており、戦略的にも妥当です。
ゲイリー・タン:登壇前に、私が作ったAIオペレーティングシステムを紹介しました。直接音声でGeminiと対話できるのですが、紹介するときはとても緊張しましたが、意外にも正常に動作しました。Geminiは初めからマルチモーダルで構築されています。私は多くのモデルを試しましたが、直接音声からモデルへのインタラクション、ツール呼び出しの深さ、コンテキスト理解の能力において、現在のところGeminiに匹敵するモデルは存在しません。
デミス・ハサビス:はい。Geminiシリーズにおいて、まだ十分に認識されていない強みの一つは、初めからマルチモーダルで設計されているという点です。これは、テキストのみのモデルを作るよりも初期段階で困難ですが、長期的には恩恵を受けると信じており、今まさにその恩恵が現れ始めています。例えば、ワールドモデルの分野では、Geminiの上にGenie(DeepMindが開発した生成的インタラクティブ環境モデル)を構築しました。ロボティクスの分野でも同様で、Gemini Roboticsはマルチモーダルな基礎モデルを基盤として構築されます。マルチモーダルにおける我々の優位性は、競争上の護城河となるでしょう。Waymo(Alphabet傘下の自動運転企業)においても、Geminiの利用が増加しています。
あなたが現実世界に伴走するデジタルアシスタントを想像してください。それはあなたのスマートフォンやスマートグラスに搭載され、周囲の物理的環境を理解する必要があります。我々のシステムはこの点において極めて優れています。この方向への投資を続け、この種の課題において我々が持つリードは非常に大きいと私は考えています。
ゲイリー・タン:推論コストは急速に低下しています。推論が実質的に無料になったとき、何が可能になるのでしょうか?あなたのチームの最適化の方向性は、それによって変わりますか?
デミス・ハサビス:推論が本当に無料になるかどうかは不確かです。ジェヴォンズの逆説(Jevons' Paradox:効率向上が総消費量の増加を招くという現象)がそこにあります。私は、誰もが得られる限りの計算リソースをすべて使い尽くすだろうと考えています。例えば、何百万ものエージェントが集まって協働する、あるいは少数のエージェントが複数の方向に同時に思考し、その後統合するといったことが想像できます。我々はこうした方向性をすべて実験しており、これらすべてが利用可能な推論リソースを消費します。
エネルギーの面では、制御可能な核融合、常温超伝導、最適な電池など、いくつかの課題を解決できれば、材料科学によってエネルギー費用をゼロに近づけることができるでしょう。しかし、チップの物理的製造などの工程には依然としてボトルネックがあり、少なくとも今後数十年は続くでしょう。したがって、推論には依然として配分制限があり、効率的な利用が求められます。
次の科学的ブレイクスルー
ゲイリー・タン:幸いなことに、小型モデルはますます賢くなっています。この場には多くのバイオ・バイオテクノロジー分野の創業者がいらっしゃいます。AlphaFold 3は、タンパク質を超えて、より広範な生体分子へと拡張されています。完全な細胞システムをモデリングするまで、あとどのくらいでしょうか?これは全く異なる難易度の問題なのでしょうか?
デミス・ハサビス:Isomorphic Labsの進捗は非常に良好です。AlphaFoldは、医薬品発見プロセスの一部に過ぎません。我々は隣接する生化学研究、つまり望ましい性質を持つ化合物の設計などにも取り組んでおり、まもなく重大な発表があります。
我々の最終的な目標は、完全な仮想細胞を作成することです。これは、摂動を与えることができる全機能の細胞シミュレーターであり、その出力は実験結果に十分近く、実用的な価値を持ちます。膨大な探索ステップをスキップし、他のモデルを訓練するための大量の合成データを生成し、それらが実際の細胞の振る舞いを予測できるようにします。
完全な仮想細胞の実現まで、あと約10年かかると見積もっています。DeepMindの科学部門では、仮想細胞核から着手しています。なぜなら、細胞核は比較的独立したシステムであるためです。こうした問題の鍵は、複雑さが適切なスライスを切り出すことができるかどうかにあります。つまり、それが十分に自己完結しており、入力・出力を合理的に近似できるかどうか、そしてそのサブシステムに焦点を当てられるかどうかです。この観点から見ると、細胞核は非常に適しています。
もう一つの問題は、データが不足していることです。電子顕微鏡やその他のイメージング技術を専門とする世界トップクラスの科学者たちと話をしました。細胞を殺さずに生きた細胞をイメージングできれば、これは革命的です。なぜなら、それを視覚的問題に変換でき、視覚的問題については我々が解法を知っているからです。しかし、私の知る限り、ナノメートル級の分解能で、生きた動的細胞を破壊せずにイメージングできる技術は、まだ存在していません。その分解能の静的画像は撮影可能で、すでに非常に精巧ですが、それだけでは視覚的問題に直接変換するには不十分です。
したがって、二つの道があります。一つはハードウェア駆動・データ駆動のアプローチ、もう一つは、こうした力学系をより良く学習可能なシミュレーターを構築するアプローチです。
ゲイリー・タン:あなたは生物学だけに注目しているわけではありません。材料科学、医薬品発見、気候モデリング、数学など、もし順位を付けるとすれば、今後5年間で最も徹底的に変革される科学分野はどれでしょうか?
デミス・ハサビス:どの分野も非常にワクワクします。これこそが、私が長年にわたってAIに情熱を注いでいる理由であり、30年以上にわたってAIに携わってきた理由です。私は常に、AIが科学の究極のツールとなり、科学的理解・科学的発見・医学・宇宙への理解を推進するものになると信じていました。
当初、我々のミッションは二段階で表現されました。第一に、知能そのものを解決する、すなわちAGIを構築すること。第二に、それを用いて他のすべての問題を解決すること。しかし、後に表現を調整せざるを得ませんでした。「本当にすべての問題を解決するという意味ですか?」と尋ねられたからです。我々はまさにその意味です。今や、人々はそれが何を意味するかを理解し始めています。具体的には、私が「ルートノード問題」と呼ぶような科学分野の解決を目指しています。つまり、一度突破すれば、まったく新しい発見の分岐を解き放つような分野です。AlphaFoldは、まさに我々が目指すものの原型です。世界中の300万人以上の研究者のうち、ほぼすべての生物学者が今やAlphaFoldを使っています。いくつかの製薬会社の経営陣の友人から聞いた話では、今後発見されるほぼすべての新薬が、医薬品発見プロセスのどこかの段階でAlphaFoldを活用することになるでしょう。我々はこのことに誇りを持っており、AIが生み出すべき影響の姿です。しかし、これはまだ始まりにすぎません。
AIが役立たない科学・工学分野は、私は思いつきません。ご指摘の分野は、すべて「AlphaFold 1の瞬間」に近い状態にあると考えます。結果はすでに非常に有望ですが、まだその分野の大きな課題を真正に克服してはいません。今後2年間で、材料科学から数学に至るまで、すべての分野で多くの進展が見られるでしょう。
ゲイリー・タン:まるでプロメテウスのように、人類にまったく新しい能力を与えるようです。
デミス・ハサビス:その通りです。しかし、プロメテウスの物語の教訓通り、この能力がどのように使われるか、どこで使われるか、そして同じツールが悪用されるリスクについても、慎重に考える必要があります。
成功の経験
ゲイリー・タン:この場には、AIを科学に応用する企業を立ち上げようとしている多くの人がいます。あなたにとって、真正にフロンティアを押し広げる起業企業と、単に基礎モデルにAPIを被せ、「AI for Science」と自称するだけの企業との違いは何でしょうか?
デミス・ハサビス:もし今日、私がY Combinatorでプロジェクトを審査する立場にいたとしたら、どうするかを考えました。まず一つは、AI技術の将来の動向を予測しなければならないという点です。これはそれ自体非常に難しいですが、AIの動向と別のディープテック分野を組み合わせることには、極めて大きなチャンスがあると私は確信しています。この交差点——材料、医学、あるいは原子の世界を扱う他の本当に困難な科学分野——は、予見可能な将来において、どんなショートカットも存在しません。これらの分野は、次回の基礎モデルのアップデートによって一蹴されることはありません。しかし、防衛性の高い方向性を探しているなら、私はこれを推奨します。
私は個人的に、常にディープテックを好みます。本当に持続可能で価値あるものは、簡単に手に入るものではありません。私は常にディープテックに惹かれています。2010年に我々がスタートしたとき、AIはまさにディープテックでした——投資家は「これはもうダメだとわかっている」と言い、学術界も「90年代に試して失敗したマイナーな分野」と考えていました。しかし、もし自分のアイデアに信念を持っているなら——なぜ今回は違うのか、自分の背景にはどのような独自の組み合わせがあるのか——理想的には、自分自身が機械学習と応用の両方の専門家であるか、あるいはそうした創業チームを組成できるか——そこには極めて大きな影響力と価値を生み出す可能性があります。
ゲイリー・タン:これは非常に重要な情報です。何かが成功すると、それは当然のことのように見えますが、成功する前は誰もが反対します。
デミス・ハサビス:その通りです。だからこそ、自分が本当に情熱を注げるものを選ばなければなりません。私にとって、何が起きようとAIをやることは決まっています。幼い頃から、これは私が考えつく中で最も影響力のあることだと決めました。実際、それは証明されました。しかし、そうでない可能性もあり、あるいは50年も早すぎたのかもしれません。また、これは私が考えつく中で最も面白いことでもあります。たとえ今、小さなガレージにこもってAIがまだ実現していないとしても、私は何とかして続けていくでしょう。学術界に戻るかもしれませんし、何らかの方法で続けるでしょう。
ゲイリー・タン:AlphaFoldは、あなたが一つの方向に集中し、賭けて勝った例です。どのような科学分野がAlphaFoldのようなブレイクスルーを生み出しやすいのでしょうか?目標関数のような規則性はあるのでしょうか?
デミス・ハサビス:私はこれを書き留める時間を取るべきです。AlphaGoやAlphaFoldなど、すべてのAlphaプロジェクトから学んだ経験は、現在の技術が以下のような状況で最も効果を発揮することです。第一に、問題が極めて巨大な組み合わせ探索空間を持ち、それが大きければ大きいほど良い——暴力的探索や特殊なアルゴリズムでは到底解決できないほど大きい——ことです。囲碁の手の数やタンパク質の構造空間は、宇宙の原子の数よりも遥かに大きいです。第二に、目標関数を明確に定義できることです。例えば、タンパク質の自由エネルギー最小化や、囲碁における勝利など、システムが勾配上昇を実行できるようなものです。第三に、十分なデータがあるか、あるいは大量の分布内合成データを生成できるシミュレーターがあることです。
この三つの条件が満たされれば、今日の手法でも非常に遠くまで進むことができ、必要な「干草の山の中の針」を見つけることができます。医薬品発見も同じ論理です:この病気を治療し、副作用のない化合物が存在する——物理法則がそれを許す限り——唯一の問題は、それを効率的かつ現実的に見つける方法です。AlphaFoldは、こうしたシステムが莫大な探索空間からその「針」を見つける能力を、初めて証明したのです。
ゲイリー・タン:もう一段階高くしましょう。我々は、こうした手法を用いて人類がAlphaFoldを生み出したと話していますが、もう一つのメタレベルでは、人類がAIを用いて仮説空間を探索しています。AIシステムが、単なるデータのパターンマッチングではなく、真の科学的推論を行うようになるまで、あとどのくらいでしょうか?
デミス・ハサビス:私は、もうすぐそこまで来ていると感じています。我々はこうした汎用システムを開発しています。AI co-scientistというシステムや、基礎的なGeminiよりもさらに先を行くAlphaEvolveといったアルゴリズムがあります。すべての最先端ラボがこの方向性を模索しています。
しかし、現時点では、こうしたシステムが真の、大きな科学的発見をしたという事例は、個人的にはまだ見たことがありません。しかし、それはもうすぐそこまで来ていると感じています。それは、先ほど話した創造性と関係があるかもしれません。既知の境界を真正に越えるようなブレイクスルーです。そのレベルに達すると、それはもはやパターンマッチングではなくなります。なぜなら、マッチすべきパターンが存在しないからです。また、単なる外挿でもなく、ある種の類推的推論(analogical reasoning)です。私は、こうしたシステムが現在その能力を持っていない、あるいは我々がそれらを正しい方法で使っていないと感じています。
私は科学分野でしばしば、ある基準を提示します。それは、「単に仮説を検証するだけでなく、本当に興味深い仮説を提唱できるか?」という点です。仮説の検証自体が、リーマン予想の証明やミレニアム懸賞問題の解決といった、歴史的な出来事になることもあります。しかし、その段階に達するまでには、あと数年しかかからないかもしれません。
それよりもさらに難しいのは、「新たなミレニアム懸賞問題のセットを提唱し、それが世界トップクラスの数学者たちによって『同様に深遠で、生涯をかけて研究する価値がある』と評価されるかどうか」です。これはさらに一段階難しく、我々はまだその方法を知りません。しかし、これは魔法ではないと私は信じており、こうしたシステムが最終的にはそれを成し遂げると確信しています。おそらく、あと1~2つの要素が足りていないだけです。
これを検証する方法として、私はこれを時々「アインシュタインテスト」と呼んでいます。すなわち、1901年の知識のみを用いてシステムを訓練し、その後、アインシュタインが1905年に成し遂げた成果——特殊相対性理論を含む——を自立的に導き出させるかどうかを試すものです。私は、このテストを実際に実行し、何度も繰り返して、いつそれが可能になるかを確認すべきだと考えています。それが可能になれば、こうしたシステムは、まったく新しいものを真正に発明するところまで、あと一歩となります。
起業家へのアドバイス
ゲイリー・タン:最後の質問です。この場には、多くの高度な技術的バックグラウンドを持つ人々がおり、あなたたちと同じ規模のことを目指そうとしています。あなたたちは世界最大級のAI研究組織の一つです。AGI研究の最前線から歩んできたあなたにとって、25歳のときに知っていればよかったことは何ですか?
デミス・ハサビス:実は、すでにその一部は話しました。難問に取り組むことと簡単な問題に取り組むことは、実際にはほぼ同じ難しさです。ただ、難しさの種類が異なるだけです。それぞれの事柄には、それぞれの難しさがあります。しかし、人生は短く、エネルギーは限られています。だからこそ、『自分たちがやらなければ本当に誰もやらない』という仕事に、自分の生命力を集中させるべきです。この基準で選ぶべきです。
もう一点、今後数年間は、異分野の融合がさらに一般的になるでしょう。AIは、異分野の融合をより容易にします。
最後に、それはあなたのAGIタイムラインに依存します。私の予測は2030年頃です。もし今日からディープテックプロジェクトを開始するなら、通常それは10年間の旅を意味します。したがって、AGIがその途中で登場することを計画に組み込む必要があります。それはどういう意味でしょうか?必ずしも悪いことではありませんが、必ず考慮しなければなりません。あなたのプロジェクトはAGIを活用できますか?AGIシステムはあなたのプロジェクトとどのように相互作用するでしょうか?
先ほど話したAlphaFoldと汎用AIシステムの関係に戻りますが、私が予見している一つのシナリオは、GeminiやClaudeなどの汎用システムが、AlphaFoldのような専用システムをツールとして呼び出すというものです。私は、すべてを巨大な単一の「脳」に詰め込むという考えには賛成しません。すべてのタンパク質データをGeminiに詰め込むのは無意味です。Geminiはタンパク質の折り畳みをする必要はありません。先ほど話した情報効率の観点からも、そのタンパク質データは、Geminiの言語能力を妨げるでしょう。より良いアプローチは、非常に強力な汎用ツール使用モデルを構築し、それが専用ツールを呼び出したり、さらには訓練したりできるようにすることです。ただし、専用ツールは独立したシステムとして存在すべきです。
この考え方を深く考える価値があります。それは、あなたが今日何を構築するか——たとえば、どのような工場や金融システムを構築するか——にも影響を与えます。AGIのタイムラインを真剣に受け止め、その世界がどんなものになるかを想像し、その世界が到来したときにも依然として有用なものを構築する必要があります。
TechFlow公式コミュニティへようこそ
Telegram購読グループ:https://t.me/TechFlowDaily
Twitter公式アカウント:https://x.com/TechFlowPost
Twitter英語アカウント:https://x.com/BlockFlow_News














