OpenAIの初期従業員であるDavid Luan氏の最新インタビュー：DeepSeekはAI技術のストーリーを変えていない

2025.02.26

共有先

TechFlow厳選深潮セレクト

OpenAIの初期従業員であるDavid Luan氏の最新インタビュー：DeepSeekはAI技術のストーリーを変えていない

より低いコストでより多くのスマート化を実現しても、スマート化への追求が止まるわけではない。

2025.02.26 - 09:38:13

Web3業界の深掘り報道に専念し潮流を洞察

より低いコストでより多くのスマート化を実現しても、スマート化への追求が止まるわけではない。

著者：MD

制作：明るいカンパニー

最近、Redpoint Ventureのポッドキャスト「Unsupervised Learning」にて、同社のパートナーJacob EffronがDavid Luan氏と対談した。彼らは技術的視点から、DeepSeekが大規模モデル分野の研究および実践にもたらしたインスピレーションについて議論し、AIモデルの現状におけるボトルネックや潜在的なブレークスルー方向性についても意見を交わした。

David Luan氏はOpenAIの初期従業員であり、2009年にイェール大学を卒業後、iRobotでロボット開発に携わった。その後、マイクロソフトなど複数企業を経て、2017年にまだ初期段階にあったOpenAIに入社した当時、研究チームはわずか35人だった。今回のインタビューでも彼は語っているが、AI企業に入社した理由はロボットへの関心にあり、「ロボット最大の制約は基盤アルゴリズムの知能レベルにある」と考えていた。

2020年、David Luan氏はOpenAIを退職しGoogleに移籍したが、間もなく在職中に出会った2人の同僚とともにAdeptを共同設立しCEOに就任した。昨年8月にはアマゾンに入社し、AGIサンフランシスコ研究所の責任者となった。

以下は「明るいカンパニー」によるインタビュー記事の翻訳（一部省略）である：

大規模モデルの限界と強化学習の価値

Jacob：David LuanはアマゾンAGI研究所の責任者です。以前は4億ドル以上の資金調達を行ったAIエージェント開発企業Adeptの共同創業者兼CEOでした。またOpenAIではエンジニアリング担当副社長として、多くの重要な進展に関与しました。私はJacob Effronです。

本日の番組では、DavidとともにDeepSeekに対する見解、今後のモデル進展の予測、エージェントの現状と信頼性の確保方法、そしてそれらがどこまで普及するかといった興味深いトピックについて話し合いました。またOpenAI草創期の面白いエピソードや独特な文化についても共有してくれました。Davidとは10年以上の付き合いがあるため、非常に濃密な対話となりました。聴衆の皆様にも楽しんでいただけると思います。David、ポッドキャストへの参加ありがとう。

David：招待いただきありがとうございます。10年以上の知り合いですから、とても楽しみです。

Jacob：あなたが当初OpenAIに入ったとき、私には面白そうに見えましたが、それが本当に賢明なキャリア選択かどうかは確信が持てませんでした。しかし明らかに、あなたは常に他人より早く機会を見抜いていますね。

David：幸運だったのは、ずっとロボットに興味があったことですね。ただ当時、ロボットの最大の制約は基盤アルゴリズムの知能レベルにありました。だから私は人工知能の仕事に取り組み始めたのです。私たちの生きている間にこうした技術が進歩するのを見られるのは本当に素晴らしいことです。

Jacob：今日はさまざまな話題をお伺いしたいと思います。まず最近のホットな話題から始めましょう。明らかに、ここ数週間でDeepSeekに対する反応は大きかった。人々はそれを取り沙汰し、株価も急落しました。「これはOpenAIやAnthropicにとって不利だ」という声もありました。今は当初のパニックから落ち着きを取り戻しているように感じますが、広範な議論の中で、この出来事の影響について何が正しく、何が間違っているとお考えですか？

David：あの朝のことをよく覚えています。誰もがDeepSeekのニュースに注目していました。起きてスマホを見ると、5件の不在着信がありました。「一体何が起きた？」と思いました。前回こんなことがあったのはSVB（シリコンバレー銀行）破綻時で、投資家全員が私にSVBやファーストリパブリック銀行から資金を引き出すよう連絡してきた時です。何か深刻なことが起きたに違いないと思い、ニュースを確認すると、DeepSeek R1のリリースにより株価が暴落していたのです。すぐに、人々がこの件を根本的に誤解していることに気づきました。DeepSeekの成果は非常に優れているのですが、それは「まず新しい大規模モデルをよりスマートにする方法を学び、次にそれをより効率的にする方法を学ぶ」というより大きな物語の一部にすぎないのです。

つまりこれは転換点なのです。多くの人が誤解しているのは、コストを下げてより多くの知能を実現できるようになったからといって、知能そのものの追求を止めることにはならないということです。むしろ逆で、より多くの知能を使うようになります。市場がこの点に気づいたことで、現在では再び冷静さが戻っています。

Jacob：少なくとも基礎モデルはOpenAIのものに基づいて訓練されているようで、さまざまな手法を使えばDeepSeekの基礎モデルをChatGPTのように動作させることも可能です。将来的に知識蒸留の観点から、OpenAIやAnthropicはこれらのモデルをよりオープンに公開することをやめるでしょうか？

David：私の予想では、人々は常に最もスマートなモデルを構築したいと思うでしょうが、時にはそれらが推論効率的ではないこともあります。そのため、明示的には言及しないかもしれませんが、内部ラボでは、手に入るすべての計算資源を使って巨大な「教師モデル（teacher models）」を訓練するケースがますます増えるでしょう。その後、顧客が使いやすい効率的なモデルへと圧縮しようと試みるのです。

私が現在最も懸念しているのは、AIのユースケースを複雑性の同心円として捉えることです。最も内側の層は基礎言語モデルとの単純なチャット会話のような低複雑性タスクで、GPT-2の時代から既にうまく機能しています。その後、暗算、プログラミング、さらにはエージェント、医薬品発見など、各段階でより高度な知能が必要となるタスクが増えています。しかし、以前の各知能レベルはほとんどコストがゼロに近くなるほど安価になり、量産化（quantize）可能になります。

Jacob：これにより、「テスト時計算（test-time compute）」のトレンドが思い浮かびます。特に数学やプログラミングなど検証が容易な分野では、非常に有望な前進路線に思えます。このようなパラダイムはどこまで通用するのでしょうか？

David：長年にわたって、どのようにAGI（汎用人工知能）を構築すべきかについて、いくつかの論文やポッドキャストで議論してきました。

Jacob：それらの議論に新たな視点を加えてみましょう。

David：つまり、今まさにこの会話を記録しているわけですが、2020年の時点で既にGPT-2が登場し始めており、GPT-3はすでに開発中あるいは完成していたかもしれません。私たちはGPT-4について考え始めました。そこでは人々が「次のトークン予測（next token prediction）」だけでAGIのすべての問題が解決できるのかどうか不確かな世界に住んでいました。

私の見解、そして周囲の一部の人々の見解も「いいえ」です。理由は、モデルが「次のトークン予測」のために訓練されている場合、新知識は訓練データに存在しないため、新知識の発見に対して本質的にペナルティが課されるからです。そのため、私たちは他の機械学習パラダイムを探るべきです。これらのパラダイムこそが真に新知識を発見できるのです。強化学習（RL）がこれを可能にすることは分かっています。探索においてもそうですね？あるいはAlphaGoのように、RLを使って新知識を発見できることを一般大衆に初めて認識させた事例もあります。問題は常に、いつ大型言語モデル（LLMs）とRLを組み合わせて、人類全知識を持ちつつそれを超えて構築できるシステムを作れるかということです。

Jacob：では、医療や法務など検証が難しい分野では、このテスト時計算のパラダイムによってそのような問題を処理できるモデルを構築できるのでしょうか？あるいは、プログラミングや数学には非常に長けているが、ジョークすら話せない状態になるだけなのでしょうか？

David：これは議論の余地があるテーマですが、私ははっきりとした見解を持っています。

Jacob：答えを教えてください。

David：これらのモデルの汎化能力は、あなたが思うよりもはるかに強いです。誰もが「GPT-1を使ったら数学に強いが、考える時間がかかるとChatGPTや他のモデルより劣るかもしれない」と言います。しかし、これらはより強力なモデルへの道筋に過ぎない小さな波紋だと私は考えています。今日、すでにいくつかの兆候があります。DeepSeekで見たように、モデルが問題を正しく解決したかどうかを明示的に検証することで、類似のやや曖昧な問題への汎化が実際に生じているのです。皆が努力しており、私のチームも他のチームも、こうしたより複雑なタスクにおける人間の好みの問題に取り組み、その要求を満たそうとしています。

Jacob：確かに、例えば「この出力は良い法律助言である」または「この出力は適切な診断結果である」と判断できるモデルを構築する必要がありますが、これは数学的証明やコードが正常に動作するかどうかを検証するよりもはるかに困難です。

David：我々が利用しているのは、これらのモデルが自身の良し悪しを判断する能力と、正解を生成する能力との間のギャップです。— 同一のニューラルネットワーク重みを持つモデルが、自身の作業が良好であったかどうかを判断する能力と、正しい回答を生成する能力との差異です。私たちは常に、モデルが自身の作業の良し悪しを判断する能力の方が、良い回答を生成する能力よりも優れていることに気づいています。ある意味、我々はこの点を利用して、いくつかのRLツールを通じて「自分が良い仕事をしたかどうか」を感じ取らせようとしているのです。

Jacob：このようなモデルを本当に実用化するには、どのような研究課題を解決する必要がありますか？

David：課題はあまりに多く、おそらく3つだけ挙げても足りません。まず第一に、信頼性のあるモデルを確実に作成できる組織とプロセスを構築する方法を本当に理解している必要があると思います。

私はいつも自分のチームや協力者に言っています。「現代のAIラボを運営する場合、あなたの仕事はモデルを作ることではなく、信頼性のあるモデルを作れる工場を作ることです」。こう考えると、投資の方向性が全く変わります。再現性が得られるまでは、ある程度進歩していないと私は思います。私たちはちょうど錬金術から工業化への移行を経験しており、モデルの構築方法が変化しています。この基盤がなければ、これらのモデルは機能しません。

次に重要なのは、「ゆっくりやることが実は速く進むことだ」ということです。ただし、これが最初のポイントだと思います。人々は常にアルゴリズムに惹かれます。なぜなら、それらはクールで魅力的に見えるからです。しかし、本当にこの分野を動かしているものを振り返れば、それは実は工学的課題なのです。例えば、大規模クラスタ計算をどうやって行うか、それが十分長い時間安定して動作するように保つか。ノードがクラッシュした場合でも、タスクに費やす時間を無駄にしないようにする。規模の最前線を押し進めるには、これが真の課題です。

現在、強化学習（RL）の分野全体が、すぐに多くのデータセンターが存在し、それぞれが基礎モデル上で大量の推論を行い、顧客が持ち込む新しい環境でテストを行い、モデルの改善方法を学び、その新知識を中央の場所にフィードバックしてモデルがさらに賢くなる世界に向かっています。

Jacob：Yann LeCun氏のように、最近大型言語モデル（LLMs）の限界を批判し続けている人々がいます。これらの批判をリスナーに向けてまとめていただきたいのと、これらのモデルは決して真の独創的思考ができないと言う人たちへのご意見も聞かせてください。

David：すでに反例があると考えます。AlphaGoは独創的思考の一形態です。OpenAI草創期の仕事を振り返れば、FlashゲームでRLを使用していたことがあります。その世代の方ならMiniClipやそれに類するものを覚えていらっしゃるかもしれません。かつて中学生の娯楽だったものが、AIの基盤技術になるとは驚きです。当時、私たちが取り組んでいたのは、これらのゲームを同時にクリアするためのアルゴリズムの開発でしたが、すぐに人間が決してやらないようなバグを利用して壁をすり抜けたりして高速にクリアする方法を学んだことに気づきました。

Jacob：検証に関しては、主にこうしたさまざまな分野で検証方法を巧妙に見つけることになりますね。

David：モデルを使えばよいのです。

信頼できるエージェントの構築方法

Jacob：話題をエージェントの世界に移しましょう。これらのモデルの現状をどのように説明しますか？

David：私は依然としてエージェントに非常にワクワクしています。2020～2021年、GPT-4のような最初の強力なモデルが登場した頃を思い出します。こうしたモデルを試すと、大きな可能性を感じました——優れたラップを作成でき、鋭いツッコミができ、3桁の足し算もほぼ正確に処理できます。しかし、「ピザを注文して」と言うと、ダミー・ピザのカスタマーサポートのように会話モードを模倣するだけで、実際のタスクを完了できません。これは明らかに、これらのシステムに重大な欠陥があることを示していますよね？

以来、私はエージェントの問題を解決しなければならないと強く信じてきました。Google在職中、後に「ツール使用（tool use）」と呼ばれる研究に着手しました。つまり、大規模言語モデル（LLM）に操作インターフェースを見せ、自ら行動を決定させる方法です。学術界では昔から「エージェント」と呼んでいましたが、当時は一般に認知されていませんでした。そこで私たちは「大規模行動モデル（Large Action Model）」という新語を作り、「大規模言語モデル（Large Language Model）」に取って代わろうと試みました。この概念は議論を呼びましたが、最終的には業界は「エージェント（Agent）」という名称を選択しました。残念ながら、この言葉は現在過剰に使われすぎて本来の意味を失いつつあります。しかし、現代のアジア企業としてこの分野に先駆けて取り組めたのは誇らしいことです。

Adeptを設立した当時、最高のオープンソースLLMでも性能は不十分でした。多モーダルLLM（画像入力に対応したLLM、後のGPT-4vのようなもの）も存在しなかったため、私たちは自社モデルをゼロから訓練せざるを得ませんでした。つまり、すべてを一から作らなければなりませんでした。まるで2000年にインターネット企業を設立して、TSMCに電話をかけて自社チップを製造してもらうようなものです。まったく狂気の沙汰でした。

この過程で学んだことは、今日のRL技術なしでは、大規模言語モデルは本質的に「行動クローン（behavioral cloners）」にすぎないということです。つまり、訓練データで見たことをそのまま行う——つまり、一度も見たことのない状況に入ると、汎化能力が非常に低く、予測不能な行動をとるということです。だからAdeptは常に「実用的知能（useful intelligence）」に焦点を当てていました。では実用性とは何か？ Twitterでウケる派手なデモをリリースすることではありません。知識労働者が毎日行っている面倒な作業、たとえばPC上でファイルをドラッグするような作業から人々を解放することです。こうした知識労働者が気にするのは信頼性です。だから私たちの初期ユースケースの一つは、「人々のための請求書処理ができるか？」というものでした。

Jacob：誰もが請求書処理が好きですよね（笑）。こうした汎用モデルにとって、これは自然な出発点に思えます。

David：これは素晴らしい「Hello World」でした。当時、誰も本当にこの作業をしていなかったので、私たちは明白な「Hello World」ユースケースを選択しました。Excelなど他にもいくつかプロジェクトをやりました。もし、このシステムが7回に1回の割合でQuickBooksの3分の1のデータを削除したら、二度と使おうと思わないでしょう。信頼性は依然として問題であり、今日でもOperatorのようなシステムは非常に印象的で、他のクラウドコンピュータエージェントよりも優れているように見えます。しかし、両システムとも「週末の休暇先55カ所を探して」といったエンドツーエンドのタスク実行に集中しています。しかしエンドツーエンドの信頼性は非常に低く、大量の人間介入が必要です。まだ企業が「一度設定すれば後は放っておける」と完全に信頼できるレベルには達していません。

Jacob：この問題は解決しなければなりません。リスナーのためにもう少し説明してください。既存の基礎多モーダルモデルから大規模行動モデルへと変えるために、実際にはどのような作業が必要ですか？

David：高次元的に説明できますが、基本的に2つの作業があります。第一は工学的課題で、モデルが理解可能な形で「何ができるか」を提示することです。例えば、呼び出せるAPI、操作可能なUI要素などです。Expedia.com（旅行サービスサイト）やSAPの仕組みについて少しだけ教え込みます。これは研究工学の一部です。これが第一歩、つまり自己能力の認識と基本的な行動能力を与えることです。

第二の部分が面白いところで、いかにして計画立案、推論、再計画立案を教え、ユーザーの指示に従い、さらにはユーザーの真の意図を推測してタスクを完了させるかです。これは困難な研究開発課題であり、通常の言語モデルの作業とは大きく異なります。通常の言語モデル作業は「テキストを生成しよう」というもので、今日の推論作業（数学問題など）であっても、最終的な答えがあります。

つまり、多段階の思考を含んでも、結局は答えを提供する単一ステッププロセスです。一方で、これは完全な多段階意思決定プロセスであり、バックトラッキングを伴い、自分の行動の結果を予測しようとするプロセスです。削除ボタンが危険であることに気づき、基本設定ですべてを整備する必要があります。

その後、サンドボックス環境に入れ、自律的に学習させます。最も適切な比喩はAndrej Karpathy（OpenAI創設メンバー、2024年にAI×教育機関Eureka Labsを設立）の言葉です。現代のAI訓練は教科書の構成に似ています。まず、ある物理プロセスの完全な説明があり、その後いくつかの例題があります。第一段階はプリトレーニング、例題は教師あり微調整、最後の段階は開放的な問題で、教科書の末尾に答えがあるかもしれません。我々はこのプロセスに従っているだけです。

Andrej Karpathyによる大規模モデルの説明（出典：X.com、明るいカンパニー）

Jacob：こうした知能エージェントが現実世界にどう浸透していくか、きっと深く考えておられることと思います。いくつか質問します。まず、モデルがアクセス可能なものを認識できるようにすることが一部の課題だとおっしゃいました。時間とともに、モデルはブラウザやプログラムとどのように相互作用していくでしょうか？人間と同じようなやり方になりますか？それともコード経由？ほかに方法はありますか？

David：この分野についてコメントするなら、現在最大の問題は、ますます賢くなる大規模モデルやエージェントとどう相互作用すべきかについて、人々の創造性が欠如しているということです。iPhoneが登場し、App Storeができた時を思い出してください。人々は様々なアプリを作り始めました。ボタンを押すとゲップの音が出るものや、スマホを傾けてビールを口に流し込むアプリなどです。今の私たちのインターフェースはまさにそれと同じで、非常に劣悪に感じられます。なぜならチャットは極めて制限され、帯域の狭い相互作用方法だからです。例えば、ピザの具材を決めるのに7往復の会話をするのは嫌でしょう。

この創造性の欠如は非常に腹立たしいです。理由の一部は、こうした問題を解決できる優秀なプロダクトデザイナーたちが、まだモデルの限界を十分に理解していないからです。これは急速に変化していますが、逆に、技術を推進できる人々はこれまで常に「ここにブラックボックスを提供する」と考えるだけで、「ここに体験を提供する」とは考えていませんでした。

この状況が変われば、エージェントと相互作用するときに、実際にマルチモーダルなユーザーインターフェースを合成し、ユーザーから必要な情報をリストアップし、人間とAIの間に共有コンテキスト（Context）を築くようなシステムが登場すると期待しています。今のパラダイムのようにただチャットするのではなく、もっと並列的で、垂直的ではなくなるでしょう。まるで、あなたとエージェントが一緒に画面を見ながらPC上で何かをしているような感覚です。

Jacob：Operatorは現在非常に印象的ですが、完璧ではないともおっしゃっていました。信頼できる知能エージェントが実現するのはいつだと思いますか？

David：Operatorは非常に素晴らしいですが、今のところ、この分野全体に欠けているのは最後のピースです。

Jacob：自動運転の歴史を考えると、1995年頃にはすでに横断実験が行われ、99%の行程を自動走行できたそうです。

David：はい。

Jacob：あと30年待つ必要がありますか？

David：そうは思いません。なぜなら、私たちにはすでに適切なツールがあると考えているからです。

Jacob：前に、AGI（汎用人工知能）はそれほど遠くないとおっしゃっていましたね。

David：私がエージェント分野で注目している主要なマイルストーンは、訓練期間中にどんなタスクを与えても、数日後に戻ってくると100％完了しているというものです。はい、人間が5％の信頼性向上をもたらすように、このエージェントはその問題の解決方法を学習済みです。

Jacob：前に述べたように、Adeptを設立した当時は、真のオープンソースモデルはおろか、多モーダルオープンソースモデルさえありませんでした。今日、Adeptのような企業をスタートアップとして立ち上げた場合、成功できるでしょうか？それとも、最終的にこの分野を前進させるのは基礎モデル企業や超大規模クラウドプロバイダーになるでしょうか？

David：この点についてはかなり不確実です。ただし、現在の私の見解は、個人的にAGIはそれほど遠くないと考えています。

Jacob：AGIとおっしゃるとき、それをどのように定義されていますか？

David：コンピュータ上で人間が行うあらゆる有用なタスクを遂行できるモデルというのが定義の一部です。もう一つ好きな定義は、人間と同じスピードでそうしたことを学べるモデルということです。これらはそれほど遠くないと思っていますが、社会全体に急速に拡散するとも思っていません。ご存知の通り、アムダールの法則（Amdahl's Law）によれば、ある作業を本当に加速すると、他の部分がボトルネックになり、全体の加速は思ったほど大きくならないのです。

だから、こうした技術は手に入れても、人類がそれを本当に効率的に使えるようになるには、かなり長い時間がかかると思います。多くの同僚がこれを「能力超過（Capability overhang）」と呼んでいます。巨大な能力超過です。

Jacob：こうした能力を獲得した後、どのような加速要因があるかについて、何か初步的な考察はありますか？

David：それは人によると思います。モデルとの相互作用をどう共同設計するか、どう活用するかの問題です。社会的受容の問題になります。例えば、明日突然モデルが登場して「まったく新しいやり方を発明した。全員これを使え」と言ったとします。人類はそれを受け入れ、本当に優れた解決策かどうかを判断する必要があります。これは想像以上に迅速には進みません。

Jacob：おっしゃるように、ラボが最初にこうしたモデルを開発しても、モデルの能力と最終ユーザーが実際に求めている相互作用のギャップを埋めるベンチャー企業にチャンスがあるかもしれません。

David：ほぼ間違いなく、それが起こると確信しています。結局のところ、私は依然としてAGIの世界では、人と人との関係が本当に重要だと信じています。最終的には、顧客を理解し、所有し、彼らにより近く寄り添い、ニーズを把握することが、多くの他のラボが持つツールを単に支配するよりも重要になるのです。

Jacob：未来10年間、人類はコンピュータをどのように使うでしょうか？すべてのモデルがAGIの定義を満たすようになったとします。私はまだパソコンの前に座っているでしょうか？未来の人類とこうした技術の相互作用について、どのようなビジョンをお持ちですか？

David：コンピュータとの相互作用のための新しいツールキットが得られると考えます。今日でもまだコマンドラインを使う人がいますよね？グラフィカルユーザーインターフェース（GUI）を使う人も同じようにいます。将来、人々は音声インターフェースも使い続けるでしょう。しかし、人々はより多くのアンビエントコンピューティング（ambient computing）も使うようになると思います。また、私たちが注目すべき指標は、コンピュータと相互作用する際に、人間が単位エネルギーあたりどれだけのレバレッジ（leverage）を得られるかです。こうしたシステムが発展するにつれて、この指標はさらに大きくなると考えます。

Jacob：もう少し、この未来のモデルの世界について話していただけますか？特定分野に特化したモデルは最終的に存在するでしょうか？

David：仮想的な法律専門家モデルを考えてみましょう。このモデルには世界に関する基本的事実を知っていてほしいでしょう。

Jacob：多くの人は法学院に入る前に一般教養の学位を取得しますよね。

David：そうです。だから特定分野のモデルはあると思いますが、重点をぼかすつもりはありません。技術的な理由で特定分野のモデルがあるだけでなく、政策的な理由でも存在すると考えます。

Jacob：それは興味深いですが、どういう意味ですか？

David：ある企業は本当に自社データを混ぜたくないのです。例えば大手銀行を想像してください。販売・取引部門があり、投資銀行部門があります。AI従業員やLLMがこれらの部門を支援していますが、今日の従業員が情報を共有できないように、モデルも重みを通じて情報を共有すべきではありません。

Jacob：他に解決すべき課題はありますか？モデルの面では、現在の計算能力を単に拡張すれば、解決すべき問題に非常に近づけると自信を持っているようです。しかし、モデルの知能をさらに拡張するために克服すべき他の大きな技術的課題はありますか？

David：実は、現有技術を2年後のコンピューティングクラスタに直接移植すれば、奇跡的にすべてが動くという見解には同意しません。規模は依然として重要な要素ですが、私の自信は、現在の核心的未解決問題の難易度評価に基づいています。例えば、梯度降下法（gradient descent、現在のディープラーニングモデルのパラメータ最適化の中心的アルゴリズム）を完全に置き換えるような画期的革新、あるいは量子コンピュータに依存しなければAGIが実現できないような超難問が必ず存在するでしょうか？私はそれが必然的な技術的道筋とは考えていません。

Jacob：新しいモデルが登場したとき、どのように評価しますか？固定のテスト質問を持っていますか？あるいは、どのようにして新しいモデルの良し悪しを判断しますか？

David：私の評価方法論は2つの核心原則に基づいています。**方法論的簡潔性（Methodological Simplicity）**：これはディープラーニング分野で最も魅惑的な特徴です——ある研究が方法論ドキュメントを添付しているとき（最近では稀になってきましたが）、その実装経路を検討するだけで、従来案よりも簡潔で効果的な解法を発見できる可能性があります。こうしたブレークスルーはディープラーニングの古典（deep learning canon）に刻まれ、「まさにアルゴリズムの美しさを示している」という啓示をもたらします。

**ベンチマークの誤導性（Benchmark Misalignment）**：現在の分野の過熱（hype）により、多数のベンチマークがモデルの実際のニーズから乖離しているにもかかわらず、研究プロセスで過度に重視されています。これらは本質的に一種のゲームです。評価と測定の複雑さは深刻に過小評価されており——現在の多くの研究方向に比べ、はるかに多くの学術的評価とリソース投入に値します。

差別化された技術蓄積は実際には非常に少ない

Jacob：どうやら各社とも独自の内部ベンチマークを持っており、公表していません。つまり、彼らが本当に信じている基準です。OpenAIのモデルは多くのプログラミングベンチマークで優れているが、みんなAnthropicのモデルを使い、それらの方が優れていると知っている。この分野の進化を見るのは非常に興味深いです。アマゾンでのご近況と、アマゾンが広いエコシステムの中で果たす役割についてお聞きしたいです。

David：はい、アマゾンは非常に面白い場所です。実際、そこで多くのことを学びました。アマゾンは汎用知能システム、特に汎用知能エージェントの構築に真剣に取り組んでいます。本当に素晴らしいのは、アマゾンの誰もが、計算自体が我々が知っていた基本要素から、大規模モデルや大規模エージェントの呼び出しに変化しつつあることに気づいていることであり、これが将来最も重要な計算の基本要素になるかもしれません。だから人々は非常に意識しています。素晴らしいことです。

面白いのは、私はアマゾンのエージェント事業を担当しており、大企業であるアマゾンの中でのエージェントの適用範囲の広さを実際に見ることができます。Peter（音）と共にアマゾンのためサンフランシスコに新しい研究ラボを開設しました。これはアマゾン上層部の多くの人々が、AGIへの道筋で我々が以前議論した主要な問題を解決するために、新たな研究的ブレークスルーが必要だと真剣に信じているからです。

Jacob：代替アーキテクチャやより先端的な研究分野に注目していますか？

David：考えてみましょう。私は常に、モデルの学習を計算にどうより良くマッピングできるかに注目しています。計算をより効率的に使うことはできますか？これは私たちができることに巨大な乗数効果をもたらします。しかし実際には、データセンターとチップに費やす時間の方が多く、非常に面白い動きがいくつかあります。

Jacob：モデルの発展を牽引する要因の一つはデータアノテーションであり、明らかにすべてのラボがこれに巨額の費用をかけています。テスト時計算パラダイムでは、これも依然として関連性がありますか？この問題についてどうお考えですか？

David：まず思いつくのは、モデルに必要な2つのアノテーションタスクです。第一は、人間の行動をクローンすることでタスクの基礎知識を教えることです。高品質なデータがあれば、それを用いてモデルがプリトレーニング中に見た内容をより適切に活性化できます。第二のタスクは、曖昧なタスクにおいて「良いもの」と「悪いもの」を教えることです。これら2つは依然として非常に重要です。……

Jacob：明らかに、過去10年間この分野の最前線にいらっしゃいました。ここ1年で考えを変えたことはありますか？

David：ずっと考えているのは、チーム文化の構築です。私たちは以前からそれを知っていましたが、より確信を持つようになったのは、本当に賢く、情熱的で、内的に動機づけられた人材、特に若手を採用することが、私たちの成功の重要な原動力であるということです。この分野では、数年ごとに最適戦略が変わります。だから、人々が前の最適戦略にあまりに適応しすぎていると、実際には足を引っ張ることになります。以前の私の考えに比べ、新参者に賭ける方が良いと今は考えています。

もう一つ考えを変えたのは、かつてはAIの構築には真の長期的技術的差別化があり、それを基盤に蓄積できると思っていたことです。例えば、テキストモデリングで優れていれば、自然にマルチモーダル分野でも勝者になれるはずだと。マルチモーダルでも優れていれば、推論やエージェント分野でも勝てる——こうした優位性は蓄積されると考えていました。しかし実際に見てきたのは、蓄積が非常に少ないことです。皆が似たようなアイデアを試しているのです。

Jacob：つまり、Aで先にブレークスルーを達成したからといって、Bで優位になるとは限らないという意味ですね。例えば、OpenAIが言語モデルでブレークスルーを達成したからといって、それが推論分野でのブレークスルーを保証するわけではない。

David：関連はありますが、次の機会を必ずしも勝ち取れるとは限りません。

ロボットが家庭に入るとき

Jacob：お尋ねしたいのは、あなたが当初ロボットの分野からAIに入ってきたことについてです。現在のAIロボット分野の現状について、どのような見解をお持ちですか？

David：Digital Agentに対する私の見解と同様に、多くの原材料はすでに揃っていると考えます。そして面白いのは、Digital Agentが物理エージェントよりも前にいくつかの厄介な問題を解決する機会を与えてくれていることです。

Jacob：詳しく教えてください。デジタルエージェントの信頼性は、物理エージェントにどう継承されますか？

David：簡単な例を挙げます。倉庫のレイアウトを再配置する必要があり、物理エージェントに「倉庫の再配置の最適計画を計算して」と指示したとします。物理世界で学習する場合、あるいはロボットシミュレーション環境で学習する場合でも、これは困難です。しかし、すでにデジタル空間でこれを達成しており、すべての訓練レシピやシミュレーションデータからの学習のための調整アルゴリズムの知識があれば、まるで補助輪を使ってこのタスクをすでに終えた状態と同じです。

Jacob：非常に面白いです。人々がロボットを考えるとき、二つの極端な見解があると思います。ある人々は、言語モデルで発見されたスケールの法則がロボット分野でも発見され、私たちは巨大な変化の瀬戸際に立っていると考えます。Jensen（NVIDIA創設者黄仁勲）がよくこの話をしています。一方で、1995年の自動運転車のように、素晴らしいデモはあるが、実用化にはまだまだ時間がかかるという人々もいます。あなたはこのスペクトラムのどこに位置しますか？

David：以前述べたことに戻りますが、最も自信を与えてくれるのは、タスクを100％完了させるための訓練レシピを構築する能力です。それはデジタル空間で可能です。課題はありますが、最終的には物理空間にも移行します。

Jacob：家庭にロボットが来るのはいつですか？

David：これも以前述べた問題に戻ると思います。多くの問題のボトルネックはモデリング（modeling）ではなく、モデリングの拡散（diffusion）にあると考えます。

Jacob：ビデオモデルについてはどうですか？明らかに、現在多くの人々がこの分野に参入しており、これは新しいフロンティアのように思えます。世界モデルや物理学の理解を必要とし、よりオープンな探索を可能にします。この分野で見ていることや見解についてお話いただけますか？

David：この分野には非常にワクワクしています。以前述べた主要な問題の一つを解決すると考えます。つまり、以前議論したように、現在は定理証明のような検証器（Verifier）がある問題では強化学習（RL）が機能します。

その後、検証器はないが信頼できるシミュレータがあるDigital Agents領域への拡張について議論しました。アプリケーションのステージング環境を起動し、エージェントに使い方を教えることができます。しかし、残る主要な問題は、明確な検証器も明確なシミュレータもない場合にどうするかです。世界モデル（World modeling）は、この問題への私たちの答えだと思います。

OpenAIの組織成長の道のり

Jacob：素晴らしい。もう少し話題を変えて、OpenAIとそこで過ごした日々について伺いたいと思います。明らかに、非常に特別な時期に関与し、多くの進歩に同様の役割を果たしました。将来、OpenAIの文化について多くの分析がなされるでしょう。GPT-1からGPT-4を開発した時代に何が特別だったのか。その分析はどうなると思いますか？この組織がこれほど成功したのはなぜですか？

David：OpenAIに入った当時、研究コミュニティは非常に小さかったです。2017年のことで、OpenAIが設立されてまだ1年ちょっとでした。創設メンバーと初期スタッフを知っており、研究と工学の境界があいまいな人物を探していました。私はその条件にぴったりでした。

だからOpenAIに入社できたのは非常に幸運でした。当時のチームは35人しかいませんでしたが、全員が極めて優秀な人材でした。スーパーコンピューティングで多くの仕事をした人たちや、その他多くの人たちがいました。当時のチームメンバーは全員非常に優秀でした。

面白いのは、当初の私の仕事は、小さなチームから大規模化するためのOpenAIのスケーリングインフラを構築する手助けすることでした。しかしすぐに、この時代の機械学習に対して正しい判断を下せる差別化された研究戦略をどう定義するかに仕事がシフトしました。私たちが他の人たちより早く気づいたのは、「君と最高の友人たち3人で世界を変える論文を書く」という研究スタイルの時代が終わったということです。私たちは本当に考えるべきは新しい時代であり、研究者とエンジニアを組み合わせた大規模チームで、学術界

TechFlow公式コミュニティへようこそ

Telegram購読グループ：https://t.me/TechFlowDaily

Twitter公式アカウント：https://x.com/TechFlowPost

Twitter英語アカウント：https://x.com/BlockFlow_News

原文リンク

お気に入りに追加

SNSで共有

作者
明亮公司