米中AI起業家による非公開ディスカッション：DeepSeek-R1以降のAI起業の変化と新トレンド

2025.02.12

共有先

TechFlow厳選深潮セレクト

米中AI起業家による非公開ディスカッション：DeepSeek-R1以降のAI起業の変化と新トレンド

チャットボットがユーザーの最初のAI製品であるとは限らない。

2025.02.12 - 10:54:58

DeepSeekAI

Web3業界の深掘り報道に専念し潮流を洞察

チャットボットがユーザーの最初のAI製品であるとは限らない。

記事元：FounderPark

画像出典：無界AI生成

DeepSeekは2025年の春節期間中に間違いなく注目を集めた存在であり、アプリがApp Storeの無料ランキングで首位に立つことから、各クラウドベンダーが相次いでDeepSeek-R1を展開したこと、さらに多くの人々にとって初めて体験するAI製品となった。起業家たちの間では、技術革新のポイントに関する議論から、学習・推論コストの分析、さらにはAI業界全体への影響まで、さまざまな話題が語られている。

2月2日、Founder Parkは極客公園傘下のグローバルクローズドコミュニティ「Global Ready」とともに、シリコンバレー、中国本土、ロンドン、シンガポール、日本など各地のAI企業に所属する60名以上の創業者や技術専門家を招き、技術革新、プロダクト展開、計算リソースの逼迫といった視点から、DeepSeekによって引き起こされた新たな技術的動向とプロダクトトレンドについて、クローズドルーム形式でのディスカッションを行った。

情報の匿名化処理を行った上で、本クローズドルームディスカッションの要点を整理した。

01 DeepSeekの革新性とは？

DeepSeekは12月末にV3ベースモデルを発表し、業界で現在最も強力なオープンソースモデルの一つとなった。アクティブパラメータは37B、全パラメータ規模は671Bに達し、大規模なMoE（混合エキスパート）モデルである。

2025年1月にリリースされたR1モデルにおける「Aha moment」とは、推論中に一定のリフレクション（自己省察）能力を示す瞬間を指す。たとえば、問題解決の過程で特定のアプローチが不適切であることに気づき、途中でより効果的な方法へと調整することができる。このリフレクション能力は強化学習（RL）に基づいている。

R1はDeepSeekのフラッグシップモデルであり、推論能力においてOpenAI o1と同等の性能を持つ。その実現手法は以下の通り：R1は二段階の強化学習と二段階のSFT（監督付きファインチューニング）を通じて構築され、最初のRLおよびSFTのステップは主にデータ生成用の教師モデルを作成するために使用され、そのモデルが第三段階のデータ生成を指導する。このモデルは、現時点での最強の推論モデルとなることを目指している。

DeepSeek R1-Zeroモデルの核心的革新点は、従来のSFTプロセスをスキップし、直接強化学習（RL）によって推論を最適化することにある。また、DeepSeek R1を教師モデルとして使い、Qwen1.7B/7B/14B/32Bなどのオープンソース中規模・小規模モデルに対して蒸留を行うことで、小規模モデルの能力を大幅に向上させることができる。
コード生成能力については、DeepSeekのR1とOpenAIが新たにリリースしたo3 miniとほぼ同等で、全体的にはo3 miniの方がわずかに優れている。違いはR1がオープンソースであるため、より多くのアプリケーション開発者がR1を利用しやすくなる点にある。
DeepSeekが成功した要因は、高度に統合されたエンジニアリング手法によりコストを下げたことにある。個々の手法を分解して見ると、それぞれ昨年の論文ですでに確認できるものだが、DeepSeekは最新の手法を非常に積極的に採用している。これらの手法自体には副作用があり、追加のストレージオーバーヘッドを生むが、クラスタのアイドル率を大きく低下させる効果がある。
大規模クラスタではなく、多数のユーザーにサービスを提供するモデル以外の用途では、MLAアーキテクチャはむしろ逆効果になる可能性がある。DeepSeekの多くの手法は、特定のシナリオや環境下でなければ最大限の性能最適化が得られず、単独で利用すると副作用をもたらす。彼らのシステム設計は非常に精巧であり、技術を個別に取り出して使っても、同様の成果は得られない。
プロセス報酬モデル（process reward model）のみを訓練しても、最終的な効果は期待できず、過学習を引き起こす可能性さえある。DeepSeekは最も基本的な強化学習手法を選択し、ヒューリスティックなルールに基づいて最終結果にスコアをつけ、伝統的な強化学習を使ってプロセスを修正している。この手法も継続的な試行錯誤の中で確立されたものであり、DeepSeekが非常に効率的なインフラを備えているからこそ可能になった。
DeepSeekが推論コードを公開していなくても、他のチームはおおよそ使用されている手法を推測できる。オープンソースのモデル重みがあれば性能の再現は十分可能だが、内部の特殊な設定を特定するのは困難であり、そのためには時間がかかる。
データアノテーションに依存する報酬モデルだけでは、超人知能（super human intelligence）に到達することは難しい。真のデータまたは実環境からのフィードバックに基づく真の報酬モデルが必要であり、それによってより高度な報酬最適化を実現し、超人知能を可能にする。
技術面からの推測：ベースモデル自体が強い汎用性を持ち、数学およびコード能力を組み合わせることで、さらに高い汎化能力が生まれる。たとえば、文章作成能力が高いベースモデルに、数学とコードに関する強化学習を追加すれば、良好な汎化が可能となり、非常に強力な能力を発揮する。具体的には、駢文から絶句・律詩など多様な文体の作品を生成できるが、他社のモデルではこれが難しい。

02 なぜDeepSeekのコストはこれほど低いのか？

モデルのスパース性が非常に高い。600Bを超えるパラメータを持つ大規模モデルでありながら、推論時には各トークンあたりのアクティブパラメータはわずか37Bしか使わないため、実際の推論速度とリソース消費は37Bパラメータモデルと同等になる。しかし、これを実現するにはシステム全体の大幅な設計変更が必要である。
DeepSeek V3では、MoEアーキテクチャに256のエキスパートモジュールを含むが、推論時にはその一部しか活性化しない。高負荷時においてはリソース使用率を動的に調整でき、理論上はコストを1/256まで圧縮できる。これはDeepSeekのソフトウェアアーキテクチャにおける先見性を示しており、システム最適化が十分に行われていれば、同じスケールでも価格を大幅に下げられる。
モデルの学習には通常、「三つの並列化」が行われる。第一にデータレベルでの分割並列（Data Parallelism）。第二にモデルの層間が独立しているため、モデルレベルでのパイプライン並列（Pipeline Parallelism）。第三にモデルの重みを複数のGPUに分散させるテンソル並列（Tensor Parallelism）。スパースモデル設計に対応するため、DeepSeekは学習フレームワークとパイプラインを大幅に調整し、学習中にTensor Parallelismを放棄し、Data ParallelismとPipeline Parallelismのみを使用している。さらに、これに加えて細かいエキスパート並列（Expert Parallelism）を導入している。256ものエキスパートを細かく分割し、異なるGPUに割り当てる。また、Tensor Parallelismを排除することでハードウェアの制約を回避し、H800とH100の学習効率を近づけている。
モデル展開に関しては、実験により計算コストが管理可能であり、技術的難易度も高くないことが示されており、通常1〜2週間で再現可能である。これは多くのアプリケーション開発者にとって大きな利点となる。
考えられるモデルアーキテクチャとして、推論用の強化学習を大規模言語モデル自体に限定せず、外部に「思考マシン」を設けて推論能力を完結させることで、全体のコストをさらに数桁下げられる可能性がある。

03 チャットボットが必ずしもユーザーの最初のAI製品になるわけではない

DeepSeek R1の成功は、推論能力だけでなく、検索機能との統合にもある。reasoning model＋検索は、ある種のmicro agentフレームワークに相当する。多くのユーザーにとって、これは初めて体験する推論モデルである。すでにOpenAIのo1など他の推論モデルを使ったことがあるユーザーにとっては、検索機能との統合によりまったく新しい体験となる。
AI製品をまだ使ったことのないユーザーにとって、最初のAI製品がChatGPTのような言語インタラクション型製品とは限らない。モデル駆動型の別のシーンでの製品である可能性もある。
AI分野のアプリケーション企業にとっての競争的優位性はプロダクト体験にある。誰がより高速で、より高品質で、ユーザーにとってより快適な機能を提供できるかが、市場での競争優位を決める。
現在モデルが出力する思考プロセスは満足できる設計だが、これは強化学習（RL）によってモデル能力を高める初期段階の成果に過ぎない。推論プロセスの長さは最終結果の正しさを測る唯一の基準ではない。将来的には複雑な長尺の推論から、より簡潔な短尺推論へと移行していくだろう。

04 垂直領域でのAI展開がより容易になった

比較的垂直なタスク（vertical task）では、評価をルールシステム（rule system）で完結できるため、複雑な報酬モデル（rewarding model）に依存する必要がない。定義された垂直タスクでは、Tiny Zeroや7Bクラスのモデルでも迅速に実用可能な結果を得られる。
定められた垂直タスクにおいて、DeepSeekで蒸留された70億パラメータ以上の中規模モデルを使って学習することで、「aha moment」を素早く得られる。コスト面では、7Bモデルで簡単な算術やブラックジャックのように明確な答えのあるタスクを実行する場合、2〜4枚のH100またはH200で半日以内に収束し、実用可能な状態に到達できる。
垂直領域、特に数学計算や物理法則の判断（物体の配置や運動が法則に合致しているか）など明確な答えのあるタスクにおいて、DeepSeek R1は他モデルよりも優れた効果と管理可能なコストを示すため、幅広い垂直領域への応用が可能である。一方で、美しさの判断や回答が喜ばれるかどうかといった主観性の強い評価は、ルールベース（rule-based）の手法ではうまく解決できない。これらは3ヶ月から半年待って、より良い手法が登場するのを待つ必要があるかもしれない。
SFT（監督付きファインチューニング）や類似手法を使う場合、時間のかかるデータセット照会が難しく、かつそのドメイン分布（domain distribution）がタスクのすべてのレベルを網羅しきれないことが多い。今や新しい高品質なツールキットと高品質モデルが登場し、過去に困難だったデータ収集や明確な答えを持つ垂直タスクを解決できるようになった。
ルールシステム（rule-based）に頼るだけでは、数学やコードのように明確なルールが定義できる分野では有効だが、より複雑または開放的なタスクに対応するのは非常に困難になる。そこで、最終的にはこうした複雑なシナリオの結果を評価するのに適したモデルを探る方向になるだろう。ORM（結果指向報酬関数）をPRM（プロセス指向報酬関数）の代わりに使う、あるいはその他の類似手法を探索する可能性がある。最終的には、さまざまなモデルの意思決定に適切なフィードバックを与える「ワールドモデル」のようなシミュレータを構築するかもしれない。
小規模モデルで推論能力を訓練する際、トークンベースのソリューションに依存する必要はない。あるeコマース向けのソリューションでは、推論能力をTransformerベースのモデルから完全に分離し、別の小規模モデルで全ての推論を実行し、Transformerと連携してタスク全体を完結させる。
自身の用途のためにモデルを開発する企業（例：ヘッジファンド）にとっての課題はコストにある。大手企業は顧客を通じてコストを均等化できるが、小規模チームや企業は高額な研究開発コストを負担しづらい。DeepSeekのオープンソース化はこれらにとって極めて大きな意味を持ち、以前は高コストゆえにモデル構築が不可能だったチームでも、今やモデルを構築できるようになる。
金融分野、特にクオンツファンドでは、企業の財務報告書やBloombergデータなど大量の財務データを分析する必要がある。こうした企業は通常独自のデータセットを構築し、監督学習（supervised training）を行うが、データアノテーションのコストは非常に高い。このような企業にとって、ファインチューニング段階での強化学習（RL）の活用は、モデル性能を飛躍的に向上させ、質的な進歩をもたらすことができる。

05 国産チップが推論用計算資源問題の解決に期待される

中国国内でもA100やA800に匹敵するチップは多く存在するが、国産チップの最大のボトルネックはチップ設計ではなく、ファブ（流片）にある。DeepSeekが華為（ファーウェイ）と協業したのも、後者が比較的安定した流片が可能であり、今後さらに厳しい制裁下でも安定した学習・推論を保証できるからである。
今後のNVIDIAの発展において、単一GPUでの学習という観点では、こうしたハイエンドチップが特定の応用シナリオで計算能力の過剰を引き起こす可能性がある。例えば、単一GPUの計算能力は、学習段階で追加のキャッシュやメモリ制限により十分に発揮されず、学習タスクに最も適しているとは言えない。
中国のチップ市場では、科学計算を考慮せず完全にAIアプリケーションに特化し、高位浮動小数点演算能力を大幅に削減してAIタスクに集中すれば、特定の性能指標においてNVIDIAのフラッグシップチップに追いつけたり追い越したりすることが可能になる。

06 より強力なエージェントおよびアプリ間呼び出し能力

多くの垂直領域において、エージェントの能力は大幅に向上するだろう。まずベースモデルを用意し、いくつかのルールをルールモデル（rule model）として構築する。このルールモデルは純粋な工学的解決策（pure engineering solution）である可能性がある。そして、この工学的解決策を用いてベースモデルの反復（iteration）と学習（training）を行う。そうすることで、すでに超人知能（super human intelligence）の兆候を示す結果が得られるかもしれない。その上で、好みの調整（preference tuning）を行い、出力が人間の読解習慣（human-readable）に合うようにすれば、特定の垂直領域においてさらに強力な推論エージェントが得られるだろう。
ただし、すべての垂直領域で高い汎化能力を持つエージェントを実現することは難しいかもしれない。特定の分野で訓練されたエージェントは、その分野でのみ機能し、他の垂直領域へは汎化できない。しかし、DeepSeekがもたらす推論コスト（inference cost）が非常に低いため、あるモデルを選んで一連の強化学習を行い、完了後は特定の垂直領域のみにサービスを提供し、他の分野には関与しないというアプローチは現実的な選択肢となる。垂直領域AI企業にとっては許容可能な解決策である。
学術的視点からは、来年（2025年）の重要なトレンドとして、強化学習の既存手法が大規模モデルに転用され、現在の汎化不足や評価不正確の問題を解決することが挙げられる。この方法により、モデルの性能と汎化能力がさらに向上する。強化学習の適用により、構造化情報の出力能力が大きく向上し、最終的には各種アプリケーションシナリオをよりよくサポートできるようになり、特に図表やその他の構造化コンテンツの生成効果が高まる。
ますます多くの人がR1を使ってポストトレーニングを行い、自分だけのエージェントを作成できるようになる。モデル層はさまざまなエージェントモデルとなり、異なるツールを使って異なる分野の問題を解決し、最終的にマルチエージェントシステム（multi agent system）を実現する。
2025年はエージェント元年となる可能性があり、多くの企業がタスク計画能力を持つエージェントをリリースするだろう。しかし、現時点ではこうしたタスクを支援するデータが十分に存在しない。たとえば、ユーザーの外卖注文、旅行予約、観光地のチケット在庫確認など、こうしたタスクにはモデルの正確性を評価するための大量のデータと報酬メカニズムが必要となる。例えば、張家界への旅行プランを立てた場合、それが正しいか誤っているかをどう判断し、どのようにモデルに学習させるか。こうした課題が次の研究のホットトピックとなり、推論能力は最終的に実際の問題解決に使われるようになる。
2025年にはアプリ間の呼び出し能力が注目されるだろう。Androidシステムではオープンソースの特性上、開発者が低レベル権限を使ってアプリ間操作を実現でき、将来エージェントがブラウザ、スマートフォン、PCなどを制御できるようになる。一方、Appleのエコシステムでは権限管理が厳しく、エージェントがデバイス上のすべてのアプリを完全に制御することは依然大きな課題である。Appleはすべてのアプリを制御可能なエージェントを自ら開発しなければならない。Androidはオープンソースとはいえ、OPPOや華為（ファーウェイ）などのメーカーと協力して、スマートフォン、タブレット、PCなどのデバイス上で低レベル権限を開放し、データ取得とエージェントの発展を支援する必要がある。