
Agentを徹底解説、それは「同僚」か「ツール」か、起業のチャンスと価値とは何か?
TechFlow厳選深潮セレクト

Agentを徹底解説、それは「同僚」か「ツール」か、起業のチャンスと価値とは何か?
AI製品は「ツール」から「関係」へと進化しており、人間はどのような関係を築くかを決めなければならない。
構成:Moonshot
出典:GeekPark
2025年は、エージェント(Agent)が加速ボタンを押した年となった。
年初のDeepSeekによる驚きから始まり、GPT-4oやClaude 3.5が次々と登場し、大規模モデルの限界は繰り返し書き換えられてきた。しかし、AI産業チェーンの神経を張り詰めさせたのは、モデル性能の進化ではなく、むしろエージェントの登場だった。
ManusやDevinといった製品の人気急上昇は、ある共通認識を再確認している――大規模モデルはもはや単なるツールではなく、自らタスクをスケジューリングできる知的エージェントへと進化するのだ。
こうして、大規模モデルに次ぐ第二のハイプとして、エージェントは世界中のテック業界で最も速く合意形成されたトレンドとなった。
大手企業の戦略再編からスタートアップの急速な追随まで、エージェントは次の「全員参加型」ベットの方向となっている。しかし、C向け製品が密集して登場し、開発者たちが熱狂する一方で、ユーザー価値のサイクルを真正に成立させているプロジェクトは極めてまれであり、多くの製品が「古いニーズに新しい技術を当てはめる」というジレンマに陥っている。
熱狂が過ぎ去った後、市場は冷静さを取り戻しつつある。「エージェントとは本当にパラダイムの変革なのか、それとも新たな包装にすぎないのか?」また、「汎用型」と「垂直型」の道筋の違いは、持続可能な市場空間を本当に生み出すのか?そして「新入口」と呼ばれるものは、インタラクションの進化なのか、それとも旧世界の投影なのか?
こうした疑問をさらに掘り下げると、エージェントの真のハードルは、おそらくモデル能力そのものではなく、それが生存・動作するために必要な基盤インフラにあることが見えてくる。制御可能な実行環境、メモリーシステム、コンテキスト認識、ツール呼び出し――これらの基礎モジュールのいずれか一つでも欠けていると、エージェントはデモから実用への移行を阻まれる。
こうした基盤エンジニアリングの課題こそが、「流行のおもちゃ」から「生産性ツール」への移行を妨げる最大の障壁であり、同時に現在最も確実で、最高の価値を持つスタートアップのブルーオーシャンでもある。
供給過剰で需要が不明確なこの段階において、私たちは今回の対談を通じて、ますます切実になる問題に答えようとする――エージェントの「本質的な課題」と「本物のチャンス」は、いったいどこにあるのか?
今回のディープダイアログでは、現場最前線に立つスタートアップ「Shixiang Tech」の創業者である李広密(リ・グアンミー)氏と、同社AI Research Leadの鐘凱祺(チョン・カイチー、Cage)氏をお招きする。二人は製品形態、技術ロードマップ、ビジネスモデル、ユーザーエクスペリエンス、さらにはインフラ構築に至るまで、多角的にエージェントの現状における真の課題と機会を解体していく。
彼らの思考を追う中で、巨大企業に囲まれたゲームボードの中で、スタートアップが本当のチャンスをどこに見出せるのか。また、「Copilot」から「Agent」へと滑らかに移行する現実的な成長パスがどのように検証されてきたのか。そしてなぜ「コーディング(Coding)」という一見狭い領域が、AGIへの「価値高地」と「鍵となる指標」と見なされているのか――その理由を探る。
最終的には、この対話はより遠い未来へと向かい、人間とエージェントの新たな協働関係、そして次世代のインテリジェントインフラ構築に伴う核心的課題と無限の可能性を垣間見る。
主なポイント
-
汎用エージェント分野で最も優れているのは「モデル即エージェント(Model as Agent)」である。
-
エージェントを作る際、必ずしも「完全自動化されたエージェント」を目指して「終点から始める」必要はない。まずはCopilotから始めることで、ユーザーのデータを収集し、UXを磨き、ユーザーの心をつかんでから、徐々に転換していくことができる。
-
AGIはまずコーディング環境で実現する可能性が高い。この環境はシンプルであり、AIの核となる能力を鍛える場所だからだ。コーディングはまさに「万能の装置」であり、これを得ればAIは創造と構築を行えるようになる。将来、コーディングは大規模モデル産業の90%の価値を占めるかもしれない。
-
AIネイティブ製品とは、人間だけのために作られるものではない。AI自身にもサービスを提供しなければならない。真のAIネイティブ製品とは、人間とAIの両方にサービスを提供する双方向メカニズムを内包したものだ。
-
今日のAI製品は「ツール」から「関係性」へと進化している。人はツールとは関係を築かないが、記憶を持ち、理解し、心の通ったAIとは関係を築く。
以下は『今夜科技談』ライブ配信の内容をまとめたもので、GeekParkが整理した。
01 ハイプの裏側、すでに頭角を現したエージェント製品とは?
張鵬:ここしばらく、誰もがエージェントについて語っており、これは現時点での重要なテーマであり、スタートアップにとって稀有な成長チャンスだと考えられています。
拾象科技はエージェント体系について深い研究を行い、多くの関連製品を体験・分析してきたと聞いています。まずお二人に、最近特に印象に残ったエージェント関連製品と、その理由を教えていただけますか?
李広密:私個人が最も印象に残ったのは二つあります。一つはAnthropicのClaudeのプログラミング能力、もう一つはOpenAI ChatGPTの「Deep Research」機能です。
Claudeについては、主にそのコーディング能力です。私の見解ですが、コーディングはAGIの到達度を測る最も重要な先行指標です。AIが規模的に、エンドツーエンドでソフトウェア開発をできない限り、他の分野での進展も遅くなるでしょう。まずコーディングという環境で強力なASI(人工超知能)を実現し、その後他の領域へと拡張すべきです。つまり、まずデジタル世界でAGIを実現し、それを他分野に応用するという流れです。

世界初のAIプログラマー Devin|画像出典:Cognition Labs
「Deep Research」については、私自身非常に助けになっており、ほぼ毎日使っています。これはまさに検索エージェントで、大量のウェブページや資料を検索してくれ、使い勝手が非常に良く、私の研究範囲を大きく広げてくれました。
張鵬:凱祺さん、あなたの視点では、どのような製品が印象に残りましたか?
鐘凱祺 (Cage):私がエージェントを観察・使用する際の思考モデルを紹介し、それぞれのカテゴリで代表的な製品を挙げましょう。
まずよく聞かれるのが、「汎用エージェント vs 垂直エージェント」の議論です。私たちが考えるに、汎用エージェント分野で最も成功しているのは「モデル即エージェント(Model as Agent)」です。先ほど広密が言及したOpenAIのDeep Researchや、新しく発表されたo3モデルなどは、まさにこの「モデル即エージェント」の典型例です。LLM(大規模言語モデル)、コンテキスト、ツール利用、環境というエージェントのすべてのコンポーネントを統合し、エンドツーエンドで強化学習により訓練されています。その結果、情報検索系のタスクを高精度でこなせるのです。
そこで少し挑発的な意見を述べますが、汎用エージェントのニーズは、基本的に「情報検索」と「軽度のコード作成」の二つに集約され、GPT-4oはこれらをすでに非常にうまく処理しています。つまり、汎用エージェント市場は大手モデル企業の主戦場であり、スタートアップが汎用ニーズのみで大きな存在感を得るのは難しいでしょう。
私にとって印象的だったスタートアップは、ほとんどが垂直(Vertical)領域に集中しています。
ToBの垂直領域を考える場合、人の仕事を「フロント業務」と「バック業務」に分類できます。
バック業務は反復性が強く、高スループットが求められ、長いSOP(標準作業手順)があり、多くのタスクがAIエージェントによって一対一で実行可能で、広い探索空間での強化学習にも適しています。代表的なのは「AI for Science」分野のスタートアップで、Multi-agent system(マルチエージェントシステム)を構築しています。
このシステムには文献検索、実験計画、将来の進展予測、データ分析などの科研タスクが含まれており、Deep Researchのような単一エージェントではなく、科学研究システムに対して高解像度で対応できる複雑なシステムです。特に注目される機能に「Contradiction Finding」(矛盾発見)があります。例えば、トップジャーナルの2つの論文間に矛盾を見つけ出すという対抗的タスクを処理可能です。これは研究型エージェントの興味深いパラダイムを示しています。
フロント業務は人と関わる仕事が多く、外勤が必要です。現時点では音声エージェントが適しており、医療分野の看護師による電話フォローアップ、採用、物流連絡などが該当します。
ここで紹介したいのはHappyRobotという企業で、一見小さなシーンに焦点を当て、物流・サプライチェーン分野での電話連絡を専門に行っています。例えばトラックドライバーが問題に遭遇したり、貨物到着時に、エージェントが迅速に電話をかけることができます。AIエージェントの特徴的な能力として、「7日24時間途切れずに対応し、迅速に反応する」ことが挙げられます。これは物流の大部分のニーズを十分満たしています。
以上二つ以外にも、特に注目すべき分野としてコーディングエージェントがあります。
02 Copilotからエージェントへ、より現実的な成長パスはあるか?
鐘凱祺:コード開発分野では最近、起業熱が高まっており、良い例がCursorです。Cursor 1.0のリリースにより、もともとCopilot(運転支援)のように見えた製品が、完全なエージェント製品へと変貌しました。バックグラウンドでの非同期操作や、メモリー機能など、まさに私たちが想像するエージェントの姿です。
Devinとの比較も非常に興味深く、そこから得られる教訓は、エージェントを作る際に「終点から始める」必要はないということです。最初から完全自動化を目指すのではなく、Copilotから始めるべきです。その過程でユーザーのデータを集め、UXを磨き、ユーザーの心をつかんだ上で、徐々に転換していくのです。中国国内でもMinus AIが同様のアプローチを取っており、初期の製品もCopilot形態からスタートしています。
最後に、「環境」という思考モデルを使って異なるエージェントを分類します。Manusの環境は仮想マシン(Virtual Machine)、Devinの環境はブラウザ、flowithの環境はノートブック、SheetZeroの環境はスプレッドシート、Lovartの環境はキャンバスなどです。この「環境」は強化学習における環境定義に対応しており、参考になる分類法です。

中国のスタートアップチームが開発したflowith|画像出典:flowith
張鵬:Cursorの事例をもう少し詳しく聞かせてください。背後の技術スタックや成長パスはどのようなものですか?
鐘凱祺 (Cage):自動運転の例が非常に示唆的です。今日に至るまで、テスラでさえハンドルやブレーキ、アクセルを完全に取り払ってはいません。これは、多くの重要判断において、AIがまだ人間を超えることができていないことを意味しています。AIの能力が人間と同等であれば、いくつかの重要な決定には人間の介入が必要です。Cursorが最初から明確に理解していたのはまさにこの点でした。
そのため、彼らが最初にフォーカスしたのは、人が最も必要とする機能――自動補完(Autocompletion)でした。この機能をTabキーで起動できるようにし、Claude 3.5のようなモデルの登場により、Tabの正確率を90%以上に引き上げました。この正確率があれば、ひとつのタスクフローの中で5〜10回連続して使用でき、フロー体験が生まれます。これがCursorのCopilotフェーズ第一段階です。
第二段階はコードのリファクタリング(Code Refactoring)機能でした。DevinもCursorもこのニーズに取り組みましたが、Cursorの方が巧妙でした。要望を入力すると、ファイル外で並列的な修正モードを立ち上げ、コードをリファクタリングします。
この機能は当初、正確率は低かったものの、ユーザーの期待がCopilotであったため、受け入れられました。また彼らは、モデルのコーディング能力は必ず急速に向上すると正確に予測していました。そのため、製品機能を磨きながらモデル能力の向上を待つことで、自然とエージェントとしての能力が浮上していったのです。
第三段階が、今日私たちが目にするCursorの状態――比較的エンドツーエンドで、バックグラウンドで動作するエージェントです。背後にはサンドボックスのような環境があり、自分がやりたくないタスクを出勤中に任せておくと、自分の計算リソースを使ってバックグラウンドで処理を進めます。その間、私は自分のコアタスクに集中できます。
そして、非同期のコミュニケーション形式――メールやFeishuメッセージのように――結果を通知してくれます。このようにして、CopilotからAutopilot(あるいはエージェント)への転換がスムーズに実現されました。
肝心なのは、人間のインタラクションの心理を捉えること。初期には同期型のインタラクションを好むユーザーが多いので、そこから大量のユーザーのデータとフィードバックを収集できるのです。
03 なぜ「コーディング」はAGIへの「鍵となる試練の場」なのか?
張鵬:先ほど広密さんは「コーディングはAGIへの鍵であり、この分野でASI(超知能)を実現できなければ、他の分野でも難しい」と述べていました。その理由は何ですか?
李広密:いくつかの論理があります。第一に、コードは最もクリーンで、閉ループが作りやすく、結果が検証可能なデータです。私の仮説ですが、チャットボットにはデータフライホイール(交互やプロセスからデータを収集し、AIモデルを継続的に最適化し、より良い結果と価値のあるデータを生み出すフィードバックループ)がないかもしれません。しかし、コード分野にはデータフライホイールを形成するチャンスがあります。なぜなら、複数回の強化学習が可能であり、コードは多段階の強化学習を行うための重要な環境だからです。
私はコードを単なるプログラミングツールとしてだけでなく、むしろAGIを実現するための環境と捉えています。AGIはおそらくこの環境で最初に実現するでしょう。なぜなら、この環境は最もシンプルであり、AIの核となる能力を鍛えることができるからです。もしAIがエンドツーエンドでのアプリ開発さえできないならば、他の分野ではなおさら難しいでしょう。もし近い将来、基礎的なソフトウェア開発を大規模に代替できないならば、他の分野でも困難です。
さらに、コーディング能力が向上すれば、モデルの指示遵守能力も向上します。例えば長いプロンプトの処理では、Claudeが明らかに優れています。これはおそらく、そのコーディング能力と関連があると考えられます。
もう一点、未来のAGIはまずデジタル世界で実現すると考えています。今後2年間で、エージェントは人間がスマートフォンやPCで行うほぼすべての作業をこなせるようになります。簡単なコーディングで可能なものもあれば、他のバーチャルツールを呼び出すこともできます。つまり、まずデジタル世界でAGIを実現し、高速に走らせること。これが大きな論理です。
04 良いエージェントをどう評価するか?
張鵬:コーディングはまさに「万能の装置」であり、これを得れば、AIは構築と創造ができるようになります。また、プログラミングという分野は比較的構造化されており、AIが力を発揮しやすい。エージェントの良し悪しを評価する際、ユーザーエクスペリエンス以外に、どのような視点でその潜在力を評価しますか?
鐘凱祺 (Cage):良いエージェントには、データフライホイールを構築できる環境が必要であり、そのデータ自体が検証可能でなければならないです。
最近、Anthropicの研究者がよく使う言葉に「RLVR(Reinforcement Learning from Verifiable Reward)」があります。「V」は検証可能な報酬を意味します。コードや数学はまさに検証可能な分野の代表で、タスク完了後にすぐに正誤が判定でき、自然とデータフライホイールが構築されます。

データフライホイールの仕組み|画像出典:NVIDIA
つまり、エージェント製品を構築するとは、このような環境を構築することです。この環境では、ユーザーのタスクが成功または失敗しても構いません。今のエージェントは失敗するものです。重要なのは、失敗時に「ノイズデータ」ではなく、「信号のあるデータ」を収集でき、製品の最適化を指導できることです。これらのデータは、強化学習環境の冷始動データとしても利用できます。
第二に、製品がどれだけ「エージェントネイティブ」であるかです。製品設計時には、人間とエージェントの両方のニーズを考慮しなければなりません。典型的な例はThe Browser Companyです。なぜ新しいブラウザを作るのか?従来のArcは純粋に人間ユーザーの効率向上を目的としていましたが、彼らの新しいブラウザは、将来的にAIエージェント自身が使えるような新機能を多く備えています。製品の基盤設計思想が変わるだけで、これほど重要になるのです。
客観的な評価も非常に重要です。
1. タスク完了率+成功率:まずタスクを最後まで遂行できること。ユーザーは少なくともフィードバックを受け取れます。次に成功率です。10ステップのタスクで各ステップの正確率が90%の場合、最終成功率は35%にしかなりません。各ステップ間の接続を最適化する必要があります。業界の合格ラインは、成功率50%以上かもしれません。
2. コストと効率:計算コスト(トークンコスト)とユーザーの時間コストを含みます。GPT-4oで3分かかるタスクが、別のエージェントでは30分かかる場合、ユーザーにとっては大きな負担です。また、この30分間の計算リソース消費は膨大であり、スケーラビリティに影響します。
3. ユーザー指標:最も典型的なのはユーザーの粘着性です。一度使ってみて、再度使いたくなるか?DAU/MAU比率、翌月残留率、有料化率などが「一時のブーム(five minutes of fame)」に終わらない根本的な指標です。
李広密:もう一つの視点を補足します――エージェントと現在のモデル能力の適合度です。今日、エージェントの80%の能力はモデルというエンジンに依存しています。例えば、GPTが3.5に到達したことで、多輪対話の汎用パラダイムが登場し、チャットボットという製品形態が成立しました。Cursorの台頭も、モデルがClaude 3.5レベルに到達したことで、コード補完能力が成立したからです。
Devinはやや時期尚早に登場した感があり、創業チームがモデル能力の限界をどれだけ理解しているかが非常に重要です。今日および今後6ヶ月でモデルがどこまで到達するかを正確に把握することが、エージェントが達成できる目標と深く関係しています。
張鵬:「AIネイティブ」とは一体何でしょうか?AIネイティブ製品とは、人間だけのために作られるものではなく、AI自身にもサービスを提供しなければなりません。
言い換えれば、製品の中にAIの調整に使える合理的なデータがなく、将来のAI作業環境を整備していないならば、それはAIを単なるコスト削減・効率化ツールとして扱っており、そのような製品の生命力は限定的で、技術の波に簡単に飲み込まれてしまいます。真のAIネイティブ製品とは、人間とAIの双方にサービスを提供する双方向メカニズムを内蔵したものでなければなりません。つまり、AIがユーザーに奉仕するとき、ユーザーも同時にAIに奉仕しているかどうか?
鐘凱祺 (Cage):この概念がとても好きです。現実世界にはエージェント用のデータは存在しません。誰もタスク遂行時に自分の思考プロセスを丁寧に分解して記録しません。ではどうするか?一つは専門のアノテーション会社を使う方法、もう一つはユーザーを活用し、ユーザーの実際の使用方法とエージェントの実行プロセスを捕捉することです。
張鵬:エージェントを通じて人間がAIにデータを「供給」する場合、どのようなタスクが最も価値があるでしょうか?
鐘凱祺 (Cage):AIにデータを提供するよりも、AIの強みをどう拡大するかを考えるべきです。例えば科学研究分野。AlphaGo以前、人類は囲碁や数学が最も難しいと思っていた。しかし強化学習を導入すると、これらはAIにとってむしろ最も簡単な領域となった。科学分野でも同じで、人類の歴史で、あらゆる学問の隅々まで精通する学者は長らく存在しない。しかしAIなら可能なのです。だからこそ、このようなタスクに多くのデータとサービスを提供すべきです。このようなタスクの成果は検証しやすく、将来は人間がAIのために「試験管を振って」結果が正しいか否かを伝えることで、AIと共に科学の木を育てていくことになるかもしれません。
李広密:初期のデータ冷始動は不可欠です。エージェントを作ることはスタートアップを起こすことと同じで、創業者は必ず冷始動を行い、自ら行動しなければなりません。次に、環境の構築が重要になり、エージェントの進む方向を決めます。さらに重要なのは報酬(Reward)システムの構築です。環境と報酬のこの二要素が非常に重要です。この基盤の上に、エージェントの起業家はエージェントの「CEO」を務めればよいのです。今日のAIは人間には読めないが動作するコードを書けるようになっています。強化学習のエンドツーエンドのロジックを完全に理解する必要はありません。環境を整え、報酬を設定すればよいのです。
05 エージェントのビジネスモデルはどうなる?
張鵬:最近ToB領域のエージェントが増えています。特に米国では、それらのビジネスモデルや成長モデルに変化はありますか?あるいは新たなモデルが登場していますか?
鐘凱祺 (Cage):現在最も顕著な特徴は、ますます多くの製品がC向けから入り込み、企業組織内で下から上へ(bottom-up)と普及していることです。もっとも典型的なのがCursorです。これ以外にも、多くのAIエージェントやCopilot製品が、ユーザー自身が率先して使い始めています。これはもはや、伝統的なSaaSのようにCIOを説得し、一対一で契約を結ぶ必要がないことを意味します。少なくとも最初のステップでは不要です。
もう一つ面白い製品はOpenEvidenceで、医師というグループをターゲットにしています。まず医師層を獲得し、その後医療機器や薬品の広告を埋め込んでいきます。これらのビジネスは病院と最初から交渉する必要がなく、病院との交渉は非常に遅いためです。AIスタートアップにとって最も重要なのはスピードです。技術的防衛線だけでは不十分で、このような下から上へのアプローチで成長する必要があります。

AI医療ユニコーン OpenEvidence|画像出典:OpenEvidence
ビジネスモデルに関して、現在の傾向として、コストベース(Cost-based)の価格設定から徐々にバリューベース(Value-based)の価格設定へと移行しています。
1. コストベース:これは従来のクラウドサービスのように、CPU/GPUのコストにソフトウェア価値を上乗せする形です。
2. 回数課金:エージェントでは「アクション」ごとに課金する方式があります。前述の物流エージェントで、トラックドライバーに一回電話するごとに数十セントを請求するなどです。
3. ワークフロー課金:より抽象度の高いのは「ワークフロー」単位での課金です。例えば、物流注文全体の処理完了に対して課金する。これはコストからは遠く、価値に近づいており、実際に業務に参加していることを意味します。ただし、ある程度収束したシーンが必要です。
4. 成果課金:さらに上位の形態は「結果」に対する課金です。エージェントの成功率が高くないため、ユーザーは成功した結果に対してのみ支払いを希望します。これはエージェント企業が製品を極めて精巧に磨き上げていることを要求します。
5. エージェント自体の課金:将来、本当に「エージェント」単位で課金する時代が来るかもしれません。例えばHippocratic AIという会社はAI看護師を開発しており、米国で人間の看護師を雇うと時給40ドルですが、彼らのAI看護師は時給9〜10ドルで、コストを四分の一に削減しています。米国のような高人件費市場では、これは非常に合理的です。将来エージェントの性能がさらに向上すれば、ボーナスや年末賞与さえ支払えるかもしれません。これらはすべてビジネスモデルの革新です。
李広密:私たちが最も期待するのはバリューベースの価格設定です。例えばManus AIがウェブサイトを一つ作成した場合、その価値は300ドルに値するか?アプリを作成したら5万ドルに値するか?しかし、今日のタスク価値はまだ適切に定価できません。良い評価・価格設定手段を確立することは、起業家が探求すべき課題です。
また、凱祺が言及した「エージェント単位の課金」は、企業が従業員と雇用契約を結ぶのに似ています。将来、エージェントを雇用するとき、身分証明書を発行するのか?労働契約を結ぶのか?これはまさにスマートコントラクトです。将来、Crypto分野のスマートコントラクトがデジタル世界のエージェントにどう応用されるか楽しみです。タスク完了後、適切な評価・価格設定手段を通じて経済的利益を分配する。これがエージェントとCryptoのスマートコントラクトの融合のチャンスかもしれません。
06 人間とエージェントの協働関係はどうなる?
張鵬:最近、コーディングエージェント分野でよく話題になる二つの言葉があります。「Human in the loop」と「Human on the loop」ですが、これは何を意味しているのでしょうか?
鐘凱祺 (Cage):「Human on the loop」は、人間がループ内の意思決定を極力減らし、重要な瞬間にだけ関与するという考え方です。テスラのFSDのように、システムが危険な判断に直面すると、人間に警告を出してハンドルやブレーキの操作を委ねます。バーチャル世界では、これは非リアルタイムで非同期の人間-AI協働を意味します。AIが判断に迷う重要な決定に対して、人間が介入できるのです。
「Human in the loop」は、AIが時々「ping」として人間に確認を求める形態です。例えばMinus AIでは、右半分に仮想マシンがあり、ブラウザ内で何をしているかリアルタイムで確認できます。まるで白箱が開いているようで、エージェントの意図を概ね把握できます。
この二つの概念は白黒の関係ではなく、連続体(spectrum)です。現在は「in the loop」が多く、多くの重要なポイントで人間が承認する必要があります。理由は簡単で、ソフトウェアがまだその段階に達していないため、問題が起きても責任を負う人間が必要だからです。ハンドルとブレーキは取り除けません。
予想されるのは、将来、高反復性のタスクでは、最終的に人間は要約だけを見ることになり、自動化度合いは非常に高くなることです。難題に関して、例えばAIに病理報告を読ませる場合、「偽陽性率」を高く設定し、より「異常あり」と判断しやすくして、それらのケースをメールで人間の医師に「on the loop」で送信するようにできます。こうすれば、人間の医師が再検査するケースは増えますが、AIが「陰性」と判断したすべてのケースはそのまま承認できます。病理報告の20%しか本当に難しいとすれば、人間医師の作業帯域はすでに5倍に拡大したことになります。つまり、「in」か「on」かにこだわらず、良い結合点を見つけさえすれば、人間とAIの協働をうまく構築できるのです。
李広密:鵬さんが尋ねられたこの質問の背景には、巨大なチャンスがあります。それは「新しいインタラクション」と「人間とエージェントの協働方法」です。これは簡単に言えばオンライン(同期)とオフライン(非同期)です。例えば会議のライブ配信はリアルタイムでなければなりません。しかし、私がCEOとして同僚にタスクを割り振る場合、プロジェクトの進行は非同期です。
より大きな意味は、エージェントが大規模に普及した後、人間とエージェントがどのように協働・インタラクションし、エージェント同士がどのように協働するか、これは非常に探求価値があります。現在はまだテキストでAIとやりとりしていますが、将来のエージェントとのインタラクションは多種多様になります。一部はバックグラウンドで自動実行され、一部は人間が前で監視する必要があります。新しいインタラクションの探求は、巨大なチャンスです。
07 能力過剰、需要不足、エージェントの「キラーアプリ」はいつ現れる?
張鵬:コーディングエージェントは全体としてIDEの延長線上にあります。将来変化はありますか?もし皆がこの道に殺到すれば、後発はCursorをどう追い越すのでしょうか?
鐘凱祺 (Cage):IDEはただの環境であり、別のIDEを模倣しても価値は大きくありません。しかし、IDEや別の優れた環境の中でエージェントを作ることは価値があります。ここで考えるべきは、ユーザーが専門開発者だけなのか、それとも「市民開発者」――多くの自動化ニーズを持つホワイトカラー労働者――にまで拡大できるかです。
今欠けているのは何か?供給能力ではありません。Cursorのような製品は、AIのコーディング供給能力を10倍、100倍にまで拡大しています。かつて製品を作ろうとすれば、ITチームを外部に発注し、試行錯誤のコストが非常に高かった。今では理論上、一言言えば月額20ドルの費用で試せるのです。
今欠けているのはニーズです。皆、古いニーズに新しい技術を当てはめようとしており、「ハンマーを持って釘を探す」状態です。現在のニーズの大半はランディングページや基本的なトイウェブサイトの作成です。将来、収束した製品形態を見つける必要があります。これはかつておすすめエンジンが登場したときと似ており、優れた技術でしたが、後に「フィード」という製品形態が登場することで、一般大衆に届きました。しかし、AIコーディング分野ではまだ「フィード」のようなキラーアプリが見つかっていません。
李広密:私はコーディングが、大規模モデル産業の段階的な価値の90%を占める可能性があると考えます。この価値はどのように成長するのか?現時点の第一幕は、全世界の3000万人のプログラマーにサービスを提供することです。例を挙げれば、Photoshopは世界の数千万人の専門デザイナーにサービスを提供しており、ハードルが非常に高かった。しかし、剪映、Canva、美图秀秀が登場したことで、5億人、さらにはそれ以上のユーザーがこれらのツールを使えるようになり、より人気のあるコンテンツを作れるようになりました。
コードの利点は、創造的表現のプラットフォームであることです。社会の90%以上のタスクはコードで表現可能なので、創造のプラットフォームになる可能性があります。かつてアプリ開発のハードルは非常に高く、大量のロングテールニーズが満たされていませんでした。ハードルが大幅に下がれば、これらのニーズが喚起されます。私は「アプリの大爆発」を期待しています。モバイルインターネットが生み出した最大のデータはコンテンツですが、AIのこの波が生み出す最大のコンテンツは、新しいアプリソフトウェアかもしれません。これはYouku、iQiyiのような長尺動画プラットフォームとDouyinの違いに似ています。大規模モデルをカメラに例えると、その上にDouyinや剪映のようなキラーアプリが生まれるかもしれません。これがいわゆる「Vibe Coding(雰囲気プログラミング)」の本質かもしれません。それは新しい創造のプラットフォームです。
張鵬:エージェントの出力価値を高めるには、入力(input)も非常に重要になります。しかし、製品や技術面で、入力品質を高める方法はありますか?
鐘凱祺 (Cage):製品面では、「ユーザーが製品を使いこなせないのはユーザーの問題だ」と思ってはいけません。最も重要なキーワードは「コンテキスト」です。エージェントは「コンテキスト認識(Context Awareness)」を確立できるか?
例を挙げれば、大手IT企業でコードを書く場合、エージェントは現在のコードだけを見るのではなく、会社全体のコードベース(Codebase)を見たり、Feishuでプロダクトマネージャーや同僚と交わした会話、過去のコーディング習慣やコミュニケーションスタイルも見る必要があります。こうしたコンテキストをエージェントに提供することで、入力がより効率的になります。
したがって、エージェント開発者にとって最も重要なのは、メモリーメカニズムとコンテキスト接続能力を十分に高めることです。これはエージェントインフラ(Infra)の大きな課題でもあります。

エージェントの課題:優れたメモリーメカニズムとコンテキスト接続|画像出典:Retail Science
さらに、開発者の観点からは、強化学習の冷始動データをどう準備するか、明確な報酬をどう定義するかも重要です。この報酬の背後には、ユーザーの要求が不明確な場合に、どのようにそのニーズを分解するかという問題があります。例えば、OpenAIのDeep Researchは、質問が不明確な場合、最初に4つの誘導的な質問を提示します。これにより、対話の中で自分自身のニーズを明確にしていくことができます。
今日のユーザーにとって、最も重要なのは、ニーズを明確に表現する方法と、ニーズをどう検証するかです。必ずしも「終点から始める」必要はありませんが、良し悪しの概算予想は持つべきです。プロンプトもコードのように、明確な命令と論理を持つべきです。これにより、多くの無駄な出力を避けることができます。
李広密:二点補足します。第一に、コンテキストの重要性です。私たち内部ではよく議論しますが、コンテキストが整えば、新たなAlipayやPayPal級のチャンスが生まれるかもしれません。
昔のEコマースはGMV(商品売上高)を見ていましたが、これからはタスク完了率を見るようになります。タスク完了には、片方がインテリジェンス、もう片方がコンテキストです。例えば個人サイトを作成する場合、Notionのノート、WeChatのデータ、メールデータをすべてAIに提供すれば、個人サイトのコンテンツは非常に豊かになります。
第二に、自律学習です。環境を整えた後、エージェントは反復的に改善できることが非常に重要です。持続的な学習・反復ができなければ、最終的にはモデル自体に吸収されてしまいます。なぜなら、モデルは学習システムだからです。上一波のモバイルインターネットでは、機械学習や推薦を行わなかった企業は大きくなりませんでした。今回もエージェントがエンドツーエンドの自律学習・反復をうまくできなければ、大きくなることはできないでしょう。
08 大手企業の競争の中、どのような変化とチャンスがあるか?
張鵬:将来、エージェントの能力がスーパーアプリケーションインターフェースの形で登場するのか、それともさまざまなシーンに分散するのか、どう判断すればよいでしょうか?
鐘凱祺 (Cage):私が見ている大きな傾向として、第一に、間違いなくマルチエージェント(Multi-agent)になることです。一つのタスクであっても、Cursorのような製品では、コード補完と単体テストを行うのは異なるエージェントかもしれません。なぜなら、それぞれに必要な「性格」や得意分野が異なるからです。
第二に、エントリーポイントに変化はあるか?エントリーポイントは二次的な問題だと思います。まず、多くのエージェントを持ち、それらと協働するようになることです。これらのエージェントは背後でネットワークを支え、私はこれを「Botnet」と呼んでいます。例えば将来の買い物では、60%以上の固定消費がエージェントによって行われるかもしれません。
生産性のシーンでも同様です。将来のプログラマーの毎日の定例会議は、エージェント同士の協働に置き換わり、指標の異常や製品開発の進捗を相互に通知するようになります。こうしたことが起こった後で、エントリーポイントの変化が現れるかもしれません。そのとき、APIの呼び出しはもはや主に人間によるものではなく、エージェント同士の呼び出しになります。
張鵬:OpenAI、Anthropic、Google、Microsoftなど、能力のある大手企業は、エージェントに関してどのような判断と行動を取っているのでしょうか?
李広密:私の頭に浮かぶキーワードは「分化」です。昨年は皆がGPT-4を追いかけていましたが、今はできることが増え、各社が分化し始めています。
最初に分化したのがAnthropicです。OpenAIより遅れており、総合力も強くないため、コーディングに特化しています。彼らはAGIへの大方向で最初の大きな手札を握ったと感じます。それはコーディングエージェントです。彼らはコーディングを通じてAGIを実現でき、指示遵守能力やエージェント能力を獲得できると考えており、論理的に整合性のあるサイクルです。
しかし、OpenAIの手札はもっと多いです。第一にChatGPTがあり、Sam Altmanはこれを10億DAUの製品にしようとしているかもしれません。第二に「o」シリーズのモデル(GPT-4oなど)があり、汎化能力をさらに高める期待が寄せられています。第三にマルチモーダルで
TechFlow公式コミュニティへようこそ
Telegram購読グループ:https://t.me/TechFlowDaily
Twitter公式アカウント:https://x.com/TechFlowPost
Twitter英語アカウント:https://x.com/BlockFlow_News














