
智譜、月之暗面、小米が同席するラウンドテーブル会議:大規模言語モデル(LLM)が本格的に「実用化」へと進みつつあるが、計算リソース(算力)は依然として最大のボトルネック
TechFlow厳選深潮セレクト

智譜、月之暗面、小米が同席するラウンドテーブル会議:大規模言語モデル(LLM)が本格的に「実用化」へと進みつつあるが、計算リソース(算力)は依然として最大のボトルネック
楊植麟が司会を務め、羅福莉と張鵬が核心的な情報を提供したこの「ロブスターディスカッション」では、AIの将来について徹底的に議論されました。
著者:陳駿達
智東西(Zhixi Dongxi)3月27日報道:本日、中关村フォーラムにおいて、智譜CEO張鵬氏、月之暗面CEO楊植麟氏(モデレーターを務める)、小米MiMo大規模言語モデル責任者羅福莉氏、無問芯穹CEO夏立雪氏、香港大学助教授黄超氏が稀に見る形で一堂に会し、オープンソース大規模言語モデルとエージェントの将来の方向性について深遠な対談を行った。
この対談は、現在最も注目を集めるOpenClawから始まり、登壇者らは全員、「エージェントこそが、大規模言語モデルを真に『仕事をさせる』ものである」という見解で一致した。OpenClawは大規模言語モデルの能力の限界を拡張するが、同時にモデルに対してもより高い要求を課す。智譜では、長期間にわたる計画立案や自己デバッグといった能力の研究を進めている一方、羅福莉氏のチームは、アーキテクチャの革新を通じてコストを削減し、処理速度を向上させ、さらにはモデルの自己進化を実現することに注力している。
インフラストラクチャーもまた、エージェントのペースに合わせて進化しなければならない。夏立雪氏は、現行のコンピューティングリソースシステムおよびソフトウェアアーキテクチャは、依然として人間向けに設計されており、エージェント向けではないと指摘。これは、人間の操作能力によってエージェントの活躍の余地が制約されていることを意味する。ゆえに、我々は「Agentic Infra(エージェント指向インフラ)」の構築が必要となる。
複数の登壇者によれば、オープンソースは、大規模言語モデルおよびエージェントの発展を推進する核となる原動力の一つである。香港大学助教授の黄超氏は、オープンソースエコシステムの繁栄こそが、エージェントを単なる「遊び」から、真の「労働者」としての地位へと押し上げる鍵であると述べた。コミュニティによる共同構築を通じてのみ、ソフトウェア・データ・技術のすべてがエージェントネイティブな形態へと全面的に移行し、持続可能なグローバルAIエコシステムが最終的に形成されるという。
さらに、登壇者らは、大規模言語モデルの価格引き上げ、トークン使用量の爆発的増加、AIが今後12か月間に直面するキーワードなど、多様なトピックについても議論を交わした。以下は、このラウンドテーブルフォーラムの主要な見解である:
1、張鵬氏:モデルが大型化すると推論コストも相応に上昇する。智譜が最近実施した価格引き上げ策は、実際には正常な商業的価値への回帰であり、長期的な低価格競争は業界全体の発展を阻害する。
2、張鵬氏:エージェントなどの新技術の爆発的普及により、トークン使用量は10倍に増加したが、実際の需要は100倍にも及ぶ可能性があり、未充足の需要が依然として膨大であるため、今後12か月間における最大の課題は引き続き「コンピューティングリソース(算力)」である。
3、羅福莉氏:基盤大規模言語モデルプロバイダーの視点から見ると、OpenClawは基礎大規模言語モデルの下限を保証しつつ、上限を引き上げている。中国製オープンソースモデル+OpenClawによるタスク完了度は、すでにClaudeに非常に近づいている。
4、羅福莉氏:DeepSeekは中国国内の大規模言語モデルプロバイダーに勇気と自信を与えた。一見「効率性を犠牲にした妥協」と思われるようなモデル構造の革新が、実際には真の変革を引き起こしており、限られたコンピューティングリソースのもとで、業界全体が最高水準の知能を発揮できるようになっている。
5、羅福莉氏:今後1年間のAGI(汎用人工知能)の進展において、最も重要なことは「自己進化」である。「自己進化」によって、大規模言語モデルは一流の科学者のように自ら探求を始め、唯一「新たなものを生み出す」場所となる。小米では既にClaude Code+最先端モデルを活用し、研究効率を10倍に高めている。
6、夏立雪氏:AGI時代が到来した際には、インフラストラクチャーそのものがエージェントであるべきであり、インフラ全体を自律的に管理し、AI顧客のニーズに応じてインフラを継続的に進化・反復改善していく必要がある。
7、夏立雪氏:OpenClawはトークン使用量の爆発的増加を引き起こした。今日のトークン消費速度は、かつて3G時代初期のモバイル通信データ利用量が月間100MBに制限されていた頃の感覚に似ている。
8、黄超氏:今後多くのソフトウェアは、もはや人間を対象として設計されなくなるだろう。ソフトウェア・データ・技術はすべて「エージェントネイティブ(Agent-Native)」の形態へとプログラムされていく。人間は将来的に、ただ「自分を楽しませるGUI」だけを使えば十分になるかもしれない。
以下は、このラウンドテーブルフォーラムの完全記録である:
01. OpenClawは「足場」、大規模言語モデルのトークン消費は依然として3G時代
楊植麟氏:本日、モデル層・コンピューティングリソース層・エージェント層にそれぞれ属する、極めて重量級のゲストの方々をお招きでき、誠に光栄です。本日の主なキーワードは「オープンソース」と「エージェント」です。
まず、現在最も話題となっているOpenClawについてお尋ねします。皆さんが日常的にOpenClawあるいは類似の製品をご利用になる中で、最も想像力を刺激された点、あるいは最も印象に残った点は何でしょうか?また、技術的観点から、本日のOpenClawおよび関連するエージェントの進化をどのように評価されますか?

張鵬氏:私はかなり早い段階からOpenClawを自ら試していました。当時はまだ「Clawbot」と呼ばれていました。プログラマー出身でもあるので、こうしたツールを自分でいじって遊ぶのは、私にとって自然な体験でした。
私がOpenClawから得た最大の突破口、あるいは新鮮さとは、それがもはやプログラマーやオタクだけの専売特許ではなくなり、一般の人々も容易に最先端のモデル能力——特にプログラミングおよびエージェント機能——を利用できるようになった点にあると考えます。
そのため、これまで私が他の方々と交流する際に、私はOpenClawをむしろ「足場(scaffold)」と呼ぶことを好んでいます。それは、モデルの基盤の上に、堅牢で使いやすく、かつ柔軟な足場を提供するものです。誰もが自分の意志に従って、多数の基盤モデルが提供する斬新な機能を自在に活用できるのです。
かつては、コードを書けない、あるいは他の関連スキルを習得していないために、自分のアイデアが制約を受けていたかもしれません。しかし、今日ではOpenClawがあれば、非常にシンプルな会話だけでそれを実現できます。
OpenClawは私に非常に大きな衝撃を与え、あるいはこの事象を再認識させました。

夏立雪氏:実は、私が最初にOpenClawを使ったときは、あまり慣れることが出来ませんでした。なぜなら、私は大規模言語モデルとのチャット形式でのやり取りに慣れており、OpenClawを使うと反応が非常に遅く感じられたからです。
しかし後に気づいたのですが、OpenClawは従来のチャットボットと本質的に異なる点があります。それは、私を支援して大規模なタスクを完遂してくれる「人間」のような存在であるということです。そこで私は、より複雑なタスクをOpenClawに依頼するようになりましたが、実際にそれが非常に優れた結果をもたらすことに気づきました。
この経験は私に非常に強い感触を与えました。モデルは当初、トークン単位で会話をしていたのが、今やエージェントとなり、「ロブスター(龍蝦)」とも称される存在へと進化し、ユーザーのタスクを代わりに遂行できるようになりました。このような変化は、AI全体に対する想像力の広がりを大きく促進しました。
同時に、そのようなエージェントの実現には、システム全体に対して非常に高い能力が求められます。これが、私がOpenClawを最初に使ったときに、少し重いと感じた理由でもあります。インフラストラクチャーレイヤーのベンダーとして、私はOpenClawがAIの背後にある大規模システムおよびエコシステム全体に、新たな機会と課題をもたらしているのを目の当たりにしています。
現在私たちが利用できるすべてのリソースは、このような急激な成長期を支えるには不十分です。例えば、我が社の場合、1月末からほぼ2週間ごとにトークン使用量が倍増しており、現在では約10倍にまで増加しています。
このような速度を前回経験したのは、3G携帯電話でデータ通信量を消費していた頃です。今のトークン使用量は、まさに当時の月間100MBという制限の時代と同じような感覚です。
このような状況下では、すべてのリソースをより良く最適化し、より効果的に統合することが求められます。そうすることで、AI分野に限らず、社会全体のあらゆる人々がOpenClawのAI能力を活用できるようになります。
インフラストラクチャー分野のプレイヤーとして、私はこの時代に非常にワクワクしており、深い感銘を受けています。また、ここにはまだ多くの最適化の余地があり、私たちが今後も探求・試行すべき領域がたくさんあると確信しています。
02. OpenClawが国産モデルの上限を引き上げ、インタラクション方式の突破が極めて重要
羅福莉氏:私はOpenClawを、エージェントフレームワークの進化過程において、極めて革命的かつ破壊的な出来事として位置付けています。
実際、私の周りで非常に深くコーディング作業を行う人々の多くは、今でも第一選択としてClaude Codeを用いています。しかし、OpenClawを実際に使う人々は、そのエージェントフレームワークにおける多くの設計がClaude Codeを凌駕していることに気づいているはずです。最近のClaude Codeの多くのアップデートは、実はOpenClawに追いつこうとする動きなのです。
私がOpenClawを使用した際の感想は、このフレームワークが私自身の想像力を、いつでもどこでも自由に拡張できるようにしてくれたという点です。Claude Codeは当初、私のデスクトップ上で創造性を延長するものでしたが、OpenClawは、いつでもどこでも創造性を延長できます。
OpenClawがもたらす核心的価値は主に二点あります。第一に、それがオープンソースであることです。オープンソースという点は、コミュニティが深く関与し、このフレームワークの進化を重視・推進する上で非常に有利であり、これは極めて重要な前提条件です。
このようなAIフレームワーク、つまりOpenClawのようなものは、非常に大きな価値を持っています。それは、国内で開発された、閉じられた商用モデルに近い水準を持つが、まだ完全には追いついていないモデルの上限を、非常に高く引き上げてくれた点です。
ほとんどのシナリオにおいて、この「国産オープンソースモデル+OpenClaw」のタスク完了度は、すでにClaudeの最新モデルに非常に近くなっています。また、その下限もしっかり確保されています——ハーネス(Harness)システム、あるいはそのスキル(Skills)体系など、多角的な設計により、タスクの完全性と正確性が保証されています。
まとめると、基盤大規模言語モデルプロバイダーの開発者という立場から見れば、OpenClawは基礎大規模言語モデルの下限を保証し、上限を引き上げています。

さらに、私がこのフレームワークがコミュニティにもたらしたもう一つの価値として挙げたいのは、それによって人々の認知が喚起され、大規模言語モデルの外側に、エージェントというレイヤーが非常に大きな想像空間を秘めていることに気づかせてくれた点です。
最近、私も観察していますが、コミュニティにおいて研究者だけでなく、ますます多くの人々がAGIの変革に参加し始めています。そして、ハーネス(Harness)、スキャフォールド(Scaffold)といった、より強力なエージェントフレームワークに触れる人が増えています。こうした人々は、ある意味でこれらのツールを使って自分自身の一部の仕事を代替し、同時に自分の時間を解放して、より創造的な活動に集中しようとしているのです。
黄超氏:まずインタラクション方式の観点から見て、OpenClawが今回これほどヒットした理由の一つは、おそらくそれがより「生きている人間らしい」体験を提供したからでしょう。我々がエージェントの開発に取り組み始めたのは一、二年前ですが、それ以前のCursorやClaude Codeなどのエージェントは、どちらかといえば「ツール感」が強く感じられました。一方、OpenClawは初めて「インスタントメッセージアプリに埋め込まれる」という形で、人々が心のなかで描く「個人版ジャーヴィス(J.A.R.V.I.S.)」に最も近い感覚を提供しました。これは、インタラクション方式における一つの画期的な突破だったと思います。
もう一点、このフレームワークがコミュニティにもたらした啓発は、「エージェントループ(Agent Loop)」という、シンプルでありながらも非常に効率的なフレームワークが、再び実用可能であることが証明されたという点です。同時に、我々は再び問い直さなければなりません:我々は、あらゆることをこなす「万能型スーパーエージェント」を必要としているのか、それとも、軽量級のオペレーティングシステムや「足場」としての、より優れた「小さなマネージャー」を必要としているのか?
OpenClawが提示した考え方は、こうした「小さなシステム」または「ロブスターOS(龍蝦オペレーティングシステム)」とそのエコシステムを通じて、人々が本当に「遊びたい」と思う気持ちを喚起し、ひいてはエコシステム内のすべてのツールを活性化させるというものです。
スキル(Skills)、ハーネス(Harness)といった機能が出現したことで、ますます多くの人々がOpenClawのようなシステム向けのアプリケーションを開発し、さまざまな業界に価値を提供できるようになります。この点は、自然とオープンソースエコシステムと緊密に結びついています。私にとっては、これら二点が我々が得た最大の示唆です。
03. GLM新モデルは「仕事」のために特化、価格引き上げは正常な商業的価値への回帰
楊植麟氏:張鵬氏にお尋ねします。最近、智譜が新しいGLM-5 Turboモデルを発表されたと伺いました。これはエージェント機能の大幅な強化を図ったものと理解しています。この新モデルが他のモデルとどう異なるのか、ぜひご紹介ください。また、価格引き上げの戦略も観測されていますが、これはどのような市場シグナルを反映しているのでしょうか?
張鵬氏:非常に良いご質問ですね。先日、我々は緊急的にバージョンアップを実施しましたが、これは単に我々の全体的なロードマップ上の一つの段階を、予定より早く公開したものに過ぎません。
主な目的は、従来の「単純な会話」から「実際に仕事をする」ことへの転換です——これは、最近多くの人々が共通して感じている変化です:大規模言語モデルは、もはや単に会話ができるだけではなく、実際に人間の仕事を手伝えるようになっています。
しかし、「仕事をする」という行為の裏には、非常に高い能力要件が隠されています。モデルは、自ら長期間にわたるタスク計画を立て、繰り返し試行錯誤を行い、コンテキストを圧縮し、デバッグを行う必要があります。また、マルチモーダルな情報を処理する必要もあるかもしれません。したがって、モデルに求められる能力は、従来の会話指向の汎用モデルとは全く異なります。GLM-5 Turboは、こうした点に特化して強化されており、特にご指摘の通り、「仕事をさせて、72時間連続でループを回す」といった用途に向けて、多くの改良が施されています。
また、トークン消費に関する問題も非常に注目されています。賢いモデルに複雑なタスクをやらせると、トークン消費量は莫大になります。一般の方々はその実感が薄いかもしれませんが、請求書を見れば、お金が非常に速く減っていくことに気づくでしょう。そのため、我々はこの点でも最適化を実施しており、複雑なタスクにおいても、より効率的なトークン使用効率でタスクを完了できるようにしています。全体としてのモデルアーキテクチャは、依然としてマルチタスク協調型の汎用アーキテクチャですが、能力面では特定の方向性に重点を置いて強化されています。
価格引き上げについては、説明は簡単です。前述の通り、今や単に一つの質問をして一つの回答を得るという単純な関係ではなく、背後には非常に長い推論チェーンが存在します。多くのタスクは、コードを書いたり、基盤インフラストラクチャーと直接やり取りしたり、繰り返しデバッグ・修正したりする必要があります。その消費量は非常に大きいのです。一つの複雑なタスクを完了するために必要なトークン量は、単純な質問への回答に比べて、10倍乃至100倍にも及ぶことがあります。
したがって、価格にはある程度の引き上げが必要であり、モデルも大型化し、推論コストも相応に上昇しています。我々はこれを、正常な商業的価値への回帰として位置付けています。なぜなら、長期的な低価格競争は、業界全体の健全な発展を妨げるからです。これは、我々が商業化を健全なサイクルに収束させ、継続的にモデル能力を最適化し、より優れたサービスを提供していくためのものです。
04. より効率的なトークン工場の構築、インフラストラクチャーそのものもエージェントであるべき
楊植麟氏:現在、オープンソースモデルが増加し、エコシステムを形成しつつあり、さまざまなモデルが異なるコンピューティングリソースプラットフォーム上で、ユーザーにさらに多くの価値を提供しています。トークン使用量の爆発的増加とともに、大規模言語モデルは、トレーニング時代から推論時代へと移行しつつあります。ここで立雪氏にお尋ねしますが、インフラストラクチャーの観点から見た場合、この推論時代は無問芯穹にとって何を意味するのでしょうか?
夏立雪氏:我々はAI時代に誕生したインフラストラクチャーベンダーであり、現在は智譜、Kimi、Mimoなどにもサポートを提供し、皆さんがトークン工場をより効率的に活用できるようにしています。また、多くの大学や研究機関とも協力関係を築いています。
そのため、我々は常に次のような問いを考え続けています:AGI時代には、どのようなインフラストラクチャーが必要なのか?そして、それをどのように段階的に実現・推進していくのか?短期・中期・長期それぞれのフェーズで解決すべき課題について、我々はすでに十分な準備を整えています。
現時点で最も直接的な課題は、先ほど皆さんが話題にした通り、OpenClawが引き起こしたトークン使用量の爆発的増加です。これは、システム効率に対するさらなる最適化要求を生んでいます。価格調整も、この要求への一種の応答です。
我々は、ソフトウェアとハードウェアを一体化したアプローチで、この課題に取り組んでいます。例えば、我々はほぼすべての種類の計算チップを接続しており、中国国内の十数種類の異なるチップおよび数十の異なるコンピューティングクラスターを統一的に接続しています。これにより、AIシステム内におけるコンピューティングリソースの不足という問題を解決できます。リソースが不足しているときの最善の方法は、まず利用可能なリソースをすべて活用し、それぞれのコンピューティングリソースを「刃の先端」に集中させ、最大限の変換効率を発揮させることです。
したがって、このフェーズで我々が解決すべき課題は、いかに「より効率的なトークン工場」を構築するかです。これに関して、我々は多くの最適化を実施しており、モデルとハードウェア上のVRAMなどのリソースとの最適な適合を図っています。また、最新のモデル構造とハードウェア構造の間に、より深い化学反応が生まれるかどうかを検討しています。ただし、現時点の効率問題の解決は、単に標準化されたトークン工場を構築したに過ぎません。

エージェント時代を前にして、我々はこれだけでは不十分であると確信しています。なぜなら、エージェントは人間のように振る舞う存在であり、タスクを委託できるからです。私は強く信じていますが、現在のクラウドコンピューティング時代の多くのインフラストラクチャーは、プログラムや人間のエンジニアを対象として設計されており、AIを対象として設計されていません。これは、我々がインフラストラクチャーを構築し、その上に人間向けのインターフェースを設置し、さらにその上にエージェントを接続するという、いわば「人間の操作能力でエージェントの活躍の余地を制約する」方式を採用していることに他なりません。
例えば、エージェントはミリ秒単位で思考・タスク発行が可能です。しかし、Kubernetes(K8s)のような基盤機能は、そのような要請にはまだ対応しておらず、なぜなら人間がタスクを発行するのは通常分単位だからです。したがって、我々はさらに先進的な能力を求めています。これを我々は「Agentic Infra(エージェント指向インフラ)」、すなわち「知的トークン工場」と呼び、無問芯穹が現在取り組んでいるものです。
さらに先を見据えると、真のAGI時代が到来した際には、インフラストラクチャーそのものがエージェントであるべきだと我々は考えています。我々が構築するこの工場も、自己進化・自己反復改善が可能な、自律的な組織であるべきです。それは、CEOのような存在を持ち、そのCEO自体がエージェント(例えばOpenClaw)であり、インフラ全体を管理し、AI顧客のニーズに基づいて自ら要件を出し、インフラを反復改善するものです。これによって、AI同士のよりよい結合が可能になります。我々はまた、エージェント同士のより良い通信や、Cache to Cacheのような機能の実現など、いくつかの探索も行っています。
したがって、我々が常に考え続けているのは、インフラストラクチャーとAIの発展が切り離された状態であってはならないということです——「要望を受け取ったらそれを実装する」だけではなく、豊かな化学反応を生むべきだということです。これが真の意味でのソフトウェア・ハードウェアの協調、アルゴリズムとインフラストラクチャーの協調であり、無問芯穹が常に目指してきた使命です。ありがとうございました。
05. 「効率性のための妥協」によるイノベーションにも意義あり、DeepSeekは国内チームに勇気と自信を与えた
楊植麟氏:次に福莉氏にお尋ねします。小米は最近、新モデルの発表やその背後にある技術のオープンソース化を通じて、コミュニティに大きな貢献をしています。そこでお尋ねしますが、小米が大規模言語モデル分野で持つ独自の強みとは何でしょうか?
羅福莉氏:まずは「小米の独自の強み」という話題を一旦脇に置いて、中国における大規模言語モデル開発チーム全体の強みについてお話したいと思います。このテーマには、より広範な価値があると考えます。
およそ2年前、中国の基盤モデルチームはすでに素晴らしい突破を遂げ始めました——限られたコンピューティングリソース、特にNVLinkの相互接続帯域幅が制約された環境下において、こうした低性能なコンピューティングリソースの制約をどう乗り越えて、一見「効率性のための妥協」と思われるようなモデル構造のイノベーション(例:DeepSeek V2/V3シリーズ、MoE、MLAなど)を実現したか、という点です。
その後、こうしたイノベーションが引き起こしたのは、まさに変革でした:一定のコンピューティングリソースのもとで、いかに最高レベルの知能を発揮するかという課題です。これはDeepSeekが、中国国内のすべての基盤モデルチームに与えた勇気と自信です。今日、我々の国産チップ、特に推論チップやトレーニングチップは、もはやこうした制約を受けていませんが、まさにこうした制約のもとで、我々はより高いトレーニング効率とより低い推論コストを実現するための、新たなモデル構造の探求を促されたのです。
最近登場したHybrid Sparse、Linear Attentionなどの構造、例えばDeepSeekのNSA、KimiのKSA、小米の次世代構造向けHySparseなどは、MoEという一代前の構造とは異なる、エージェント時代を意識したモデル構造のイノベーションです。
なぜ私は構造のイノベーションがこれほど重要だと考えるのか?実は、OpenClawを実際に使ってみると、それは使うほどに使いやすくなり、使うほどに賢くなることが分かります。その前提となるのは、推論におけるコンテキスト長です。長いコンテキストは、我々が長年議論してきたテーマですが、現在、本当に長いコンテキスト下で優れたパフォーマンスを発揮し、かつ推論コストが非常に低いモデルは、果たして存在するでしょうか?
実際には、多くのモデルが1Mや10Mのコンテキストを扱えないわけではありません。問題は、1Mや10Mのコンテキストを推論するコストが非常に高く、速度が非常に遅いという点にあります。コストを下げ、速度を上げることによってこそ、本当に高生産性価値のあるタスクをモデルに任せることができ、長いコンテキスト下でより高度な複雑なタスクを完了させ、さらにはモデルの自己反復改善を実現できるのです。
いわゆる「モデルの自己反復改善」とは、モデルが複雑な環境において、非常に長いコンテキストを活用して自己進化を遂げることを意味します。この進化は、エージェントフレームワークそのものに対するものでもあり、モデルのパラメータそのものに対するものでもあります——なぜなら、コンテキストそのものが、パラメータに対する一種の進化であると私は考えるからです。したがって、いかに長いコンテキストを扱えるアーキテクチャを実現し、推論側で長コンテキストを効率的に処理するかは、全方位的な競争なのです。
私が先ほど述べた通り、ロングコンテキストに配慮した効率的なアーキテクチャの構築——これは、およそ1年前から我々が探求し始めた課題です。今、本当に長期間のタスクにおいて安定性と高い上限性能を実現するためには、ポストトレーニング段階で我々が現在反復しているイノベーションパラダイムが必要です。
我々は、より効果的な学習アルゴリズムを構築する方法、1M・10M・100Mのコンテキストにおいて、現実の環境で長期的な依存関係を有するテキストをいかに収集するか、そして複雑な環境から生成される軌跡データをいかに統合するかを模索しています。これが、我々が現在ポストトレーニング段階で取り組んでいることです。
しかし、さらに長期的に見れば、大規模言語モデル自体の急速な進歩に加え、エージェントフレームワークの支援によって、立雪氏が述べた通り、推論需要はここ数ヶ月で既に約10倍に増加しています。それならば、今年のトークン使用量の増加は、100倍に達するでしょうか?
そこには、さらに別の次元の競争が入り込んでくる——コンピューティングリソース、すなわち推論チップ、さらにはエネルギーに至るまでです。したがって、もし皆さんがこの問題について一緒に考えてくれるならば、私は皆さんからさらに多くを学べるかもしれません。ありがとうございました。
06. エージェントには三大キーモジュールあり、マルチエージェントの爆発的増加が衝撃をもたらす
楊植麟氏:非常に洞察に富んだご発表でした。次に黄超氏にお尋ねします。黄超氏はNanobotという非常に影響力のあるエージェントプロジェクトを開発され、また多くのコミュニティファンを擁されています。そこで、エージェントのハーネス(Harness)やアプリケーションの観点から、今後注目すべき技術的方向性はどのようなものでしょうか?
黄超氏:もしエージェントの技術を抽象化するとすれば、その鍵は「Planning(計画立案)」「Memory(記憶)」「Tool Use(ツール活用)」という三つのモジュールにあると考えます。

まず「Planning(計画立案)」についてです。現在の課題は、長期間にわたるタスクや非常に複雑なコンテキスト(例えば500ステップ以上)において、多くのモデルが十分な計画立案能力を発揮できない点にあります。これは、モデルがこうした隠れた知識を本質的に備えていないためであり、特に複雑な専門分野において顕著です。したがって、今後は、さまざまな複雑なタスクに関する知識をモデルに固定化することが、一つの方向性となるかもしれません。
もちろん、SkillやHarnessは、計画立案に伴うエラーを一定程度緩和する役割を果たしています。なぜなら、それらは高品質のSkillを提供することで、モデルが難しいタスクを遂行できるように導いているからです。
次に「Memory(記憶)」についてです。Memoryは、情報の圧縮が不正確であったり、検索が不正確であったりするという問題を抱えているように感じられます。特に長期間のタスクや複雑なシナリオでは、Memoryへの負荷は急増します。現在、OpenClawなどのプロジェクトで使われているのは、実際には最も単純なファイルシステム式のMarkdownフォーマットのMemoryであり、共有ファイルを介して運用されています。今後、Memoryは階層化設計へと進化し、より汎用性を持たせる必要があります。
正直に申し上げると、現在のMemoryメカニズムは汎用性を確保するのが非常に困難です——なぜなら、コーディングのシナリオ、ディープリサーチのシナリオ、マルチモーダルのシナリオなど、それぞれのデータモダリティが大きく異なるため、こうしたMemoryに対する適切な検索・インデックス作成を、同時に高効率で行うことは、常にトレードオフの関係にあります。
また、現在OpenClawによってエージェントの作成ハードルが大幅に低下したため、今後は単一の「ロブスター(龍蝦)」ではなく、複数のロブスターが存在する可能性があります。実際、Kimiでも「Agent Swarm(エージェント群)」というメカニズムが登場しています。今後、各個人が「一群のロブスター」を持つようになるかもしれません。
単一のロブスターと比較して、「一群のロブスター」がもたらすコンテキストの爆発的増加は想像に難くなく、Memoryへの負荷は非常に大きくなります。現在、こうした「一群のロブスター」が生み出すコンテキストを管理するための優れたメカニズムは、まだ存在していません。特に、複雑なコーディングや科学研究の発見といったシナリオでは、モデルやエージェントアーキテクチャー全体に対する負荷は非常に大きいのです。
最後に「Tool Use(ツール活用)」、すなわち「Skill(スキル)」についてです。現在のSkillが抱える問題は、かつてMCPが抱えていた問題と類似しています——MCPは当時、品質保証が不十分であり、セキュリティリスクもあったのです。現在のSkillも同様で、数多く存在するように見えても、高品質なSkillは非常に少なく、低品質なSkillはエージェントのタスク遂行精度を損ないます。また、悪意ある注入の問題もあります。したがって、「Tool Use(ツール活用)」の観点からは、コミュニティがSkillエコシステム全体をより良く整備し、さらにSkillが実行中に自ら新しいSkillを進化させることが求められるかもしれません。
総括すると、「Planning(計画立案)」「Memory(記憶)」「Tool Use(ツール活用)」——これらは現在のエージェントが抱える痛みのポイントであり、同時に今後の可能性の方向性でもあります。
07. 今後12か月間のキーワード:エコシステム、持続可能なトークン、自己進化、コンピューティングリソース(算力)
楊植麟氏:両名のゲストが、異なる視点から同じ課題——タスクの複雑度の増加に伴うコンテキストの爆発的増加——について議論されました。モデルの側面からは、ネイティブのコンテキスト長を延長することで対応できます。また、エージェントハーネスの側面からは、Planning(計画立案)、Memory(記憶)、マルチエージェントといったメカニズムによって、特定のモデル能力の下でも、より複雑なタスクをサポートできます。私は、この二つの方向性が今後さらに化学反応を起こし、タスク遂行能力をさらに高めていくと考えます。
最後に、開放的な展望をお願いします。各位が、今後12か月間の大規模言語モデルの発展の傾向およびご期待を、それぞれ一語で表現してください。今回はまず黄超氏からお願いします。
黄超氏:12か月という期間は、AIという分野においては、まるで永遠のように長く感じられ、12か月後にどんな状況になっているのか、まったく見当がつきません。
楊植麟氏:本来ここには「5年」と書いてありましたが、私が変更しました。
黄超氏:はい、そうですよね(笑)。私が思いつく一語は「エコシステム(ecosystem)」です。現在、OpenClawによってコミュニティは非常に活気に満ちていますが、今後エージェントが単なる「遊び」や「新鮮味」ではなく、真の「労働者」として定着し、レンガを積むようなツール、真の「共同作業者(coworker)」となるためには、エコシステム全体の努力が必要です。特に、オープンソースによって技術探求やモデル技術を公開した後は、コミュニティ全体が共同で構築していく必要があります——モデルの反復改善、スキルプラットフォームの反復改善、そしてさまざまなツールの開発など、すべてが「ロブスター(龍蝦)」を意識したエコシステムの構築に向けて、より良く整備される必要があります。
もう一つ明らかになっている傾向は、今後のソフトウェアは、果たして人間を対象として設計されるのでしょうか?私は、今後多くのソフトウェアは、もはや人間を対象として設計されないのではないかと考えます——なぜなら、人間にとって必要なのはGUIであり、今後はエージェントネイティブな利用を前提とした設計になるからです。興味深いことに、人間はただ「自分を楽しませるGUI」だけを使えば十分になるかもしれません。そして、現在のエコシステムは、GUIやMCPからCLI(コマンドラインインターフェース)のモードへと移行しつつあります。これにより、エコシステムはソフトウェアシステム・データ・さまざまな技術をすべてエージェントネイティブな形態へと変えていく必要があります。そうすることで、全体の発展はさらに豊かになるでしょう。
羅福莉氏:期間を1年に限定することは、非常に意味のあることです。5年という期間であれば、私の心の中でのAGIの定義からすれば、すでに実現していると考えます。したがって、今後1年間のAGIの進展において、最も重要なことを一言で表すとすれば、「自己進化」です。
この言葉は一見、やや神秘的ですが、過去1年間で何度も言及されてきたものです。しかし、最近私はこの「自己進化」について、さらに深い理解を得ました。あるいは、「自己進化」を実現する具体的かつ実行可能な方法について、より現実的な見通しを得ました。その理由は、強力なモデルが登場したことにより、チャット(Chat)パラダイム下では、事前学習モデルの上限をまったく発揮できていなかったところ、エージェントフレームワークがその上限を活性化させたからです。モデルに長時間のタスクを実行させると、モデルが自ら学習・進化する様子が確認できるのです。
単純な試みとしては、既存のエージェントフレームワークに検証可能な条件制約を追加し、ループを設定して、モデルが目標の最適化を繰り返し行うようにします。すると、モデルが継続的により優れた解決策を提案する様子が確認できます。この自己進化は、すでに1~2日間程度の実行が可能になっていますが、これはタスクの難易度に左右されます。
例えば、より優れたモデル構造の探索といった科学研究では、モデル構造にはPPL(Perplexity)の低下といった評価基準が存在するため、こうした明確なタスクにおいて、モデルがすでに2~3日間、自主的に最適化・実行できることが確認されています。
したがって、私の視点では、「自己進化」は唯一「新しくものを創り出す」ことができる場所です。それは、既存の人間の生産性を代替するものではなく、一流の科学者が世界にまだ存在しないものを探究するように、モデルが自ら探求する
TechFlow公式コミュニティへようこそ
Telegram購読グループ:https://t.me/TechFlowDaily
Twitter公式アカウント:https://x.com/TechFlowPost
Twitter英語アカウント:https://x.com/BlockFlow_News











