
AI投資家の2026年における不安:モデルがすべてを飲み込むとき、スタートアップ企業の「護城河」はどこまで残っているのか?
TechFlow厳選深潮セレクト

AI投資家の2026年における不安:モデルがすべてを飲み込むとき、スタートアップ企業の「護城河」はどこまで残っているのか?
2026年投資家向けAIパニック:資金をすべてAnthropicとNVIDIAに投じて、あとは家に帰って眠ってしまおう。
著者:サラ・グオ
翻訳・編集:TechFlow
TechFlow 読者向け解説:大規模言語モデル(LLM)がすべてのベンチマークで人間を圧倒し始めた今、投資家たちはある種の絶望に陥っている。「Anthropic と NVIDIA 以外に、他に何を投資すべきなのか?」——この問いに対し、シリコンバレー屈指の投資家が、データと実例をもって明確な答えを提示する。真の「モアット(護城河)」はベンチマーク上には存在しない。それは、計測不能な領域にこそ隠されているのだ。
2026年半ば、投資家の間ではAIに対する一種の「精神的錯乱」が蔓延している——それは絶望である。「もはや投資対象などない。全資金をAnthropicとNVIDIAに投じて、あとは帰宅するしかない」という感情だ。
私はそのような感覚をこれまで一度も抱いたことはない。モデルが私よりも何世代も先を行っていることは、すでに確信している。市場価格でAnthropicやNVIDIAの株式を購入することに喜んで同意するし、私が知る中で最も優秀な友人たちも、モデルの自己改善が近い将来に成功するとほぼ確信している。にもかかわらず、私はその絶望を感じていない。
しかし、この絶望は無知によるものではない。その論理はこうだ。もしモデルがあらゆるタスクにおいて継続的に性能を向上させ続けるなら、その上に構築されるあらゆる企業は単なる薄いラッピングにすぎず、いずれ吸収される運命にある。生き残れる価値は、計算資源(算力)と最先端の重み(ウェイト)のみとなる。
ソフトウェアを例に挙げよう。これは「絶望論者」が最も根拠とする事例だ。Devinは2024年に発表された際、標準的なソフトウェアベンチマークで課題のわずか13%しか解決できず、ほとんど無視された。それから1年半後、最高水準のエージェントは80点以上を達成し、ゴールドマン・サックスや米陸軍の現場で実際に業務をこなしている。ほぼすべての人が同じ誤った教訓を導き出した:「モデルがソフトウェア工学を飲み込んだ」。しかし、モデルがソフトウェア工学のなかで最も計測可能な部分を飲み込んだとき、我々は多くのチームが長年気づいていた事実を再認識しつつある——すなわち、「エンジニアリングはそもそも計測されにくい」こと、そして「最も計測しやすい部分=唯一重要な部分」ではないということだ。
MITのメルト・デミレル氏とその共同研究者たちがついに数値を提示した。10万人を超える開発者を対象に調査した結果、最新のコーディングエージェントによって書かれるコード量は約180%増加したが、実際にリリースされるコード量は約30%の増加にとどまった。つまり、コードを書くコストは下がったが、残りの部分は依然として人間による作業であり、かつ極めて重要である。もちろん、純粋な影響は依然として驚異的だ。
ベンチマークとは、あなたが計測できるものであり、計測できるものは、それに対して訓練できるものでもある。だからこそ、コーディングエージェントが最初に成熟したのだ。コンパイラは無料の検証器であり、テストスイートも無料の検証器だ。答え自身が無料で自分を検証できる状況では、検証に照準を合わせて繰り返し磨き上げ、ついにそれを凌駕するまで訓練できる。しかし、「テストをパスする」という事実は、決して「この変更が、理由不明の3つのモジュールが存在し、誰も自分が書いたとは認めたくないcronジョブに頼ってぎりぎり維持されている10年もののレガシーコードベースにとって正しいか?」という問いへの答えにはならない。
そのような「正しさ」はランキングから読み取れないし、実際にはどんな情報源からも読み取れない。複雑なシステムが本当に有効かどうかを知るには、現実世界で十分な期間をかけて運用し、その結果から学ぶしかない。より賢いモデルがあっても、世界そのものが速く回るわけではない。Google規模のシステムについて、誰も単体テストを実行して緑のチェックマークを信じたりはしない。なぜなら、それが何年にもわたって実際のトラフィックを耐え抜いたからこそ、信頼されるのだ。このような「正しさ」は、単にプライベートなものであるだけでなく、資本では崩せない、ゆっくりと築かれる「モアット」でもある。楽観主義者ですら、時計の針は飛ばせないと認めている。OpenAIの推論モデルの先駆者であるノアム・ブラウン氏は最近、エージェントの1年間にわたる評価の唯一信頼できる方法は……「実際に1年間運用すること」だと記している。
ゲイブ・ペレイラが述べたように、真の自動化とは単にモデルが良くなることではない。それは、製品・モデル・ワークフロー・企業全体が連動して前進することであり、その4要素のうち3つは組織の速度でしか動かない。
「動く人間」こそがベンチマークが到達できない領域だ。疑い深いパートナーに自らの業務遂行方法を変えてもらうこと、再構築プロセスにおいてチームの結束を保つこと——これらがまさにその例である。だからこそ、CEOを採用する際には、人の対応能力が分析能力と同等か、それ以上に重要とされる。より賢いモデルが登場しても、この重み付けは変わらない。フィードバックは曖昧であり、時間スケールは数年に及ぶ。信頼は個人に属するものだ。私が知る限りのすべての企業が、すべてのエンジニアに最先端のコーディングモデルを導入しているが、そのエンジニア組織を同様のスピードで変革できたところは一つもない。導入には1四半期がかかった——なんと素晴らしいトークン成長率の四半期だったことか!だが、再構築には数年がかかる。
目に見えるのは、失われていくものだ。価値ある仕事は構造的に「見えない」ものである:ランキングに載せられるものは何であれ、それに対して訓練可能であり、したがって計測可能なものはすべて、商品化への道を歩んでいる。この過程には時間がかかり、完全には終わることはないが、その方向性は決して逆転しない。Ripplingの友人マット・マキンニスの金銭的表現を使えば:「一般質問への回答に使われるトークンはほとんど価値がない。なぜなら、誰のモデルでも答えられるからだ。一方、あなたの会社のデータに基づいて推論を行うトークンは、はるかに高い価値を持つ。それは、単に「一見妥当」なだけでなく、あなたが本当に望むことを実行するからだ」。
可視化可能な仕事は、二つの方向から「飲み込まれる」。下方から——タスクの飽和:ある仕事が安価に検証可能になると、買い手は「どのモデルが実行したか?」ではなく、「いくらかかるか?」を問うようになる。仕事はその週で最も安価なオープンソースまたは蒸留モデルに移る。そこでの利益率は、どこでも最終的には重要になる。上方から——研究所は、モデル自身の「足場」を飲み込もうとしている。検索、安価/高価なAPI呼び出しのルーティング、ツール活用、さらには推論戦略に至るまで、かつてモデルを包んでいたすべての装置が徐々に重みの中に取り込まれ、最終的には「ラッパー=モデル」そのものになる。これが「最先端の吸収」である。利益率の圧力も逆向きに作用する:汎用エージェントはあらゆるタスクに対応しなければならず、コストが高くなる。一方、特化型アプリケーションはワークフローを最適化して、ごく少ないトークン消費で動作させることができる。さらに、これらのトークンを販売する研究所とは異なり、差額を自社が確保できる。
そこで、あらゆるタイプの仕事に対して、次の2つの問いを立てることができる。第一に、「その『正しさ』はプライベートであり、構築コストが非常に高いか?——すなわち、特定の個人のデータ内部にしか存在しない真実か?」第二に、「その仕事は隔離されているか?——すなわち、あなたがアクセスできないシステム内に閉じ込められているか?」。これらをタスクの飽和度と照らし合わせれば、2×2のマトリクスが得られる。公開された答えを持つ飽和タスクは「商品化トークン」であり、オープンソースモデルが支配する領域だ。公開された答えを持つ最先端タスク——すなわちコーディングベンチマークの舞台——は研究所が勝つ領域である。なぜなら、評価が無料である場合、「所有していること」にはあまり価値がないからだ。賞は最後の角、すなわち「訓練不可能な領域」に存在する:正しさがプライベートな領域にのみ存在する最先端の仕事。これは、AIネイティブの先駆者たちが推論クラウドをホストする場所で見られる。そのクラウドで生成されるトークンの大半は、汎用のオープンソースモデルではなく、カスタムモデルによって生成されている。
この最後の角へと至る壁の高さは一様ではない。単一の開発者が使うおもちゃのようなコードベースは移植可能かつ標準化されており、よじ登るのは容易だ。銀行の本番システムはそのどちらでもなく、SWE-Bench Verifiedで2%賢くなったからといって、root権限が与えられることはない。
能力は多くのものを飲み込むが、より優れたモデルが、プライベートな基本的事実を公的なものに変えることはない。モデルはライセンスを保持せず、責任を負う署名もせず、会社の文書を所有することもない。答えが間違っていたとしても、訴えられる当事者にはなれない。ここでのボトルネックは「知能」ではない。「許認可」であり、「責任」なのである。誰よりも遥かに賢いモデルを想像することもできるが、それでもそのモデルは「門をくぐること」を許可されなければならず、誰かがその行動に署名しなければならない。
その「門」には鍵と南京錠がある。鍵は「環境」だ。あなたがセキュリティ審査を通過し、統合が完了し、結果に署名する契約が締結されるまで、AIが有用な仕事をしたかどうかを検証することはできない。つまり、システム内部で信頼されるまでは、検証は不可能なのだ。南京錠は「ユーザー」だ。現在、米国の大半の医師は毎日OpenEvidenceを開いているが、どれだけの計算資源を投入しても、その習慣を買えるわけではない。研究所が明日、完璧な医療モデルを訓練したとしても、医師の習慣やカリフォルニア大学サンフランシスコ校(UCSF)の意思決定プロセスに参入することはできない。なぜなら、信頼は関係性に基づいてゆっくりと築かれ、ユーザーの黙諾を必要とし、彼らの勾配降下を消去するものではないからだ。
これもまた「仕事」である。アプリケーションは、目立たない仕事を通じて、訓練不可能な領域に自らの地位を築く:モデルが行動を起こせるよう、企業のプライベートな現実を整理し、モデルに行動のためのツールを提供し、顧客と協働してその従業員の現実を変えることだ。翻訳サービスを提供する企業は、コピーされにくい——しかも翻訳という仕事は永遠に続く。統合とメンテナンスは、関係性と同じ長さだけ続き、その分野の専門エンジニアとツールを顧客のそばに配置するチームが勝利する。
一例を挙げよう。一流の「ホワイトショーウェア」(伝統的・大手)法律事務所では、M&A(合併・買収)部門だけで年間約1,000件の取引を処理する。機密性をはじめとする多くの理由から、数百人のアシスタントがそれぞれ顧客ファイルをデスクトップにダウンロードして汎用エージェントに読ませることはできない。仮に可能だったとしても、得られる知識は断片的であり、アシスタント一人ひとりの修正を追うだけのもので、取引全体の流れを見通すことはできない。重要な信号は「取引レベル」に存在し、取引には固有の「形状」がある:M&Aであれば秘密保持契約(NDA)、条項リスト、デューデリジェンス、売買契約、附属文書、引渡しチェックリスト;知的財産訴訟であれば動議、証拠開示、先行技術、さらに動議……といった具合だ。各業務領域には独自の「形状」があり、弁護士もツールも領域横断で流用できない。そして、法律事務所が実際に解決しようとしている問題は、このすべての上位層に位置する:各業務領域を並列で稼働させること——トップパートナーが同時に数百件の案件を管理し、新案件を取り込み、アシスタントを教育するように。こうした法律事務所のトランスフォーメーションは、単一の評価項目として定義できるようなものではない。それは、データ分析的手法を用いて実施される運営者の仕事であり、目標は極めて曖昧、フィードバックは不完全、時間スケールは長期に及び、静止しない環境の中で行われる。
残念ながら、不可視の価値は販売も困難だ。その理由は、商品化が難しい理由と同じである:企業は外部からAIが自社の運用をトランスフォームするかどうかを判断できない。ベンチマークが判断できないのと同じだ。そこで、最も強力な企業は、外部からの証明を試みることを止め、内部に踏み込み、結果に価格をつけるようになる。Sierraは、エージェントが顧客の問題を解決したときにのみ課金し、人間に問題を振り分けた場合は課金しない。つまり、価格そのものが評価基準となるのだ。ただし、これはSierraが「解決済み」の定義を自ら持っている場合にのみ成立する。CognitionのDevinもソフトウェア分野で同様のアプローチを採用し、「パフォーマンス保証」を提供しているが、これはあなたが信頼を得て参入したシステム内でしか結果を保証できるものではない。
サービストークン——誰もが「純粋な商品」と呼ぶレイヤーでさえ、実際には商品のようには機能していない。最高のAIネイティブ企業は、自社のサービスをBasetenやFireworksなど、一つか二つのプロバイダーに集中させている。なぜなら、1トークンあたりのコストは計画通りに商品化されるが、実際のトラフィックにおける信頼性や希少な計算資源への保証されたアクセスは、そうはならないからだ。あなたがサービスを提供する「場所」は、使用する「モデル」を選択することとは異なる選択肢なのだ。価格だけが、推論において真正に商品のように機能する唯一の要素である。
よく提起される反論の一つは、「研究所はあなたのサプライヤーなのだから、自社の第一級製品を原価以下で運用してあなたを搾取したり、APIアクセスを取り消して自ら市場を制覇したりしないのか?」というものだ。これは「絶望論」の真の姿であり、モデル層が単独プレイヤーのゲームである場合にのみ成立する。明らかにそうではない——それはむしろ、3.5者による死闘であり、国際的なプレイヤーの群れが訓練で6か月遅れており、発展同盟の規模は昨年の5倍になっている。顧客はサプライヤー間の競争を望んでおり、研究所は、特定のアプリケーションを潰すことよりも、市場シェアを獲得することを好む。
研究所が正面衝突する市場で、この傾向は顕著に見られる。消費者向けチャット分野では、最高のモデルが単純に勝つことは決してない。ChatGPTは長年にわたる実際の競争を経て首位を維持しており、現在失いつつあるシェアは、より優れたモデルではなく、Androidおよび検索の力によってGeminiに流れている。Anthropicは、予測市場(およびインターネットの雰囲気)において現在「最も優れたモデルを持つ企業」と評価されているが、消費者向けチャットではほとんど存在感を示さず、むしろ企業向けおよびコーディング向けビジネスを築いている。より優れたモデルが、最もコアなアプリケーションにおいて競合他社のユーザーを奪えないなら、病院の電子カルテや銀行の責任体制を、単なる統合によって突破することもできない。今日の一般市民の選択は、単にコーディング能力に基づくものではない。最先端が混雑し続けている限り、その上層には価値が存在する。
もし仕事が外部から評価できないなら、内部の誰かが「良い答えとは何か?」を決定しなければならない。この決定こそが、まさに「ゲーム全体」である。こうした決定が十分に積み重なり、文書化されれば、それがベンチマークとなる。Harveyは法務分野向けにベンチマークを公開し、Sierraは音声エージェント向けに同様のベンチマークを公開した。あなたは、その分野で既に使われているベンチマークの提供者になることで、「その分野にとって『良い』とは何か?」を定義する権利を獲得する。こうした企業は、実際の採用という戦いを通じて、この権利を勝ち取ったのだ。
現実の金銭を動かす評価は、企業ごとに異なり、プライベートなものである:「この会社が、この種の取引において『良い仕事』と認めるとする基準は何か?」——これは未完成であり、法律の深さゆえに、いかなる公共テストも霞んでしまうほどだ。OpenEvidenceは、安全な臨床的答えがどのようなものかを定めようとしている。これらは「真の計測」ではなく、「真であること」「良いこと」に関する判断であり、それが他者を評価する基準となるまで書き記される。そして、基礎研究所がどれほど優れていても、これを書くことはできない。なぜなら、そのような権威は、その分野の内部にしか存在しないからだ。この権威は、すでにそこに座っている者に落ち着きがちである。ベテランの弁護士が法務ベンチマークを策定する。安全な臨床的答えの定義は医師に委ねられる。そして「解決済み」という概念は、すでに顧客を抱える企業が「それが意味すること」を定義する。
最先端の吸収は絶えず上昇している。なぜなら、我々はますます多くの仕事を計測する方法を学び、計測可能なものは次々と飲み込まれていくからだ。訓練不可能な地面は、その上に立つ者たちの足元で縮小し続け、防御可能な地点を見つけ出して休息することはできない。常にまだ評価されていないものに向かい、常に再保険をかけ続けなければならない。狭いタスクにおいて、自社のプライベートデータと独自の評価基準を用いれば、最先端に到達し、重要な場所で汎用モデルを凌駕できる。その専門モデルこそが、モアットの一部となるのだ。一方で、汎用モデル上で競争することは、資本の戦いにほかならず、最も多くの計算資源を持つ者に敗北する。これは、浅いアクセスと可視化可能なタスクに依存する企業の罠である。それは、汎用タスクの範囲内で最先端の訓練を上回ることで生存を図ろうとする日を約束するが、その勝者はデータセンターの規模によって決まりがちであり、結末は独立したチャンピオンではなく、計算資源に恵まれた企業への売却となることが多い。
これらすべては「防御」である。より難しいのは「攻撃」——すなわち、まず何を構築するかという選択だ。私が1年間探していたのはまさにこれであり、おそらく3度は見つけた。モデルはここでは助けにならない。モデルはあなたが指示したことを何でも実行するが、何を指示すべきかを教えてはくれない。それをベンチマークすることはできず、したがって訓練することもできない。これこそが既存企業がすべてを奪わない理由でもある:彼らは既に持っている地盤を守り続け、次の何かは、私たちの誰よりも早く用途を発見した者から生まれるのだ。もしかしたら、「意図」こそが、計算資源よりも希少な投入資源なのかもしれない。
「絶望論」は半分正しかった。確かに薄いラッピング層は吸収されつつあり、今日「企業」として見える多くのものは、実際には薄いラッピングにすぎない。しかし、残りの部分についての主張は間違っている。そのメカニズムは明確だが、行き着く先は不明だ。私は「方向性」に賭ける:知能は絶えず安価になり、価値はモデルが到達できない少数の場所へと滑っていく。訓練不可能な領域こそが、歴史を伴う価値の所在なのだ。だから、その領域に踏み込み、目立たない翻訳を始め、そこで「良い」とは何を意味するかを書き始めよ。誰かが必ずそうするからだ。今年、最も多く引用されたベンチマークスコアは、すぐに価値を失う領土の地図であり、誰が「良い」という言葉の定義権を失おうとしているかを告げる通知でもある。
TechFlow公式コミュニティへようこそ
Telegram購読グループ:https://t.me/TechFlowDaily
Twitter公式アカウント:https://x.com/TechFlowPost
Twitter英語アカウント:https://x.com/BlockFlow_News














