
a16z:OpenAI 們不會殺死所有應用層機會,放下你的 AI 焦慮症
TechFlow Selected深潮精選

a16z:OpenAI 們不會殺死所有應用層機會,放下你的 AI 焦慮症
OpenAI 會殺死所有 AI 應用?a16z:你走錯路了。
作者:Joe Schmidt IV
編譯:深潮 TechFlow
深潮導讀:AI 創業者最大的焦慮是什麼?OpenAI 和 Anthropic 會不會殺死所有應用層機會。a16z 合夥人用"黃磚路"理論給出答案:大模型實驗室只會主導橫向、單步驟任務,真正的機會在垂直場景、多步驟工作流和合規要求嚴格的領域。這篇文章對 AI 創業者和投資人都值得一讀。
我最近反覆被創始人和潛在員工問到一個問題:AI 應用層還有什麼可做的,還是 OpenAI 和 Anthropic 會殺死一切?
這個問題背後有一種特殊的 AI 焦慮症。有些人得出結論,唯一能避免淪為永久底層的地方,要麼是待在大型實驗室內部,要麼是去前沿領域做機器人、硬科技之類——理論上任何"實驗室碰不到的東西"。如果每一塊軟件都將被吃掉,要麼被 Codex 或 Claude 直接吸收這些工作,要麼被未來的模型讓你做的東西變得沒必要,那就跑吧!
聽著,我和幾乎所有人一樣是 AI 最大主義者,我認為他們說對了一半。實驗室確實在吞噬巨大的應用表面。但"應用層"不是一個同質化的機會。正確的框架是你是在黃磚路上,還是在奧茲國的其他地方。
黃磚路是我們對實驗室正在走的路徑的簡稱,他們在那裡投入了巨大的資源。實驗室最適合解決代碼生成、寫作或圖像創作這類問題,是因為這些問題隨著原始模型能力的提升而改善:每一美元花在預訓練和後訓練上都能提高產品質量。與此同時,奧茲國的其他地方居住著更復雜、通常是垂直化的問題,這些問題不像給商業用戶一個橫向工具加上標準工具和計算機使用那麼簡單。價值更多來自圍繞模型的腳手架,這些腳手架使輸出在特定行業內值得信賴、合規且可操作,而不僅僅是底層模型的原始能力(儘管那仍然重要!) .
我們正實時看到這一點,因為 OpenAI 和 Anthropic 實際上在告訴市場,他們無法用通用 AI 同事解決所有問題。他們宣佈了大規模的前置部署合資企業,圍繞為企業配置和定製他們的模型來建立完整的公司。如果你認為下一次模型發佈就能解決問題,你不會往這些項目裡砸數十億美元。
所以如果你想通過構建 AI 應用致富——避開黃磚路,在奧茲國的其他地方構建。以下是我們學到的,以及我們一些投資組合創始人學到的,關於什麼有效。
黃磚路
如果你要創辦一家公司,黃磚路是最明顯的路徑,但也是最危險的。拿一個高性能模型,插入一些現成的連接器(如 G Drive、Slack、Salesforce、Notion、GitHub),然後在上面發佈某種智能體編排層。太神奇了!
問題在於這正是實驗室用 Cowork 和 Codex 在做的事。顯然,他們擁有模型,這給了他們更好的利潤率、控制權,以及對任何下游者施加定價權的能力。但也許最重要的是,他們還擁有定義其產品擅長解決什麼的架構選擇。到目前為止,他們在模型加工具調用模式上很謹慎,而這正是路上的橫向低步數工作所需要的。即使創業公司能以某種方式超越 Codex 或 Claude Code,實驗室也有巨大的分發渠道和 AI 領域最大的品牌光環。
如果你是一家 AI 應用公司,使用相同的連接器運行這套玩法,下面沒有子智能體或配置,也沒有分發渠道,你很可能走在通往無處的路上。
奧茲國的其他地方
對創業公司來說並非全是厄運和陰霾。在黃磚路之外有巨大的機會,創業公司在那裡有清晰的路徑來擁有他們的客戶並解決複雜問題。
這些企業正在構建智能體體驗,其中模型被編織進工具、自動化和集成(換句話說:軟件)的複雜網絡中,導致這些創業公司默認就是垂直化的。它們可以專注於多步驟和多參與者的工作,使用針對角色和垂直領域特定任務的子智能體,這是 Anthropic 和 OpenAI 用橫向平臺無法觸及的:跨系統收集上下文,然後路由給必須在不同階段批准的多個人。這通常涉及一個或多個遺留系統,傾向於需要確定性結果,不接受模糊性,有時與某些有價值的商業成果相關聯。實驗室明白這些問題有多有價值:這就是為什麼他們在構建自己的外包配置商店,也是為什麼存在整個高端強化學習業務類別。
為什麼奧茲國的其他地方不會被巫師擁有
對上述觀點的回應是,迄今為止,押注模型/實驗室不會改進一直是個相當糟糕的交易。它們很可能會繼續變得更好,並最終蠶食這些應用層業務服務的市場。
實驗室肯定會改進,但我認為奧茲國的其他地方有幾種方式可以隨著時間推移保護自己:
數據和學習飛輪:
你內化的很多東西不在任何訓練集裡——不成文的行業規範、未記錄的標準、存在於從業者腦海中的部落知識。這些都不在公開網絡上。再多的訓練計算也無法替代身處這些知識實際存在的工作流中。這裡有兩個疊加的飛輪:一個是跨客戶的——當你看到同一問題的更多變體時累積的模式——另一個是客戶內部的——特定決策背後的原因、未說出的例外、公司自己的經驗法則,這些只能通過與系統的真實交互才能浮現。
即使客戶數據不能跨客戶使用,應用公司也能夠利用跨客戶問題類型的模式識別,並用它來為未來問題提供正確的架構。一家公司如果已經讓其智能體運行過一百次法律修訂、一千次保險核保循環或一萬次 SDR 活動,它就以一種下一個進入者無法複製的方式內化了問題的形狀,即使是第一次啟動一個全新智能體。
橫向智能體原則上可以構建同樣的學習基礎設施。它不這樣做的原因,除了純粹的專注外,還有用戶體驗:捕獲這種知識完全取決於你給用戶的工作流界面,而垂直玩家可以圍繞其工作流需要浮現的內容來塑造這些界面。橫向工具做不到。評估集、標記輸出和邊緣案例分類法可以累積成垂直特定的數據飛輪,為微調提供燃料,而下一個進入者在沒有可比生產曝光的情況下無法生成。這是否可能取決於數據權利、累積的生產曝光量以及客戶合同的結構,但無論如何模式識別都會累積。
管理模型可變性和複雜性:實驗室已經在內部路由——針對不同請求使用不同模型類別,底層使用集成。它們無法做到的是跨供應商路由,或為特定子任務評估競爭對手的模型,或為實際最佳的狹窄部分使用開源微調模型。奧茲國其他地方的公司為整個模型市場的每個子任務挑選正確的模型,而不僅僅是其母實驗室發佈的東西。它還做沒人想做的工作——在升級時重新運行評估,為客戶的邊緣案例重新校準提示,在不破壞生產的情況下推出——每次新模型發佈時。實驗室不會代表客戶做這些;他們把下一個模型賣給你並告訴你遷移。奧茲國其他地方的公司吸收了遷移工作。客戶得到的是整個市場上最好的智能,加上每次升級的連續性。
成本優化:通過 Opus 4.7 運行每個查詢是通往負毛利率的最快路徑。最好的奧茲國其他地方公司跨模型層級路由——前沿模型處理最難的任務,中端模型處理大部分工作,在他們贏得使用權的地方使用更小的定製或微調模型。有些現在在此基礎上對自己的模型進行後訓練,針對客戶關心的狹窄工作片段進行優化,以前沿 API 調用成本的一小部分提供服務。實驗室為底線定價:以 X 美元提供的最少智能。奧茲國其他地方的公司出售相反的東西——工作流實際需要的特定智能水平的最低美元成本。這隻有在你確切知道每個子任務需要什麼水平時才可能,而實驗室在結構上無法跨每個垂直領域知道這一點。這直接轉化為更低、可控的結果價格。
治理:成為客戶在該垂直領域運行 AI 的控制平面具有相當大的價值——這是權限、審計、智能體被允許做什麼以及智能體實際做了什麼全部匯聚的地方。該控制平面由特定用例的護欄構建而成,這些護欄在不同行業和工作類型中看起來完全不同。因為他們端到端擁有工具、工作流和智能體接觸的數據,他們可以以橫向工具難以做到的方式提供確定性結果。他們也是為最終買家吸收監管複雜性的實體——法律領域的 FRCP 和律師協會規則、醫療保健領域的 HIPAA、金融領域的 SEC 和 FINRA、州保險法規等等。橫向玩家無法可信地做到這一點,除非同時成為一百個不同的垂直領域。CIO 希望有一個合作伙伴在合同中聲明他們正在處理其提供的智能體的合規性。
所有這些都回到同一件事:專注。這可以是一個垂直領域(保險、法律、會計)或深度完成的功能(銷售、客戶支持、財務)。無論哪種方式,這項工作都需要一個專心致志於一個客戶群的團隊——其工作流、邊緣案例、法規。實驗室不是為此而建的。他們必須無處不在,為每個人服務,這就是他們首先建造黃磚路的方式。同樣的權衡讓他們無法進入奧茲國的其他地方——你可以同時無處不在,也可以在一件事上做到卓越。不能兩者兼得。
銷售作為例子——來自 11x 技術 CEO 的實用建議
你應該如何在實踐中思考這個問題?以下是來自 11x CEO Prabhav Jain 的一些實用建議。
專注於結果
構建一家對實驗室有韌性的公司的戰術路徑,就是從你的客戶真正關心的特定結果開始。對我們來說,那就是幫助公司產生更多銷售線索。從那裡問題變得戰術化。我們想要端到端擁有哪些實際推動銷售線索的活動?將每個活動分解為任務。哪些任務是智能體化的,哪些不是。哪些需要複雜的領域洞察,哪些不需要。實驗室也會發布工作流,但當工作流有很多步驟、混亂的輸入、難以解釋的狀態或現實世界約束時,僅靠更好的模型無法讓你達到目標。工作落到了老式的軟件工程上,而實驗室在這個表面上對專注的應用公司沒有任何優勢。例如,以下是我們處理的一些任務,有些是智能體化的,有些不是:基於自定義信號的潛在客戶挖掘、潛在客戶豐富、深度賬戶研究、從 CRM 獲取上下文、特定渠道的消息撰寫者、潛在客戶資格認證智能體和電子郵件送達系統。這些不是你可以一次性完成的任務,需要深度工程。
奧茲國類比中的關鍵洞察是,任何真實工作流中大約一半的非智能體化部分不具有實驗室優勢。他們在編寫模型層下面的確定性軟件方面並不比你強。而智能體化的那一半仍然需要你針對實際想要的結果來調優、訓練和約束模型。領域知識通常不存在於通用訓練數據中。這些技能是為垂直領域或功能從頭構建的,並在工作流的正確時刻輸入模型。當我們的智能體在電話中資格認證入站線索時,我必須針對該特定行業和該角色的良好銷售對話進行訓練。這是應用公司的工作,而且會複利增長。
更重要的是,這些技能會不斷過時,因為業務在持續演進。因此你讓這些工作流和上下文保持進化的能力,才是真正的競爭優勢。舉個例子,當我們推出規模化郵件外展產品時,"AI"撰寫的郵件剛開始出現。快進到今天,人們已經對 AI 寫的郵件和人類寫的郵件有了敏銳的判斷力,而且這種判斷力每隔幾個月就會變化。我們的智能體必須不斷適應市場動態,但這正是護城河建立的地方。事實上,儘管市場不斷變化,我們的積極回覆率在過去幾個月裡增長了 4 倍,併為客戶創造了數億美元的銷售機會。
專注於複雜度高的問題
複雜問題才是真正釋放商業價值的地方。否則你會發現自己只是在構建一個薄薄的包裝層。
分解任何足夠複雜的商業問題,混亂很快就會顯現。這裡有個來自 GTM 領域的例子,聽起來很簡單:如果某家公司已經是客戶,你就不應該再聯繫該公司的聯繫人。但實際遠非如此。也許你的 CRM 裡有該公司的域名。那麼擁有數十家子公司的公司呢?如果 CRM 記錄裡是母公司的域名呢?如果 Salesforce 裡一個過期的匹配字段,把冷郵件發給了現有客戶的 CRO 呢?真實世界的數據是混亂的。人類在處理時也很吃力。模型並不能神奇地跨過這道坎。要從混亂中梳理出秩序,需要專門為特定問題形態設計的智能體,而不是一個指向 CRM 的通用副駕駛。事實上,根據我們掌握的數據,我們意識到自己的數據質量和新鮮度遠高於客戶,所以我們默認以自己的數據為準。
護欄不只是為了防止壞事發生。這才是客戶付錢給你的原因。
護欄被嚴重低估了。即使在同一個產品內,每個用例都需要自己的護欄。對我們來說,一個受監管的金融服務潛在客戶,需要的保障與中端市場 SaaS 客戶完全不同。這些保障會滲透到智能體如何撰寫內容、可以聯繫誰、可以接觸哪些數據、在電話中可以說什麼,以及每個決策如何被記錄。
一刀切的系統在這種差異面前會崩潰。護欄必須按用例構建,按客戶配置,並持續審計。這項工作完全落在應用公司身上。這就是為什麼我們有全職部署工程師(FDE)和技術部署策略師,需要為每個客戶的需求進行調優。舉個例子,我們與一家財富 1000 強機構合作,通過語音向他們龐大的中小企業客戶群進行徵得同意的外呼。最初幾輪迭代的接聽率很低——我們必須快速迭代,學習如何讓這類特定受眾在通話的前 10 秒內參與進來。中小企業主的行為與大型 B2B 買家或消費者截然不同。我們現在一天為他們創造的銷售機會,比他們該細分市場的整個銷售團隊一個月的還多。
以保險為例——來自 FurtherAI CEO 的實戰建議
銷售是一個例子。保險是另一個,它從不同角度說明了同樣的道理。以下是 FurtherAI CEO Aman Gour 關於如何在"路外"構建的思考:
當我們開始在真實的保險業務中部署 AI 時,我們不斷聽到一個特定的假設:模型就是智能,而工作流只是圍繞它的腳手架。
與越來越多的保險公司合作後,我們越來越確信這個觀點是錯誤的。
在保險行業,很多智能其實存在於工作流本身。兩家保險公司可能會讓一份投保書走過看似相同的路徑:提交、審核、報價、承保。但路徑是簡單的部分。區分兩家公司的是路徑內部的一切:哪些風險需要上報,哪些損失信號重要,當兩條風險偏好規則衝突時哪條優先,何時需要人工簽字,調用哪些外部數據,以及最終決策如何被記錄。
這些邏輯不存在於一個乾淨的規則引擎中。它分散在標準操作程序、經理審核、承保理念、公司特定的風險偏好,以及多年的運營經驗中。其中很多內容沒有以模型可以直接讀取的形式記錄下來。
這就是為什麼我們不相信每次都從頭推理的純智能體,也不相信一遇到混亂現實就崩潰的僵化工作流。我們一直在構建的是智能體化工作流。工作流給你可重複性、可審計性和成本控制。智能體處理變化性,並在理想路徑中斷時進行恢復。人類在需要問責的判斷環節保持參與。
第一天,這會自動化手工工作。但隨著時間推移,每次上報都成為信號,每個例外都是反饋,每次人工修正都顯示出操作手冊的不完整之處。隨著時間推移,工作流不再是腳本,而開始成為保險公司的運營記憶。這是實驗室難以觸及的部分。他們會繼續發佈更好的模型和更好的通用智能體,這沒問題。但他們不會在保險公司的生產工作流中停留足夠長的時間,去了解為什麼某個賬戶被上報,為什麼某個風險被拒絕,或者為什麼承保人推翻了風險偏好指南並且是對的。
這種理解只能來自在生產環境中運行工作流數千次。你第一天交付的工作流不是護城河。生產使用隨時間創建的循環才是。
對我們來說,這就是在"路外"構建的意義。
如何判斷你是否在"奧茲國的其他地方"?
工具和步驟測試:這項工作需要多少步驟,你需要構建多複雜的工具來支持它?對比一下在 Google Drive 上進行的橫向 AI 搜索——一個步驟對應一個工具,結果容錯性高,用戶讀完摘要如果不對可以重新問——和一份針對三年律所先例的多步驟法律修訂:數十個步驟跨越多個工具,輸出必須通過合夥人審核,可能還需要在法庭上辯護。兩者看起來都像"智能體在做工作",但只有後者需要一個專注團隊花費數年構建的深度軟件。
系統測試:你在構建一個客戶用來運行工作的系統,還是一個位於客戶現有系統之上的工具?系統端到端地擁有工作流——數據捕獲、治理、完成記錄——它們是客戶在描述實際工作如何發生時指向的東西。而工具只是為客戶已經運行的工作流增加智能。工具場景會產生真實收入,但實驗室可以搶走它,因為客戶並不依賴你作為編排層。高 ACV 通常是系統的信號,因為系統取代了真實的人力,並據此獲得報酬,但這不是保證。問問自己,如果實驗室發佈了據稱直接與你競爭的東西,客戶是否還需要你的工具。如果是,你在構建系統。如果否,你就是工具——即使你的 ACV 很高。
對沖基金/損益表測試:實驗室的表現是根據基準測試來評判的,而"奧茲國其他地方"的表現是根據客戶的損益表來評判的。你的客戶不在乎你的模型在 SWE-Bench 或 MMLU 上得分如何——他們在乎你的智能體是否成交了,是否正確修訂了合同,或者是否承保了正確的保單。如果他們專注於特定工作流的結果,而不是通用能力分數,你就在"奧茲國的其他地方"。如果他們為通用能力付費,你賣給他們的東西他們用 Claude 或 Codex 訂閱就能得到。最好的智能體業務需要像對沖基金一樣執行——用客戶損益表中的 alpha 取勝,而不是基準分數。
兩者都能(也都會)贏
我們將在"黃磚路"上和路外都看到巨大的贏家。模型會繼續獲勝,因為它們擁有模型,也擁有它們設計的橫向工具的分發渠道。
"奧茲國的其他地方"可以獲勝,如果它們擁有工作系統——公司工作實際執行的界面,以及從中流動並被捕獲的數據。這些公司擁有數據捕獲、工作流行動系統和治理。隨著垂直領域中更復雜的工作流成熟,它們會複合成客戶所依賴的一個核心體驗。當新一代模型從現有玩家和新入局者那裡發佈時,公司成為將它們集成並交付給客戶的層。底層的模型是可替換的;工作系統則不是。
下一代企業軟件將在路外構建。
如果你正在構建它,請聯繫:jschmidt@a16z.com。
歡迎加入深潮 TechFlow 官方社群
Telegram 訂閱群:https://t.me/TechFlowDaily
Twitter 官方帳號:https://x.com/TechFlowPost
Twitter 英文帳號:https://x.com/BlockFlow_News











