
紅杉專訪 SemiAnalysis 創始人迪倫:推理將成超越石油的超級市場,算力戰爭終局在太空
TechFlow Selected深潮精選

紅杉專訪 SemiAnalysis 創始人迪倫:推理將成超越石油的超級市場,算力戰爭終局在太空
堅不可摧的 CUDA 生態護城河效應正在衰減。
作者:紅杉資本(Sequoia Capital)
編譯:瓜哥 AI 新知
本文內容整理自 SemiAnalysis 創始人 Dylan Patel 在紅杉資本(Sequoia Capital)頻道的專訪,公開發表於 2026年 06月 30 日。
內容提要:迪倫·帕特爾(Dylan Patel)紅杉資本專訪
- AI 推理市場的爆發性: AI 推理將成為全球最大的超級市場之一。預計未來不僅將佔據全球 GDP 的數個百分點,其市場規模甚至將全面超越石油行業。
- 協同設計是效率提升的關鍵: 性能提升絕不能單靠硬件堆砌。模型架構、軟件棧(編譯器與通信庫)與底層硬件(芯片設計)的深度協同優化,才是實現百倍效率飛躍的真正突破口。
- 電力與數據中心建設: 算力基礎設施的終極瓶頸在於能源。到 2030 年,僅 OpenAI與 Anthropic 兩家巨頭的用電需求就可能突破 100 吉瓦。未來數據中心運營的核心壁壘,將不再是簡單的物理規模,而是頂級的電力管理能力(如“削峰填谷”與動態負載分配)。
- 算力部署的太空轉移: 隨著地面電力限制與能耗壓力的日益逼近極限,預計 20 年內,絕大多數新增的 AI 推理計算必將向太空轉移。
- “CUDA 護城河”的重塑: 堅不可摧的 CUDA 生態護城河效應正在衰減。頂尖的 AI 大模型公司已具備極強的自定義內核開發能力,且模型架構正越來越多地針對特定硬件(如 NVIDIA GPU或 Google TPU)進行差異化的協同設計。
- 算力緊缺的經濟本質: 當前的算力短缺,本質上是模型能力躍升引爆的需求激增。只要 AI 模型創造的正向毛利遠超算力租賃成本,這種高槓杆投資在商業邏輯上就是成立且極為穩妥的。
- 黃仁勳的戰略佈局: NVIDIA 全力扶持“新銳雲”廠商與新興 AI 實驗室,旨在構建一個多極化的計算生態,防止超大規模雲服務商(Hyperscalers)通過 TPU、Trainium 等自研芯片壟斷市場進而反噬 NVIDIA。
- 硬件發展的“局部最優解”陷阱: 針對特定任務定製的 ASIC 芯片(如 TPU、Cerebras),雖然在當前任務中表現卓越,但一旦 AI 模型架構發生突變,這些過度優化的硬件極易陷入“局部最優”陷阱。相比之下,通用 GPU 擁有更大的演進與調整空間。
SemiAnalysis 創始人迪倫·帕特爾(Dylan Patel)簡介
迪倫·帕特爾(Dylan Patel)是科技界知名研究機構 SemiAnalysis 的創始人兼首席分析師。他以對半導體供應鏈、人工智能硬件架構及算力經濟的深度洞察而聞名業界。
他與團隊通過追蹤芯片製造工藝(如臺積電先進製程)、高性能計算芯片(如 NVIDIA GPU)以及 AI 大模型的算力成本,為投資界與科技企業提供極具參考價值的技術分析。他經常在社交媒體及行業報告中精準預判芯片市場走向,包括對芯片短缺危機、AI 基礎設施建設速度的獨到解讀,使其成為全球 AI 硬件領域最具影響力的評論員之一。他的工作不僅揭示了硬件背後的地緣政治與經濟邏輯,更成為外界洞察半導體產業演進的核心窗口。
內容簡介
SemiAnalysis 創始人迪倫·帕特爾(Dylan Patel)在訪談中指出,AI 領域最大的飛躍並非源自更快的芯片,而是源於軟硬件的協同設計。 將模型、內核與底層芯片進行聯合優化,能把這裡兩倍、那裡兩倍的微小提升,最終放大為高達 100 倍的驚人效率飛躍。
他深入剖析了為什麼 DeepSeek 的專家模型天生契合 NVIDIA的 Hopper 架構(這也是為何 TPU 在運行它時會舉步維艱);為什麼 OpenAI 偏向稀疏模型,而 Anthropic 偏向密集模型,這兩種路線又如何驅使它們走向截然不同的硬件選擇;以及為什麼傳說中堅不可摧的“CUDA 護城河”,其真正的壁壘從來都不在於 CUDA 本身。
迪倫還詳細拆解了他主導的 InferenceX 動態基準測試平臺——該平臺每天在價值超過 5000 萬美元的捐贈硬件上運行最新模型,並追蹤到了“單位質量成本”每年約 60 倍的斷崖式下降。他大膽預言,AI 推理必將成為一個比石油更龐大的超級市場。 他認為,算力短缺之所以將長期存在,是因為 AI 模型擴展實用價值的速度,遠遠超越了算力增長的步伐。最後,他揭秘了黃仁勳為何要豪擲重金扶持“新銳雲”廠商(NeoClouds)——這其實是 NVIDIA 為了主導並構建一個多極化的計算世界所佈下的宏大戰略。
採訪全文實錄
迪倫·帕特爾: 我覺得在 SemiAnalysis 工作非常有意思,因為我們有 90 名員工,其中很大一部分是橫跨整個供應鏈的技術工程師,另一大半則是前對沖基金從業者。你會看到他們之間發生這樣的爭論:有人會說,“哦,那無關緊要。”接著有人反駁,“但是成本呢?”然後工程師又會說,“不不不,這項技術才是最酷的。”你會看到這種自然發生的神仙打架,而我們內部的氛圍非常隨性。考慮到我曾經當過論壇版主,你可以想象我面臨的挑戰有多大。
主持人 Sean: 你很樂在其中嘛。
迪倫·帕特爾: 這就好比“和豬摔跤”,因為豬樂在其中。
主持人 Sean: 我們現在在 SemiAnalysis 的辦公室,和 Dylan Patel 在一起。我是紅杉資本 (Sequoia) 的 Sean,這位是我的合夥人 Sonya Huang。你所取得的成就簡直不可思議。五年前,半導體 (Semis) 在西方並不吃香;它們在東方很火熱,但西方人似乎已經把它遺忘了。然而你沒有忘記。你堅定地長期投入 (went very long),創建了該領域可以說是首屈一指的研究公司——向全世界普及最前沿的技術現狀,從極其硬核的技術細節,到供應鏈,再到宏觀格局。
有傳言稱,SemiAnalysis 最近的營收突破了 1 億美元。我不知道這個數據有多準確,但不管具體數字是多少,你們都做得太棒了 (crushing it)。畢竟傳言的準確性誰也說不準。還有傳聞說你們可能會成立一隻風險投資基金。我在生態圈裡經常聽到有人想和 SemiAnalysis 攀上關係。你已經建立起了一個備受信任的品牌,所以無論你做什麼,顯然都非常奏效。
汽車旅館裡的童年
主持人 Sean: 這顯然只是你征程的起點,祝賀你取得的這一切成就。但這一切是如何發生的呢?我的第一個問題關於你的背景:你是怎麼一步步走到今天的?
迪倫·帕特爾: 我是在一個小生意家庭長大的。我父母經營著一家汽車旅館,我們就住在裡面。我們還開了一家加油站。我經常開玩笑說,我訓練的第一個神經網絡 (Neural Network),就是根據顧客走進加油站時的種族和外貌特徵進行用戶畫像 (Profiling),預判他們會買哪種香菸。基本上,香菸都擺在頂層的架子上,我當時太矮了夠不著。嚴格來說,那個年紀賣煙是不合法的,但管他呢,我必須提前把墊腳凳搬到對應的位置。
主持人 Sean: 天哪。我也是在達到法定年齡之前就開始打工了。不過這確實是個很好的經歷。你當時沒拿工資對吧?
迪倫·帕特爾: 對,我拿不到工資。
主持人 Sean: 家族生意,我也一樣。
修理 Xbox 擦出的火花
迪倫·帕特爾: 是的,我們有一家汽車旅館,街對面就是我們的加油站。有時候,當有人走進來時,我會根據他們的人口統計特徵預判他們的需求。如果一位留著捲髮的白人老太太走進來,我會把梯子或腳凳移到駱駝牌 (Camel) 香菸那邊。根據他們的年齡、職業或種族,我會調整凳子的位置。我開玩笑說這是我訓練的第一個神經網絡,因為如果等他們開口,我再去搬凳子就太浪費時間了,而提前準備好則能大幅提高效率。無論是薄荷煙、100 毫米長支菸還是細支菸,我都學會了提前預測他們的需求。
我在家族企業中長大,住在汽車旅館裡,但我對科技的興趣可以追溯到我八歲生日那天。我的生日在五月,而 Xbox 360 剛好在那年四月發佈。當我父母問我想要什麼生日禮物時,我沒有要當下的禮物,而是預支了聖誕禮物——我想要一臺 Xbox。我本來覺得他們絕對不可能給我買,但到了聖誕節,我真的收到了。
從互聯網論壇到半導體
幾個月後,我住在阿拉巴馬州的表哥春假來我家玩,他家也是開汽車旅館的。他的年齡介於我和我哥哥之間。我哥哥更喜歡運動,對 Xbox 不怎麼感冒;但我為了在表哥面前耍酷,已經在電話裡跟他吹噓過好多次了。結果,Xbox 壞了——它出現了被稱為“死亡紅環 (Red Ring of Death)”的硬件缺陷。在嘗試修復幾次失敗後,我最終不得不把它拆開,將溫度傳感器短接,結果居然修好了。那次經歷是我踏入硬件領域的契機,就像打開了潘多拉魔盒。
到 12 歲時,我已經深度沉迷於各種網絡論壇,每天不停地閱讀和發帖。那時正值 Reddit 開始取代其他平臺。我成為了 Android、Apple、Google 以及各大硬件子版塊 (Subreddits) 的版主。我持續追蹤 Intel、NVIDIA 和 AMD 等公司,觀察智能手機如何從簡單的設備,進化到在架構上比 PC 還要複雜。在這個過程中,得益於在小生意家庭長大的背景,我始終保持著經濟學視角,時刻分析技術背後的市場驅動力。

同樣地,雖說互聯網上的“技術宅 (Neckbeards)”們都狂熱追捧 AMD 的 GPU,我本人也因為性價比買過 AMD 的顯卡。但當討論到技術上誰更勝一籌時,我總是說:“不不不,NVIDIA 更好,因為他們能用更小的芯片獲得更高的性能和更優的能效比,而且他們的利潤率更高。”我總是滔滔不絕地分析在 GPU 領域,NVIDIA 的利潤率是如何碾壓 AMD 的。現在回想起來真是挺搞笑的。
主持人 Sean: 當時你才 12 歲?
迪倫·帕特爾: 我 12 歲開始當版主,但這貫穿了我整個青春期、準青春期和高中時代。
主持人 Sean: 你還有其他硬核的愛好嗎,還是隻有半導體?
迪倫·帕特爾: 我曾一度瘋狂沉迷於《星際爭霸》(StarCraft)。我當時打到了《星際爭霸 2》北美天梯的宗師段位 (Grandmaster)。
主持人 Sonya: 所以你在很多方面都有一種偏執的卓越。
迪倫·帕特爾: 是的,這是一種正向的偏執。
主持人 Sonya: 你的成績怎麼樣?
迪倫·帕特爾: 還可以。大部分是 A,但有些課我覺得特別無聊,或者就是單純不喜歡。比如西班牙語——我的成績就不太好。但這其實挺扯的,因為我現在的西班牙語說得非常流利。
主持人 Sonya: 也許這就是你當時沒拿到好成績的原因!
迪倫·帕特爾: 平心而論,我是後來才學的西班牙語。所以,我的成績還過得去,至少能讓亞裔父母滿意。我比學校裡大多數人考得都好,但我絕對不是那種為了拿全 A 而“瘋狂內卷 (try-hard maxing)”的人。
從量化分析師到創始人
主持人 Sonya: 好的,看來你徹頭徹尾是個在互聯網中學習成長的人。這也是你積累這些專業知識的方式。那你是什麼時候決定創辦 SemiAnalysis 的?創辦公司以來最大的驚喜又是什麼?
迪倫·帕特爾: 我上大學時拿了幾個和半導體毫無關係的學位。後來我在一家小型風險投資機構做了兩年的量化分析師 (Quant)。但最終,一系列事件的爆發促使我重新審視自己的人生。我曾通過挖掘市場機會,為公司創造了數百萬美元的無風險收益,結果卻被別人搶了功勞,本該屬於我的獎金也泡湯了。我與前僱主之間徹底失去了信任契約,最終被解僱了。
大約在同一時間,也就是 2020 年初,一直和我們住在一起、與我感情極深的祖母患上了痴呆症,並在一次跌倒後不幸離世。再加上一些個人感情上的問題,我陷入了人生的至暗時刻。緊接著,新冠疫情爆發了。我哥哥邀請我去納什維爾和他同住,當時大家都以為封鎖只會持續幾周。這句經典的預測最終被現實打臉,我最終在他家,和當時還是他未婚妻的嫂子一起住了好幾個月。

在那段日子裡,我感到極其迷茫,又處處受限於他的生活規矩,於是我開始瘋狂地在網上發帖和炒股。疫情期間,我通過做多和做空賺了些錢,同時我也在密切追蹤當時初現端倪的半導體短缺問題。我在網上的活躍引發了一個轉折點——一個在網上和我對線的人對我進行了人肉搜索 (Doxing),公開了我的真實身份。雖然一開始我很害怕,但我直接停更了三週,等我回歸時,我換了一種全新的心態。在我 24 歲生日那天,我推出了一個真正的博客——SemiAnalysis。從匿名“口嗨 (Shitposting)”轉變為在文章中投入真正高質量、高強度的硬核研究,這讓平臺獲得了極大的關注度,最終也讓我的諮詢業務迎來了爆發式增長。
流浪式的研究之旅
2020 年,我依然覺得人生處於崩潰邊緣,對未來的道路充滿迷茫,於是我決定收拾行囊,拋下一切。我買了一輛皮卡,裝上帳篷和充氣床墊,花了六個月的時間開車環遊美國的各大國家公園。工作日,我會找那種能砍價到 30 美元一晚的廉價汽車旅館,在裡面處理 SemiAnalysis 的工作;到了週末,我就去徒步,讀專業教科書,聽關於 AI 和半導體的有聲書。在那六個月極致孤獨的旅程中,我堅持寫作和發帖,儘管當時所有人都在質問我到底在發什麼瘋。
主持人 Sean: 星鏈(Starlink)發佈前,或者說星鏈發展的早期階段。
迪倫·帕特爾: 在星鏈之前。那時候大家經常會問:“你到底在做些什麼?”我曾花了一年左右的時間在拉美地區旅行——起初是和朋友一起,後來是和前任一起。
從 2021 年底,一直到 2022 年、2023 年以及 2024 年,實際上自 2020 年中期以來,我一直處於四海為家的狀態。這段時間裡,我滿世界飛,去參加全球各地的各種會議;我每年要參加 40 多場大會。無論它涉及供應鏈的哪個環節,只要看起來有意思,我就會果斷前往。
我記得有一次參加會議時,我心想:“天哪,這簡直太棒了。”你可以與真正的行業專家面對面交流,而他們也非常樂意與你探討,因為你能展現出那種由衷的熱情。以半導體行業為例,從業者大多是“嬰兒潮一代”(Boomer)的老前輩。他們平時很少能見到對這個領域充滿熱忱的年輕人,所以他們非常樂於傾囊相授。
主持人 Sean: 我必須要問一下,有沒有供應鏈的某個環節,或者某場會議,徹底改變了你對半導體世界的看法?或者說,你當時或現在覺得某個領域被嚴重低估(Underrated)了?
迪倫·帕特爾: 被低估了嗎?我覺得各類展會和會議的風格差異非常大。顯然,我最喜歡的會議之一是 NeurIPS(神經信息處理系統大會)。為什麼?因為那裡聚集了兩萬名人工智能研究人員,而且大多和我年齡相仿。這非常有趣,他們都是頂尖的 AI 研究者,你不僅能學到很多前沿知識,還有參加不完的派對。
另一方面,你也會遇到那種在日本舉辦的、某個不起眼的化學會議,現場大概有 300 名日本與會者——外加大約 20 個來自阿斯麥(ASML)的人,20 個來自臺積電(TSMC)的人,還有 20 個來自英特爾(Intel)的人。全場就只有這幾個人會說英語,其餘人只講日語。即便如此,我依然覺得這些經歷非常有趣。我的特長之一就是能與任何背景的人打成一片;我總能找到大家感興趣的話題,而這些話題通常都與科技相關。
我認為最有趣的往往是那些超大型會議,因為重大的行業變革都發生在那裡。然而,真正令人興奮的細分領域(Niches),則是像 SPIE(國際光學工程學會)這樣的圈子。學術界有 IEEE,而 SPIE 則是一個完全不同的生態系統。SPIE 的會議內容極度硬核且深入細節。我第一次參加 SPIE 的高級光刻(Advanced Lithography)或光掩模(PhotoMask)會議時,連 90%的內容都聽不懂。後來我查閱了大量資料,也結識了一些人脈,等我第二次去的時候,就能聽懂一半了。第三次去,我已經能聽懂 75%。即使到現在,我依然無法完全看穿其中的所有門道。
相比之下,如果你參加幾次 NeurIPS,就能理解諸如神經符號推理(Neurosymbolic Reasoning)等各種概念,你能很快在腦海中勾勒出整個領域的知識脈絡。然而,半導體供應鏈的某些環節極其晦澀、深奧且偏重硬核技術,以至於你甚至需要花費大量時間,才能看懂每一篇論文裡到底在講什麼。你參加會議有幾個目的——比如瞭解最新發表的研究成果——但你真正渴望的,是透徹的理解。
這項研究如何與實際技術相交融?它與當下的行業現狀有何不同?這些研究論文根本不會告訴你產業界當下正在發生什麼。你只能通過不斷提問、積累人脈去學習。當你深入瞭解供應鏈後,你會恍然大悟:“噢,原來這家公司是那家公司的供應商!”——儘管這在任何地方都沒有公開披露過。就像你會了解到,某種化學品的成本究竟是多少,或者某臺設備到底需要消耗多少這種材料。
主持人 Sean: 你經常會聽到一些恐怖故事,比如某種化學品突然短缺,結果徹底搞癱了供應鏈的某個環節。然後大家才發現,全世界居然只有三家公司在生產這種化學品。
迪倫·帕特爾: 我最喜歡的一個故事是:在那個幾乎沒人說英語的日本會議上,我結識了一位日本老兄。他用極其蹩腳的英語告訴我他父親在這個行業工作的故事。在 20 世紀 80 年代,全球唯一一家生產某特定化學品的工廠被燒燬,直接導致內存價格翻了兩三倍。當時我心想,哇,這跟今天的情況……
主持人 Sonya: 也沒多大區別吧。
迪倫·帕特爾: 完全如出一轍。
InferenceX 與基準測試 (InferenceX and Benchmarking)
主持人 Sonya: AI 推理(Inference)將會成為地球上、甚至是全宇宙最大的市場。你同意還是反對?
迪倫·帕特爾: 顯而易見,Token(令牌)的消耗量將創造最大的市場,而由此衍生的價值也將是不可估量的。我認為,Token 經濟學(Tokenomics)以及 AI 的普及應用,是當下正在發生的最重要的變革。無論開源模型還是閉源模型,AI 推理必將成為全球最大的市場之一。它的規模將遠超石油,遠超其他許多傳統行業——未來,AI 推理甚至將佔據全球 GDP 的數個百分點。
主持人 Sonya: 我認為你在 InferenceX 上所做的工作,已經樹立了行業標準。能不能簡單談談你創立它的初衷,它的核心功能是什麼,以及人們在推理性能的基準測試(Benchmarking)上通常存在哪些誤解?
迪倫·帕特爾: 好的,回溯一下,在 SemiAnalysis,我們開展了大量的工作。其中很大一部分是為機構客戶提供研究服務,以及我們的訂閱類產品;但也有很多時候,我們純粹是覺得:“嘿,如果能把這件事搞清楚一定很酷。”於是我們就去尋找解決問題的方法,並將研究結果公之於眾,這種模式的影響力也在不斷擴大。後來,我們將這種方法應用到了大規模的 GPU 基準測試,以及模型訓練和推理性能的測試上。
最終我們意識到,傳統的推理基準測試僅僅是一個“特定時間點的快照”(Point-in-time Snapshot)。你進行測試,處理數據需要時間,而等你把結果發佈出來時,它已經變得遲緩、晦澀且徹底過時了,因為模型無時無刻不在迭代。感覺每週都有新模型問世——無論是中國的大模型,還是像今天的 Mythos 5 或 Fable。新模型層出不窮。在軟件層面上,PyTorch、vLLM、SGLang 等框架,以及新的驅動程序和更新也在不斷推送;事實上,大部分軟件庫的更新頻率高達每週兩次。
由於軟件在不斷更新,硬件性能也在持續演進。新的推理優化方案定期發佈,這代表著一系列持續不斷的突破,它們在不斷推高效率的同時大幅拉低成本。這就是為什麼在短短一年內,同等質量的模型推理成本暴降了約 60 倍的原因。這簡直令人難以置信。 為了保持領先,你不能再依賴那種“刻舟求劍”式的靜態測試;你需要的是“鮮活且會呼吸”的基準測試——它們必須時刻運行在最新的硬件和最新的模型上。
為了實現這一目標,我們啟動了一個項目,並贏得了整個生態系統的大力支持。這得益於我們在業內積累的聲望,從而能夠說服 CoreWeave、Crusoe、Nebius、Oracle、Microsoft、Amazon、Google 和 OpenAI 為我們提供算力。我們有幸與引領開源浪潮的私營企業——如 SGLang、vLLM、RadixArc 和 Infraact——展開深度合作。在將 TPU 和 Trainium 芯片整合到我們的基礎設施時,我們還得到了 NVIDIA、AMD、Google 和 Amazon 的鼎力相助。
如今,所有的這些機構都在與我們協同並進。我們獲得了價值超過 5000 萬美元的硬件捐贈,一旦我們將 TPU 和 Trainium 投入運行,這一數字將突破 1 億美元。我們每天都在約 15 種不同的芯片上,使用最前沿的模型進行基準測試——包括來自月之暗面(Moonshot)、阿里巴巴以及中國各大頂尖實驗室的最優模型,還有諸如 GPT-OSS、Nemotron 等美國最頂級的開源模型。我們在專用的推理測試服務器上,以全自動化的方式運行這些測試,全面掃視海量的參數配置與優化方案。
最終的結果是,我們所有的發現和配置都是完全公開的,這使我們能夠精準繪製出“帕累托最優曲線”(Pareto Optimal Curve)。這一點至關重要,因為當人們在比較推理性能時,往往會拿別人未優化的“次優數據”,來和自己的“最優數據”進行田忌賽馬般的對比。而我們的項目,則確保了絕對透明、公平的“同量級(Apples-to-apples)”對標。
舉個例子,如果讓我和一位職業賽車手同時開保時捷,顯然我會開得慢得多。推理基準測試也是同樣的道理。因此我們的做法是,針對“交互響應速度”(即系統回應用戶的快慢)與“批處理大小”(即系統能同時服務多少用戶)構成的性能曲線上的每一個最優平衡點,我們都創建了開源的部署容器(Containers)。現在,任何想要獲取極致性能的人,只需訪問 InferenceX,下載並運行該模型的最優配置即可。他們甚至可以設置每天自動拉取該模型的最新、最優配置參數,從而讓自己的 AI 推理性能永遠保持在近乎巔峰的狀態。
主持人 Sonya: 在你看來,那條吞吐量與交互性曲線(Throughput-Interactivity Curve)是最重要的一條曲線嗎?
迪倫·帕特爾: 我認為,無論是硬件、基礎設施、模型還是應用層,萬物皆處於這條曲線的下游。
關鍵在於:這項任務是否需要極速的響應、超低的延遲,而且可以不計成本?如果是,我會將批處理大小(Batch Size)設得極小,並重度依賴推測解碼(Speculative Decoding)或多詞元預測(Multi-token Prediction)等技術——這方面有太多可用的方案了。
或者,如果任務是批量處理海量文檔,而我根本不在乎延遲?那我就不會使用這些技術,因為它們犧牲了成本效率來換取單個用戶的速度。此時我只想塞進儘可能多的用戶請求,哪怕文檔需要整整一晚才能處理完,我也無所謂。
目前,我們對待 AI 基礎設施的方式是“一刀切”。但隨著時間的推移,我們將進入這樣一個階段:批處理工作負載(Batch Workloads)與即時響應需求將涇渭分明,整條曲線的每一個點對用戶而言都至關重要。這一點在 Anthropic 身上已經初見端倪,他們的“Claude 快速模式”比普通模式昂貴得多。OpenAI 的優先級隊列系統也是同理。
主持人 Sonya: 抱歉,問個外行問題,成本是如何體現在這張圖表上的?
迪倫·帕特爾: 舉個假設的例子:如果我的批處理大小是 100,且每個用戶每秒能處理 10 個詞元(Token),那麼單臺計算設備的總吞吐量就是每秒 1,000個 Token。這是曲線的一端:對單用戶極慢,每秒只有 10個 Token。曲線的另一端可能是總吞吐量只有每秒 500個 Token,但我只能服務一個用戶;或者單用戶每秒 250個 Token。
中間存在一些更符合帕累托最優(Pareto-optimal)的點。實際上,普通用戶通常需要每秒 50到 100個 Token 的響應速度,這取決於我能將多少個用戶打包在一起批處理。所以這條曲線的邏輯是:總吞吐量是每秒 1,000個 Token 還是 250個 Token,完全取決於我批處理的用戶數量,這中間形成了一條過渡曲線。
最終,有些工作負載確實需要追求 4 倍的成本下降,因為同樣的硬件單元可以實現 1,000與 250 的性能差異。另一方面,有些用戶願意多付 4 倍的價格,因為他們不在乎成本,只在乎時間——可能是因為使用這些 Token 的人本身時間成本極高,或者他們所處的反饋循環(Feedback Loop)價值極大。
主持人 Sean: 如果讓你預測一下,你可以設定一個時間框架,10 年或 15 年,你認為有多大比例的推理計算(Inference Compute)會發生在太空?可以是 0%、50%,甚至 99%。這是一個很難的問題,你可以選擇你認為合適的時間框架。
迪倫·帕特爾: 我認為非共識的觀點,或者說“看衰 SpaceX”的觀點是(順便說一下,我很喜歡 SpaceX,如果他們上市我絕對會買股票):太空數據中心在未來三到五年內無關緊要。
話雖如此,但我相信在 20 年後,絕大多數的算力將部署在太空。這背後的核心博弈在於:時間線、陸地發電成本,以及我們在地球上實際能夠產生多少能源的物理極限。
顯然,關於推理算力的未來走向——具體會有多少吉瓦(Gigawatts)甚至太瓦(Terawatts)的電力投入其中——在我個人看來,它正沿著一條極其瘋狂的指數曲線狂飆。
主持人 Sonya: 你的預測是多少?會有多少吉瓦?
迪倫·帕特爾: 我認為到 2030 年,僅僅 OpenAI和 Anthropic 兩家的用電量合計就會超過 100 吉瓦。然後再算上 Meta、谷歌等等。未來將有海量的算力專門用於推理。到 2040 年,這個數字將達到太瓦級別。我們將迎來生產力曲線的極致攀升,推理部署的規模將大得驚人。因此,如果放眼 2040 年,我認為超過一半的增量算力將部署在太空。但如果看 2030 年,我認為這個比例不到 1%。
主持人 Sonya: 你認為“單位瓦特智能(Intelligence per watt)”一直在提升嗎?目前我們的人工智能與人類生物大腦的單位瓦特智能相比,似乎仍存在巨大的鴻溝。你認為我們能跨越這道鴻溝嗎?如果能,這種提升將從何而來?
迪倫·帕特爾: 這往往也取決於你具體在做什麼任務。比如在做數學計算時,TI-84 計算器的單位瓦特智能遠超人類。那可是 30 年前的技術了。所以,這顯然是一種相對呆板的、泛化意義上的智能。
我們 InferenceX 的一個核心工作,就是衡量所有這些硬件的功耗與成本。我們不僅提供吞吐量與交互性的對比曲線,還提供成本與交互性、功耗與交互性的對比曲線。關於單位瓦特智能的提升,我曾提到過,在相同的基準測試水平下,成本已經下降了 60 倍。我們在單位瓦特智能上也看到了類似的結果,雖然沒到 60 倍,但也接近 40 倍了。其中一些效率提升並非源自功耗本身的改善,但過去幾年裡,單位瓦特智能的年增長率極其驚人,我預計這種趨勢還將延續。
至於我們與人類大腦的對比,中間仍隔著好幾個數量級。但幸運的是,這其實無關緊要。我們可以將海量的電力灌注給計算機,而且為計算機供電,遠比為人類大腦供電容易得多——因為人類不僅會生病,還會受限於飲食偏好,更需要每天睡覺休息。
主持人 Sean: 完全同意。關於這個大主題,我再問最後一個問題。
在我看來,無論是單位瓦特智能還是單位美元智能(Intelligence per dollar)等指標,其提升主要源於三個層面的輸入:一是硬件層面的突破,即硬件本身更高效;二是底層系統的優化,比如內核級(Kernel-level)的改進或矩陣乘法庫的優化;三是頂層模型級或算法級的迭代。
我覺得在過去三年裡,絕大部分的性能增益都來自硬件層,一定程度上也有模型層的功勞。你同意嗎?你認為未來也會是這種格局,還是說在內核系統層面上,依然有巨大的潛力可挖?
迪倫·帕特爾: Sean,我完全不同意你的看法。
主持人 Sean: 這正是我問這個問題的原因。
迪倫·帕特爾: 好吧,確實可以將其視為三個不同的層級來看待。從這個角度來說,從 Hopper 架構到 Blackwell 架構(這是過去三年我們在硬件上僅有的換代),DeepSeek 在這些硬件上的性能大約提升了 30 倍。在最極致的優化部署下——這在 InferenceX 上可以查到——提升幅度約為 30 倍。
然而,在過去三年裡,我們在單位瓦特智能上取得的飛躍遠超於此。其中極大的增益其實來自於模型層。回溯三年前,當時的標杆是 GPT-4;而現在,像 Qwen 這樣的小模型,總參數量僅為 270 億,激活參數區區 20 億,但其表現卻遠勝於昔日的巨頭。
因此,模型層迎來了巨大的跨越,硬件層也有相當可觀的進步,但真正主導未來的,是軟硬協同設計層(Co-design Layer)。如果你去剖析這些模型的架構——以目前最公開透明、最具知名度的 DeepSeek 為例——你會發現,那才是真正孕育出時代性突破的地方。
主持人 Sean: DeepSeek 通過協同優化 (co-optimization) 或內核級內存優化獲得了巨大的效率提升。
迪倫·帕特爾: 沒錯,我認為這當然離不開內核 (kernels) 層面的優化,但更核心的其實在於針對芯片構建硬件架構。如果你觀察 DeepSeek V3 中所有專家模型 (experts) 的張量形狀 (shapes),會發現它們都是針對 Hopper 架構優化的;同樣,如果你看 V4 版本,它們則是針對 Blackwell 和華為 (Huawei) 的芯片進行了優化。
有趣的是,儘管 TPU 客觀上是非常出色的芯片——支撐了整個 DeepMind 的運作幷包攬了 Anthropic 的預訓練任務——但 TPU 運行 DeepSeek 時卻很吃力。然而,在運行其他那些在 NVIDIA 硬件上表現不佳的模型時,TPU 卻極其出色。
這涉及到極深度的優化,無論是張量形狀、網絡 I/O 模式、集合通信 (collectives) 的管理,還是圍繞注意力機制算術強度 (arithmetic intensity) 的算子處理方式。所有這些因素都在模型、硬件以及介於兩者之間的基礎設施軟件之間進行了協同優化。歸根結底,你很難將這些要素完全剝離開來。
主持人 Sean: 你是不是認為,過去幾年中國在這方面做得比西方好得多?而且 DeepSeek 是最早真正做到這一點的模型之一。
迪倫·帕特爾: 我倒不一定這麼認為。我覺得更多是因為西方公司不對外透露他們的技術細節。比如 OpenAI 就沒有告訴大家 GPT-4o 的稀疏程度有多高、張量形狀大小如何等等。但 GPT-4o 的規模與 DeepSeek V3 大致相當,甚至還要略小一點。而且如果我沒記錯的話,4o 發佈的時間要早得多。
主持人 Sean: 所以你的觀點是,這三者的創新一直在以大致相同的速度同步發生,而最大的增益來自於它們的協同優化 (co-optimization)?
迪倫·帕特爾: 可以這麼說,我認為模型層的增益確實比軟件基礎設施層或硬件層要大。但每一層都在發生創新,而最極致的飛躍——也是頂尖實驗室的迷人之處——就在於將這三者進行完美的協同優化。
這正是 Anthropic 的做法。儘管他們使用許多不同類型的硬件,但他們很少在 TPU 上做推理,主要用其進行訓練。他們大量的推理任務是在 Trainium 和 GPU 上完成的。雖然 GPU 更像是一個“多面手 (jack-of-all-trades)”,但他們已經對自身的硬件、模型以及所有相關環節進行了優化,以確保其高效運轉。
相比之下,OpenAI 之前的模型更多是針對 Hopper 優化的,而現在則更多針對 Blackwell 進行了優化。隨著時間推移,這些實驗室——谷歌也不例外——都在進行相應的優化。例如,Gemini 2 真正針對 TPU V6E 進行了優化,或許 Gemini 3 也是,而即將推出的下一代 Gemini 則完全針對 TPUv7 進行了優化。很多這類工作都是協同優化的結果,當你試圖把這些模型放到舊硬件上運行時,性能表現往往大打折扣。
我認為這種協同優化——通常被稱為軟硬協同設計 (software-hardware co-design)——是最關鍵的因素。這也是我日常工作中最令人興奮的部分。你可以只盯著某一層,看到那裡湧現的諸多創新,但真正的突破性創新,往往發生在跨越多個層級進行協同優化與設計的那一刻。
與其指望這裡提升 2 倍、那裡提升 2 倍、其他地方再提升 2 倍——乘起來也就 8 倍的增長——你完全可以通過打通三個層級的協同優化,實現 100 倍的增益。這正是你在頂尖實驗室看到的景象,也是 NVIDIA 這樣的公司正在做的事情——他們從模型層一直向下遊協同優化到了底層硅片。同樣,你在臺積電 (TSMC) 也能看到這一點,他們不僅在優化製造工藝,更是將組件、耗材、工具等各個環節,一直向上遊延伸至客戶提供的設計方案,進行全鏈條的協同優化。真正發揮決定性作用的,正是這種跨越多個抽象棧 (abstraction stack) 層級的協同優化。
主持人 Sean: 不過在這種優化過程中,總會有某些地方出現瓶頸,它們就像是掉隊了,需要被強行拉上來。還會出現一些用來填補漏洞的創可貼式的臨時方案 (band-aids)。如果你要預測一下,無論是在技術棧的哪一層,無論發生在哪,你認為明年你會最密切追蹤的瓶頸是什麼?不一定非要是供應鏈或規模法則 (Scaling Law) 方面,而是實際的技術挑戰——當然也可以是供應鏈——到底是什麼?是內存的改進嗎?還是單純的擴展 (scaling) 問題?
迪倫·帕特爾: 內存是一個大家都老生常談的顯學,但我不想從供應鏈的角度談,我想從技術角度來剖析。內存容量和帶寬的提升一直非常緩慢。NAND 存儲單元大約是 25 年前發明的,而 DRAM 單元更是 40 年前發明的。在底層存儲單元結構上,至今沒有出現過什麼重大突破。
雖然也有一些即將問世的技術可能會帶來巨大的創新。但在過去五年裡,我們真正做的,只不過是把 HBM (高帶寬內存)堆疊得更高、速度做得更快而已。不過,未來幾年會有新的創新出現:你不再是將 HBM 與芯片分開堆疊,而是直接將內存堆疊在芯片上,這將讓帶寬實現爆炸式增長。這個領域出現了一些有趣的公司,也在推進一些引人注目的概念驗證 (POC)。我認為內存帶寬是當前最大的挑戰之一。
另一個問題與硅片的發展史有關。基本上,在過去至少二十年裡,無論是數據中心還是桌面端芯片,你只需看一眼就能輕易預測它的功耗:峰值大約是每平方毫米 1 瓦。所以,如果一塊芯片的面積是 100 平方毫米,通常其功耗就在 100 瓦左右甚至更低。即使你去觀察最新的 NVIDIA 芯片或最新的 TPU,它們仍然保持在每平方毫米 1 瓦的區間內。
因此,芯片功耗現在已經達到了 1400 瓦。NVIDIA 的下一代產品,比如 Rubin,將會達到 2000 瓦。如果再往後看 Rubin Ultra,大概會達到 4000 瓦。雖然他們目前只是單純在增加硅片的面積,但令人興奮的是,我們終於開始研發新的技術,能夠真正做到……
大幅提升注入硅片的功率,使其遠超每平方毫米 1 瓦的限制。這頓時間意味著你需要的硅片面積變小了。顯然,它會在更高功率下運行,某些情況下的能效也會降低,但你減少了硅片用量,並且能夠……
主持人 Sonya: 散熱問題會很棘手吧。
迪倫·帕特爾: 沒錯,散熱問題、電氣干擾以及各種其他併發症往往會隨之而來。這也是為什麼它是一個極其困難的工程問題,也是為什麼我們長期停滯在每平方毫米 1 瓦左右的原因。然而,令人興奮的是,整個行業正在積極努力去打破這一現狀。
我覺得去看看供應鏈的其他環節也很有趣。人們常說能源是個大難題,我們正面臨能源瓶頸。這話不假,但實際上你能想到一些非常簡單的解決方案。比如,想想美國有能力製造出的那數百萬臺卡車柴油發動機。
你可以非常輕鬆地在裝配線上將它們改裝成使用天然氣,然後以反向驅動 (back-driving) 的配置連接到電機上。在這種設置下,電機的作用是發電,而不是驅動車輪旋轉。通過將天然氣注入這些美國能夠實現百萬級量產的發動機中,你就獲得了一條切實可行的發電途徑。
也許有人會反駁說,這聽起來維護成本太高了,因為一個數據中心可能需要數百臺這樣的設備。但實際上,你完全可以僱傭汽修店的機械師,讓他們跑來跑去修理這些卡車發動機就行了。我不是說這事兒輕而易舉——我本人肯定是幹不來的——但我認為你指出的觀點非常在理。
主持人 Sean: 這一點說得非常好。因為在過去二三十年裡,西方並沒有真正重視半導體,甚至整個硬件領域,導致我們缺乏創新,也沒有最頂尖的人才去思考如何……
迪倫·帕特爾: 改進這些硬件。既然你可以去寫代碼、賣廣告賺錢,為什麼還要去搞硬件呢?確實如此。
主持人 Sonya: 好的,我非常想問一個問題:NVIDIA 對陣 TPU,你怎麼看?
迪倫·帕特爾: 我覺得大家似乎都想在兩者之間分個高下,但實際上這完全取決於具體的應用場景。展望兩年後,Google 通過其供應鏈將生產超過 1000 萬顆 TPU,而 NVIDIA 將生產數千萬顆 GPU,兩者的產值都將達到千億美元級別。我的意思是,Google 每年創造的 TPU 產值將超過 1000 億美元,而 NVIDIA 將達到 5000 億美元甚至更多。我並不是在做一個具體的……
主持人 Sean: 這不是在做具體的營收預測,只是一個思想實驗。我們的研究裡有相關數據。當然,我們也在為 SpaceX 的投資做準備。
迪倫·帕特爾: 你們是 SpaceX 的大股東嗎?原來如此,那講得通了。(對方答:我們很幸運能成為他們的大股東。)太棒了,太棒了。
回到 Google TPU 和 NVIDIA GPU 的對比,雙方都有各自極為突出的優勢。NVIDIA 會強調他們擁有卓越的交換機技術,且產品具備通用性;而 TPU 的陣營則認為他們針對性更強、能效更高,且網絡架構更適合某些特定類型的模型。
雙方在這些觀點上各有千秋。我可以一本正經地跟你論證 GPU 比 TPU 好,也可以反過來論證 TPU 比 GPU 強,但歸根結底,勝負取決於軟硬件的協同設計 (Hardware-Software Co-design)。
實際上,考慮到 OpenAI 模型的發展方向,如果他們選擇使用 TPU,可能是一場災難;反之,按照 Anthropic 和 Google 模型的演進路徑,用 GPU 訓練同樣會是個糟糕的決定。
稀疏模型與稠密模型
主持人 Sonya: 怎麼說?它們之間的根本差異到底在哪裡?
迪倫·帕特爾: 差異體現在很多方面。舉個最簡單的例子,矩陣乘法單元 (Matrix Multiply Unit) 的尺寸就是不同的。這就決定了你所進行的矩陣乘法的形態、使用的注意力機制 (Attention Mechanism)、注意力機制的結構,以及專家模型 (Experts) 的架構方式。
主持人 Sonya: 所以你認為 OpenAI 和 Anthropic 的模型架構正在走向截然不同的方向?
互聯方式決定架構
迪倫·帕特爾: 事實上,我認為它們的模型架構有著天壤之別。OpenAI 的模型要稀疏 (Sparse) 得多,這有其獨特優勢;而 Anthropic 的模型雖然也是稀疏的,但整體上更偏向稠密 (Dense),這也帶來了不同的效益。
此外還有許多其他因素,例如網絡拓撲結構 (Network Topology)。NVIDIA 將所有的芯片連接到 NVLink 交換機上;而 Google 沒有交換機,他們的做法是利用芯片間互連技術 (Inter-Chip Interconnect, ICI),以超高帶寬連接 8000 顆芯片,但代價是數據必須經過其他芯片中轉,因為中間沒有交換機。
CUDA 護城河正在發生變遷
這些取捨各有優劣,並會反過來影響模型架構。我們不能簡單地斷言誰優誰劣,因為當硬件的影響力已經延伸到模型層時,你怎麼能脫離模型去孤立地評判硬件的好壞呢?
主持人 Sonya: 但長期以來,我一直認為 NVIDIA 的可編程性,以及 CUDA 本身,構成了極深的護城河。不過在過去三到六個月裡,至少在我的認知中,這種敘事已經發生了改變。
模型公司似乎不再那麼在意硬件壁壘了;如果為了適配另一款芯片需要編寫自定義內核 (Custom Kernels),那就寫吧。如果有必要,我們願意同時適配四五種芯片。實際上,Claude 和 Codex 在執行這類優化工作上已經表現得非常出色。
模型公司並不是成千上萬家,不需要每家都有獨特的編程能力;頂多也就幾十家。因此,“有成千上萬家大客戶都需要 CUDA 兼容性”這個根本前提,似乎正在發生動搖。
生態系統與協同設計
迪倫·帕特爾: 確實,CUDA 的護城河與軟件生態在某種程度上已經解綁了,因為現在的模型本身就非常擅長寫代碼,所有的軟件最終都會被商品化 (Commoditized)。但我認為這裡面也涉及一定程度的開源因素。人們口中的“CUDA 護城河”其實與 CUDA 本身關係不大;真正的關鍵在於,DeepSeek、Kimi (Moonshot AI)、智譜 AI (Zhipu AI)、阿里、騰訊以及最近發佈了優秀模型的小米——這些公司都在針對 GPU 進行模型的協同設計 (Co-design)。因此,這些模型如果在 TPU 上運行,效果往往大打折扣。
Google 必須建立自己的開源模型生態,比如 Gemma 模型。在這種情況下,護城河其實不是 CUDA,而是下游產品更適配 NVIDIA 這一既定事實。當這些公司開源他們的模型時,下游用戶——比如推理 API 提供商,或是試圖為商業場景定製強化學習 (RL) 模型的公司——都會面臨一個現實:他們必須使用 NVIDIA,因為整個生態都在用 NVIDIA。即使他們不在乎編寫 CUDA 內核,模型特定的架構配置(例如專家維度或隱藏維度)也決定了它們在 NVIDIA GPU 上的表現就是優於 TPU,反之亦然。
如果 Google 開源了性能頂尖的模型,同樣的邏輯依然適用:人們拿到模型後會發現,“哦,這些在 NVIDIA GPU 上跑得不好,我應該直接去租或買 TPU 來運行。”
對於小型團隊來說,自然傾向於使用 vLLM、SGLang 和 PyTorch 等現成的開源軟件。但頂級實驗室並不一定要依賴這些。OpenAI 很早就對 PyTorch 進行了分支 (Fork),Anthropic 等巨頭也不太依賴現成的開源實現,他們已經構建或分支出了自己的系統。因此,他們不再受限於開源技術棧。相反,他們會挑選市面上最好的硬件,從底層開始對模型和基礎設施軟件進行協同設計,以確保實現成本最優的解決方案。
Cerebras 的速度與侷限
“反正我會讓人工智能來幫我寫所有的軟件代碼。” 你怎麼看 Cerebras?我認為 Cerebras 是一家極具創新力的公司。在市場的某些細分領域,他們做得非常出色,速度極快。我認為推理 (Inference) 是一個巨大的市場。在 SemiAnalysis,我們幾乎只使用極速模式。
主持人 Sonya: 順便說一句,我非常欣賞你在成本核算上的嚴謹態度。我不知道那只是你做的一個案例展示,還是你一貫的做法,但你對每項任務中投入資金及其投資回報率 (ROI) 的精算分析,真的是非常精彩的洞察。
迪倫·帕特爾: “是的,我們在追蹤上做得非常細緻。謝謝。那是我們寫的一篇關於‘暗黑 GDP’(Dark GDP) 的文章。我們每天都會追蹤所有人的 Token 支出。如果某人的使用量突然飆升,我會去問:‘你拿它幹嘛了?’聽完解釋後,我會覺得:‘好的,謝謝你告訴我,看來這錢花得值。’很好,然後我繼續忙我的事情。”
“我認為‘極速模式’(Fast Mode) 對高端任務顯然價值巨大。我能看到在許多不同的應用場景中,極速生成 Token 絕對物有所值。但硬幣也有反面——在大量場景中,其實並不需要這麼快的生成速度;因此,市場不會為此買單,用戶會轉而使用 GPU 和 TPU。”
“Cerebras 面臨的最大風險在於,我傾向於認為人們只會在最頂級的模型上開啟‘極速模式’,而較小的模型則未必需要。當然,在金融市場,或者像 Jane Street(簡街資本)那樣的高頻、中頻交易場景下,我這個判斷可能是錯的。”
“但歸根結底,在像 Cerebras 或 Groq 這樣基於靜態隨機存取存儲器 (SRAM) 的芯片上,運行具有超長上下文的超大模型是非常困難的。那麼問題來了,一旦模型變得太大怎麼辦?如果 OpenAI 的模型不是千億或小几萬億參數級別,而是超過 10 萬億參數,我認為 Cerebras 根本裝不下。如果它不僅裝不下模型,還無法支持長上下文(比如一百萬個 Token),那就很難證明使用它的合理性了。”
“到目前為止,我們看到各大 AI 實驗室絕大部分的收入和使用量,依然集中在他們最頂級的模型上。哪怕模型漲價,這個趨勢也沒有改變。數據顯示,儘管 Flash 模型今天才剛剛發佈,但已有數量驚人的用戶切換到了 Flash 以及 Opus 這種更高階的模型上——即便它們的成本要高昂得多。”
主持人 Sonya: “那是按美元金額計算的體量嗎?”
迪倫·帕特爾: “完全是按美元金額計算的體量,而不是按 Token 計算的。不過話說回來,誰在乎 Token 的體量呢?關鍵在於美元收入,很合理,對吧?我才不在乎到底賣出了 20 萬輛 Mini Cooper 還是豐田凱美瑞 (Toyota Camry),如果福特 F-150 的平均售價 (ASP) 是它們的 5 倍,哪怕銷量只有一半也無所謂。所以,美國最賺錢的市場是皮卡 (Pickup Trucks),對吧?雖然大半是玩笑話,但道理就是這樣。”
主持人 Sean: “我確實認為這是你做得最出色、也是讓你脫穎而出的一點:除了鑽研技術,你還極其關注背後的經濟賬。極少有人能將這兩者完美融合。”
迪倫·帕特爾: “是的,謝謝。我覺得在 SemiAnalysis 內部工作極其有趣。我們有 90 名員工,其中很大一部分是貫穿整個供應鏈的技術專家和工程師,另一大半則是曾在對沖基金工作的人。你經常能看到他們爭論不休。有人會說‘那個不重要’,另一撥人立馬反駁‘但是要考慮成本啊!’,接著工程師又會插嘴‘不不不,這項技術才是最接近落地的’。你會看到這些觀點自然而然地碰撞交鋒,而我們的工作氛圍又很隨意。既然我以前當過論壇版主,你大概能想象我會怎麼應對……”
主持人 Sean: “你完全樂在其中。”
迪倫·帕特爾: “你永遠不要和豬摔跤,因為因為豬會樂在其中”
ROI 辯論與犀利觀點
主持人 Sean: 完全正確。藉著這個話題,在進入下一個問題前我想問,在半導體領域有沒有什麼話題會觸及你的‘雷區’?比如某種觀點已經成了一個爛梗,一聽到你就會覺得這人腦子進水了?比如‘內存就是瓶頸’這種話。”
迪倫·帕特爾: “我的意思是,內存確實是個瓶頸。但拋開這個不談,真正讓我血壓飆升的,是那些聲稱‘AI 沒有投資回報率 (ROI)’的人。這讓我非常憤怒。人們總是質疑‘ROI 在哪裡?’,或者乾脆全盤否定模型的進步。有人聲稱模型並沒有變得更好,說它們沒有推理能力,不會思考,甚至馬上就要走進死衚衕、陷入停滯。但坦白講,一直以來,AI 模型能力的發展軌跡始終是一路向右上揚的。 他們非要指著某個沒有提升的基準測試 (Benchmark) 說事,但這僅僅是因為那個測試的分數早就觸及了 90% 的天花板。當你去看那些全新的基準測試時,分數完全是在直線飆升。”
“我認為真正的挑戰在於,半導體技術極其複雜,我不怪大家不瞭解它。就連我每天都在學習半導體供應鏈的新知識,而我研究這一行可以說是足足有 18 年了——從我 12 歲當論壇版主時就開始了。它融入了我的呼吸和生活,是我唯一關心的事物。然而,這個產業的抽象堆棧 (Abstraction Stack) 裡有著太多的層級。就在昨天,我才瞭解到一種銷售額高達 1 億美元的新型化學品,我當時震驚了;我以前甚至不知道它的存在,更不知道它是用來做什麼工藝的。”
“結果證明,這種化學品至關重要——每塊芯片都離不開它。這提醒了我,芯片製造涉及到成千上萬個工藝步驟。人們可能會抬槓說:‘哦,你懂半導體?那你把每一個工藝步驟都列出來看看’,但這根本不可能。我發現最滑稽的是,有些人明明掌握了所有的事實,卻依然推導出了完全錯誤的結論。在工作中,我們無時無刻不在面對這種情況。我的態度是,遇到這種事不要生氣,而是要儘快找出這些謬誤並迅速糾正它們。”
十年技術押注
主持人 Sean: “我覺得整個行業目前的狀態是,AI 顯然是眼下世界上最重要的事情,同時也存在太多短期的瓶頸。我們已經聊了很多短期內的話題。那麼把時間線拉長,比如站在 10 年的維度上看,有什麼長遠發展是你真正感到興奮的?我們提到過軌道數據中心 (Orbital Data Centers),那你覺得像硅光子學 (Silicon Photonics) 這樣的技術,在 10 年的時間框架內是被低估了還是高估了?還有沒有其他你看好的 10 年期技術?”
迪倫·帕特爾: “是的,我認為在 10 年的維度裡,太空領域簡直瘋狂且酷斃了。對於太空數據中心、小行星採礦這類事物,我對 SpaceX 的願景感到無比興奮,對吧?重申一下,在大家衝進去之前先聲明,這絕對不是投資建議。而在半導體方面,只要某項技術的突破提前或推遲一年,就會引發巨大的市場波動和行業劇變。就拿共封裝光學 (CPO, Co-Packaged Optics) 來說,所有人都知道它肯定會在本年代末落地,目前的爭論無非是具體在 2027、2028、2029 還是 2030 年實現。但到了那個時間點,它必然會發生。我覺得更有趣的是某些初創公司,對了,你們投資了德文·拉奧 (Devine Rao) 的公司嗎?”
主持人 Sean: “我們投了。”
迪倫·帕特爾: “好的。我覺得他試圖在硅芯片層、軟件抽象層和模型層同時進行創新。而且他完全明白,這不是那種‘我們在幾年內就能搞定’的項目。這不是兩年的時間跨度,甚至不是幾年的事,而是一個長期的技術押注。像這種‘我們要將模擬計算 (Analog Compute) 和基於能量的模型 (Energy-Based Models) 等所有瘋狂的想法一次性全部實現’的宏大敘事,真的非常令人興奮。大概率會失敗,但你知道,這本身就讓人心潮澎湃。而且我很喜歡……”
主持人 Sean: “非常期待它的表現。”
迪倫·帕特爾: “是的,我該說的是,它絕對無法一蹴而就。但我相信德文 (Devine),有趣的是,他算是我入行時最早認識的一批人之一,大概是在 2020 或 2021 年。確切地說,是 2020 年。”
主持人 Sean: 他的成就很能說明他的為人。在我的印象裡,他總是致力於提攜後輩,努力發掘人才。
主持人 Sonya: 他在 Mosaic 項目上的眼光實在太超前了。我還記得當時聽過他的推介。
迪倫·帕特爾: 其實那時我還是個小透明。我在網上“釣魚”吸引他的注意,沒想到他真的回覆我了。後來我們轉到了私信,接著又通了電話。他是我在整個半導體行業(semiconductor industry)中交談過的第一位真正的大佬。那挺有意思的。不過,抱歉打斷你了。
主持人 Sonya: 是啊,那確實挺有意思。你認為整個生態系統的最終形態會是什麼樣?比如,你覺得每個實驗室和每個超大規模雲服務商(Hyperscaler)最終都會擁有自己的專屬芯片嗎?現在看來,Trainium 芯片似乎已經做成了,對吧?所以,你認為最終的結局會是每個實驗室、每個超大規模雲服務商都有自己的芯片嗎?至少在推理端是這樣,而在訓練端可能還是會去找 NVIDIA 或其他廠商?你覺得最終格局會是怎樣?
迪倫·帕特爾: 我認為大家都會去嘗試,而且絕不會停止探索。歸根結底,供應鏈至關重要,你所能整合的技術能力同樣關鍵。隨著產業的不斷壯大,供應鏈的多元化是水到渠成的必然趨勢。
目前,各家自研芯片的物理結構都大同小異:中間是一塊碩大的邏輯計算裸片(logic compute die),四周、頂部和底部環繞著高帶寬內存(HBM)。頂部負責網絡通信,底部管理 PCIe 和其他輸入輸出(IO)。無論是 Trainium、TPU、NVIDIA 的芯片,還是大多數初創公司的產品,其架構幾乎如出一轍——當然,Groq 和 Cerebras 除外,他們在做一些打破常規的嘗試,這非常酷。
隨著行業的演進,我們會看到硬件架構和模型架構出現更多的分化,這將促使人們將兩者進行協同優化。在這個過程中,有些人最終會陷入“局部極小值”(local minima)。如果我們把這看作是一場梯度下降(gradient descent)的尋優之旅,每個人都試圖抵達最完美的全局最優解,那麼必然會有人不可避免地狂奔進局部極小值的死衚衕。 接下來的問題就是:你該如何抽身退步,重新滑向那個絕對的全局最優解?
在某種程度上,NVIDIA 芯片的通用性永遠會比其他任何芯片更強,至少在並行 AI 計算領域是如此。因為他們擁有極其龐大的客戶群體,這些客戶的需求五花八門,並能持續不斷地提供設計反饋。一款專用芯片在執行特定任務時或許能碾壓 NVIDIA,但這會不會又是一個局部極小值呢?比如,TPU、Trainium、Groq 或 Cerebras 的設計可能完美契合當下的技術狀態,但如果行業終極目標發生了偏移,他們就會發現自己站錯了賽道。它們或許能各領風騷一兩年,但最終卻難免落入次優的窘境。這才是真正致命的問題。
我堅信,通用 AI 計算將擁有廣闊的市場。因為如果你去和各大實驗室的人聊聊,他們甚至連自己明年會用什麼架構都一無所知。他們正在進行許多激動人心的研究押注,但未來究竟走向何方,無人知曉。通常,他們只清楚手裡有什麼硬件,並試圖以此進行協同優化。但歸根結底,如果模型架構迎來一次底層突破,整個遊戲規則都將被徹底顛覆。
假設有朝一日,注意力機制(Attention Mechanism)被其他東西取代了呢?誰說得準?又或者,某種技術突變猝然降臨,所謂“最佳硬件”的標準也會隨之改寫。因此,人們究竟是願意孤注一擲,為一款高度專用的 ASIC 砸下五年的重金,還是更傾向於儲備一池子通用性更強的算力?
你可以看看這個例子:有人為了 GPU 向 xAI 支付高達每小時 11 美元的費用,這簡直瘋狂。這個價格極高,顯然算力正處於極度稀缺狀態,但考慮到谷歌自己就有 TPU,這事兒依然讓人覺得不可思議。這不禁讓人產生疑問:他們為什麼要這麼做?實際上,谷歌內部有三個並行的 TPU 設計項目。他們正與博通(Broadcom)合作研發一種架構的 TPU,同時與聯發科(MediaTek)合作另一款不同架構的 TPU,而這兩者又與他們未公開的其他研究架構截然不同。他們不僅僅是找幾個供應商來代工同一種架構,而是在同時押注截然不同的架構路線。
我相信大家都意識到了“局部極小值”的陷阱,因此每家巨頭都會推進自己的 ASIC 項目。他們都會豪擲數十億——像谷歌甚至是數百上千億美元——來部署自研 ASIC。但最終,他們依然會有無法用 TPU 跑通的工作負載。事實上,谷歌內部除了 Gemini 或 DeepMind 之外的一些項目押注,主要使用的恰恰是 GPU 而非 TPU。
這是一個無比廣闊的圖景;舉個例子,在藥物研發或是 Waymo 自動駕駛項目中,你可能並不想用 TPU。AI 領域存在著不同的架構押注和演進路徑。面向科學研究的 AI(AI for Science),其算法模式可能與通用人工智能(AGI)模型截然不同。
因此,我認為多樣性將持續繁榮。正因為這塊蛋糕已經變得如此龐大,各種細分市場將被不斷開闢出來。這意味著,即使絕大部分市場份額被 NVIDIA、TPU 和 Trainium 瓜分,其他公司依然能守住自己的利基市場(Niche)並賺得盆滿缽滿。
算力緊缺與新興雲廠商(NeoClouds)
主持人 Sonya: 說得太透徹了。我們能聊聊數據中心的建設嗎?目前從各種統計口徑來看,如果你去分析諸如“每計算小時成本”這類圖表,就會發現我們正處在一場瘋狂的算力緊缺之中。這似乎是一場供需雙殺的緊缺,對吧?需求端,對長視距智能體(long horizon agents)的需求正在暴漲;供給端,所有這些數據中心的建設卻都在延期。你認為我們在可預見的未來會一直深陷算力緊缺之中,還是說這種情況在某個時間點會迎來拐點?
迪倫·帕特爾: 是的,我們每個季度部署的算力規模都遠超上個季度,在建的數據中心也越來越多。今年,即便把延期因素算進去,算力規模也將達到 20 吉瓦(GW)。明年,同樣在扣除延期預期後,這一數字將超過 30 吉瓦。當然,萬物皆可延誤;只要涉及到硬件,延期就是家常便飯。這就是殘酷的現實。
我們會終身受困於算力緊缺嗎?這取決於模型進化的方向。Mythos 5 和 Fable 5 的總潛在市場(Total Addressable Market, TAM)絕不僅僅是 Opus 的兩倍。當模型能力出現質的飛躍、能夠勝任更多海量的任務時,其 TAM 將會呈指數級擴大。然而,自 Opus 4.5 發佈以來的這六到八個月裡,全球的算力並沒有翻倍,更沒有翻四倍。但 AI 能夠執行的有價值任務的需求——無論是任務數量還是其蘊含的商業價值——卻呈現出了爆炸式的指數級增長。
現在的問題是:下一步會發生什麼?顯然,如果不計入基於股票的薪酬支出(stock-based compensation),Anthropic 在第二季度就已經實現了盈利。我認為到了第三季度,即便把股票薪酬算進去,他們甚至也能實現全面盈利。這就是他們如今恐怖的吸金能力。相對於 API 的定價,他們在一個 Opus 4.8 Token 上能攫取超過 80% 的毛利。儘管通過亞馬遜 Bedrock 和谷歌 Vertex 等平臺達成的交易會拉低部分整體企業毛利率,但他們單 Token 的利潤率依然高得驚人。
只要你擁有支付能力,你就手握制勝王牌。 歸根結底,他們買進的每一張 GPU——即便溢價購買——都是一筆穩賺不賠的投資。他們甚至能以低於谷歌的價格從 SpaceX 買到 GPU,僅僅是因為他們下手更早。這是其他依賴風投輸血、或者尚未實現正向利潤的公司根本玩不起的資本遊戲。這其中的成本收益比如何計算?大道至簡:我為了擴充算力而租用的每一張 GPU 或 TPU,都能立刻化作印鈔機,源源不斷地生成 Token,並以正毛利變現。
如果我目前維持著 75% 的毛利率,那麼即便算力成本翻倍,也無傷大雅,我依然能保住 50% 的毛利。而且,如果是採用租賃模式,啟動更多的計算節點對他們來說甚至都不需要多少人力成本。所以歸根結底,我的淨營業收益(NOI)依然在節節攀升,對吧?因此,我會在某種程度上不惜一切代價去租用 GPU,只要我願意付,我就付得起。
主持人 Sonya: 我的問題恰恰相反,在某個節點上,這種算力基礎設施的狂熱建設會不會突然暴雷?今天早些時候 Crusoe 發推公開表示,他們的一位客戶要求暫停某個數據中心建設項目的施工。在目前的生態系統中,似乎每個人都揹負著巨大的槓桿,口號都是“建、建、建”。“整個生態系統似乎都加足了槓桿,陷入了狂熱。作為投資者,這種‘高槓杆疊加高增長’的模式讓我感到極其不安。”
迪倫·帕特爾: 等等,先別急。“高槓杆疊加高增長”意味著只需投入極少的股權資本,就能撬動巨大的上漲空間 (Upside)。你不是債務投資者,你是信貸投資者,更是股權投資者啊。放手去幹吧!
主持人 Sean: 嗯。
迪倫·帕特爾: 你真得去補一補私募股權 (Private Equity) 的課了。
主持人 Sonya: 直接買斷,吃下整個產品線好了。
主持人 Sean: 她把這課給忘了。她在風險投資 (VC) 圈待得太久了。
主持人 Sonya: 不,我只是習慣看營收倍數 (Revenue Multiples)。但話說回來,你有看到任何(崩盤的)跡象嗎?你會對此感到擔憂嗎?
迪倫·帕特爾: 我明白你的意思。這又回到了模型價值的邏輯上。顯然,如果這些模型正在擴展工作的總經濟價值——也就是你早些時候提到、我們曾做過的那份“暗物質 GDP(Dark GDP)”報告的核心觀點。“如果模型能處理的工作量,其增長速度趕不上算力產能的擴張,潮水就會退去。” 但在過去六個月裡,天平明顯向模型端傾斜:模型能完成更多工作,或者說它們擴展工作總潛在市場 (Total Addressable Market, TAM) 的速度,遠快於算力的增長。因此,算力價格水漲船高。
模型進步突然停滯,這是完全有可能的。如果你去問 Anthropic或 OpenAI 的任何人——也許他們是被“洗腦”了 (Drinking the Kool-Aid)——但基本上每個人的態度都非常堅決:不,模型仍在持續進化。歸根結底,現有的方法論可能會在某個節點陷入停滯。我不確定這個節點在哪裡,因為目前我們依然能清晰預見模型的快速迭代。
事實上,得益於我稱之為“遞歸自我改進 (Recursive Self-Improvement)”的機制,如今模型的進步速度比半年或一年前還要快。模型正在輔助編寫底層基礎設施,並加速下一代模型的發佈。這就形成了一個偽遞歸的自我改進閉環,模型正以加速度變得越來越強大。
然而,歸根結底,資金始終是一個巨大的挑戰,這也是為什麼連 Google 這樣的巨頭也不得不進行融資的原因。要知道,他們持有龐大數量的 SpaceX 股份,對吧?他們擁有該公司大約 5%的股份——甚至更多——但確實,資本密集度是實實在在的。
主持人 Sean: 是的,也許她以為拉里·佩奇 (Larry Page) 當初在 100 億美元估值時投了 10 億美元,拿到了 10%的股份,後來被稀釋了等等。但這絕對是有史以來最偉大的投資之一。幹得漂亮,拉里。
迪倫·帕特爾: 沒錯。所以他們深知自己賬上有上千億美元的現金,或者九個月鎖定期滿後可以變現的資產,再加上他們創造的鉅額毛利,但即便如此,他們在做完財務模型後依然得出結論:“我們需要融資。”於是他們發行了債券,這聽起來簡直瘋狂。這也恰恰說明了他們認為接下來需要燒多少錢。
但資金確實是個大問題……Meta 之前宣佈要增加資本支出進行融資時,股價應聲大跌,市場並不買賬。但這也就是現實:所有這些公司最終都要去市場上找錢,不管是債權還是股權。到了某個臨界點,資金的閘門 (Money Spigots) 肯定會收緊。
但就目前而言,亞馬遜每增加一塊 GPU,或者任何公司增加一塊 TPU或 Trainium 芯片,都能帶來更高的營收和毛利。
主持人 Sean: 我想就此轉換個視角,拋給你一個問題。當我們討論這些時,我腦海中浮現出的是對 Crusoe 案例的一種替代假設 (Alternative Hypothesis)。我用石油工業打個比方:沙特阿拉伯每桶原油的開採成本遠低於其他許多國家,而且他們的石油雜質極少,煉化起來非常容易。
我的問題是:當你審視每一個落地建設的吉瓦 (Gigawatt) 算力——包括目前即將上線的 20 吉瓦——你認為這些算力的同質化程度有多高?你可以用任何你認為合理的指標來衡量,但比如說,Google 的吉瓦算力,其價值會是大多數“新型雲廠商 (Neoclouds)”的兩倍嗎?因為他們使用了光交換機 (Optical Switches),在這個領域深耕多年,並且懂得如何進行電力平滑調度 (Power Smoothing)。
我認為這可以作為一種替代假設:為什麼那些精通數據中心建設的頭部玩家,在海量需求和自身卓越能力的加持下,應該將規模擴張到極致。反之,也許我們已經開始看到早期跡象,那些在這個領域不夠專業的玩家正陷入困境。我不確定真正的原因究竟是什麼。
迪倫·帕特爾: 是的,我對大家怎麼看這個問題也很好奇。不過到目前為止,我們已經有具體的衡量指標了,對吧?例如,Trainium 提供給 Anthropic和 OpenAI 的租賃費率低於每吉瓦 (Gigawatt) 100 億美元。而在過去六個月的瘋狂期之前,GPU 的價格通常在每吉瓦 120 億到 130 億美元左右。這就是新型雲廠商與亞馬遜之間的租金差異。即便現在亞馬遜對外出租 GPU,價格也大概在 130 億美元左右。
主持人 Sean: 而且我的理解是,亞馬遜對這些數字進行了一定程度的補貼。所以我其實認為實際的差價甚至更大。Trainium 的價格不僅低於 100 億,而且中間還包含了一些複雜的置換條件。而且你看,據我瞭解,Anthropic 在提升 Trainium 實用性方面發揮了巨大作用,比如幫他們編寫了各種底層庫 (Libraries) 等。所以我聽到的所有反饋都是:Trainium 真的是非常出色的硬件,而且正變得越來越強大。顯然,Anthropic 現在也在大量使用它。因此,我們有望看到它的價格逐步回升。
迪倫·帕特爾: 是的,他們簽署的協議實際上包含一個保底機制 (Floor Mechanism):如果芯片性能不佳,價格就會下降——甚至可以觸發合同取消;如果性能優異,價格就會水漲船高。算下來,Trainium 的實際成本不到 100 億美元。相比之下,SpaceX與 Google 達成的 GPU 租賃協議則極為誇張:年租金費率高達每吉瓦 250 億美元,摺合每兆瓦 (Megawatt) 2500 萬美元。我認為這是一種極其瘋狂的背離 (Divergence)。顯然,如果亞馬遜今天對外出租 Trainium,由於算力短缺,價格大概率會超過 100 億美元。
我們在數據中心市場已經看到了這種價差。如果你做的是機房託管 (Co-location)——不提供算力本身,只提供電力——數據中心的定價通常是“每千瓦每月多少美元”。過去的價格大概是每月每千瓦 60 美元,但現在你能看到交易價格飆升到了 120 美元到 160 美元不等。定價完全取決於質量;我見過高達 200 美元的報價,那是因為客戶信用評級較差,但設施屬於頂配。反之,在印度等地,我也見過低至 100 美元甚至 80 美元的報價,因為那裡電網不可靠、網絡不穩定,且基礎設施一般。市場上已經出現了巨大的價格分化。
關於數據中心的建設,一個常見的坑 (Pitfall) 是,許多項目最後直接爛尾了。很多情況是,一小撮人買了幾臺燃氣輪機 (Turbines)、付了首付,就四處宣揚要建數據中心,結果工程不斷延期,最終徹底黃掉。正因如此,你在評估這些團隊時,必須根據他們的過往業績,對預期進行概率加權 (Probability-weight) 和時間滯後 (Time-lag) 調整。我們的數據中心模型正是這麼做的;我們追蹤每一個數據中心項目,並根據其使用的具體設備及各種其他因素,動態調整我們的預測。
你剛才提到 Google 的一點很有意思:在一個 1 吉瓦的數據中心裡,他們實際上會部署大約 1.5 吉瓦的硬件設備。因為他們擁有極其深厚的技術底蘊——從底層工作負載 (Workload) 一直到最頂層——這使得他們能夠在內部靈活調配 (Slosh around) 電力。通常情況下,1 吉瓦的恆定算力,其實際功耗利用率只有 60%到 70%。但 Google 不會這麼浪費,他們通過精細化管理負載,將整體容量的利用率榨取到極致。你會看到 Google 在與公用電力公司簽署協議時,非常清楚電網在可持續狀態下到底能支撐多少負荷,從而在這些限制範圍內實現運營的最優化。
他們會跟電網公司說:“除了一年中最極端的兩三天,你們的電網實際上能承載 2 吉瓦。那就直接批給我 2 吉瓦吧,到負荷吃緊的時候通知我斷電削峰就行。”他們就是這麼幹的。正是通過這類策略,再加上對工作負載、備用電源以及現場發電機的極致管理,才讓他們摸索出瞭如何真正實現這 2 吉瓦算力的可持續穩定運行。
當人們做到這一點時,他們就能獲得更高的定價權。無論是通過電池、天然氣等手段進行調節,從而在只有一吉瓦(GW)實際電力的情況下賣出兩吉瓦的容量,還是通過現場發電,在別人拿不到電的地方硬生生湊出一吉瓦,你都能借此實現快速運轉。核心不一定是以更高的單價成交,而是賣出更多的吉瓦數。有時,你可以通過一些槓桿手段售出更多的電力,且每份電力的定價各不相同。
在數據中心和能源層面,我認為核心在於“有電”還是“沒電”,以及這種差異是否會導致交付延誤。這是一個非黑即白(Binary)的問題。
然而,在算力層面,我認為正在發生許多更有趣的事情。將一吉瓦的算力分配給 Anthropic,客觀上能比分配給 OpenAI 創造更高的營收價值。考慮到目前的速率限制和詞元(Token)上限問題,他們似乎都能百分之百消化掉手頭的每一吉瓦算力——特別是在性能大幅提升的 Claude 3.5 Sonnet 發佈之後。同樣地,如果你把一吉瓦算力給 SpaceX……
主持人 Sean: 我的推測是,他們可能比大多數人更懂得如何壓榨硬件的極致性能。我認為人們嚴重低估了他們通過星鏈(Starlink)積累的深厚網絡經驗,以及從特斯拉(Tesla)獲得的電源管理經驗。像 Brett Mayo 這樣的人簡直不可思議。對我而言,這可能正是許多人在分析時缺失的關鍵環節,儘管我也不能完全篤定。
迪倫·帕特爾: 還有一個不可忽視的事實:當 CoreWeave 構建出一吉瓦算力時,儘管他們的 GPU 計算性能客觀上確實優於亞馬遜、谷歌或微軟(我們也對其實際性能和可靠性進行過測試),但問題在於,谷歌在算力實際上線前六個月就開始預售了。他們需要拿著簽好的合同去進行信用抵押貸款,籌到錢後才能回頭去支付他們已經開出的採購訂單(PO)。而 SpaceX 的做法則是:“不,現在這東西已經在跑了,直接買吧。”當你擁有足以支撐這種霸氣運營的資產負債表(Balance Sheet)時,兩者之間就拉開了巨大差距。這也極大地拉高了你每兆瓦帶來的平均收入。
主持人 Sonya: 為什麼會出現“新型雲廠商”(Neo-Cloud)這種機會?如果五年前你問我,我會說超大規模雲廠商(Hyperscalers)將贏者通吃。你剛才提到 CoreWeave 的性能優於這些雲巨頭,那麼從宏觀層面和執行層面來看,這種逆襲的機會為何會存在?
迪倫·帕特爾: 2023 年,我寫過一份讓亞馬遜對我恨之入骨的報告,名叫《亞馬遜雲危機》(Amazon Cloud Crisis)。我在文中提到,亞馬遜之所以曾是毫無爭議的最強雲廠商,是因為他們的 Nitro 網卡(NIC)通過在網卡上運行虛擬機管理程序(Hypervisor)實現了租戶隔離,從而讓他們能夠售出所有的 CPU 核心。他們還通過直接採購裸 NAND 閃存來開發定製 SSD,並利用自研的 Graviton CPU 進一步壓低了單核成本。這些創新使他們能在傳統雲市場中提供更好的安全性和網絡支持,同時賣出更多核心。
然而在 AI 雲領域,這些曾經的殺手鐧反而成了性能的絆腳石。例如,儘管經過了多次迭代改進,Nitro 網卡在性能表現上依然拉胯。此外,許多傳統安全開銷完全是多此一舉,因為與 CPU 工作負載中用戶進行時間分片(Time-slicing)或共享插槽不同,在 AI 時代,沒人會在一臺 8-GPU 的服務器或 72-GPU 的機架中只單租一塊 GPU。客戶通常是簽訂長期合同,直接包下整個機架甚至多個機架,而不是進行短期的零星租賃。
GPU 租賃市場的運行機制意味著,超大規模雲廠商過去的許多傳統專業經驗已毫無用武之地,甚至適得其反。對於谷歌和亞馬遜來說,他們引以為傲的定製網絡是為傳統 CPU 工作負載量身打造的,但在 AI 面前卻顯得力不從心。
同樣,雖然微軟打算通過自建數據中心來縮減開支,但他們的團隊並不總能駕馭 AI 爆發所需的恐怖擴展速度。當建設進度可預測時,一切安好;但當需求預測突然翻倍時,他們就崩盤了,不得不向外求援,依賴第三方的算力容量。歸根結底,性能和推向市場的時間(Time-to-market)才是命門,而這些龐大的組織架構往往缺乏快速建設數據中心的結構性激勵機制。
相反,你看看 Crusoe,Chase 以及團隊裡的其他人。如果他們能以極快的速度交付算力,這些人就能賺得盆滿缽滿。
主持人 Sean: 他們都是加了高槓杆的股權持有者。而且別忘了,他們都出身於比特幣圈子。雖然大家平時心照不宣不提這茬,比如他們的核心數據中心負責人其實是前微軟員工。我只是開個玩笑,但你確實能在高波動率的市場中歷練出真本事。
主持人 Sonya: 你覺得黃仁勳是怎麼下這盤大棋(4D Chess)的?
迪倫·帕特爾:黃仁勳絕對憎恨一個由超大規模雲廠商掌控所有權力的世界。他之所以到處撒錢,給各種看似隨機的 AI 實驗室投資(即使外界一時看不懂他的意圖),並滿世界鼓動大家去投資這些公司,是有深層原因的。他渴望創造一個多極化的世界。這就是為什麼他願意擁抱中國的人工智能實驗室;他必須阻止未來被 OpenAI、Anthropic 和谷歌這幾家巨頭壟斷,因為那將是他的絕境。
如果未來只有超大規模雲廠商在建設算力,黃仁勳就徹底完了。因此,他被迫將算力分配的槍口對準“新型雲廠商”(Neo-Clouds),為他們的計算集群做信用兜底,並傾盡一切力量扶持他們。雖然今天一塊 GPU 賣給 Crusoe、CoreWeave 或是賣給谷歌、亞馬遜,黃仁勳賺到的錢是一樣的,但五年後,只要 Crusoe 和 CoreWeave 依然堅挺,谷歌的 TPU 和亞馬遜的 Trainium 就會面臨更強勁的外部阻擊。此外,讓更多的推理任務在非閉源模型實驗室中運行,對他未來的商業版圖也更為有利。
“新型雲廠商”(Neo-Cloud)和“新型實驗室”(Neo-Labs)的生態系統就像是一個狂野的“蠻荒西部”(Wild West),其中許多機構都拿到了 NVIDIA 的投資。雖然大浪淘沙下許多公司註定會倒下,但總會有幾支真正偉大的團隊脫穎而出。比如 Crusoe,一群從加密貨幣狂熱中轉型去建數據中心和火炬氣(Flare Gas)能源解決方案的極客;或者 CoreWeave,一支帶著對沖基金和加密貨幣基因的團隊。同一時期起步的許多公司都成了炮灰,但這兩支團隊已經證明了自己是極其出色的。
主持人 Sean: 是的,確實應該給予他們極高的認可(Credit),這也是你想表達的核心觀點,不過……
迪倫·帕特爾: 我的觀點是,這就像往水裡撒下一大把魚餌,最聰明的魚自然會摸清門道,脫穎而出。對於那些新興雲廠商(Neo Clouds)來說是這樣,他也希望對於新興 AI 實驗室(Neo Labs)同樣如此。到底哪幾家新興實驗室能真正嶄露頭角,我們拭目以待。不過你看,Thinking Machines 已經實現了幾億美元的年度經常性收入(ARR),對吧?這相當了不起。即便媒體上總在唱衰,覺得他們人才流失慘重,但現實是,Tinker 依然創造了幾億美元的 ARR。對於一個問世不到六個月的新產品來說,一出場就能達到如此規模,絕對令人矚目。我們也希望同樣的好戲能在其他新興實驗室身上上演。所以說,他所追求的,是一個多極化的世界。
主持人 Sean: 確實如此。衷心祝賀你們取得的巨大成功。
迪倫·帕特爾: 謝謝,非常感謝。
主持人 Sean: 最後我想說的是,我對這一切也有所見證。聽完你的分享,我想公眾都能真切地感受到你有多拼。顯然,正是過去十多年來的拼盡全力,才換來了你們最近幾年的“天時地利”。你所取得的成就令人難以置信,而且我知道,這一切僅僅是個開始。非常感謝你能來接受這次訪談,太棒了。
歡迎加入深潮 TechFlow 官方社群
Telegram 訂閱群:https://t.me/TechFlowDaily
Twitter 官方帳號:https://x.com/TechFlowPost
Twitter 英文帳號:https://x.com/BlockFlow_News













