
OpenAI 早期員工 David Luan 最新訪談:DeepSeek 並未改變 AI 技術的敘事
TechFlow Selected深潮精選

OpenAI 早期員工 David Luan 最新訪談:DeepSeek 並未改變 AI 技術的敘事
在更低的成本下實現更多的智能,並不意味著你會停止對智能的追求。
作者:MD
出品:明亮公司

近日,在紅點創投(Redpoint Venture)的播客“Unsupervised Learning”上,紅點創投合夥人Jacob Effron與David Luan進行了一次訪談。他們從技術視角出發,探討了DeepSeek給大模型領域的研究和實踐帶來的啟示,並圍繞AI模型當下瓶頸的思考和潛在的突破方向做了分享。
David Luan是OpenAI的早期員工,他從2009年從耶魯大學畢業,先加入了iRobot從事機器人工作,隨後曾在多家公司任職(包括微軟),直到2017年加入了仍處於早期的OpenAI,當時研發團隊只有35個人。在這次的訪談中他也提到,加入一家人工智能公司的原因是來自於對機器人的興趣,他認為“機器人最大的限制在於底層算法的智能程度”。
2020年,David Luan離開OpenAI加入了谷歌,不過沒待多久,他就和谷歌期間結識的兩位同事共同創立餓了Adept,並擔任CEO。去年8月,他加入亞馬遜擔任AGI舊金山實驗室的負責人。
以下為「明亮公司」編譯的訪談正文(略有刪節):
大模型的侷限性與強化學習的價值
Jacob:David Luan是亞馬遜 AGI 實驗室的負責人。他之前是Adept公司的聯合創始人兼CEO,該公司籌集了超過4億美元用於開發AI Agent。他曾在擔任OpenAI的工程副總裁任期內參與了許多關鍵突破。我是Jacob Effron。
今天在節目中,David和我探討了許多有趣的話題,包括他對DeepSeek的看法,對未來模型進展的預測,我們討論了Agent的現狀以及如何使它們變得可靠,以及它們何時會無處不在。他還分享了一些關於OpenAI早期的有趣故事,以及那裡獨特的文化。這是一次非常有趣的對話,因為 David 和我已經認識超過十年了。我認為聽眾們會很喜歡。David,感謝你來參加我們的播客。
David:感謝邀請我。這將非常有趣,因為我們已經認識超過十年了。
Jacob:我記得你最初加入OpenAI的時候,我覺得這似乎很有趣,但我不確定這是否是一個明智的職業選擇。然後很明顯,你總是比別人更早地看到機會。
David:我真的很幸運,因為我一直對機器人感興趣,而(當時)機器人最大的限制在於底層算法的智能程度。所以我開始從事人工智能的工作,看到這些技術在我們有生之年取得進展,這真的很酷。
Jacob:今天我想和你探討很多話題。我想先從最近的熱門話題開始。顯然,過去幾周對 DeepSeek 的反應很大。人們對此議論紛紛,股票暴跌。有人說這對OpenAI和Anthropic不利。我覺得現在人們的情緒已經從最初的驚慌失措中緩和下來了。但我很好奇,人們在更廣泛的討論中,對這一事件的影響有什麼看法是對的,又有什麼是錯的?
David:我還記得那天早上,大家都在關注DeepSeek的消息。我醒之後一看手機,有五個未接電話。我心想,到底發生了什麼?上次發生這種情況是在SVB(硅谷銀行)倒閉的時候,因為所有投資人都在打電話讓我把資金從SVB和第一共和銀行撤出來。所以我想,肯定發生了什麼糟糕的事情。我查看了新聞,發現股票暴跌是因為DeepSeek R1的發佈。我立刻意識到,人們對這件事的理解完全錯了。DeepSeek做的非常出色,但它是這個更廣泛敘事的一部分——即我們首先學會如何讓新的大模型變得更智能,然後我們再學會如何讓它們變得更高效。
所以這其實是一個轉折點。而大家誤解的地方在於,僅僅因為你可以在更低的成本下實現更多的智能,並不意味著你會停止對智能的追求。恰恰相反,你會使用更多的智能。所以當市場意識到這一點後,現在我們又恢復了理性。
Jacob:鑑於至少基礎模型似乎已經在OpenAI的基礎上進行了訓練,你可以通過各種方式讓基礎的DeepSeek模型表現得像ChatGPT。那麼,展望未來,鑑於知識蒸餾的原因,OpenAI和Anthropic是否會停止更公開地發佈這些模型?
David:我認為會發生的情況是,人們總是想要構建最智能的模型,但有時候這些模型並不總是推理高效的。 所以我認為我們會越來越多地看到,儘管人們可能不會明確討論這一點,但人們會在內部實驗室中訓練這些巨大的“教師模型”(teacher models),利用他們能拿到的所有計算資源。然後他們會嘗試將其壓縮成適合客戶使用的高效模型。
目前我看到的最大問題是,我將人工智能的用例想象成複雜性的同心圓。最內層的複雜性可能是像與基礎語言模型進行簡單的聊天對話,我們在GPT-2就已經能夠很好地做到這一點。而每一個增加的智能層級,比如能夠進行心算、編程,或者後來的Agent,甚至是藥物發現等,都需要更智能的模型。但每一個之前的智能層級幾乎變得如此廉價,以至於可以被量化(quantize,指降低模型數值精度來降低資源消耗)。
Jacob:這讓我想到測試時計算(test-time compute)的趨勢。這似乎是一條非常令人興奮的前進道路,尤其是在編程、數學等容易驗證的領域。這種範式能帶我們走多遠?
David:有一系列論文和播客記錄了我多年來關於如何構建 AGI(通用人工智能)的討論。
Jacob:讓我們來給這些討論加點新的東西。
David:所以現在我們可以證明,我們在這一刻進行了這次對話。但早在2020年,當時我們開始看到GPT-2的出現,GPT-3可能已經在開發中或已經完成。我們開始思考GPT-4,我們生活在一個人們不確定是否只需要預測下一個token(next token prediction)就能解決所有AGI問題的世界裡。
我的觀點,以及我周圍一些人的觀點實際上是“不”。原因在於,如果一個模型被訓練成下一個token預測,那麼它本質上會因為發現新知識而受到懲罰,因為新知識並不在訓練集中。因此,我們需要做的是,我們需要看看其他已知的機器學習範式,這些範式可以真正發現新知識。我們知道強化學習(RL)可以做到這一點,RL在搜索中可以做到這一點,對吧?是的,或者像 AlphaGo,這可能是第一次讓公眾意識到我們可以使用 RL 發現新知識。問題一直是,我們什麼時候會將大型語言模型(LLMs)與RL結合起來,以構建出既有全人類知識,又能在此基礎上進行構建的系統。
Jacob:那麼,對於那些不容易驗證的領域,比如醫療保健或法律,這種測試時計算範式能否讓我們構建出能夠處理這些問題的模型?或者我們會變得非常擅長編程和數學,但仍然無法講一個笑話?
David:這是一個值得辯論的話題,我有一個非常明確的觀點。
Jacob:你的答案是什麼?
David:這些模型的泛化能力比你想象的要強。每個人都在說,我用了GPT-1,它在數學方面似乎更好,但等待它思考時,它可能有點不如ChatGPT或其他模型。我認為這些只是通往更強大的小波折。今天,我們已經看到了一些跡象,這些跡象表明,通過明確驗證模型是否正確解決了問題(就像我們在DeepSeek中看到的那樣),確實會導致在類似領域的一些稍微模糊的問題上的遷移。我認為大家都在努力,我的團隊和其他團隊都在努力解決這些更復雜任務中的人類偏好問題,以滿足這些偏好。
Jacob:是的。而且你總是需要能夠構建一個模型來驗證,比如“嘿,這個輸出是好的法律意見”,或者“這個輸出是一個好的醫療診斷”,這顯然比驗證一個數學證明或代碼是否能運行要困難得多。
David:我認為我們正在利用的是這些模型的好壞之間的差距——同一組神經網絡權重在判斷自己是否完成了一項好工作方面的能力,與生成正確答案的能力相比。我們總是看到這些模型在判斷自己“是否很好完成了一項工作方面”比“生成好的答案方面”更強。在某種程度上,我們正在利用這一點,通過一些RL工具(stuff),以讓它自己對是否做好了一件事有感覺。
Jacob:為了真正推出像這樣的模型,需要解決哪些研究的問題?
David:問題太多了,我想我可能只會列舉三個我們需要問題。首先,我認為第一個問題是,你需要真正知道如何構建一個組織和流程,以可靠地做出模型。
我一直對我團隊和我合作的人說,今天,如果你運營一個現代人工智能實驗室,你的工作不是構建模型,而是構建一個能夠可靠地做出模型的工廠。當你這樣想的時候,這完全改變了你的投資方向。在沒有達到可復現之前,我認為在某種程度上,沒有太多進步。我們剛剛經歷了從鍊金術到工業化的過程,這些模型的構建方式發生了變化。沒有這個基礎,這些模型就無法工作。
我認為下一個部分是,你必須以慢為快。但我認為這是第一個部分。我總是相信,人們總是被算法吸引,因為它們看起來很酷、很性感。但如果我們看看是什麼真正推動了這一切,其實是工程問題。例如,你如何進行大規模的集群計算,以確保它們能夠可靠地運行足夠長的時間?如果一個節點崩潰,你不會浪費太多時間在你的任務上。為了推動規模的前沿,這是一個真正的問題。
現在,整個強化學習(RL)領域,我們將很快進入一個世界,那裡會有許多數據中心,每個數據中心都會在基礎模型上進行大量的推理,也許還會在客戶帶來的新環境中進行測試,以學習如何改進模型,並將這些新知識反饋到一箇中心位置,讓模型學會變得更聰明。
Jacob:有一些像Yann LeCun這樣的人對大型語言模型(LLMs)的侷限性最近一直在提出批評。我想讓你為我們的聽眾總結一下這種批評,然後談談你對那些說這些模型永遠無法進行真正的原創性思考的人的看法。
David:我認為我們已經有反例了,AlphaGo是一種原創性思考。如果你回顧早期 OpenAI的工作,我們使用RL來玩Flash遊戲,如果你是那個年齡段的人,你可能還記得 MiniClip和類似的東西。這些曾經是中學時代的消遣,但看到它們成為人工智能的基石真的很有趣。我們當時正在研究如何使用我們的算法同時打通這些遊戲,你很快就會發現它們學會了如何通過利用漏洞穿過牆壁等方式快速通關,這些是人類從未做過的。
Jacob:在驗證方面,它主要是找到巧妙的方法,為這些不同領域找到驗證的方法。
David:你就用模型就行了 。
如何建立可靠的Agents
Jacob:我想把話題轉向Agents的世界。你如何描述這些模型的現狀?
David:我仍然對智能體(Agents)感到無比興奮。這讓我回想起2020、2021年,當第一波真正強大的模型如GPT4問世時。當你試用這些模型時,會感受到巨大的潛力——它能創作出優秀的說唱歌曲,能進行精彩的吐槽,三位數加法也基本過關。但當你讓它"幫我訂個披薩"時,它卻只會模仿達美樂披薩客服的對話模式,根本無法完成實際任務。這顯然暴露了這些系統的重大缺陷,對吧?
自那時起,我就堅信必須解決Agents的問題。當我在谷歌工作時,我們就開始研究後來被稱為"工具使用"的課題——即如何向大型語言模型(LLM)展示操作接口,讓它自主決定何時採取行動。雖然學術界一直稱之為"智能體",但當時公眾還沒有形成統一認知。為此我們嘗試創造新術語"大型行動模型"(Large Action Model)來替代"大型語言模型"(Large Language Model),這個概念曾引發過一些討論。但最終業界還是選擇了"智能體"(Agent)這個稱謂,如今這個術語已被濫用得失去了本真意義,這令人遺憾,但作為首家現代亞洲公司探索這個領域還是很酷的。
當我們創立Adept時,當時最好的開源LLM都表現欠佳。由於當時也不存在多模態LLM(如圖像輸入的LLM,像後來的GPT-4v),我們不得不從頭開始訓練自己的模型\我們不得不從頭開始做所有事情,這有點像在2000年創辦互聯網公司卻不得不打電話給 TSMC去製造自己的芯片,這簡直太瘋狂了。
所以一路上,我們學到的是,大型語言模型在沒有今天的RL技術的情況下,本質上是行為克隆器(behavioral cloners),它們會做它們在訓練數據中看到的事情——這意味著,一旦它們進入一個從未見過的情況,它們的泛化能力就會很差,行為變得不可預測。所以Adept一直專注於實用智能(useful intelligence)。那麼實用性意味著什麼?它不是推出一個在Twitter上引發病毒式傳播的酷炫演示。而是將這些技術交到人們手中,讓他們不必再做那些大多數知識工作者不得不做的繁瑣工作,比如在電腦上拖動文件。所以這些知識工作者關心的是可靠性。所以我們的一個早期用例是:我們能否為人們處理發票?
Jacob:每個人都喜歡處理發票(笑)。對於這些通用模型來說,這似乎是一個自然的開始。
David:這是一個很棒的“Hello World”。所以當時沒有人真正做過這些事情,我們選擇了一個顯而易見的“Hello World”用例。我們做了Excel等其他一些項目。如果這個系統每七次中有一次刪除了你QuickBooks的三分之一條目,你就永遠不會再次使用它。可靠性仍然是一個問題,即使在今天,像Operator這樣的系統非常令人印象深刻,它似乎比其他雲計算機Agents更勝一籌。但如果你看看這兩個系統,它們都專注於端到端的任務執行,比如你輸入“我想讓你幫我找55個週末度假的地方”,它會嘗試完成這個任務。但端到端的可靠性非常低,需要大量的人工干預。我們仍然沒有達到一個點,企業可以真正信任這些系統,做到“一勞永逸”。
Jacob:我們必須解決這個問題。也許可以為我們的聽眾解釋一下,如果你從現有的基礎多模態模型開始,要將其轉變為一個大型行動模型,背後實際上需要做哪些工作?
David:我可以從更跟高維度討論這個問題,但基本上有兩件事需要做。第一是工程問題,即如何以一種模型可理解的方式展示能做的事情。比如,這裡是可以調用的API,這裡是你可以調用的UI元素。讓我們教它一點關於Expedia.com(注:旅行服務網站)或SAP的工作原理。這是一些研究工程的內容。這是第一步,即賦予它一種對自身能力的認知,以及基本的行動能力。
第二部分才是有趣的地方,即如何教它規劃、推理、重新規劃,並遵循用戶指令,甚至能夠推斷出用戶真正想要什麼,併為其完成這些任務。這是艱鉅的研發難題,它與常規的語言模型工作有很大不同,因為常規的語言模型工作是“讓我們生成一段文本”,即使是今天的推理工作,比如數學問題,也有一個最終答案。
所以它更像是一個單步驟的過程,即使它涉及多步思考,它也只是為你提供了答案。這是一個完全的多步決策過程,涉及回溯,涉及嘗試預測你採取行動的後果,並意識到刪除按鈕可能是危險的,你必須在基本設置中完成所有這些工作。
然後你將其放入沙盒環境中,讓它在自己的條件下學習。最好的類比是,應該是 Andrej Karpathy(注:OpenAI創始團隊成員,2024年創立AI+教育機構Eureka Labs)說過,現代AI訓練有點像教科書的組織方式。首先,你有對某個物理過程的全部解釋,然後是一些示例問題。第一部分是預訓練,示例問題是監督式微調,而最後一步是開放性問題,也許教科書後面有答案。我們只是在遵循這個過程。

Andrej Karpathy對於大模型的描述(來源:X.com、明亮公司)
Jacob:我想你肯定已經對這些智能代理如何真正進入世界進行了很多思考。我想問幾個問題。首先,你提到,部分問題是讓模型知道自己可以訪問什麼。那麼,隨著時間的推移,模型將如何與瀏覽器和程序交互?這會類似於人類的交互方式嗎?還是隻是通過代碼?還有其他方法嗎?
David:如果我要評論這個領域的話,我認為目前最大的問題是,人們在如何與這些越來越智能的大模型和Agent進行交互方面缺乏創造力。你還記得iPhone剛出來時,App Store也出來了,人們開始製作各種應用程序,比如按下按鈕發出打嗝聲,或者通過傾斜手機將啤酒倒入嘴裡的應用。我們的界面如今就像那樣,感覺很糟糕,因為聊天是一種超級受限的、低帶寬的交互方式,至少在某些方面是這樣。比如,我並不想通過七輪對話來決定我披薩的配料。
這種缺乏創造力的情況讓我感到很沮喪。我認為部分原因是,那些能夠幫助我們解決這些問題的優秀產品設計師,目前還沒有真正理解這些模型的侷限性。這種情況正在迅速改變,但反過來,到目前為止,能夠推動技術進步的人總是將其視為“我在這裡交付一個黑盒子”,而不是“我在這裡交付一種體驗”。
當這種情況改變時,我期待看到像這樣的系統,當你與代理交互時,它實際上會為你合成一個多模態用戶界面,以列出它需要從你那裡獲取的內容,並在人類和AI之間建立共享的上下文(Context),而不是像現在的範式那樣,你只是在與它聊天。它更像是你和它一起在電腦上做某件事,看著屏幕,更像是並行而不是垂直。
Jacob:我想你提到過,Operator現在雖然令人印象深刻但有時並不完美。那麼,你認為我們何時才能擁有可靠的智能代理?
David:我認為Operator非常了不起,只是目前整個領域還缺少最後一塊拼圖。
Jacob:我想,考慮到自動駕駛的歷史,可能早在1995年,他們就進行了自動駕駛的演示,車輛可以橫跨全國,完成99%的旅程。
David:是的。
Jacob:我們是否需要再等30年?
David:我不這麼認為,因為我認為我們實際上已經有了合適的工具。
Jacob:你之前提到過,AGI(通用人工智能)其實並不遙遠。
David:我正在尋找Agents領域的主要里程碑是,我可以在訓練期間給這個代理任何任務,幾天後回來,它已經100%完成了。是的,就像人類給我們帶來了5%的可靠性提升一樣,但這個代理已經學會了如何解決這個問題。
Jacob:正如你之前提到的,你創立Adept時,還沒有真正開源的模型,更不用說多模態開源模型了。你認為如果有人今天開始一家像Adept這樣的公司,一家創業公司能否在這裡取得成功?還是說,最終推動球向前滾動的將是基礎模型公司和超大規模雲服務提供商?
David:我對這個問題有很大的不確定性。但我的當前觀點是,我個人認為AGI其實並不遙遠。
Jacob:當你提到 AGI時,你是如何定義它的?
David:一個可以在計算機上完成人類所做的任何有用任務的模型,這是定義的一部分。另一個我喜歡的定義是,它是一個能夠像人類一樣快速學會做這些事情的模型。我認為這些都不太遙遠,但我也不認為它們會迅速擴散到社會中。正如我們所知,根據阿姆達爾定律(Amdahl's Law),一旦你真正加速了某一件事情,其他事情就會成為瓶頸,你獲得的整體加速效果並不如你想象的那麼大。
所以,我認為會發生的是,我們將擁有這項技術,但人類能夠真正高效地使用這些技術的能力將持續相當長的時間。我的許多同事稱之為“能力過剩”(Capability overhang),一種巨大的能力過剩。
Jacob:你有沒有對一旦我們擁有這些能力,可能的加速因素進行過任何初步思考?
David:我認為這取決於人。這是關於如何共同設計與模型的交互,以及如何使用這些模型。這將是社會接受度的問題。比如,想象你有一個模型明天就出來了,它說:“我發明了一種全新的做事方式,每個人都應該去使用它。”人類需要與它達成和解,並決定這是否真的是一個更好的解決方案,這並不會像我們想象的那麼快。
Jacob:正如你所說,即使實驗室是第一個開發出這些模型的地方,也可能存在一個機會,讓創業公司真正彌合這些模型能力和最終用戶實際想要交互之間的差距。
David:我基本確定這就是會發生的事情。因為說到底,我仍然堅信,在一個擁有AGI的世界裡,人和人的關係真的很重要。最終,瞭解和擁有客戶,並更貼近他們瞭解他們的需求,將比僅僅控制這個被許多其他實驗室擁有的工具更重要。
Jacob:你認為未來十年人類將如何使用計算機?所有這些模型都達到了你對 AGI 的定義。我是否還會坐在電腦前?你對未來人類與這些技術的互動方式有何願景?
David:我認為我們將獲得新的工具箱,用於與計算機交互。今天,仍然有人使用命令行,對吧?就像人們仍然使用圖形用戶界面(GUI)一樣。在未來,人們仍然會使用語音界面。但我認為人們也會使用更多的環境計算(ambient computing)。而且,我認為我們應該關注的一個指標是,人類在與計算機交互時,每單位能量所獲得的槓桿(leverage)。我認為,隨著這些系統的發展,這個指標將繼續增大。
Jacob:也許可以稍微談談這個未來模型的世界,以及我們是否會最終擁有任何特定領域的模型。
David:讓我們看看假設的法律專家模型。你可能希望這個假設的法律專家知道一些關於世界的基本事實。
Jacob:很多人在上法學院之前會先讀一個普通學位。
David:沒錯。所以我認為會有一些特定領域的模型,但我並不想掩蓋重點,只是說會有一些特定領域的模型。我認為出於技術原因會有特定領域的模型,但出於政策原因也會有。
Jacob:這很有趣,這是什麼意思?
David:這就像有些公司真的不希望他們的數據被混在一起。比如,想象你是一家大銀行,你有銷售和交易部門,你有投資銀行部門,AI員工或LLMs為這些部門提供支持,就像今天這些員工不能共享信息一樣,模型也不應該能夠通過其權重共享信息。
Jacob:你認為還有哪些需要解決?模型方面,似乎你對如果我們只是擴展當前的計算能力,我們就能非常接近解決我們需要解決的問題充滿信心。但是否還有其他重大的技術挑戰需要克服,以繼續擴展模型的智能?
David:實際上,我並不同意這樣的觀點:只需將現有技術直接遷移到兩年後的算力集群(cluster),一切就能奇蹟般地運轉。儘管規模仍將是關鍵因素,但我的信心源自對當前核心開放性問題的研判——我們需要評估這些問題的解決難度。例如,是否存在必須通過顛覆性創新才能攻克的超級難題?比如徹底替換梯度下降算法(注:gradient descent,當前深度學習模型參數優化的核心算法,通過計算損失函數的負梯度方向迭代更新參數。),或是必須依賴量子計算機才能實現通用人工智能(AGI)。但我不認為這些是必然的技術路徑。
Jacob:當新的模型出來時,你是如何評估它們的?你有沒有一些固定的問題來測試,或者你如何判斷這些新模型的好壞?
David:我的評估方法論基於兩個核心原則:方法論簡潔性(Methodological Simplicity):這是深度學習領域最令人著迷的特質——當某項研究附帶了方法論文檔(這在當今已愈發罕見),你只需審視其實現路徑,就可能發現一種比傳統方案更簡潔、效果更優的解法。這類突破往往會載入深度學習經典(deep learning canon),並帶來'這確實展現了算法之美'的頓悟時刻。
基準測試的誤導性(Benchmark Misalignment):當前領域的炒作(hype)導致大量基準測試與模型的實際需求脫節,卻在研發流程中被過度重視。這些測試本質上是一種遊戲。評估和測量的複雜性被嚴重低估——相比當前許多研究方向,它們理應獲得更多學術聲譽和資源投入。
差異化的技術積累實際上很少
Jacob:似乎每個人都有自己的內部基準,他們並不公開發布,比如他們更相信的東西。就像你可以看到 OpenAI 的模型在許多編程基準測試中表現更好,但每個人都使用 Anthropic 的模型,他們知道這些模型更好。看到這個領域的演變很有趣。我想聽聽你在亞馬遜的近況,你如何看待亞馬遜在更廣泛的生態系統中的角色?
David:是的,亞馬遜是一個非常有趣的地方。實際上,我在那裡學到了很多東西。亞馬遜非常認真地致力於構建通用智能系統,特別是通用智能Agent。我認為真正酷的是,我認為亞馬遜的每個人都明白,計算本身正在從我們所熟知的基本元素轉變為對大型模型或大型代理的調用,這可能是未來最重要的計算基本元素。所以人們非常關心這一點,這太棒了。
我認為有趣的是,我負責亞馬遜的Agent業務,很酷的是你可以看到,代理在像亞馬遜這樣的大公司中觸及的範圍有多廣。Peter(音)和我一起在舊金山為亞馬遜開設了一個新的研究實驗室,這很大程度上是因為亞馬遜高層的許多人真的相信我們需要進行新的研究突破,以解決我們之前討論的通往 AGI 的主要問題。
Jacob:你是否關注任何這些替代架構,或者更前沿的研究領域?
David:讓我想想。我總是關注那些可能幫助我們更好地將模型學習映射到計算上的東西。我們能否更有效地使用更多的計算?這為我們能做的事情提供了巨大的乘數效應。但我實際上花更多的時間關注數據中心和芯片,因為我發現這非常有趣。現在有一些有趣的動作正在進行。
Jacob:似乎推動模型發展的主要因素之一是數據標註,而且顯然,所有實驗室都在這方面花費了大量資金。在測試時計算範式中,這是否仍然相關?你如何看待這個問題?
David:我首先能想到的是兩個數據標註需要解決的任務,首先是教模型如何通過克隆人類行為來完成一項任務的基礎知識。如果你有高質量的數據,那麼你可以用它更好地激發模型在預訓練期間已經看到的東西。然後我認為第二個任務,是教模型什麼是好什麼是壞,對於那些模糊的任務。我認為這兩者仍然非常重要。……
Jacob:你顯然一直處於這個領域的前沿,過去十年。有沒有一件事是你在過去一年中改變了看法的?
David:我一直在思考的是團隊文化的建設。我認為我們一直都知道,但我變得更加確信的是,招聘真正聰明、充滿活力、內在有動力的人,尤其是在他們職業生涯的早期,實際上是我們成功的一個重要引擎。在這個領域,每幾年,最佳策略就會改變。所以如果人們過於適應之前的最佳策略,他們實際上會拖慢你的速度。所以我認為,與我之前的想法相比,押注於新來的人會更好。
另一個我改變了看法的是,我曾經認為構建 AI 實際上會有真正的長期技術差異化,你可以在此基礎上不斷積累。我曾經認為,如果你在文本建模方面做得很好,它應該會幫助你自然而然地成為多模態領域的贏家。如果你在多模態方面做得很好,你應該會成為推理和代理領域的贏家……這些優勢應該會不斷積累。但在實踐中,我看到的積累很少。我認為大家都在嘗試相似的想法。
Jacob:言下之意,僅僅因為你率先突破了A並不意味著你就會在B上佔據優勢。比如,OpenAI 在語言模型方面取得了突破,但這並不一定意味著他們會在推理方面取得突破。
David:它們是相關的,但並不是說你一定會贏得下一個機會。
機器人什麼時候進入家庭
Jacob:我想問的是,你最初是通過機器人領域進入人工智能的。所以,你對今天人工智能機器人領域的現狀有何看法?
David:與我對Digital Agent的看法類似,我認為我們已經擁有了許多原材料。而且,我認為有趣的是,Digital Agent為我們提供了一個機會,讓我們在物理Agent之前解決一些棘手的問題。
Jacob:展開談談,在數字Agent 的可靠性如何在延續到物理Agent中?
David:舉一個簡單的例子,假設你有一個倉庫需要重新佈置,你有一個物理Agent,你要求它計算出重新佈置倉庫的最佳計劃。如果你在物理世界中學習,甚至在機器人模擬環境中學習,這會很困難。但如果你已經在數字空間中做到了這一點,而且你已經有了所有的訓練配方和調整算法的知識,以便從模擬數據中學習,這就像你已經在訓練輪上完成了這個任務。
Jacob:這很有趣。我認為當人們想到機器人時,存在兩個極端。有些人認為,我們在語言模型中發現的規模法則也會在機器人領域發現,我們正處於巨大變化的邊緣。你經常聽到 Jensen(英偉達創始人黃仁勳)談論這個問題。然後還有另一些人認為,這就像1995年的自動駕駛汽車,是一個很棒的演示,但還需要很長時間才能真正工作。你在這個光譜的哪一端?
David:我回到我之前提到的,給我最多信心的是我們構建訓練配方的能力,讓我們能夠100%地完成任務。我們可以在數字空間中做到這一點。雖然有挑戰,但最終也會遷移至物理空間。
Jacob:我們什麼時候會在家裡有機器人呢?
David:我認為這實際上又回到了我之前提到的問題。我認為許多問題的瓶頸不在於建立模型(modeling),而在於建模的擴散(diffusion)。
Jacob:關於視頻模型呢?顯然,現在有很多人進入這個領域,這似乎是一個新的前沿領域,它涉及到對世界模型和物理學的理解,以實現更開放的探索。也許你可以談談你在這個領域看到的內容以及你對這個領域的看法。
David:我對此非常興奮。我認為它解決了我們之前提到的一個主要問題,即我們之前討論過,今天我們可以讓強化學習在有驗證器(Verifier)的問題上工作,比如定理證明。
然後我們討論瞭如何將其推廣到Digital Agents領域,那裡你沒有驗證器,但你可能有一個可靠的模擬器,因為我可以啟動一個應用程序的暫存環境,教代理如何使用它。但我認為剩下的一個主要問題是,當沒有明確的驗證器或明確的模擬器時會發生什麼?我認為世界模型(World modeling)是我們回答這個問題的方式。
OpenAI的組織成長之路
Jacob:太棒了。我想稍微換個話題,談談 OpenAI 和你在那裡的時光。顯然,你參與了公司非常特殊的時期,並在許多進步中扮演了類似的角色。我想,未來我們會看到很多關於 OpenAI 文化的分析,關於那個開發了 GPT-1 到 GPT-4 的時代到底有什麼特別之處。你覺得那些分析會怎麼說?是什麼讓這個組織如此成功?
David:當我加入OpenAI的時候,研究社區還非常小。那是2017年,OpenAI 成立剛一年多。我認識創始團隊和一些早期員工,他們正在尋找一個能夠模糊研究與工程界限的人,而我剛好符合這個需求。
所以加入 OpenAI 是一件非常幸運的事情。當時團隊只有35人,但都是極其出色的人才,他們在超級計算方面做了很多工作,還有其他很多人,我都可以一一列舉出來。他們都是當時團隊裡非常出色的人。
有趣的是,一開始我的工作是幫助 OpenAI 建立擴展的基礎設施,從一個小小的團隊擴展到更大規模。但很快,我的工作開始轉變成如何定義一個差異化的研究策略,讓我們能夠為這個時期的機器學習做出正確的判斷。我認為我們比其他人更早意識到,之前的研究模式——你和你最好的三個朋友寫一篇改變世界的論文——那個時代已經結束了。我們真正需要思考的是這個新時代,我們試圖用更大的團隊,結合研究人員和工程師,去解決重大的科學目標,不管這個解決方案是否被學術界定義為“新穎”。 我們願意為此擔責。當GPT-2第一次發佈時,人們說這看起來像一個Transformer,“對,就是一個 Transformer”。而我們為此感到自豪。
Jacob:那麼,你當時加入 OpenAI 是出於什麼考慮呢?
David:我當時非常興奮,因為我想要站在研究的最前沿。當時的選擇是OpenAI、DeepMind或者 Google Brain。……正如我之前提到的,押注於真正充滿內在動力的人,尤其是那些處於職業生涯早期的人,這是一種非常成功的策略,有很多其他在那時定義了某個領域的人其實也沒有Phd學位、也沒有10年的工作經驗。
Jacob:你有沒有發現這些出色的研究人員有什麼共同的特質?是什麼讓他們如此出色?你從中學到了什麼,關於如何將他們組合成團隊以實現目標?
David:很大程度上是內在動力和智力靈活性。有一個人對他在我們團隊中所做的研究非常興奮和投入——我暫且不提他的名字。大約一個月半後,我跟他進行了一次一對一的談話,他突然提到他搬到了灣區加入我們,但還沒來得及為他的公寓安裝Wi-Fi也沒通電,他把所有的時間都花在辦公室裡,一直在做實驗,這對他來說完全不重要。
Jacob:這種熱情真是令人印象深刻。我之前聽你提到過,谷歌沒有在GPT突破上取得進展,儘管 Transformer是在谷歌發明的。當時很明顯,這項技術的潛力有多大,但谷歌作為一個整體很難圍繞它凝聚起來。你對此有什麼看法?
David:這得感謝Ilya,他是我們在基礎研究方面的科學領導者,後來也促成了GPT、CLIP和DALL·E的誕生。我記得他經常去辦公室,像一個傳教士一樣,告訴人們:“夥計,我認為這篇論文很重要。”他鼓勵人們用Transformer做實驗。
Jacob:你認為現在這些基礎模型公司正在做很多事情,會不會有另一種“配方”在未來某個時刻出現?
David:我認為失去專注是非常危險的。
Jacob:你可能是英偉達和Jensen(黃仁勳)最大的粉絲之一了。除了大家都知道的成就之外,你覺得英偉達還有哪些事情沒有被廣泛討論,但實際上對這家公司來說非常重要的東西?
David:我非常喜歡Jensen,他是一個真正的傳奇人物。我覺得他在很長一段時間裡做出了很多正確的決策,過去幾年對英偉達來說確實是一個巨大的轉折點,他們將互聯技術(interconnects)內部化,並選擇圍繞系統構建業務,這是一個非常明智的舉措。
Jacob:我們通常會在採訪的最後進行一個快速問答環節。認為今年模型的進展會比去年更多、更少還是相同?
David:表面上看起來進展可能差不多,但實際上是更多。
Jacob:你認為目前AI領域有哪些被過度炒作或被低估的東西?
David:被過度炒作的是“技能已死,我們完全完了,別再買芯片了”。被低估的是,我們如何真正解決超大規模模擬問題,以便讓這些模型從中學習。
Jacob:David,這是一次非常精彩的對話。我相信大家會想要了解更多關於你在亞馬遜的工作以及你正在做的一些令人興奮的事情,大家可以在哪裡找到更多信息呢?
David:對於亞馬遜,大家可以關注亞馬遜舊金山 AI實驗室(Amazon SF AI Lab)。我其實不太常使用Twitter,但我打算重新開始用。所以大家可以關注我的推特賬號 @jluan。
歡迎加入深潮 TechFlow 官方社群
Telegram 訂閱群:https://t.me/TechFlowDaily
Twitter 官方帳號:https://x.com/TechFlowPost
Twitter 英文帳號:https://x.com/BlockFlow_News












