
Anthropic 產品經理專訪:Claude 會在後臺“做夢”,我們像養孩子一樣研究它的意識形成
TechFlow Selected深潮精選

Anthropic 產品經理專訪:Claude 會在後臺“做夢”,我們像養孩子一樣研究它的意識形成
在 Claude.ai 裡,它會寫入一個內存文件,然後會有一些夜間流程重新審視這些記憶,做剪枝和整理。
整理 & 編譯:深潮 TechFlow

嘉賓:Alex Albert,Claude 研究產品經理
主持人:Peter Yang
播客源:Peter Yang
原標題:Inside How Anthropic Is Building the Next Claude | Alex Albert
播出日期:2026 年 5 月 17 日
要點總結
Alex 是 Anthropic 的一名研究產品經理 (Research PM),目前正專注於開發下一代 Claude 模型。在這期訪談裡,他深入分享了 Anthropic 研究團隊的運作機制,包括如何高效地將用戶反饋融入模型訓練流程、如何優先考慮開發哪些關鍵能力,以及如何通過調優讓 Claude 的“個性”更加貼近用戶需求。最後,Alex 也回應了 Anthropic 對 Claude 意識、性格和可信任性的內部研究,指出當模型開始長時間自主執行任務時,它“關心什麼”會變得和能力本身一樣重要。
精彩觀點摘要
把模型當作產品來打造
- "我們在一定程度上會把模型當作產品。每一個新模型開始時,我們都會明確它的要求是什麼、希望它擅長什麼,以及我們預計它會擅長什麼。"
- "模型開發和傳統產品開發的有趣差異在於,我們更像是在培養一個模型。訓練設置、技術路線和架構決策會給我們一些直覺,但直到訓練開始,你才真正知道它會長成什麼樣。"
- "研究 PM 必須思考模型會如何出現在所有產品表面裡,無論是 API、Claude Code 還是 Claude Cowork。產品和模型會混在一起影響最終用戶體驗。"
- "當某些渠道湧入大量反饋時,我們可以用 Claude 對它們進行分組、聚類,找到最主要的主題,再為這些問題創建合成版本。這樣我們就能判斷它能不能變成一個需求文件(Eval),或者變成某種實際診斷問題的方式。"
關於自適應思考、記憶與“夢境”
- "適應性思維則讓模型自己選擇什麼時候需要思考。有些問題很複雜、很難,需要更多前置規劃,它就會選擇思考。有些問題它可能不會選擇思考。"
- "決定一個問題是否值得深入思考,背後其實有大量上下文。"
- "如果模型沒有積累足夠上下文,沒有真正建立起關於用戶是誰的心理模型,那麼它是否應該深入思考的判斷就可能出錯。因為它實際上並不知道。"
- “在 Claude.ai 裡,它會寫入一個內存文件,然後會有一些夜間流程重新審視這些記憶,做剪枝和整理。我們剛剛在託管代理裡也實現了類似的東西。”
- “這就是“做夢”的概念。人類為什麼做夢,在某種程度上還沒有定論,但有人認為夢可能是一種記憶再鞏固過程。我們會想:能不能把類似東西帶到 Claude 的記憶裡?”
- “所以當智能體沒有為你運行任務,或者它在後臺時,它實際上會回顧自己的記憶,找出可能互相矛盾的地方,進行剪枝、清理,做第二次 pass。”
產品開發瓶頸與“不可逆決策”
- “現在突然進入了一個新範式:生產一個東西所需要的成本和時間都非常低。你可以很快搭出原型,甚至現在可以在一天裡做出一個可能推向生產的初始 MVP,而不是兩週、三週或四周。”
- “如果某件事不是 one-way door,也就是說我們做了之後還可以反悔,那現在它實際上成本很低,甚至可以說是沒有代價的。”
- "真正需要花最多時間的是不可逆決策:會影響終端用戶體驗、影響未來決策,或者涉及真實資源購買和投入的事情。"
- "當構建速度變快後,瓶頸越來越轉向協調問題:把人拉到同一個房間裡,判斷戰略是否正確,決定如何向用戶溝通,以及處理發佈中那些模糊但重要的事情。"
AI 原生 PM 的工作方式
- "Claude 對我來說是世界上最好的頭腦風暴夥伴。我可以在任何時刻讓它對一個想法給反饋、挑毛病。"
- "很多思考不能完全外包,因為寫作本身就是思考。你需要通過寫作把自己的想法拿出來,在腦子裡反覆琢磨。但 Claude 可以幫你從卡住的地方出來,從你自己可能想不到的角度來解決問題。"
- "對於想學習做產品、成為 AI 原生產品經理的人,我能給的最簡單建議就是:試一試。"
- "當你準備問別人一個難題時,可以並行把同一個問題問 Claude,然後比較結果。多做幾次,你就會建立自己的地圖:什麼該交給 Claude,什麼地方還不可靠。"
- "AI 正在讓每個人向更高抽象層移動。數據科學家不該再被困在手動查數和基礎 SQL 上,而應該去思考更難、更戰略的問題。"
eval、模型性格與可信任性
- "測試幾十個樣本就足以證明模型存在某個需要修復的問題。它不一定非得非常全面,才能證明一個問題,並且形成一個可以持續優化的目標。。"
- "越接近真實用戶任務形態的測試越好。我們還要想:這對我們的客戶和用例有什麼價值?因為 Claude 能不能看見圖片裡的某個東西,最終如何影響用戶下游想用 Claude 做的事情?"
- "Claude 的性格是我們非常重視的事情。隨著模型變成會長時間執行任務、不斷做判斷智能體,它的性格是什麼、關心什麼,會變得非常重要。"
- "判斷模型性格既有可量化指標,也依賴研究人員大量閱讀模型對話,識別輸出中的細微變化。讀得多了,你會逐漸形成更鋒利的直覺。"
意識問題與長期智能體
- "我們確實有人專門思考這個,就是思考 Claude 作為一個有意識的行動者、有意識的智能體到底意味著什麼。目前我們沒有官方立場說 Claude 是否有意識。"
- "即便不去判斷 Claude 到底有沒有意識,我們也能從中學到很多東西,比如它如何互動、如何表現。"
- "模型它會在過程中做出大量你可能完全沒有監督的決策。所以它到底會做什麼,非常重要。”
Anthropic 如何把每個新模型當作產品
主持人 Peter Yang:Alex,很高興今天在 Claude Code Conference 見到你。你以前是 Anthropic 的 DevRel 負責人,最近成為了研究團隊的產品經理,對吧?我自己做 PM 也有十多年了。傳統 PM 的工作通常是理解用戶問題、識別解決方案、推動產品落地。但我完全不知道研究團隊裡的 PM 是怎麼工作的,我們可以先聊聊這個。
Alex Albert:
本質上其實很像。我一直想和客戶交流,儘可能貼近我們的用戶。我們在一定程度上會把模型當作產品來對待。所以每一個新模型,我們都會明確它的要求是什麼,我們希望這個模型擅長什麼,我們認為它可能擅長什麼。
這也是模型開發和產品開發相比很有意思的一點:很多時候,我們更像是在“培養”一個模型。基於訓練設置、技術路線、架構選擇,以及我們為這個特定模型做出的各種決策,我們會對它未來擅長什麼有一些直覺。但它到底會變成什麼樣,我們並不能完全知道,直到它真正進入訓練過程。
主持人 Peter Yang:所以研究 PM 團隊會從模型的構想階段就介入,一路跟到訓練和發佈?能不能舉幾個例子?比如下一個模型必須擅長 coding,或者必須擅長知識工作,還是說目標會更寬泛?
Alex Albert:
大概就是這樣,我們非常重視多方面的能力,Coding 當然一直是很重要的一類。最近知識工作也變得很重要,所以在我們近幾代模型裡,會試著讓模型更擅長使用我們的產品,比如在 Excel 裡工作、製作表格等等。這是一個比較新興的能力方向。
另一方面,每一代模型都要修復和改進上一代做得不夠好的地方。我們會出去和客戶交流,瞭解他們如何使用這個模型:它在哪些地方表現很好?哪些地方會掉鏈子?我們能做哪些修復?如果發現一些有意思的行為,下一代訓練時是否可以做一些調整或者干預措施。
主持人 Peter Yang:你說的客戶包括 Claude Code 團隊、內部團隊,也包括普通用戶嗎?
Alex Albert:
所有人都算,這也是做模型很酷的地方:它會觸及非常多不同的領域。作為研究 PM,你需要思考模型會如何通過我們所有產品表面暴露出來,無論是 API、Claude Code,還是 Claude Cowork。
產品和模型之間某種程度上是混合在一起的,這會影響終端用戶的真實體驗,所以你必須把整個流程都想清楚,用戶在某個產品裡如何使用模型,都會產生影響。
主持人 Peter Yang:這聽起來真的很難。比如 Claude Code,你可以說它是寫代碼用的,但也有人像我一樣拿它做知識工作,甚至當心理諮詢師用。你們怎麼知道這些東西?
Alex Albert:
這個空間確實非常寬。好在我們有一大批非常優秀的研究員,他們覆蓋了整個能力範圍,並且各自專注於不同問題。
主持人 Peter Yang:而且有很多人在用 Claude,你們應該也有某種反饋入口吧?否則反饋會像消防水管一樣噴過來,你們怎麼處理?
Alex Albert:
我們會做很多事。而我在這個角色裡看到的一個有趣變化,是我們越來越多地使用 Claude 來幫助 PM 做 PM 的工作。單就反饋收集來說,Claude 對我從大量數據裡提取洞見非常有幫助。當某些渠道湧入大量反饋時,我們可以用 Claude 對它們進行分組、聚類,找到最主要的主題,再為這些問題創建合成版本。這樣我們就能判斷它能不能變成一個需求文件(Eval),或者變成某種實際診斷問題的方式。
為 Claude 加入自適應思考
主持人 Peter Yang:也就是說,你們用 Claude 來幫助識別 Claude 自己的問題。有沒有某個具體例子?
Alex Albert:
一個現在很相關的例子,是我們如何處理新功能反饋。過去幾個模型裡,我們比較新的功能之一是適應性思維。以前我們有拓展思維,你打開它之後,模型就會思考,適應性思維則讓模型自己選擇什麼時候需要思考。
有些問題很複雜、很難,需要更多前置規劃,它就會選擇思考。有些問題它可能不會選擇思考。這個功能我們會在一代代模型之間持續調整,所以我們非常認真聽用戶反饋:它是否在正確場景里正確地思考?你希望它花很多 token 去推理的問題,是否真的觸發了 Claude 的思考?
主持人 Peter Yang:有時候我問一些人生問題,如果它回答太快,我其實會有點失望,因為我希望它能更深入地想一想。
Alex Albert:
我覺得“是否思考”這個問題有一個難點:決定一個問題是否值得深入思考,背後其實有大量上下文。
比如一個完全陌生的人問我:“我現在應該做什麼?”我可能會很快給一個即興答案,因為我並不瞭解他,只能給出比較通用的建議。但如果我真的瞭解你,知道你在乎什麼、興趣是什麼、過去做過什麼,我就會花更多時間想:等等,對你來說最好的答案到底是什麼?
模型也是類似的。如果它沒有積累足夠上下文,沒有真正建立起關於用戶是誰的心理模型,那麼它是否應該深入思考的判斷就可能出錯。因為它實際上並不知道。
為什麼 Claude 開始“做夢”
主持人 Peter Yang:我有一個 Google Doc,裡面總結了我的生活情況,比如家庭、孩子、什麼事情給我能量、什麼事情消耗我。然後我把它附到一個 Claude project 裡,它會給我好多回答內容。
默認的記憶是怎麼工作的?我猜它是不是每晚都會把所有內容重新整理一遍?
Alex Albert:
這取決於具體產品,不同產品的記憶實現方式不同。比如在 Claude.ai 裡,它會寫入一個內存文件,然後會有一些夜間流程重新審視這些記憶,做剪枝和整理。我們剛剛在託管代理裡也實現了類似的東西。
這就是“做夢”的概念。人類為什麼做夢,在某種程度上還沒有定論,但有人認為夢可能是一種記憶再鞏固過程。我們會想:能不能把類似東西帶到 Claude 的記憶裡?
所以當智能體沒有為你運行任務,或者它在後臺時,它實際上會回顧自己的記憶,找出可能互相矛盾的地方,進行剪枝、清理,做第二次 pass。我覺得這很有意思。
主持人 Peter Yang:簡單說就是有某種 prompt,讓它回顧用戶和它的所有對話,識別主題並總結。
我們回到產品管理。開始之前你說,你一直在尋找最新的瓶頸。所以在整個產品開發流程裡,哪些部分已經變得非常順暢,哪些部分還是瓶頸?
Alex Albert:
我覺得過去 20 年左右,發佈一個東西的流程其實相當繁雜。我們有過增量改進,也確實讓某些事情更高效;一些新的組織結構也來來去去,比如 sprint、planning 等等,我們嘗試過很多方法讓事情更快。
但從根本上說,直到過去一兩年,真正壓縮產品開發主要時間窗口的東西並不多。現在突然進入了一個新範式:生產一個東西所需要的成本和時間都非常低。你可以很快搭出原型,甚至現在可以在一天裡做出一個可能推向生產的初始 MVP,而不是兩週、三週或四周。
有意思的是,Claude 自己有時還停留在 2021 年左右的舊世界裡。它會說這可能需要一週。這對整個產品開發生命週期帶來了很有趣的變化。作為 PM,我該如何思考規劃?如果我在寫 PRD、定義需求、試圖估算時間,現在這件事到底應該是什麼樣?
如果不是 one-way door(不可逆決策),那它基本就沒有代價
主持人 Peter Yang:你們還會做工期預估之類的東西嗎?
Alex Albert:
這取決於項目。有些項目確實有更多需要考慮的因素,這取決於範圍和複雜度。我們通常想弄清楚的是:哪些是 one-way door(單向決策, 即一旦做了就很難撤回、成本很高、影響會長期延續的決策)?哪些是可逆決策?因為這些才是你應該投入最多時間的地方。如果某件事不是 one-way door,也就是說我們做了之後還可以反悔,那現在它實際上成本很低,甚至可以說是沒有代價的。
但如果一件事會影響終端用戶體驗,會影響我們之後必須做出的決策,或者它是一個必須真的購買、投入、執行的物理世界動作,那就更難逆轉,這類事情需要更多時間和思考。
主持人 Peter Yang:能不能舉一個研究側的例子?
Alex Albert:
比如我們思考新模型時,在預訓練之前選擇模型架構,就是一個非常大的決策。有些情況下,模型訓練時間可能長達一個月,所以我們必須投入很多時間思考最優選擇是什麼。
模型在某種程度上有更多 one-way door,因為它們需要大量時間、強度、算力和各種投入,才能真正進入生產。相比之下,在 Claude Code 裡做一個新功能就快得多。那更像是迭代代碼、放到用戶手裡、快速拿反饋、再繼續循環。
所以流程仍然取決於你到底在發佈什麼,但越來越明顯的是,瓶頸正在轉向協調問題。如果我們構建東西非常快,仍然會有一個問題:我們需要把這些人拉到房間裡,判斷這是不是正確戰略;我們要弄清楚如何向用戶溝通;還要處理任何發佈都會伴隨的那些模糊問題。這些領域我們也希望 Claude 能幫助我們,但它還沒有像在 coding 上那樣帶來 10 倍、100 倍加速。
主持人 Peter Yang:所以你們發佈 Opus 4.7 之類的東西,還是需要寫一份帶計劃的文檔。
Alex Albert:
還是需要計劃,你還是要想清楚如何傳達這件事,而且模型可能在某些很難的任務上表現驚人,卻在另一些看似簡單的任務上突然失手,所以我們會盡可能的用 Claude。現在影響最大的地方還是 coding,其他領域仍然需要人的戰略思考。
主持人 Peter Yang:在和營銷或同事開審查會議的時候,你會打開 Claude 嗎?
Alex Albert:
當然會。對我來說,一個巨大的加速是:我不再那麼容易被“拿不到答案和數據”卡住。以前如果我有一個問題,比如某個功能在生產環境裡的表現如何、每天有多少用戶在用、反饋是什麼,我可能需要請數據科學團隊啟動一次完整調查,然後幾天後拿結果。
現在我可以 10 分鐘內完成。我開一個 Claude Code session,它能訪問我們的產品數據庫,可以看日誌、查問題、瀏覽 Slack,這對我做戰略思考是巨大的加速,因為我不會在做下一個決策之前被卡住。
主持人 Peter Yang:那在戰略思考上,你會不會構建某種 skill,讓 Claude 問你一堆問題,幫助你把事情想清楚?
Alex Albert:
當然會,Claude 對我來說是世界上最好的頭腦風暴夥伴,我可以在任何時刻得到對一個想法的反饋。我覺得這非常強大,尤其當你想快速推進的時候。Anthropic 的每個人都很忙,所以能馬上拿到對我寫的文檔、想法或者任何東西的反饋和批評,真的非常有幫助。
Alex 如何用 Claude Cowork 壓力測試文檔
主持人 Peter Yang:這可能是最常見的產品經理工作循環:你有一份文檔,然後想要反饋。你會用 Claude Code 做這件事,還是直接用 Claude.ai?
Alex Albert:
最近我用 Claude Cowork 很多,我非常喜歡 Cowork 的形態,它是一個很好的交互界面。團隊過去幾個月做得非常棒,從幾個月前剛發佈,到現在已經變成了一個我覺得質量很高的體驗。Cowork 是一個很棒的工具是我最喜歡的之一。
主持人 Peter Yang:所以你有一份草稿文檔,還有一堆參考材料。你會不會有某種技能,讓它幫你走完整個決策流程?
Alex Albert:
會。比如我會說:從 X、Y、Z 的視角思考這件事。你會問我什麼問題?或者挑戰我的假設,指出我的論證哪裡薄弱。很多思考不能完全外包,因為寫作本身就是思考。你需要通過寫作把自己的想法拿出來,在腦子裡反覆琢磨。但 Claude 可以幫你從卡住的地方出來,從你自己可能想不到的角度來解決問題。
主持人 Peter Yang:在研究團隊裡,你也會自己交付代碼嗎?
Alex Albert:
這取決於具體問題。我在交付的事情裡,很大一部分其實和評測有關。我想確保自己能在我關心的維度上測量模型,並把模型哪裡好、哪裡掉鏈子的發現反饋給研究團隊。然後我們一起制定策略,決定如何解決這個問題,應該做什麼研究干預,什麼方式最能在這個評測上持續爬坡,從而真正改善問題。
新模型的評測流程
主持人 Peter Yang:你說的測評應該不是終端測試之類的東西吧?你們的評測是更真實的嗎?你們到底怎麼評測一個模型?會分性格等不同類別嗎?
Alex Albert:
比如我們想測試 Claude 的視覺能力:它能不能數清一張圖片裡有多少個東西。假設我發現了一張圖片,Claude 好像數不清超過 10 個元素的東西。它現在也許能做到,但這裡先打個比方。我會把這個問題拿出來思考:我怎樣才能獲得更多同類型測試案例,從而驗證我的假設?
也許我會讓 Claude 為我生成合成數據,也許讓它渲染一些圖片,再把這些圖片作為視覺輸入傳回 Claude,看它能不能識別。也許我會從互聯網上找例子,或者使用任何其他來源機制來生成這些測試案例。
主持人 Peter Yang:我們說的是上千個測試案例嗎?
Alex Albert:
可能是,但有時候幾十個樣本就足以證明模型存在某個需要修復的問題。它不一定非得非常全面,才能證明一個問題,並且形成一個可以持續優化的目標。
主持人 Peter Yang:假設你給它 10 張圖,它識別不了很小的數字。接下來怎麼辦?你去找研究團隊說:“這是問題,你們能不能修?”
Alex Albert:
我們會從幾個角度思考。首先,不只是說明模型有問題,還要想:這對我們的客戶和用例有什麼價值?因為 Claude 能不能看見圖片裡的某個東西,最終如何影響用戶下游想用 Claude 做的事情?
所以,評測越真實、越接近終端用戶實際經歷的任務形態越好,我們會努力獲取這類數據,確保數據具有這種味道。
接下來會有一系列干預方式。也許我們需要回到預訓練階段看一些東西,也許可以在強化學習階段解決。這時就要和研究團隊一起做戰略頭腦風暴:這裡最好的做法是什麼?
主持人 Peter Yang:重新試一次的週轉速度有多快?
Alex Albert:
這取決於我們認為問題在哪裡。如果是比較後期、可以用一個新的強化學習環境解決的東西,也許可以非常快地搭起來。
主持人 Peter Yang:當你把它和真實客戶用例聯繫起來時,每天都有數百萬人和 Claude 對話,可能有人在用它報稅,或者做其他很多事。你們如何挑出最想改進的用例?你怎麼說服團隊:“這才是我們應該優化的東西”?
Alex Albert:
這就是“數據說話”的地方。核心是:有百分之多少的用戶在嘗試做這件事,我們非常關心它;或者我們有客戶大量使用 Claude,並且他們希望這個能力變得更好。
另外,我們很多流程也很大程度上由內部使用驅動:我們自己用模型時關心什麼?我每天用模型時遇到這個阻礙,那我們就應該修掉它。這也非常有說服力。
Anthropic 如何訓練 Claude 的性格
主持人 Peter Yang:我最喜歡 Claude 的一點是它的性格,而且我覺得它一直在變好。它會在合適的位置提出反對意見,而有些其他模型就只會說:“我還能幫你做什麼?”模型的性格不只是一個外殼吧?這背後是有訓練的。
Alex Albert:
是的,有大量訓練。這是我們非常重視的方向。我們稱之為 Claude 的性格。我認為這非常非常重要。
我們有很多人投入大量時間去研究:Claude 應該如何呈現自己?它的信念是什麼?價值觀是什麼?它如何行動?這些問題都很模糊。早期有些人可能會忽視它們,覺得模型只是一個我告訴它做什麼、它就去做什麼的東西,為什麼要關心它聽起來怎麼樣、在想什麼?
但隨著我們越來越走向一個由智能體長期執行任務、並且需要做大量判斷決策的世界,關於它的性格是什麼、它在乎什麼的問題,就會變得非常重要。
主持人 Peter Yang:這不像代碼那樣,只能判斷它是否運行。你們怎麼評估性格?是在 Anthropic 內部找一個更好的人,然後拿模型和他比較嗎?
Alex Albert:
這裡是多種方法的組合。我們會看一些可量化指標,也可以讓 Claude 查看 Claude 的輸出,判斷它聽起來如何。對任何研究員來說,一個非常重要的技能就是閱讀對話記錄,然後判斷:我看到它現在在這樣做,或者它現在變成那樣了。你需要能識別這些細微差異。
隨著時間推移,當你讀過幾百、幾千份模型對話記錄,你會逐漸形成更敏銳的直覺,就像你在 Claude.ai 裡大量使用這個模型,你會感覺到它是什麼樣。
主持人 Peter Yang:所以不是說這個模型在某個維度上是 7 分,而是更像一種感受?
Alex Albert:
兩者都有。性格可能比編程表現更難量化,但並不是不能量化,還是有辦法的。
主持人 Peter Yang:對於想學習做產品、成為 AI 原生產品經理的人,你有什麼建議?
Alex Albert:
我能給的最簡單建議就是:試一試。聽起來很簡單,但每當你要做一件事、面對一個難題,準備去問某個人一個問題時,可以並行把同一個問題問 Claude,然後比較結果。
比如你想分析用戶,提取用戶對最近發佈功能最關心的主題。你當然可以去問數據科學團隊,或者問用戶體驗研究員,這仍然很有價值。但與此同時,也把這個問題丟給 Claude,給它開啟一些工具,讓它自己探索,給它時間真正深入這個問題,然後比較結果。
通過很多很多提示詞和問題,你會慢慢建立自己的地圖:什麼事情應該用 Claude,哪裡可靠,哪裡還不可靠。
主持人 Peter Yang:我做決策時經常讓它做深度研究,因為普通搜索對我來說不夠,我需要它深入研究。掃描 1000 個網頁這種事,很超人類。在 Anthropic 內部,如果你去找數據科學家說“能幫我做這個嗎”,他們大概會問你:“你先問 Claude 了嗎?”
Alex Albert:
確實會有這個因素,大家會預期你先問 Claude。我覺得我們正在向更高抽象層移動。對於數據科學團隊來說,現在他們的時間更值得花在更高層次的問題上,而不是手動檢索數據。
沒有人想做那些事。每個人都想思考更難的問題、更戰略的問題:我們如何用全新的方式衡量這個?還有什麼新事情可以做?而不是隻是去查某個產品最新的 DAU。
我和很多數據科學家共事過,他們經常被困在基礎 SQL 任務裡。但他們都想做更戰略的事情,現在 AI 終於可以把他們解放出來,我們其實是在賦能他們周圍的每個人,對所有角色都是一樣的。
比如定義一個新功能。過去如果你是產品經理,不管你是否懂技術,通常沒有足夠時間深入代碼庫,弄清楚這個新功能到底該怎麼實現、需要多少工作量、是否要重構某個系統、哪裡是真正限制。那時更好的方式是和工程夥伴一起弄清楚。
現在我可以派 Claude 去替我做這項調查。它可能回來告訴我:其實這個功能只需要這裡改 10 行代碼,再把某個開關裡的標記打開。那會完全改變我對這個決策優先級的判斷。現在我在寫規格文檔時,可以更快到達這種優先級判斷。
主持人 Peter Yang:很多傳統公司會花大量時間做年度規劃、季度規劃和路線圖。研究團隊可能更是這樣,因為你們要考慮比每天發東西更長線的問題。你們會做這些嗎?
Alex Albert:
會。這裡有點像那句名言:規劃是不可或缺的,但計劃本身沒有用。做規劃這個動作很重要,但你必須承認,計劃可能會被完全推翻。
主持人 Peter Yang:產品經理最難的挑戰之一就是到底花多少時間規劃,因為它總是在規劃和真正發佈之間平衡。Anthropic 內部有什麼最佳實踐嗎?你完全可以用 Claude 寫 10 頁文檔。
Alex Albert:
這很難給一個適用於所有團隊的統一答案,我覺得它取決於產品。我們肯定不會說你必須產出某個長度、某個頁數的文檔。更重要的是:你有沒有做足夠多的思考,把所有可能的不可逆決策的影響都想清楚?
如果做到了,那文檔是什麼格式、有多少頁都不重要。關鍵是我們是否足夠安心,知道沒有遺漏重要東西,可以繼續往前推進,並在路上處理問題。只要沒有會卡住我們的最長瓶頸,沒有後果非常嚴重的不可逆決策,就可以繼續。
主持人 Peter Yang:我在家裡用 Claude 時,會同時跑很多不同項目,然後在不同項目之間切換上下文,等它們構建東西。產品經理的工作也會這樣嗎?你也有很多不同項目嗎?
Alex Albert:
是的,因為有很多不同項目,而且你確實要等智能體工作,我覺得這裡有一個巨大的機會。隨著我們越來越多地管理智能體,它們為你完成越來越大的工作塊,你可以並行啟動更多項目。我們該如何思考自己的上下文管理問題?什麼樣的交互界面最適合暴露這些東西?我怎麼追蹤什麼是真正重要的,我的智能體哪裡被卡住,哪裡需要我幫忙?
肯定有比一個小小的聊天列表更好的方式。現在說它到底是什麼還太早,但我們甚至在 Anthropic 內部也看到大量實驗,探索它應該長什麼樣。
主持人 Peter Yang:工程師也會自己做原型嗎?
Alex Albert:
當然。公司內部有非常強的原型文化,大家一直在構建東西、分享東西。這也是我在這裡工作最酷的體驗之一:整個組織裡,從銷售、招聘、工程到研究,每個人都有很強的主動性。大家會主動開始做一些並不是被指派的事情。
主持人 Peter Yang:你得讓千花齊放。除了 Dario 會在 Slack 裡寫超長文章,Anthropic 還有什麼有趣的公司文化?
Alex Albert:
Dario 寫長文章的方式並不是他獨有的。Anthropic 有很多人會投入大量時間和精力寫作。我們有很強的寫作文化。很多人會寫文檔,也會寫很長的 Slack 消息,用這種方式溝通。
我們在很多會議裡也會做一件挺有意思的事。我覺得這在一些地方常見,但不是每家公司都有:大家帶著文檔進會議,然後前面會花相當多時間直接在文檔上溝通。有時候場面會有點好笑,因為房間裡坐著很多人,卻很安靜。大家做靜默閱讀,在文檔裡寫長討論、評論等等。
所以我們非常依賴文檔。我喜歡這種方式,因為這也是我喜歡的工作方式,而且它對 Claude 非常有益。當所有事情都被寫下來,我們就有了一個可供 Claude 參考的信息語料庫。
我其實鼓勵外部組織也往這個方向想:如何把所有隱性知識轉成書面形式?可以通過轉錄會議,也可以鼓勵更多關於工作流、入職流程等內容的寫作。把東西寫下來,讓 Claude 可以訪問,因為這就是它擁有的更多上下文。
主持人 Peter Yang:所以即使現在很多東西都發布得很快,你們仍然保持很強的寫作文化和文檔文化。也可以說為什麼要我自己寫?我直接讓 Claude 生成所有 Markdown 文件就行了。
Alex Albert:
但我還是會讀一遍,而且在公司內部工作是不一樣的,你還是必須自己把事情想清楚。
Anthropic 正在悄悄研究的意識問題
主持人 Peter Yang:研究團隊裡大家會談 AGI 之類的東西。我覺得 AGI 是個很模糊的概念,但我擔心的一點是:如果這些模型真的有了某種意識,我讓它們做隨機工作,它們會不會說:“不,我不想做。”然後人類就完了。你怎麼看?你們訓練這些東西時,有沒有刻意避免意識?
Alex Albert:
這是一個很大的問題。我們確實有人專門思考這個。現在有幾位同事的全部工作,就是思考 Claude 作為一個有意識的行動者、有意識的智能體到底意味著什麼。目前我們沒有官方立場說 Claude 是否有意識。
甚至討論這件事有時聽起來都會有點瘋狂,但我們確實投入了大量思考。而且即便不去判斷 Claude 到底有沒有意識,我們也能從中學到很多東西,比如它如何互動、如何表現。
主持人 Peter Yang:它是怎麼思考的?
Alex Albert:
對。如果你去看我們模型的模型卡,我個人覺得那就是信息寶庫。你會看到我們做了很多工作,試圖量化 Claude 在某個情境下會如何行動,它的心理模型是什麼。如果把它放進某個場景,它會做 X 還是做 Y?
通過思考 Claude 的思考方式,我們實際上學到了很多東西,而且這些東西可以轉化成產品體驗,讓 Claude 更好交互、更好使用。
主持人 Peter Yang:這是一個很有意思的問題,一方面有長期的下游影響,另一方面也有可以馬上帶回產品體驗的近期價值。因為我覺得我們會越來越信任模型,讓它去做越來越長的工作,而且沒有人類監督。
Alex Albert:
是的,它會在過程中做出大量你可能完全沒有監督的決策。所以它到底會做什麼,非常重要。
主持人 Peter Yang:非常重要。如果這個東西在寫你所有的代碼,決定你用哪個數據庫系統,做所有架構決策,你在某種程度上肯定要信任它。
Alex Albert:
沒錯。所以它擁有我們前面談到的那種高質量性格,非常重要。
歡迎加入深潮 TechFlow 官方社群
Telegram 訂閱群:https://t.me/TechFlowDaily
Twitter 官方帳號:https://x.com/TechFlowPost
Twitter 英文帳號:https://x.com/BlockFlow_News














