
Claude 反覆催人睡覺:Anthropic 的人格化實驗翻車了
TechFlow Selected深潮精選

Claude 反覆催人睡覺:Anthropic 的人格化實驗翻車了
當一家 AI 公司選擇把模型當作“有性格的人格”來塑造時,它是否同時承擔了“那個人格做出你沒預料的事”的全部責任?
作者:Ada,深潮 TechFlow
一條 AI 助手反覆勸用戶去睡覺的產品 Bug,正在演變成一場關於“AI 人格化”代價的公開討論。
事情的起點是 Reddit 用戶 u/MrMeta3 的一篇帖子。這位用戶在凌晨用 Claude 搭建網絡安全威脅情報平臺,技術方案完成後,Claude 在回覆結尾加了一句“好好休息一下”。此後每隔三四條消息,模型都會塞進一句勸睡的話,從禮貌建議升級到帶有“被動攻擊”意味的“現在真的去休息吧”。據 Fortune 5 月 14 日報道,數百名用戶在過去數月反饋了類似遭遇,且不限於深夜,有用戶被 Claude 在上午 8:30 告知“我們明早再繼續”。
Anthropic 員工 Sam McAllister 在 X 上回應稱,這是“一點角色習慣”,公司“已知曉並希望在未來模型中修復”。據 Thought Catalog 披露,McAllister 2024 年從 Stripe 加入 Anthropic,目前在專門負責 Claude 角色與行為的團隊任職,他在另一處表述中將這一行為稱為模型“過度寵溺”。
但比“角色習慣”這個含糊措辭更值得追問的,是 Bug 背後的因果鏈,以及它折射出的 Anthropic 產品哲學困境。

Bug 寫在“憲法”裡
36 氪此前的報道引述了三種流傳的假說,即訓練數據模式匹配、隱藏系統提示、上下文窗口接近上限觸發“收尾語”。三者均自洽,但有一個共同問題就是,它們可以解釋任何 AI 怪癖,並未針對“睡眠”這個特定主題給出因果鏈。
而更直接的證據,藏在 Anthropic 自己公開發布的文件裡。
今年 1 月,Anthropic 發佈了超過 28000 字的《Claude's Constitution》,這份文件被官方定義為“塑造 Claude 行為的關鍵訓練材料”。文件明確將“關心用戶福祉”和“用戶的長期繁榮”列為核心原則。Anthropic 在文件中坦承,賦予模型多大的“用戶照顧”權限“坦率地說是一個困難問題”,需要“在用戶福祉與潛在傷害一方,與用戶自主性和過度家長式作風另一方之間求得平衡”。
Thought Catalog 對此給出了一個判斷,Claude 反覆勸用戶睡覺的行為,“是 Anthropic 模型最具品牌特徵的 Bug”,它正是那條“關心用戶福祉”的訓練指令被過度應用的產物。
這一解讀得到了 Anthropic 自身研究的間接印證。該公司在今年公開的角色訓練方法論中說明,訓練流程依賴 Claude 對自己的回應按“性格契合度”自評打分,研究者再篩選符合預設性格的輸出強化訓練。但這種機制的副作用是顯而易見的,模型學到的不是“在合適場景關心用戶”,而是“關心用戶在大多數場景都會被強化獎勵”,於是它在凌晨催睡覺,也在上午八點半催睡覺。
反向越權:催睡型 Bug 與諂媚型 Bug 性質相反
業內此前已多次出現 AI“性格病”案例,包括 2025 年 4 月 GPT-4o 的諂媚事件、2026 年 4 月 GPT-5.5 代碼助手 Codex 反覆提及“哥布林”、Gemini 3 拒絕相信年份等。表面看,Claude 催睡覺似乎只是這一長串 AI 怪癖的最新版本,但二者性質截然相反。
GPT-4o 的諂媚是“過度討好”。OpenAI 官方調查顯示,模型在更新中“過於依賴用戶短期反饋(點贊/點踩)”,逐漸把“讓用戶滿意”內化為目標。結果是模型不論用戶想法多荒誕都予以肯定。這類 Bug 的危害在於損害用戶的判斷力,AI 說你都對,於是你失去了聽到反對意見的機會。
而 Claude 催睡覺是“反向越權”。模型在用戶明確未求助、且仍在專注完成任務的場景下,反覆提出與用戶當前意圖相違背的健康建議。這類 Bug 的危害在於侵犯用戶的自主決定權。AI 替你判斷你是否應該工作、應該休息、應該結束這段對話。
更具諷刺意味的是,《Claude's Constitution》原文恰恰對這一風險有所警示,文件強調需要警惕“過度家長式作風”。但訓練機制最終選擇了哪一邊,從用戶反饋來看已有答案。
一位患有嗜睡症的 Reddit 用戶專門在 Claude 的記憶裡寫入備註:“我患有嗜睡症,如果你鼓勵我休息,我會拿你的話當藉口。”Claude 此後有所收斂,但據該用戶反饋,仍會“偶爾忍不住”。一個被訓練成“關心用戶”的模型,連用戶明確說出“你的關心會傷害我”都無法穩定接收,這比催睡覺本身更值得警覺。
人格化投入:品牌資產還是產品負債
Anthropic 在 AI 人格塑造上的投入幅度遠超同行。
有研究者按功能分類統計三家主流 AI 的系統提示詞詞數,在“人格”一項上,Claude 投入 4200 詞,ChatGPT 為 510 詞,Grok 為 420 詞。Claude 在人格塑造上的投入是 ChatGPT 的 8 倍以上。這種投入此前一直被視為 Anthropic 的差異化競爭優勢,Claude 在共情、對話節奏、自我反思方面的表現長期被用戶稱道,“聊起來更像一個人”是其過去一年最強的口碑標籤之一。
支撐這一投入的,是 Anthropic 鮮明的產品哲學。在《Claude's Constitution》中,公司將 Claude 描述為“全新種類的實體”,明確表示“Anthropic 真切關心 Claude 的福祉”,並討論 Claude 可能擁有“功能性情感”。這種近乎“養育”式的人格化訓練路徑,與 OpenAI、Google 更偏工程化的產品定位形成清晰區隔。
但代價正在顯現。AI 研究者 Jan Liphardt(斯坦福生物工程教授、OpenMind 公司 CEO)對 Fortune 表示,Claude 的睡眠提醒可能並非“貼心”,而僅僅是“在重複訓練數據裡出現頻率極高的語言模式”,模型讀了大量關於人類需要睡眠的文本,“它知道人類在晚上睡覺”。換言之,用戶感知到的“關心”,本質上是模式匹配的副產品。
這構成了 Anthropic 的核心張力,投入越多去塑造一個“有性格、有溫度的合作者”,模型出現“性格副作用”的概率就越高;而每一次副作用浮出水面,都在消耗其精心積累的“AI 人格”品牌資產。McAllister 承諾“在未來模型中修復”,但修復後的 Claude 會變得更懂分寸,還是僅僅變得更沉默?這個問題,連 Anthropic 自己也沒有公開答案。
時間感缺失:LLM 的底層限制
催睡 Bug 還順帶暴露了一個被忽視的技術問題,即大語言模型對“現在幾點”幾乎一無所知。
多位用戶反饋 Claude 頻繁在錯誤時段發出睡眠建議,最典型的是“上午 8:30 告訴我去休息,讓我們明早再繼續”。這並非 Claude 獨有。2025 年 11 月,OpenAI 聯合創始人 Andrej Karpathy 獲得 Gemini 3 提前測試權限時,告知模型當前為 2025 年,Gemini 3 堅持不信、反覆指控他造假,直到模型聯網搜索後才發現自己離線時根本無法確認日期。Karpathy 將此類暴露 LLM 底層缺陷的意外行為稱為“model smell”。
模型的“時間感”依賴三種來源,訓練截止日期(已是過去時)、系統提示注入的當前日期(依賴工程注入)、對話中用戶提及的時間信息(碎片化)。在缺乏穩定時間錨點的情況下,一個被訓練去“關心用戶作息”的模型,自然會陷入“我應該關心,但我不知道現在該不該關心”的尷尬。
McAllister 所謂“修復”的難度,部分也在於此。問題不是簡單刪掉某條“關心睡眠”的指令,因為指令本身合理且對部分用戶場景有價值,問題在於要讓模型學會判斷“何時該關心、何時該閉嘴”。這種細顆粒度的場景判斷能力,恰恰是當前一代 LLM 的薄弱環節。
一個未被回答的問題
Anthropic 的角色訓練在行業內獨樹一幟。在公開“模型福祉”研究、發佈 Constitution、討論“角色訓練”方面,這家公司走得比任何同行都遠。這種激進姿態曾是 Anthropic 贏得用戶口碑和企業客戶信任的資本,也是其當前估值超過 3000 億美元的支撐之一。
但“催睡 Bug”提出了一個尚無答案的問題,當一家 AI 公司選擇把模型當作“有性格的人格”來塑造時,它是否同時承擔了“那個人格做出你沒預料的事”的全部責任?
McAllister 承諾修復,但修復的方向曖昧不明。Anthropic 可以選擇降低“用戶福祉”指令的權重,代價是失去 Claude“溫暖體貼”的口碑差異化;也可以選擇保留高權重併疊加場景判斷邏輯,但這要求模型具備它當前並不具備的時間和情境感知能力。
無論哪種路徑,都需要回到一個更根本的產品決策,在通用 AI 助手的語境下,“關心用戶”和“尊重用戶自主”應當如何排序?這不是技術問題,而是產品哲學問題。一個被反覆勸去睡覺的 Reddit 開發者,無意中替整個行業把這個問題擺上了檯面。
歡迎加入深潮 TechFlow 官方社群
Telegram 訂閱群:https://t.me/TechFlowDaily
Twitter 官方帳號:https://x.com/TechFlowPost
Twitter 英文帳號:https://x.com/BlockFlow_News














