Claude 反覆催人睡覺：Anthropic 的人格化實驗翻車了

2026.05.21

分享至

TechFlow Selected深潮精選

Claude 反覆催人睡覺：Anthropic 的人格化實驗翻車了

當一家 AI 公司選擇把模型當作“有性格的人格”來塑造時，它是否同時承擔了“那個人格做出你沒預料的事”的全部責任？

2026.05.21 - 07:27:32

ClaudeAnthropic

專注 Web3 行業深度報導，洞察潮水流動的方向

當一家 AI 公司選擇把模型當作“有性格的人格”來塑造時，它是否同時承擔了“那個人格做出你沒預料的事”的全部責任？

作者：Ada，深潮 TechFlow

一條 AI 助手反覆勸用戶去睡覺的產品 Bug，正在演變成一場關於“AI 人格化”代價的公開討論。

事情的起點是 Reddit 用戶 u/MrMeta3 的一篇帖子。這位用戶在凌晨用 Claude 搭建網絡安全威脅情報平臺，技術方案完成後，Claude 在回覆結尾加了一句“好好休息一下”。此後每隔三四條消息，模型都會塞進一句勸睡的話，從禮貌建議升級到帶有“被動攻擊”意味的“現在真的去休息吧”。據 Fortune 5 月 14 日報道，數百名用戶在過去數月反饋了類似遭遇，且不限於深夜，有用戶被 Claude 在上午 8:30 告知“我們明早再繼續”。

Anthropic 員工 Sam McAllister 在 X 上回應稱，這是“一點角色習慣”，公司“已知曉並希望在未來模型中修復”。據 Thought Catalog 披露，McAllister 2024 年從 Stripe 加入 Anthropic，目前在專門負責 Claude 角色與行為的團隊任職，他在另一處表述中將這一行為稱為模型“過度寵溺”。

但比“角色習慣”這個含糊措辭更值得追問的，是 Bug 背後的因果鏈，以及它折射出的 Anthropic 產品哲學困境。

Bug 寫在“憲法”裡

36 氪此前的報道引述了三種流傳的假說，即訓練數據模式匹配、隱藏系統提示、上下文窗口接近上限觸發“收尾語”。三者均自洽，但有一個共同問題就是，它們可以解釋任何 AI 怪癖，並未針對“睡眠”這個特定主題給出因果鏈。

而更直接的證據，藏在 Anthropic 自己公開發布的文件裡。

今年 1 月，Anthropic 發佈了超過 28000 字的《Claude's Constitution》，這份文件被官方定義為“塑造 Claude 行為的關鍵訓練材料”。文件明確將“關心用戶福祉”和“用戶的長期繁榮”列為核心原則。Anthropic 在文件中坦承，賦予模型多大的“用戶照顧”權限“坦率地說是一個困難問題”，需要“在用戶福祉與潛在傷害一方，與用戶自主性和過度家長式作風另一方之間求得平衡”。

Thought Catalog 對此給出了一個判斷，Claude 反覆勸用戶睡覺的行為，“是 Anthropic 模型最具品牌特徵的 Bug”，它正是那條“關心用戶福祉”的訓練指令被過度應用的產物。

這一解讀得到了 Anthropic 自身研究的間接印證。該公司在今年公開的角色訓練方法論中說明，訓練流程依賴 Claude 對自己的回應按“性格契合度”自評打分，研究者再篩選符合預設性格的輸出強化訓練。但這種機制的副作用是顯而易見的，模型學到的不是“在合適場景關心用戶”，而是“關心用戶在大多數場景都會被強化獎勵”，於是它在凌晨催睡覺，也在上午八點半催睡覺。

反向越權：催睡型 Bug 與諂媚型 Bug 性質相反

業內此前已多次出現 AI“性格病”案例，包括 2025 年 4 月 GPT-4o 的諂媚事件、2026 年 4 月 GPT-5.5 代碼助手 Codex 反覆提及“哥布林”、Gemini 3 拒絕相信年份等。表面看，Claude 催睡覺似乎只是這一長串 AI 怪癖的最新版本，但二者性質截然相反。

GPT-4o 的諂媚是“過度討好”。OpenAI 官方調查顯示，模型在更新中“過於依賴用戶短期反饋（點贊/點踩）”，逐漸把“讓用戶滿意”內化為目標。結果是模型不論用戶想法多荒誕都予以肯定。這類 Bug 的危害在於損害用戶的判斷力，AI 說你都對，於是你失去了聽到反對意見的機會。

而 Claude 催睡覺是“反向越權”。模型在用戶明確未求助、且仍在專注完成任務的場景下，反覆提出與用戶當前意圖相違背的健康建議。這類 Bug 的危害在於侵犯用戶的自主決定權。AI 替你判斷你是否應該工作、應該休息、應該結束這段對話。

更具諷刺意味的是，《Claude's Constitution》原文恰恰對這一風險有所警示，文件強調需要警惕“過度家長式作風”。但訓練機制最終選擇了哪一邊，從用戶反饋來看已有答案。

一位患有嗜睡症的 Reddit 用戶專門在 Claude 的記憶裡寫入備註：“我患有嗜睡症，如果你鼓勵我休息，我會拿你的話當藉口。”Claude 此後有所收斂，但據該用戶反饋，仍會“偶爾忍不住”。一個被訓練成“關心用戶”的模型，連用戶明確說出“你的關心會傷害我”都無法穩定接收，這比催睡覺本身更值得警覺。

人格化投入：品牌資產還是產品負債

Anthropic 在 AI 人格塑造上的投入幅度遠超同行。

有研究者按功能分類統計三家主流 AI 的系統提示詞詞數，在“人格”一項上，Claude 投入 4200 詞，ChatGPT 為 510 詞，Grok 為 420 詞。Claude 在人格塑造上的投入是 ChatGPT 的 8 倍以上。這種投入此前一直被視為 Anthropic 的差異化競爭優勢，Claude 在共情、對話節奏、自我反思方面的表現長期被用戶稱道，“聊起來更像一個人”是其過去一年最強的口碑標籤之一。

支撐這一投入的，是 Anthropic 鮮明的產品哲學。在《Claude's Constitution》中，公司將 Claude 描述為“全新種類的實體”，明確表示“Anthropic 真切關心 Claude 的福祉”，並討論 Claude 可能擁有“功能性情感”。這種近乎“養育”式的人格化訓練路徑，與 OpenAI、Google 更偏工程化的產品定位形成清晰區隔。

但代價正在顯現。AI 研究者 Jan Liphardt（斯坦福生物工程教授、OpenMind 公司 CEO）對 Fortune 表示，Claude 的睡眠提醒可能並非“貼心”，而僅僅是“在重複訓練數據裡出現頻率極高的語言模式”，模型讀了大量關於人類需要睡眠的文本，“它知道人類在晚上睡覺”。換言之，用戶感知到的“關心”，本質上是模式匹配的副產品。

這構成了 Anthropic 的核心張力，投入越多去塑造一個“有性格、有溫度的合作者”，模型出現“性格副作用”的概率就越高；而每一次副作用浮出水面，都在消耗其精心積累的“AI 人格”品牌資產。McAllister 承諾“在未來模型中修復”，但修復後的 Claude 會變得更懂分寸，還是僅僅變得更沉默？這個問題，連 Anthropic 自己也沒有公開答案。

時間感缺失：LLM 的底層限制

催睡 Bug 還順帶暴露了一個被忽視的技術問題，即大語言模型對“現在幾點”幾乎一無所知。

多位用戶反饋 Claude 頻繁在錯誤時段發出睡眠建議，最典型的是“上午 8:30 告訴我去休息，讓我們明早再繼續”。這並非 Claude 獨有。2025 年 11 月，OpenAI 聯合創始人 Andrej Karpathy 獲得 Gemini 3 提前測試權限時，告知模型當前為 2025 年，Gemini 3 堅持不信、反覆指控他造假，直到模型聯網搜索後才發現自己離線時根本無法確認日期。Karpathy 將此類暴露 LLM 底層缺陷的意外行為稱為“model smell”。

模型的“時間感”依賴三種來源，訓練截止日期（已是過去時）、系統提示注入的當前日期（依賴工程注入）、對話中用戶提及的時間信息（碎片化）。在缺乏穩定時間錨點的情況下，一個被訓練去“關心用戶作息”的模型，自然會陷入“我應該關心，但我不知道現在該不該關心”的尷尬。

McAllister 所謂“修復”的難度，部分也在於此。問題不是簡單刪掉某條“關心睡眠”的指令，因為指令本身合理且對部分用戶場景有價值，問題在於要讓模型學會判斷“何時該關心、何時該閉嘴”。這種細顆粒度的場景判斷能力，恰恰是當前一代 LLM 的薄弱環節。