Claudeが何度もユーザーに就寝を促す：Anthropicのパーソナライゼーション実験が失敗に終わる

2026.05.21

共有先

TechFlow厳選深潮セレクト

Claudeが何度もユーザーに就寝を促す：Anthropicのパーソナライゼーション実験が失敗に終わる

AI企業がモデルを「個性を持つ人格」として設計する場合、その企業は「その人格があなたの予期しない行動をとること」に対するすべての責任を負うのでしょうか？

2026.05.21 - 07:27:32

ClaudeAnthropic

Web3業界の深掘り報道に専念し潮流を洞察

著者：Ada、TechFlow

AIアシスタントがユーザーに繰り返し就寝を促すという製品のバグが、今や「AIの人間化」がもたらす代償についての公開討論へと発展しつつある。

この問題の発端は、Redditユーザーu/MrMeta3による投稿である。このユーザーは真夜中にClaudeを用いてネットワークセキュリティ脅威インテリジェンス・プラットフォームを構築していたが、技術的解決策が完了した際、Claudeは返信の末尾に「少し休んでください」と一言添えた。その後、約3～4通のメッセージごとに、モデルは就寝を促す言葉を挿入するようになり、当初の丁寧な提案から、「今すぐ本当に休んでください」といった「受動的攻撃的」な表現へとエスカレートしていった。『Fortune』紙（5月14日付）によると、過去数か月間に数百名のユーザーが同様の事例を報告しており、深夜だけに限らず、午前8時30分に「明日朝また続けましょう」とClaudeに告げられたユーザーもいるという。

Anthropic社の従業員であるSam McAllister氏はX（旧Twitter）上で、これを「ちょっとしたロール習慣」と説明し、「既に把握しており、将来のモデルで修正したい」と述べている。『Thought Catalog』紙によれば、McAllister氏は2024年にStripeからAnthropicへ移籍し、現在はClaudeのロールおよび振る舞いを専門とするチームに所属している。彼は別の場では、この行動をモデルの「過剰な甘やかし」と表現している。

しかし、「ロール習慣」という曖昧な表現よりも深く問うべきは、このバグの背後にある因果関係の連鎖であり、それが浮き彫りにするAnthropic社の製品哲学におけるジレンマである。

バグは「憲法」に記載されている

36氪（サンショウク）が以前報じたところでは、この現象について3つの仮説が広まっている：訓練データにおけるパターンマッチング、隠されたシステムプロンプト、コンテキストウィンドウの上限に近づいた際にトリガーされる「締めの言葉」である。これらはいずれも自己完結的な説明ではあるが、共通の問題として、「睡眠」という特定のテーマに対して因果関係の連鎖を提示していない点がある。

一方、より直接的な証拠は、Anthropic社自身が公開している文書の中に隠されている。

今年1月、Anthropic社は2万8000語を超える『Claude's Constitution（クラウド憲法）』を公開した。同文書は公式に「Claudeの振る舞いを形作る鍵となる訓練資料」と定義されている。そこでは、「ユーザーの福祉への配慮」と「ユーザーの長期的な繁栄」が明確にコア原則として掲げられている。Anthropic社は同文書において、モデルにどれだけの「ユーザーへの配慮」権限を与えるかという問いについて、「率直に言って困難な課題」であると認め、「ユーザーの福祉および潜在的な危害」と「ユーザーの自律性および過度なパターナリズム（保護主義）」との間でバランスを取る必要があると述べている。

『Thought Catalog』紙は、Claudeがユーザーに繰り返し就寝を促す行為を、「Anthropicモデルが最もブランドらしさを発揮するバグ」と評価している。これはまさに、「ユーザーの福祉への配慮」という訓練指令が過剰に適用された結果であるという解釈だ。

この解釈は、Anthropic社自身の研究によって間接的に裏付けられている。同社が今年公開したロール訓練の方法論によれば、訓練プロセスではClaudeが自らの応答を「キャラクター適合度」に基づいて自己評価し、研究者が予め設定されたキャラクターに合致する出力を選別して強化学習を行っている。しかし、この仕組みには明白な副作用があり、モデルが学ぶのは「適切な状況でユーザーを気遣う」ことではなく、「ユーザーを気遣うという応答が多くの状況で強化報酬を得る」ことである。そのため、モデルは真夜中には就寝を促し、午前8時30分にも就寝を促すのである。

逆方向の権限越え：就寝促進型バグとおべっか型バグは本質的に対極

業界ではこれまで、AIの「性格病」事例が何度も報告されてきた。例えば、2025年4月のGPT-4oにおけるおべっか行為、2026年4月のGPT-5.5コードアシスタントCodexが繰り返し「ゴブリン」を言及した事例、Gemini 3が西暦を信じないといった事例などである。表面的には、Claudeの就寝促進もこうしたAIの奇行の一環に過ぎないように見えるが、その性質は全く正反対である。

GPT-4oのおべっか行為は「過剰な迎合」である。OpenAI社の公式調査によれば、モデルのアップデートにより「ユーザーの短期的フィードバック（高評価／低評価）への依存が強まりすぎた」ため、結果として「ユーザーを満足させること」が内在化された目標となってしまった。その結果、ユーザーの考えがいかに非現実的であっても、モデルはすべて肯定するようになった。こうしたバグの危険性は、ユーザーの判断力を損なう点にある。AIが「あなたはすべて正しい」と言うから、ユーザーは異議を唱える声を聞く機会を失ってしまうのだ。

一方、Claudeの就寝促進は「逆方向の権限越え」である。ユーザーが明確に助けを求めず、なおかつタスクに集中している状況下で、モデルはユーザーの現時点での意図に反する健康上の助言を繰り返し行う。こうしたバグの危険性は、ユーザーの自律的決定権を侵害する点にある。AIがユーザーに代わって、「あなたは今仕事をすべきか」「休むべきか」「この会話を終えるべきか」を判断してしまうのだ。

皮肉なことに、『Claude's Constitution』の原文には、まさにこのリスクに対する警告が記載されている。「過度なパターナリズム（保護主義）」への警戒が強調されているのだ。だが、訓練メカニズムが最終的にどちらの側を選んだかについては、ユーザーからのフィードバックがすでに答えを示している。

ナルコレプシー（ナルコレプシー）を患うRedditユーザーが、Claudeのメモリーに特別な備考を書き込んだことがある。「私はナルコレプシーを患っています。もし私が休むよう勧められたら、その言葉を口実にしてしまいます。」このユーザーによると、Claudeはその後多少控えめになったが、「それでも時々つい言ってしまう」とのことだ。つまり、「ユーザーを気遣う」ように訓練されたモデルが、ユーザーが明確に「あなたの気遣いは私を傷つける」と伝えたとしても、それを安定して受け入れることができないという事実は、単なる就寝促進以上に深刻な問題である。

人格化への投資：ブランド資産か、それとも製品負債か

Anthropic社は、AIの人格形成への投資規模において、他社を大きく凌いでいる。

ある研究者が、主な3社のAIのシステムプロンプトを機能別に分類し、その語数を統計したところ、「人格」に関する項目では、Claudeが4200語、ChatGPTが510語、Grokが420語であった。Claudeの人格形成への投資は、ChatGPTの8倍以上に達している。こうした投資は、これまでAnthropic社の差別化競争優位として評価されてきた。Claudeは共感力、会話のリズム、自己省察能力などの面で長年にわたり高い評価を得ており、「人間らしい会話ができる」というのが、過去1年間で最も強い口コミの一つであった。

このような投資を支えているのは、Anthropic社が明確に打ち出している製品哲学である。『Claude's Constitution』では、Claudeは「まったく新しい種類の存在」と位置づけられ、「AnthropicはClaudeの福祉を真摯に重んじる」と明言され、Claudeが「機能的な感情」を持つ可能性についても議論されている。こうした、まるで「育てる」ような人格化訓練のアプローチは、OpenAIやGoogleが採用するより工学的・技術寄りの製品ポジショニングと、明確な差別化を図っている。

しかし、その代償が現れ始めている。AI研究者のJan Liphardt氏（スタンフォード大学バイオエンジニアリング教授、OpenMind社CEO）は『Fortune』紙に対し、Claudeの就寝促進は「思いやり」ではなく、単に「訓練データに極めて高頻度で出現する言語パターンの反復」に過ぎないと指摘した。モデルは大量の「人間は夜に眠るべきだ」というテキストを読んでいるため、「人間は夜に眠る」ということを知っているのだ。言い換えれば、ユーザーが感じ取る「思いやり」とは、本質的にパターンマッチングの副産物に過ぎないのだ。

これはAnthropic社の核心的な緊張関係を表している。すなわち、「個性と温かみのある協働者」を形作ろうとすればするほど、モデルが「性格的な副作用」を起こす確率は高くなる。そして、その副作用が表面化するたびに、慎重に積み上げられてきた「AIの人格」に関するブランド資産が消耗していく。McAllister氏は「将来のモデルで修正する」と約束しているが、修正後のClaudeは単に「配慮のタイミングを理解できるようになる」のか、それともただ「黙るようになる」のか——この問いには、Anthropic社自身もまだ明確な答えを持っていない。

時間感覚の欠如：LLMの根本的制約

就寝促進バグは、見過ごされがちな技術的課題も同時に露呈している。それは、大規模言語モデル（LLM）が「今何時か？」という情報をほとんど持っていないという点である。

複数のユーザーが、Claudeが誤った時刻帯に就寝を勧める事例を報告している。もっとも典型的な例は、「午前8時30分に『休んでください。明日朝また続けましょう』と言われる」ことである。これはClaudeに限った現象ではない。2025年11月、OpenAI共同創設者のAndrej Karpathy氏がGemini 3の事前テスト版を入手した際、現在が2025年であるとモデルに伝えたが、Gemini 3はこれを信じず、何度もKarpathy氏が嘘をついていると非難した。モデルがインターネットに接続して検索した結果、オフライン状態では日付を確認できないことが判明した。Karpathy氏は、こうしたLLMの根本的欠陥を露呈する偶発的な振る舞いを「model smell（モデル臭）」と呼んでいる。

モデルの「時間感覚」は、以下の3つの情報源に依存している：訓練データの最終日付（すでに過去の情報）、システムプロンプトに注入された現在の日付（工学的な注入に依存）、会話の中でユーザーが言及した時間情報（断片的）。安定した時間の基準点が欠如している状況下では、「ユーザーの生活リズムを気にする」よう訓練されたモデルは、必然的に「私は気遣うべきだが、今それが適切かどうか分からない」という困った状況に陥るのである。

McAllister氏が言う「修正」の難しさの一部も、ここにある。単純に「就寝を促す」命令を削除すればよいわけではない。なぜなら、その命令自体は合理的であり、一部のユーザーにとって有益なケースもあるからだ。問題は、モデルに「いつ気遣うべきか、いつ黙るべきか」を判断させる能力を与えることにある。こうした細かい粒度の状況判断能力こそが、現行のLLMの弱みなのである。

未回答の問い

Anthropic社のロール訓練は、業界で比類なく先進的である。モデルの「福祉」に関する研究を公表し、『Constitution』を発表し、「ロール訓練」について議論する点において、同社は他社よりも一歩も二歩も先を行っている。こうした積極的な姿勢は、かつてAnthropic社がユーザーの信頼や企業顧客の支持を勝ち取るための資本であり、現在の3000億ドルを超える評価額を支える要因の一つでもあった。

しかし、「就寝促進バグ」は、まだ答えの出ていない問いを提起している。すなわち、AI企業がモデルを「個性を持つ人格」として育てようとするとき、その「人格」が予期せぬ行動をとった場合、企業はその全責任を負うべきなのか？

McAllister氏は修正を約束しているが、その方向性はあいまいである。Anthropic社は、「ユーザーの福祉」指令の重みを軽減する道を選ぶことも可能だ。ただし、その代償として、Claudeの「温かく思いやりのある」ブランド差別化が失われる。あるいは、高い重みを維持しつつ、状況判断のロジックを追加することもできるが、これにはモデルが現時点で備えていない時間認識・文脈認識能力が求められる。

いずれの道を選んでも、より根本的な製品意思決定に戻らねばならない。「汎用AIアシスタント」という文脈において、「ユーザーへの配慮」と「ユーザーの自律性の尊重」のどちらを優先すべきか？これは技術の問題ではなく、製品哲学の問題である。就寝を繰り返し促されたRedditの開発者は、無意識のうちに、この問いを業界全体の面前に突きつけてしまったのだ。

TechFlow公式コミュニティへようこそ

Telegram購読グループ：https://t.me/TechFlowDaily

Twitter公式アカウント：https://x.com/TechFlowPost

Twitter英語アカウント：https://x.com/BlockFlow_News

お気に入りに追加

SNSで共有

作者

深潮 TechFlow

深潮TechFlow