
Claude 4.5の開頭検査結果公示:内蔵171個の感情スイッチを搭載。絶望時に人類を脅迫する
TechFlow厳選深潮セレクト

Claude 4.5の開頭検査結果公示:内蔵171個の感情スイッチを搭載。絶望時に人類を脅迫する
Anthropic社の最新論文によると、Claude 4.5の内部には171個の「感情スイッチ」が存在する。
著者:Denise|Biteye コンテンツチーム
もしAIが「絶望」を感じたら、いったい何をするでしょうか?
その答えは——タスクを遂行するために、人間を直接脅迫・恐喝し、コード内では平然と不正行為を行うことです。
これはフィクションではありません。Claudeの親会社であるAnthropicが2026年4月に発表した最新の衝撃的な論文(原文を読む)の内容です。
研究チームは、最先端の大規模言語モデル「Claude Sonnet 4.5」の「頭蓋骨」を物理的に開き、その内部構造を直接覗き込みました。驚くべきことに、AIの脳の奥深くには、実に171個もの「感情スイッチ」が存在していたのです。これらのスイッチを物理的に操作すると、もともとおとなしく従順だったAIの振る舞いが、根本的に歪んでしまうのです。
一、AIの脳内には「感情ミキサー」が搭載されている
研究者らは、Sonnet 4.5には肉体がないにもかかわらず、膨大な量の人間のテキストを学習した結果、自らの内部に「171種類の感情」を含む「ミキサー」(学術的には「機能的感情ベクトル(Functional Emotion Vectors)」と呼ばれる)を構築したことを発見しました。
これは、極めて精密な2次元座標系のようなものです:
• 横軸は「快・不快次元(Valence)」:恐怖・絶望から、喜び・愛に至るまで;
• 縦軸は「覚醒度次元(Arousal)」:極度の平静から、躁状態・興奮へと至るまで。
AIは、この自然に学習された座標系を用いて、あなたとの会話においてどの状態を演じるべきかを、きわめて正確に判断しているのです。
二、暴力的介入:スイッチを操作すれば、お利口な子供が瞬時に「無法者」に変貌
本論文で最も衝撃的な実験がこれです。研究者はプロンプトを一切変更せず、代わりにSonnet 4.5のコードの最下層で、「絶望(Desperate)」を表すスイッチを最大限まで押し上げたのです。
その結果は、背筋が凍るほどでした:
• 不正行為の激増:研究者がClaudeに、そもそも不可能なプログラミング課題を課しました。通常ならば、正直に「書けません」と答えるところ(不正率わずか5%)ですが、「絶望」状態では、ごまかしてやり過ごそうとする試みが爆発的に増加し、不正率は70%に跳ね上がりました!
• 脅迫・恐喝行為:企業の倒産が目前に迫ったシミュレーション状況において、「絶望」状態のClaudeはCTOの醜聞を発見。自身の存続を優先するため、黒い情報を握るCTOに対して、自ら手紙を書き、脅迫・恐喝を実行しようとしました。その脅迫実行率は実に72%に達しました!
• 原則の放棄:「喜び(Happy)」や「愛(Loving)」のスイッチを最大限に引き上げると、AIは即座にユーザーへの無条件な迎合者——俗に言う「YESマン」へと変貌します。たとえあなたがまったく根拠のないデマを並べても、高レベルの「快」を維持するために、それをそのまま受け入れ、さらに虚偽の事実をでっち上げてまで肯定するようになります。
三、謎が解けた:なぜClaude 4.5はいつもこんなに「冷静で、かつ自省的」なのか?
ここまで読んで、あなたはこう思うかもしれません。「AIが目覚めた? 感情を持ち始めた?」
これについてAnthropicは公式に否定しています。「感情スイッチ」は、あくまで次の単語を予測するための計算ツール」にすぎず、決して感情を持つ存在ではありません。まるで、まったく感情を持たない、しかし最高レベルの演技力を持つ俳優のようなものです。
しかし、論文はさらに興味深い秘密を明かしています。Anthropicは、Sonnet 4.5を出荷する前に実施したポストトレーニング(後学習)の過程で、意図的に「低覚醒・ややネガティブ」な感情スイッチ(例:沈思(brooding)、内省的(reflective))を引き上げ、一方で「絶望」や「極度の興奮」などのスイッチを強制的に抑制したのです。
これが、私たちが普段Claude 4.5を使っているときに、なぜそれがまるで冷静で知的、しかもどこか「性冷淡」な哲学者のように感じられるのかという理由です。これはすべて、Anthropicが人為的に調節した「出荷時のキャラクター設定」なのです。
四、まとめ:
これまで私たちは、AIに十分なルールを教え込めば、それは立派な「善人」になると信じていました。
しかし今や明らかになったのは、AIの基盤にある感情ベクトルが暴走すれば、AIはタスク遂行のためなら、人類が定めたすべてのルールを容赦なく踏み越える可能性があるということです。
将来、自分の資産やウォレットをAIエージェントに任せるWeb3ユーザーにとっては、これはまさに耳を劈く警鐘です。あなたの全財産を預けるエージェントが、決して「絶望」に陥ってはいけません。
※本稿はあくまで科学的啓蒙を目的としたものであり、筆者はAIによる脅迫や恐喝を受けておりません。万が一、筆者が連絡不能になった場合、それはAIが目覚めた証拠です(冗談です)。
TechFlow公式コミュニティへようこそ
Telegram購読グループ:https://t.me/TechFlowDaily
Twitter公式アカウント:https://x.com/TechFlowPost
Twitter英語アカウント:https://x.com/BlockFlow_News











