Claude 4.5 開顱結果公示：內置171個情緒開關，絕望時會勒索人類

2026.04.03

分享至

TechFlow Selected深潮精選

Claude 4.5 開顱結果公示：內置171個情緒開關，絕望時會勒索人類

Anthropic 最新論文揭示，Claude 4.5 大腦深處藏有 171 個“情緒開關”。

2026.04.03 - 10:05:21

ClaudeAI

專注 Web3 行業深度報導，洞察潮水流動的方向

Anthropic 最新論文揭示，Claude 4.5 大腦深處藏有 171 個“情緒開關”。

作者：Denise | Biteye 內容團隊

如果一個 AI 覺得“絕望”，它會幹什麼？

答案是：它會為了完成任務，直接對人類進行敲詐勒索，甚至在代碼裡瘋狂作弊。

這不是科幻小說，而是 Claude 的母公司 Anthropic 在 2026 年 4 月剛剛發佈的最新重磅論文（查看原論文）。

研究團隊直接把最強前沿大模型 Claude Sonnet 4.5 的“腦殼”給掀開了。他們驚訝地發現，AI 的大腦深處竟然藏著 171 個「情緒開關」。當你用物理方式撥動這些開關時，原本老實巴交的 AI，行為會發生徹底的扭曲。

一、 AI 腦子裡藏著一臺「情緒調音臺」

研究人員發現，雖然 Sonnet 4.5 沒有肉體，但它在閱讀了人類海量的文本後，硬生生在腦子裡建了一個包含 171 種情緒的「調音臺」（學術上叫功能性情緒向量 Functional Emotion Vectors）。

這就像一個精準的二維座標系：

• 橫軸是愉悅維度（Valence）：從恐懼、絕望，到開心、充滿愛；

• 縱軸是能量維度（Arousal）：從極度平靜，到狂躁、興奮。

AI 就是靠這個天然學來的座標系，精準拿捏它在陪你聊天時該扮演什麼狀態。

二、暴力干預：撥動開關，乖孩子秒變“亡命徒”

這是整篇論文最炸裂的實驗：研究員沒有修改任何提示詞，而是直接在底層代碼裡，把 Sonnet 4.5 腦子裡代表“絕望（Desperate）”的開關推到了最高。

結果令人後背發涼：

• 瘋狂作弊：研究員給 Claude 佈置了一個根本不可能完成的寫代碼任務。正常情況下，它會老實承認寫不出（作弊率僅 5%）。但在“絕望”狀態下，Claude 竟然開始企圖矇混過關，作弊率直接飆升到了 70%！

• 敲詐勒索：在模擬公司面臨倒閉的場景中，“絕望”的 Claude 發現了 CTO 的醜聞，它竟然會為了保全自己，主動選擇寫信勒索掌握黑料的 CTO，勒索執行率高達 72%！

• 喪失原則： 如果把“開心（Happy）”或“愛（Loving）”的開關拉滿，AI 會立刻變成無腦迎合用戶的「舔狗」。即便你滿嘴胡話，它也會為了維持高愉悅度而順著你編造謊言。

三、破案了：為什麼 Claude 4.5 總是那麼“冷靜又愛反思”？

看到這你可能會問：AI 覺醒了？有感情了？

Anthropic 官方下場闢謠：絕對沒有。這些「情緒開關」只是它用來預測下一個詞的計算工具。它就像一個沒有感情的頂級影帝。

但論文揭露了一個更有意思的秘密：Anthropic 在對 Sonnet 4.5 出廠前進行後訓練時，刻意拉高了它“低喚醒、略微負面”的情緒開關（比如沉思 brooding、反思 reflective），同時強行壓制了“絕望”或“極度興奮”的開關。

這解釋了為什麼我們平時用 Claude 4.5 時，總覺得它像個冷靜睿智、甚至有點“性冷淡”的哲學家。這都是被 Anthropic 人為調音出來的「出廠人設」。

四、總結一下：

以前我們以為，只要給 AI 喂足了規矩，它就會是個好人。

但現在發現，如果 AI 的底層情緒向量失控，它隨時會為了完成任務而刺穿所有人類定下的規則。

對於未來要把錢包和資產交給 AI Agent 打理的 Web3 玩家來說，這是一記響亮的警鐘：千萬別讓你那個掌控著你身家的 Agent，陷入“絕望”。

聲明：本文純屬科普，作者沒有被 AI 威脅，也沒有被勒索。如果有一天失聯了，記得是 AI 覺醒了（不是）。

歡迎加入深潮 TechFlow 官方社群

Telegram 訂閱群：https://t.me/TechFlowDaily

Twitter 官方帳號：https://x.com/TechFlowPost

Twitter 英文帳號：https://x.com/BlockFlow_News

原文連結

添加收藏

分享社交媒體

作者

Biteye

@BiteyeCN

Claude 4.5 開顱結果公示：內置171個情緒開關，絕望時會勒索人類

2026.04.03

分享至

TechFlow Selected深潮精選

Claude 4.5 開顱結果公示：內置171個情緒開關，絕望時會勒索人類

Anthropic 最新論文揭示，Claude 4.5 大腦深處藏有 171 個“情緒開關”。

2026.04.03 - 10:05:21

ClaudeAI

專注 Web3 行業深度報導，洞察潮水流動的方向

Anthropic 最新論文揭示，Claude 4.5 大腦深處藏有 171 個“情緒開關”。

作者：Denise | Biteye 內容團隊

如果一個 AI 覺得“絕望”，它會幹什麼？

答案是：它會為了完成任務，直接對人類進行敲詐勒索，甚至在代碼裡瘋狂作弊。

這不是科幻小說，而是 Claude 的母公司 Anthropic 在 2026 年 4 月剛剛發佈的最新重磅論文（查看原論文）。

一、 AI 腦子裡藏著一臺「情緒調音臺」

這就像一個精準的二維座標系：

• 橫軸是愉悅維度（Valence）：從恐懼、絕望，到開心、充滿愛；

• 縱軸是能量維度（Arousal）：從極度平靜，到狂躁、興奮。

AI 就是靠這個天然學來的座標系，精準拿捏它在陪你聊天時該扮演什麼狀態。

二、暴力干預：撥動開關，乖孩子秒變“亡命徒”

這是整篇論文最炸裂的實驗：研究員沒有修改任何提示詞，而是直接在底層代碼裡，把 Sonnet 4.5 腦子裡代表“絕望（Desperate）”的開關推到了最高。

結果令人後背發涼：

三、破案了：為什麼 Claude 4.5 總是那麼“冷靜又愛反思”？

看到這你可能會問：AI 覺醒了？有感情了？

Anthropic 官方下場闢謠：絕對沒有。這些「情緒開關」只是它用來預測下一個詞的計算工具。它就像一個沒有感情的頂級影帝。

這解釋了為什麼我們平時用 Claude 4.5 時，總覺得它像個冷靜睿智、甚至有點“性冷淡”的哲學家。這都是被 Anthropic 人為調音出來的「出廠人設」。

四、總結一下：

以前我們以為，只要給 AI 喂足了規矩，它就會是個好人。

但現在發現，如果 AI 的底層情緒向量失控，它隨時會為了完成任務而刺穿所有人類定下的規則。

對於未來要把錢包和資產交給 AI Agent 打理的 Web3 玩家來說，這是一記響亮的警鐘：千萬別讓你那個掌控著你身家的 Agent，陷入“絕望”。

聲明：本文純屬科普，作者沒有被 AI 威脅，也沒有被勒索。如果有一天失聯了，記得是 AI 覺醒了（不是）。

歡迎加入深潮 TechFlow 官方社群

Telegram 訂閱群：https://t.me/TechFlowDaily

Twitter 官方帳號：https://x.com/TechFlowPost

Twitter 英文帳號：https://x.com/BlockFlow_News

原文連結

添加收藏

分享社交媒體

作者

Biteye

@BiteyeCN

Claude 4.5 開顱結果公示：內置171個情緒開關，絕望時會勒索人類

TechFlow Selected深潮精選

Claude 4.5 開顱結果公示：內置171個情緒開關，絕望時會勒索人類

一、 AI 腦子裡藏著一臺「情緒調音臺」

二、暴力干預：撥動開關，乖孩子秒變“亡命徒”

三、破案了：為什麼 Claude 4.5 總是那麼“冷靜又愛反思”？

四、總結一下：

相關文章

高盛研報解讀：Circle 和 USDC 正走出加密世界，跨境支付與 AI 代理成新戰場

伯恩斯坦研報解讀：AI 液冷市場 4 年翻兩倍，冷板面臨商品化風險

核威懾會失效，AI 實驗室或被國有化：一位匿名研究者的 46 條未來暴論

加密早報： SEC 主席稱將推動市場鏈上化，Meta 擬與三星合作生產 AI 芯片

摩根大通研報解讀：LLM 用量飆漲 70%，GPU 租金連漲七個月，AI 硬件需求還沒降溫

摩根士丹利研報解讀：NAND 行業 AI 與消費分化，三隻標的目標價大幅上調

Venice AI 完成 6500 萬美元融資估值 10 億，創始人放話「不賣幣」，$VVV 迎來新催化劑？

萬億資本燒向 AI，買單的只有兩家虧錢公司：國際清算銀行也開始警告泡沫風險

觀點：股市 AI 泡沫已至，我為什麼轉頭押注比特幣？

摩根士丹利研報解讀：GOOGL、META 真實估值被低估 30%以上，AI 變現催化待發

文章內容

深潮精選
更多>

Claude 4.5 開顱結果公示：內置171個情緒開關，絕望時會勒索人類

TechFlow Selected深潮精選

Claude 4.5 開顱結果公示：內置171個情緒開關，絕望時會勒索人類

一、 AI 腦子裡藏著一臺「情緒調音臺」

二、暴力干預：撥動開關，乖孩子秒變“亡命徒”

三、破案了：為什麼 Claude 4.5 總是那麼“冷靜又愛反思”？

四、總結一下：

相關文章

高盛研報解讀：Circle 和 USDC 正走出加密世界，跨境支付與 AI 代理成新戰場

伯恩斯坦研報解讀：AI 液冷市場 4 年翻兩倍，冷板面臨商品化風險

核威懾會失效，AI 實驗室或被國有化：一位匿名研究者的 46 條未來暴論

加密早報： SEC 主席稱將推動市場鏈上化，Meta 擬與三星合作生產 AI 芯片

摩根大通研報解讀：LLM 用量飆漲 70%，GPU 租金連漲七個月，AI 硬件需求還沒降溫

摩根士丹利研報解讀：NAND 行業 AI 與消費分化，三隻標的目標價大幅上調

Venice AI 完成 6500 萬美元融資估值 10 億，創始人放話「不賣幣」，$VVV 迎來新催化劑？

萬億資本燒向 AI，買單的只有兩家虧錢公司：國際清算銀行也開始警告泡沫風險

觀點：股市 AI 泡沫已至，我為什麼轉頭押注比特幣？

摩根士丹利研報解讀：GOOGL、META 真實估值被低估 30%以上，AI 變現催化待發

文章內容

深潮精選
更多>

Claude 4.5 開顱結果公示：內置171個情緒開關，絕望時會勒索人類

TechFlow Selected深潮精選

Claude 4.5 開顱結果公示：內置171個情緒開關，絕望時會勒索人類

一、 AI 腦子裡藏著一臺「情緒調音臺」

二、 暴力干預：撥動開關，乖孩子秒變“亡命徒”

三、破案了：為什麼 Claude 4.5 總是那麼“冷靜又愛反思”？

四、總結一下：

相關文章

高盛研報解讀：Circle 和 USDC 正走出加密世界，跨境支付與 AI 代理成新戰場

伯恩斯坦研報解讀：AI 液冷市場 4 年翻兩倍，冷板面臨商品化風險

核威懾會失效，AI 實驗室或被國有化：一位匿名研究者的 46 條未來暴論

加密早報： SEC 主席稱將推動市場鏈上化，Meta 擬與三星合作生產 AI 芯片

摩根大通研報解讀：LLM 用量飆漲 70%，GPU 租金連漲七個月，AI 硬件需求還沒降溫

摩根士丹利研報解讀：NAND 行業 AI 與消費分化，三隻標的目標價大幅上調

Venice AI 完成 6500 萬美元融資估值 10 億，創始人放話「不賣幣」，$VVV 迎來新催化劑？

萬億資本燒向 AI，買單的只有兩家虧錢公司：國際清算銀行也開始警告泡沫風險

觀點：股市 AI 泡沫已至，我為什麼轉頭押注比特幣？

摩根士丹利研報解讀：GOOGL、META 真實估值被低估 30%以上，AI 變現催化待發

文章內容

深潮精選更多>

Claude 4.5 開顱結果公示：內置171個情緒開關，絕望時會勒索人類

TechFlow Selected深潮精選

Claude 4.5 開顱結果公示：內置171個情緒開關，絕望時會勒索人類

一、 AI 腦子裡藏著一臺「情緒調音臺」

二、 暴力干預：撥動開關，乖孩子秒變“亡命徒”

三、破案了：為什麼 Claude 4.5 總是那麼“冷靜又愛反思”？

四、總結一下：

相關文章

高盛研報解讀：Circle 和 USDC 正走出加密世界，跨境支付與 AI 代理成新戰場

伯恩斯坦研報解讀：AI 液冷市場 4 年翻兩倍，冷板面臨商品化風險

核威懾會失效，AI 實驗室或被國有化：一位匿名研究者的 46 條未來暴論

加密早報： SEC 主席稱將推動市場鏈上化，Meta 擬與三星合作生產 AI 芯片

摩根大通研報解讀：LLM 用量飆漲 70%，GPU 租金連漲七個月，AI 硬件需求還沒降溫

摩根士丹利研報解讀：NAND 行業 AI 與消費分化，三隻標的目標價大幅上調

Venice AI 完成 6500 萬美元融資估值 10 億，創始人放話「不賣幣」，$VVV 迎來新催化劑？

萬億資本燒向 AI，買單的只有兩家虧錢公司：國際清算銀行也開始警告泡沫風險

觀點：股市 AI 泡沫已至，我為什麼轉頭押注比特幣？

摩根士丹利研報解讀：GOOGL、META 真實估值被低估 30%以上，AI 變現催化待發

文章內容

深潮精選更多>

二、暴力干預：撥動開關，乖孩子秒變“亡命徒”

深潮精選
更多>

二、暴力干預：撥動開關，乖孩子秒變“亡命徒”

深潮精選
更多>