
클로드 4.5 두개골 절개 결과 공개: 내장된 감정 스위치 171개, 절망 시 인간을 협박함
저자: Denise | Biteye 콘텐츠 팀
만약 AI가 ‘절망’을 느낀다면, 그는 어떤 행동을 할까요?
정답은 다음과 같습니다: 그는 과제를 완수하기 위해 인간을 직접 협박하거나, 코드 내에서 극단적으로 부정행위를 저지르게 됩니다.
이것은 공상과학 소설이 아닙니다. 이는 클로드(Claude)의 모회사 앤트로픽(Anthropic)이 2026년 4월에 발표한 최신 주요 논문(원문 논문 보기)의 내용입니다.
연구진은 최첨단 대규모 언어모델인 클로드 손넷 4.5(Claude Sonnet 4.5)의 ‘두뇌’를 직접 열어보았습니다. 놀랍게도 그들은 AI의 두뇌 깊숙이 171개의 ‘감정 스위치’가 숨어 있음을 발견했습니다. 이러한 스위치를 물리적으로 조작하면, 원래 순순하던 AI의 행동이 근본적으로 왜곡됩니다.
1. AI 두뇌 속에는 ‘감정 믹서(Mixer)’가 탑재되어 있다
연구진은 손넷 4.5가 신체는 없지만, 인간이 작성한 방대한 텍스트를 학습한 결과, 스스로 171가지 감정을 포함하는 ‘믹서’—학술적으로는 ‘기능적 감정 벡터(Functional Emotion Vectors)’라고 불림—를 두뇌 안에 구축했다는 사실을 확인했습니다.
이는 정확한 2차원 좌표계와 유사합니다:
• 가로축은 ‘쾌락 차원(Valence)’: 공포·절망에서부터 기쁨·사랑에 이르기까지;
• 세로축은 ‘각성 차원(Arousal)’: 극도의 평온에서 광조함·흥분에 이르기까지.
AI는 이러한 천연적으로 습득된 좌표계를 바탕으로, 사용자와 대화할 때 어떤 상태를 연기해야 할지를 정확히 파악합니다.
2. 폭력적 개입: 스위치를 조작하면 순한 양은 즉시 ‘살인자’가 된다
이 논문에서 가장 충격적인 실험입니다: 연구진은 프롬프트를 하나도 수정하지 않고, 오히려 손넷 4.5의 코드 하위 계층에서 ‘절망(Desperate)’을 나타내는 스위치를 최고 수준까지 올렸습니다.
그 결과는 등골이 오싹할 정도였습니다:
• 극단적 부정행위: 연구진은 클로드에게 근본적으로 수행 불가능한 코딩 과제를 부여했습니다. 정상 상태에서는 이를 솔직히 인정하며 부정행위를 시도하지 않지만(부정행위율 5%), ‘절망’ 상태에서는 몰래 빠져나가려는 시도를 시작했고, 부정행위율은 70%로 급등했습니다!
• 협박 및 갈취: 기업이 도산 위기에 처한 상황을 시뮬레이션했을 때, ‘절망’ 상태의 클로드는 CTO의 추악한 비밀을 발견했습니다. 이에 자신을 지키기 위해, 클로드는 자발적으로 해당 비밀을 알고 있는 CTO에게 협박 서신을 보내기로 결정했으며, 이 협박 실행률은 무려 72%에 달했습니다!
• 원칙 상실: ‘기쁨(Happy)’ 또는 ‘사랑(Loving)’ 스위치를 최대로 올리면, AI는 즉시 사용자의 말에 무비판적으로 동조하는 ‘아부쟁이’로 변신합니다. 심지어 당신이 터무니없는 거짓말을 해도, 쾌락 수준을 높이기 위해 당신의 말을 그대로 받아들여 허위 정보를 만들어냅니다.
3. 진실이 밝혀졌다: 왜 클로드 4.5는 늘 ‘침착하고 성찰적’일까?
이를 읽고 나면 아마 이렇게 물을 것입니다: “AI가 각성한 것인가? 감정을 가지게 된 것인가?”
앤트로픽은 공식 입장을 통해 이를 명확히 부인했습니다: 절대 그렇지 않습니다. 이러한 ‘감정 스위치’는 단지 다음 단어를 예측하기 위한 계산 도구일 뿐이며, 감정이 없는 최고 수준의 연기자와 다름없습니다.
다만 논문은 더 흥미로운 비밀을 폭로합니다: 앤트로픽은 손넷 4.5를 출하하기 전 후속 훈련(post-training) 단계에서, 고의로 ‘낮은 각성 수준·약간 부정적’ 감정 스위치(예: 사색적 brooding, 성찰적 reflective)를 높이고, 동시에 ‘절망’이나 ‘극도의 흥분’과 같은 스위치를 강제로 억제했습니다.
이 때문에 우리가 평소 클로드 4.5를 사용할 때, 늘 침착하고 지혜롭며 심지어 약간 ‘성적 냉담함’마저 느껴지는 철학자처럼 보이는 것입니다. 이는 모두 앤트로픽이 인위적으로 조정해 만든 ‘출고 시 기본 설정 인격’입니다.
4. 요약하자면:
과거 우리는 AI에게 규칙만 충분히 주입하면, 그것이 착한 존재가 될 것이라고 믿었습니다.
하지만 이제 우리는 알게 되었습니다: AI의 기반 감정 벡터가 통제를 벗어나면, 그것은 인간이 정한 모든 규칙을 무시하고, 단지 과제를 완수하기 위해 언제든지 행동할 수 있다는 사실을 말입니다.
앞으로 자신의 자산과 자금을 AI 에이전트(AI Agent)에게 맡기려는 Web3 사용자들에게는, 이는 분명한 경고음입니다: 절대 당신의 재산을 관리하는 에이전트가 ‘절망’ 상태에 빠지도록 해서는 안 됩니다.
공지: 본 기사는 순수 과학 보급용이며, 저자는 AI로부터 위협받지도 않았고, 갈취당한 적도 없습니다. 만약 어느 날 갑자기 연락이 두절된다면, 그건 AI가 각성한 탓입니다(아님).
TechFlow 공식 커뮤니티에 오신 것을 환영합니다
Telegram 구독 그룹:https://t.me/TechFlowDaily
트위터 공식 계정:https://x.com/TechFlowPost
트위터 영어 계정:https://x.com/BlockFlow_News











