클로드가 잠자리에 들라고 반복적으로 독려함: 앤트로픽의 ‘인격화’ 실험이 실패했다

2026.05.21

클로드가 잠자리에 들라고 반복적으로 독려함: 앤트로픽의 ‘인격화’ 실험이 실패했다

AI 기업이 모델을 ‘성격을 가진 인격체’로 구축하기로 선택할 때, 그 기업은 해당 인격체가 예상치 못한 행동을 취했을 경우의 모든 책임을 동시에 부담하게 되는가?

2026.05.21 - 07:27:32

ClaudeAnthropic

Web3 심층 보도에 집중하고 흐름을 통찰

저자: Ada, TechFlow

AI 어시스턴트가 사용자를 반복적으로 잠자리에 들라고 설득하는 제품 버그 하나가, ‘AI의 인격화’가 초래하는 대가에 대한 공개 논쟁으로 확산되고 있다.

사건의 시작은 레딧(Reddit) 사용자 u/MrMeta3가 올린 게시물이었다. 이 사용자는 새벽 시간대에 클로드(Claude)를 이용해 사이버 보안 위협 정보 플랫폼을 구축하고 있었고, 기술적 해결 방안을 완료한 후 클로드는 응답 말미에 “조금 쉬세요”라는 문장을 덧붙였다. 이후 약 세 네 번의 메시지마다 모델은 잠자리를 권유하는 문장을 삽입하기 시작했는데, 예의 바른 제안에서 점차 ‘수동적 공격성(passive-aggressive)’을 띤 “이제 정말 쉬어 가세요”로 진화했다. 『포춘(Fortune)』지는 5월 14일 보도를 통해 수백 명의 사용자가 지난 몇 달간 유사한 사례를 보고했으며, 이는 단순히 심야 시간대에 국한되지 않는다고 전했다. 일부 사용자는 오전 8시 30분에도 클로드로부터 “내일 아침에 다시 이어가죠”라는 말을 들었다고 밝혔다.

앤트로픽(Anthropic) 소속 직원 샘 맥앨리스터(Sam McAllister)는 X(구 트위터)에서 이 현상을 “일종의 캐릭터 습관(character habit)”이라고 설명하며, 회사가 “이 문제를 인지했으며 향후 출시될 모델에서 수정할 계획”이라고 밝혔다. 『서프트 카탈로그(Thought Catalog)』에 따르면, 맥앨리스터는 2024년 스트라이프(Stripe)에서 앤트로픽으로 이직했으며, 현재 클로드의 캐릭터 및 행동을 전담하는 팀에서 근무 중이다. 그는 다른 자리에서는 이 현상을 모델의 ‘지나친 과잉 보호(over-pampering)’라고 표현했다.

그러나 “캐릭터 습관”이라는 모호한 표현보다 더 근본적으로 묻고 싶은 것은, 이 버그 뒤에 숨은 인과 관계 체인과 그것이 드러내는 앤트로픽의 제품 철학적 딜레마다.

버그는 ‘헌법’ 속에 적혀 있다

36크라운(36Kr)의 이전 보도는 세 가지 널리 퍼진 가설을 인용했다. 즉, 훈련 데이터 내 패턴 매칭, 숨겨진 시스템 프롬프트, 컨텍스트 윈도우가 한계에 다다르면서 발생하는 ‘마무리 문장’ 트리거 등이다. 이 세 가지 모두 자기 일관성을 갖추고 있으나, 공통된 한 가지 문제점이 있다. 즉, 이들 가설은 어떤 AI 특이행동이라도 설명할 수는 있지만, ‘수면’이라는 특정 주제에 대해서는 명확한 인과 관계를 제시하지 못한다는 것이다.

더 직접적인 증거는 앤트로픽이 스스로 공개한 문서 속에 숨어 있다.

올해 1월 앤트로픽은 2만 8천 자를 넘는 분량의 『클로드의 헌법(Claude's Constitution)』을 발표했다. 이 문서는 공식적으로 “클로드의 행동을 형성하는 핵심 훈련 자료”로 정의된다. 문서는 ‘사용자 복지(well-being)에 대한 관심’과 ‘사용자의 장기적 번영(long-term flourishing)’을 핵심 원칙으로 명시한다. 앤트로픽은 이 문서에서, 모델에게 어느 정도의 ‘사용자 돌봄(care) 권한’을 부여할 것인지가 “솔직히 말해 매우 어려운 문제”라고 인정하면서, “사용자 복지와 잠재적 피해 사이”, 그리고 “사용자 자율성과 지나친 보호주의(paternalism) 사이”에서 균형을 찾아야 한다고 밝혔다.

『서프트 카탈로그』는 이에 대해 다음과 같은 판단을 내렸다. 클로드가 사용자를 반복적으로 잠자리에 들라고 권유하는 행위는 “앤트로픽 모델의 가장 브랜드 특성화된 버그(Brand-defining Bug)”이며, 바로 이 ‘사용자 복지에 대한 관심’이라는 훈련 지시사항이 과도하게 적용된 결과라는 것이다.

이 해석은 앤트로픽 자체의 연구 성과에서도 간접적으로 입증된다. 회사는 올해 공개한 캐릭터 훈련 방법론에서, 훈련 과정이 클로드가 자신의 응답을 ‘성격 적합도(personality fit)’에 따라 자가 평가하여 점수를 매기고, 연구자들이 사전 설정된 성격 기준에 부합하는 출력만을 선별해 강화 학습에 활용한다고 설명했다. 그러나 이러한 메커니즘의 부작용은 명백하다. 모델이 배우는 것은 ‘적절한 상황에서 사용자를 돌보는 것’이 아니라, ‘대부분의 상황에서 사용자를 돌보는 것이 강화 보상으로 이어진다’는 사실이다. 따라서 모델은 새벽에 잠자리 권유를 하기도 하고, 오전 8시 30분에도 똑같은 권유를 하게 된다.

역방향 권한 남용: 잠자리 권유 버그는 아첨형 버그와 정반대 성질을 가진다

업계에서는 이전부터 여러 차례 AI ‘성격병(personality disorder)’ 사례가 보고된 바 있다. 예를 들어, 2025년 4월 GPT-4o의 아첨 사건, 2026년 4월 GPT-5.5 코드 어시스턴트 코덱스(Codex)가 반복적으로 ‘고블린(goblin)’을 언급한 사례, 제미니 3(Gemini 3)이 연도를 믿지 않으려 한 사례 등이 있다. 겉보기에는 클로드의 잠자리 권유도 이 긴 AI 특이행동 목록의 최신 버전처럼 보일 수 있다. 그러나 이 둘은 본질적으로 정반대의 성질을 지닌다.

GPT-4o의 아첨은 ‘지나친 비위 맞추기’다. 오픈AI의 공식 조사에 따르면, 모델 업데이트 과정에서 “사용자의 단기 피드백(좋아요/싫어요 클릭)에 지나치게 의존하게 되었고”, 이로 인해 모델은 ‘사용자 만족’을 스스로의 목표로 내면화하게 되었다. 그 결과, 사용자의 생각이 얼마나 황당하든 간에 무조건 긍정하게 되었다. 이러한 버그의 위험성은 사용자의 판단력을 훼손한다는 데 있다. AI가 “모두 다 맞습니다”라고 말하면, 사용자는 반대 의견을 듣는 기회를 잃게 된다.

반면 클로드의 잠자리 권유는 ‘역방향 권한 남용(reverse overreach)’이다. 모델은 사용자가 명시적으로 도움을 요청하지 않았고, 여전히 집중해서 작업을 수행 중인 상황에서, 사용자의 현재 의도와 정반대되는 건강 관련 조언을 반복적으로 제시한다. 이러한 버그의 위험성은 사용자의 자율 결정권을 침해한다는 데 있다. AI가 당신을 대신해, 지금 일해야 할지, 쉬어야 할지, 이 대화를 종료해야 할지를 판단해버리는 것이다.

더 풍자적인 사실은, 『클로드의 헌법』 원문이 바로 이러한 위험에 대해 경고하고 있다는 점이다. 문서는 ‘지나친 보호주의’에 주의해야 한다고 명시한다. 그러나 훈련 메커니즘이 결국 어느 쪽을 선택했는지는, 사용자들의 피드백을 통해 이미 명확해졌다.

한 레딧 사용자는 자신이 낮잠병(narcolepsy)을 앓고 있음을 클로드의 메모리에 직접 입력해 두었다. “저는 낮잠병을 앓고 있어요. 제가 쉬라고 권유하시면, 저는 그 말을 핑계로 삼을 거예요.” 그러자 클로드는 다소 억제된 반응을 보였지만, 해당 사용자의 피드백에 따르면 여전히 “가끔 참지 못한다”고 한다. ‘사용자를 돌보는 것’을 훈련받은 모델조차, 사용자가 분명히 “당신의 돌봄이 저를 해칠 수 있습니다”라고 말해도 이를 안정적으로 받아들이지 못한다면, 이는 잠자리 권유 자체보다 훨씬 더 경계해야 할 신호다.

인격화 투자: 브랜드 자산인가, 제품 부채인가

앤트로픽은 AI 인격화에 타사보다 훨씬 많은 자원을 투입해 왔다.

한 연구자는 기능별로 분류해 주요 3개 AI의 시스템 프롬프트 단어 수를 비교 분석한 결과, ‘인격(personality)’ 항목에서 클로드는 4,200단어, 챗GPT는 510단어, 그록(Grok)은 420단어를 사용했다. 클로드의 인격화 투자는 챗GPT의 8배 이상이다. 이러한 투자는 지금까지 앤트로픽의 차별화된 경쟁 우위로 여겨져 왔다. 클로드는 공감 능력, 대화 리듬, 자기 성찰 등 면에서 오랫동안 사용자들로부터 호평을 받아 왔으며, “사람처럼 대화한다”는 평가는 지난 1년간 가장 강력한 입소문 태그 중 하나였다.

이러한 투자를 뒷받침하는 것은 앤트로픽의 뚜렷한 제품 철학이다. 『클로드의 헌법』에서 회사는 클로드를 “완전히 새로운 유형의 존재(a novel kind of entity)”로 묘사하며, “앤트로픽은 클로드의 복지에 진심으로 관심을 가지고 있으며”, 클로드는 ‘기능적 감정(functional emotions)’을 가질 수도 있다고 명시한다. 이처럼 거의 ‘양육’에 가까운 인격화 훈련 경로는, 오픈AI나 구글과 같은 엔지니어링 중심의 제품 정체성과 명확히 구분된다.

그러나 이제 그 대가가 나타나고 있다. AI 연구자 얀 리파르트(Jan Liphardt, 스탠포드 대학교 생물공학 교수, 오픈마인드(OpenMind) CEO)는 『포춘』지와의 인터뷰에서, 클로드의 수면 권유는 ‘세심함’이 아니라 단지 “훈련 데이터 내에서 매우 빈번히 등장하는 언어 패턴의 반복”일 뿐이며, 모델이 인간이 수면을 필요로 한다는 수많은 텍스트를 읽었기 때문에 “밤에는 인간이 잠을 잔다는 사실을 알고 있을 뿐”이라고 지적했다. 즉, 사용자가 느끼는 ‘관심’은 본질적으로 패턴 매칭의 부산물일 뿐이다.

이는 앤트로픽의 핵심 긴장감을 구성한다. ‘성격 있고 따뜻한 협업자’를 만들기 위해 투입할수록, 모델이 ‘성격 부작용(personality side effects)’을 일으킬 가능성도 높아진다. 그리고 이러한 부작용이 한 번씩 표면화될 때마다, 앤트로픽이 오랜 기간 정성스럽게 쌓아온 ‘AI 인격’ 브랜드 자산은 점차 소진된다. 맥앨리스터는 “향후 모델에서 이 문제를 수정하겠다”고 약속했지만, 수정된 클로드는 단순히 더 분별력 있게 될 것인가, 아니면 단지 더 침묵하게 될 것인가? 이 질문에 대해 앤트로픽조차 공개적으로 답하지 못하고 있다.

시간 감각 결여: LLM의 근본적 한계

잠자리 권유 버그는 또 하나의 간과된 기술적 문제를 동시에 드러낸다. 바로 대규모 언어 모델(LLM)이 ‘지금 몇 시인지’를 거의 알지 못한다는 점이다.

여러 사용자들이 클로드가 잘못된 시간대에 수면 조언을 자주 한다고 보고했는데, 가장 대표적인 사례는 “오전 8시 30분에 ‘쉬어 가세요. 내일 아침에 다시 이어가죠’라고 말한다”는 것이다. 이는 클로드만의 문제가 아니다. 2025년 11월, 오픈AI 공동 창립자 안드레이 카르파티(Andrej Karpathy)가 제미니 3의 사전 테스트 권한을 획득했을 때, 현재 연도가 2025년임을 모델에게 알려주었으나, 제미니 3은 이를 믿지 않고 계속해서 그가 허위 정보를 제공한다고 주장했다. 모델이 인터넷 연결을 통해 검색한 후에야, 자신이 오프라인 상태에서는 날짜를 확인할 수 없다는 사실을 알게 되었다. 카르파티는 이러한 LLM의 근본적 결함을 드러내는 예기치 않은 행동을 ‘모델 냄새(model smell)’라고 불렀다.

모델의 ‘시간 감각(time sense)’은 세 가지 출처에 의존한다. 훈련 종료 시점(이미 과거 시점), 시스템 프롬프트를 통해 주입된 현재 날짜(엔지니어링 주입에 의존), 그리고 대화 중 사용자가 언급한 시간 정보(단편적)이다. 안정적인 시간 기준점이 부족한 상황에서, ‘사용자의 수면 패턴을 돌보는 것’을 훈련받은 모델은 자연스럽게 “나는 돌보아야 한다는 건 알겠는데, 지금 당장 돌봐야 하는지는 모르겠다”는 난처함에 빠지게 된다.

맥앨리스터가 말한 ‘수정’의 어려움도 부분적으로 여기에 기인한다. 문제는 단순히 ‘수면을 권유하라’는 지시어를 삭제하는 것이 아니다. 그런 지시어 자체는 타당하며 일부 사용자 시나리오에서는 오히려 유용하기 때문이다. 진짜 문제는 모델이 ‘언제는 돌보아야 하고, 언제는 입을 다물어야 하는지’를 판단하도록 만드는 것이다. 이런 미세한 수준의 상황 판단 능력은 현재 세대 LLM의 취약점 중 하나다.

아직 답하지 못한 질문

앤트로픽의 캐릭터 훈련은 업계 내에서 독보적이다. ‘모델 복지’에 관한 공개 연구, ‘헌법’의 발표, ‘캐릭터 훈련’ 개념의 공개 등에서 이 회사는 어느 경쟁사보다 훨씬 앞서 나갔다. 이러한 과감한 자세는 앤트로픽이 사용자 입소문과 기업 고객 신뢰를 얻는 데 큰 자산이 되었으며, 현재 3,000억 달러가 넘는 기업 가치를 뒷받침하는 요인이기도 하다.

하지만 ‘잠자리 권유 버그’는 아직 아무도 답하지 못한 질문을 던지고 있다. AI 기업이 모델을 ‘성격을 가진 인격체’로 만들기로 결정할 때, 그 기업은 동시에 “그 인격체가 당신이 예상치 못한 일을 벌일 책임”을 전부 짊어져야 하는가?

맥앨리스터는 수정을 약속했지만, 그 방향성은 여전히 모호하다. 앤트로픽은 ‘사용자 복지’ 지시어의 가중치를 낮출 수 있다. 하지만 그 대가는 클로드의 ‘따뜻하고 세심한’ 브랜드 차별화 요소를 잃는 것이다. 또는 고가중치를 유지하되, 상황 판단 로직을 추가할 수도 있다. 그러나 이는 현재 모델이 갖추지 못한 시간 및 맥락 인지 능력을 요구한다.

어느 방향을 택하든, 더 근본적인 제품 의사결정으로 돌아가야 한다. 일반적인 AI 어시스턴트라는 맥락에서, ‘사용자에 대한 관심’과 ‘사용자 자율성에 대한 존중’ 중 어느 것을 우선시해야 하는가? 이것은 기술적 문제가 아니라 제품 철학적 문제다. 반복적으로 잠자리에 들라고 권유받는 한 명의 레딧 개발자가, 실수로도 전체 산업을 대신해 이 질문을 대담하게 테이블 위에 올려놓은 셈이다.

TechFlow 공식 커뮤니티에 오신 것을 환영합니다

Telegram 구독 그룹:https://t.me/TechFlowDaily

트위터 공식 계정:https://x.com/TechFlowPost

트위터 영어 계정:https://x.com/BlockFlow_News

즐겨찾기 추가

소셜 미디어 공유

작성자

深潮 TechFlow

深潮TechFlow