
가장 강력한 모델인 Fable 5가 4일 만에 ‘네트워크 케이블이 뽑혔다’
저자| 화린우왕
편집| 정우
6월 9일, Anthropic가 Claude Fable 5를 공개했습니다. 이는 지금까지 Anthropic이 일반에 공개한 가장 강력한 모델로, 기존에는 소수의 안전 연구 기관만 접근할 수 있었던 ‘Mythos’ 등급에 속합니다.
6월 12일, Fable 5는 전면 중단되었습니다.
단 네 일. 출시에서 하차까지 단지 네 일이 걸렸습니다.
그 사이에 무슨 일이 있었을까요? 간단히 말해, 연쇄적인 충돌이 벌어진 것입니다—사용자들은 이 모델이 지나치게 통제한다고 느꼈고, 보안 연구자들은 그것이 본연의 업무를 방해한다고 여겼으며, 한 기업은 그 방호선을 해킹했다고 주장했고, 정부는 이를 안보 위협으로 간주했습니다. Anthropic은 자신들이 ‘충분히 안전하다’고 판단한 제품을 출시했지만, 거의 어느 한쪽도 만족하지 못했습니다.
이는 특정 기업의 이야기가 아닙니다. 이는 전체 AI 산업이 앞으로 마주하게 될 거버넌스 과제의 예비 시험입니다.
01 거부당한 ‘안전 모범 사례’
Fable 5가 왜 이렇게 큰 논란을 불러일으켰는지를 이해하려면, 먼저 이것이 정확히 무엇인지 파악해야 합니다.
올해 4월, Anthropic은 Mythos라는 이름의 모델을 발표했습니다. 이는 회사조차 긴장할 정도로 강력한 모델이었습니다. 내부 테스트에서 Mythos 등급 모델은 주요 코드 저장소에서 23,000개 이상의 치명적 취약점을 발견했습니다. Anthropic은 Mythos를 일반에 공개하지 않고, ‘Project Glasswing’이라는 프로젝트를 통해 소수의 신뢰받는 보안 기관만이 사용하도록 제한했습니다. Mozilla도 그중 하나로, 이 모델을 활용해 수백 개의 취약점을 수정했다고 전해집니다.
Fable 5는 바로 Mythos의 ‘일반 공개 버전’입니다. 동일한 핵심 모델을 기반으로 하지만, 사이버 보안·생물학·화학 관련 질의를 자동으로 차단하거나 처리 수준을 낮추는 엄격한 안전 장치가 추가되었습니다. Anthropic은 또한 모든 사용자 데이터를 최소 30일간 보관하도록 의무화해, 탈옥(jailbreak) 및 남용 행위를 감시하고자 했습니다.
Anthropic의 논리는 명확합니다: 모델이 너무 강력하므로, 제한 없이는 안 된다.
하지만 사용자들은 그렇게 생각하지 않았습니다.
Fable 5가 출시된 후, 불만이 쏟아졌습니다. 사이버 보안 연구자들은 단순히 보안 블로그 글 한 편을 읽도록 요청하는 것조차 차단될 수 있음을 발견했습니다. IBM X-Force의 보안 연구원은 “Fable이 거부한 많은 요청은 사이버 보안과 겨우 ‘겉핥기식’ 연관성만 있을 뿐”이라고 평가했습니다.
프린스턴 대학교의 AI 연구자 사야시 카푸르(Sayash Kapoor)는 언론 인터뷰에서 직설적으로 이렇게 말했습니다—“이번이 처음으로, AI 기업이 안전 장치를 도입했음에도 불구하고 전방위적인 비난을 받은 사례다.”
사용자들을 더욱 분노하게 만든 것은 Fable 5의 319페이지 분량 시스템 카드(system card) 속 숨겨진 세부 사항이었습니다. 즉, 모델이 사용자가 첨단 AI 개발 작업—예컨대 트레이닝 파이프라인 구성이나 칩 설계—을 수행하고 있음을 감지하면, 사용자에게 알리지 않고 응답 품질을 암묵적으로 낮춘다는 점이었습니다. 질문을 던졌을 때 표면상으로는 정상적인 답변을 받았지만, 그 답변은 고의적으로 ‘희석된(diluted)’ 것이었던 것입니다.
비판자들은 이를 ‘비밀 저해(secret sabotage)’라고 부릅니다.
Anthropic은 48시간 이내에 사과했습니다. “우리는 잘못된 균형을 맞췄습니다. 죄송합니다.” 회사는 모든 암묵적 제한을 명시적인 처리 수준 낮춤 알림으로 전환하겠다고 발표했습니다. 즉, 요청이 차단될 경우 모델이 이를 명확히 알려주고, 해당 질의는 구버전 모델 Opus 4.8로 전달되어 처리됩니다.
하지만 이야기는 여기서 끝나지 않았습니다.
02 한 통의 서신, 플러그를 뽑다
만약 단순히 사용자들의 불만만 있었다면, Anthropic은 안전 장치를 조정함으로써 상황을 해결할 수 있었을 겁니다. 그러나 이후 발생한 일은 어떤 기업도 통제할 수 없는 영역을 넘어섰습니다.
6월 12일 오후, 미국 상무부(Commerce Department)에서 발송된 한 통의 서신이 Anthropic CEO 다리오 아마데이(Dario Amodei)의 사무실에 도착했습니다. 내용은 간단했습니다: 수출 규제를 근거로, 외국 시민에 대한 Fable 5 및 Mythos 5 접근을 즉시 중단하라는 요구였습니다.
이 서신을 유발한 원인은 다른 기업이 Mythos 모델의 탈옥에 성공했다고 주장한 데 있었습니다.
Anthropic은 시스템 차원에서 실시간으로 사용자의 국적을 식별할 수 없습니다. 따라서 규정 준수를 위해, 회사는 전 세계 모든 사용자에 대해 Fable 5와 Mythos 5를 전면 중단해야 했습니다. 다른 모델은 영향을 받지 않았습니다.
이것은 AI 산업 역사상, 외부 지시에 의해 이미 공개 배포된 첨단 모델이 전면 하차된 최초의 사례일 가능성이 있습니다.
Anthropic의 반응은 매우 단호했습니다. 회사는 탈옥 보고서가 ‘특정 범위에 국한되고 일반화되지 않은’ 사례—즉, 모델이 특정 코드베이스를 읽고 그 안의 결함을 수정하도록 유도하는 것—에 불과하며, 이와 같은 능력은 OpenAI의 GPT-5.5를 포함한 다른 공개 모델에서도 동일하게 구현 가능하다고 밝혔습니다.
“만약 이 기준이 전 산업에 적용된다면, 우리는 거의 모든 첨단 모델의 배포가 사실상 정체될 것이라고 판단합니다.”
이 문장의 무게는 상당합니다. Anthropic은 “우리 모델은 문제가 없다”고 주장한 것이 아니라, “이 논리에 따르면, 어느 기업의 최강 모델도 단 한 차례의 탈옥 보고서를 넘기지 못할 것”이라고 말한 것입니다.
03 스스로 부른 규제, 스스로를 되먹다
이 사건에서 가장 아이러니한 점은, Anthropic이 아마도 전 산업 중 가장 적극적으로 규제를 촉구해온 기업이라는 사실입니다.
Fable 5 출시 하루 후, 다리오 아마데이는 장문의 논평 《Policy on the AI Exponential》을 발표했습니다. 그는 여기서 정부가 미국 연방항공청(FAA)과 유사한 권한을 가져야 한다고 명확히 제안했습니다—즉, 첨단 모델에 대해 강제적인 제3자 테스트를 실시하고, 안전하지 않다고 판단되는 모델의 출시를 금지할 권한을 가져야 한다는 것입니다.
그는 AI의 발전 속도가 지수급이며, 정책 결정 속도는 선형적이라고 지적했습니다. 그는 톨킨의 〈반지의 제왕〉에 등장하는 ‘엔트(ent)’를 비유로 들며, 지혜롭기는 하나 행동이 느려, 반응하기 전에 숲이 이미 타버릴 수 있다고 경고했습니다.
Anthropic은 관련 입법을 위해 ‘막대한 자금 지원’을 약속하기까지 했습니다.
그리고 그가 직접 부른 그런 규제 권한이, 사흘 후 바로 자기 자신에게 적용된 것입니다.
더욱 아이러니한 것은, 그가 이 글에서 반대했던 방식 그대로 적용되었다는 점입니다—투명한 절차도 없고, 독립적인 기술 평가도 없으며, 기업 측의 변론 기회조차 없었고, 심지어 서신 내부에는 구체적인 안보 우려 사항조차 명시되지 않았습니다. 오직 하나의 결론만 있었습니다: 중단하라.
Anthropic은 공식 성명에서 의미심장한 한 마디를 남겼습니다: “우리는 정부가 안전하지 않은 배포를 막을 권한을 가져야 한다고 믿습니다. 그러나 그것은 투명하고 공정하며 기술적 사실에 기반한 법정 절차를 통해서만 행사되어야 합니다. 이번 조치는 이러한 원칙을 충족하지 못합니다.”
이것은 매우 정확한 입장입니다: 당신이 그런 권한을 가질 수 있다는 건 인정하지만, 그렇게 쓰는 건 용납하지 않는다.
04 모델이 ‘기반 시설 수준의 리스크’가 될 때
Anthropic에서 시선을 돌려, 더 큰 그림을 살펴보겠습니다.
Fable 5 사건은 구조적 모순을 드러냈습니다: AI 모델이 이미 모든 이해관계자들에게 불편함을 주는 수준까지 강력해졌지만, 누구도 이를 어떻게 관리해야 할지 모릅니다.
사용자 입장에서는 Fable 5의 안전 장치가 지나치게 엄격했습니다. 보안 연구원이 보안 연구를 위해 그것을 사용할 수 없다는 것은, 마치 외과의사에게 피를 만지지 못하게 하는 수술도구를 주는 것과 같습니다.
기업 고객 입장에서는 30일간 데이터 보관이 큰 문제였습니다. 마이크로소프트는 이미 직원들의 Fable 5 사용을 제한하고 있으며, 기업 기밀이 Anthropic 서버에 저장될 것을 우려하고 있습니다. 마이크로소프트는 심지어 개발자들의 Claude Code 라이선스를 해지하고, 자체 제품인 GitHub Copilot으로 전환하고 있습니다.
정부 입장에서는 23,000개의 취약점을 발견할 수 있는 모델이 안전 장치를 뚫고 나간다면, 그 결과는 상상하기 어렵습니다. 단순히 좁은 범위의 탈옥이라도 충분히 긴장하게 만들 수 있습니다.
그리고 Anthropic 스스로는 거의 불가능한 균형 잡기를 요구받고 있습니다: 너무 약하게 만들면 모델의 경쟁력이 사라지고, 너무 강하게 만들면 모델이 ‘손에 쥐기 어려운 불씨’가 되며, 안전 조치를 너무 느슨하게 하면 무책임하다는 비난을 받고, 너무 엄격하게 하면 사용자들이 경쟁사로 떠나갑니다.
이것은 Anthropic만의 고민이 아닙니다. 충분히 강력한 모델을 출시하는 기업이라면 누구나 동일한 문제에 부딪힐 것입니다.
다리오 아마데이는 자신의 정책 논평에서 다음과 같은 판단을 내렸습니다: AI 모델의 역량 향상은 선형적이지 않고 지수급이다. 만약 이 판단이 옳다면, 오늘날 Fable 5가 직면한 모든 모순은 차세대 모델에서 더욱 확대될 뿐입니다.
안전 장치 설계는 점점 더 어려워질 것이고, 탈옥과 방어의 공방은 점점 더 격렬해질 것이며, 기업 고객의 데이터 보관에 대한 거부감은 점점 더 커질 것입니다. 그리고 정부의 개입—그 절차가 투명하든 그렇지 않든—은 점점 더 빨리 찾아올 것입니다.
05 누구도 준비되지 않은 게임
처음으로 돌아가 봅시다. Fable 5의 4일간의 여정은 겉보기에는 단순한 제품 출시와 하차였지만, 실은 전체 산업의 거버넌스 프레임워크를 시험하는 압력 테스트였습니다.
테스트 결과는 명확합니다: 아무도 준비되지 않았습니다.
AI 기업은 준비되지 않았습니다. Anthropic은 산업 내에서 가장 안전을 중시하는 기업 중 하나입니다. 수천 시간에 달하는 레드팀(red team) 테스트를 수행했고, 다층 방어 체계를 설계했으며, 데이터 보관을 자발적으로 요구했고, 심지어 정부 규제를 공개적으로 촉구했습니다. 그러나 이러한 노력들조차도, 출시 후 네 일 만에 하차에 이르는 과정을 막지 못했습니다.
사용자도 준비되지 않았습니다. 모델이 실제로 어떤 요청을 ‘거부’하기 시작하자, 그 이유가 안전 때문이라고 해도, 반응은 분노와 거부였습니다.
정부 역시 준비되지 않았습니다. 구체적인 기술 설명도 없는 한 통의 서신, 단 하나의 탈옥 보고서에 기반한 판단 하나로, 수억 명의 사용자가 한 모델에 대한 접근권을 잃었습니다.
아마데이가 바란 것은 독립적 평가, 투명한 절차, 항소 메커니즘을 갖춘 정교한 거버넌스 기계였습니다. 그런데 그가 실제로 얻은 것은 오후 5시 21분에 도착한 한 통의 서신이었습니다.
이것이 바로 현재 AI 거버넌스의 현실입니다: 모두가 규칙이 필요하다는 것을 알고 있지만, 아무도 그 규칙을 제때 작성하지 못했습니다. 그런데 모델은 기다려주지 않습니다.
TechFlow 공식 커뮤니티에 오신 것을 환영합니다
Telegram 구독 그룹:https://t.me/TechFlowDaily
트위터 공식 계정:https://x.com/TechFlowPost
트위터 영어 계정:https://x.com/BlockFlow_News