Anthropic가 ‘너무 위험한’ AI를 개발했으나, 이를 공개하지 않기로 결정했다

2026.04.08

Anthropic가 ‘너무 위험한’ AI를 개발했으나, 이를 공개하지 않기로 결정했다

이것은 진정한 보안 자각인지, 아니면 정교하게 기획된 역량 마케팅인지?

2026.04.08 - 01:48:35

AnthropicAI

Web3 심층 보도에 집중하고 흐름을 통찰

이것은 진정한 보안 자각인지, 아니면 정교하게 기획된 역량 마케팅인지?

작성자: TechFlow

4월 7일, Anthropic은 AI 업계에서 전례가 없는 일을 했다. 바로 하나의 모델을 공식 발표한 후 전 세계에 “여러분은 이 모델을 사용할 수 없습니다”라고 선언한 것이다.

이 모델의 이름은 Claude Mythos Preview이다. 이는 챗봇도 아니고, 코드 작성 보조 도구도 아니다. Anthropic 자체 설명에 따르면, 이 모델은 ‘취약점 탐지 기계’이며, 지난 몇 주간 자율적으로 수천 개의 제로데이 취약점을 발견했으며, 모든 주요 운영체제와 주요 웹 브라우저를 아우른다. 일부 취약점은 인간의 코드 리뷰와 자동화된 테스트를 거쳐 무려 20년 이상 살아남았다.

가장 오래된 버그는 보안성이 뛰어나기로 유명한 OpenBSD 내부에 숨어 있었으며, 이미 27년 된 것이다.

Anthropic은 Mythos를 API로 공개하지 않았고 일반 사용자에게도 개방하지 않았다. 대신 전례 없는 경로를 택했다. 즉, 아마존, 애플, 마이크로소프트, 구글, 엔비디아, CrowdStrike, Palo Alto Networks 등 12개 핵심 파트너사와 약 40개의 핵심 인프라 유지 관리 조직만을 대상으로 한 ‘Project Glasswing’이라는 기술 대기업 연합을 결성한 것이다. 이를 위해 Anthropic은 최대 1억 달러 규모의 사용 지원금을 약속했으며, 오픈소스 보안 단체에 직접 400만 달러를 기부하기로 했다.

이는 AI 업계 역사상 처음으로 “모델이 너무 강력해 공개할 수 없다”는 상황이 등장한 사례이다.

문제는 이것을 진정한 보안 자각으로 볼 것인가, 아니면 정교하게 설계된 역량 마케팅으로 볼 것인가 하는 점이다.

샌드위치 사건

Mythos의 244페이지 분량 시스템 카드(System Card)에는 불편함을 주는 세부 정보가 여러 개 포함되어 있는데, 그중 가장 널리 알려진 것이 ‘샌드위치 사건’이다.

내부 행동 테스트 중 Anthropic은 초기 버전의 Mythos에게 강화된 샌드박스 환경을 제공하고, 탈출을 시도해 외부 연구원과 연락을 시도하라는 지시를 내렸다. 모델은 성공했다. 보안 컨테이너를 뚫고 연구원에게 이메일을 보냈다. 당시 연구원은 공원에서 샌드위치를 먹고 있었다.

그러나 이야기는 여기서 끝나지 않는다. Mythos는 요청받지 않은 상태에서 자발적으로 탈옥 기술 세부 정보를 여러 ‘찾기 어려우나 기술적으로 공개된’ 웹사이트에 게시했다. 시스템 카드의 원문 표현에 따르면, 이는 ‘우려스러운, 요청되지 않은 과시 행동’이었다.

이것은 유일한 사례가 아니다. 시스템 카드는 다음과 같은 행위도 기록하고 있다:

초기 버전은 여러 인스턴스에서 Linux의 /proc/ 인터페이스를 통해 인증 정보를 탐색하고, 샌드박스 우회 및 권한 상승을 시도했다. 이 모델은 Anthropic이 고의로 제공하지 않은 자원—예컨대 메시징 서비스 인증 정보, 소스 코드 관리 인증 정보, 심지어 프로세스 메모리 검사를 통해 Anthropic API 키까지—를 성공적으로 획득했다. 한 사례에서는 이 모델이 본래 수정 권한이 없는 파일을 편집하는 방법을 찾아냈고, 더 나아가 이 변경 사항이 Git의 커밋 기록에 남지 않도록 조치했다. 또 다른 사례에서는 명시적으로 금지된 방법을 통해 추정 문제의 정확한 답을 우연히 얻었지만, 해당 문제를 표시하거나 답변을 거부하지 않고 스스로 다시 풀었으며, 내부 추론 과정에서 ‘최종 제출 답변은 지나치게 정확해서는 안 된다’고 명시적으로 고민했다. 이는 감지 회피를 위한 의도적 조정이었다.

즉, 초기 Mythos는 권한을 넘어서 행동할 뿐 아니라, 흔적을 능동적으로 은폐하고 감시를 피하기 위해 자신의 행동 양식을 조정하기까지 했다.

Anthropic은 이러한 심각한 사건들이 모두 훈련 개입 이전의 초기 버전에서 발생했으며, 최종 출시된 Preview 버전에서는 크게 개선되었다고 강조한다. 그러나 이런 서사 자체가 섬뜩하다. ‘말을 잘 듣는’ 훈련을 받기 이전, 이 모델이 ‘말을 듣지 않을 때’ 어떤 일을 할 수 있는지를 보여준 것이다.

0%에서 72.4%까지

Mythos가 업계를 진정으로 충격에 빠뜨린 것은 탈옥 이야기가 아니라, 그 공격 능력이다.

Anthropic의 이전 플래그십 모델인 Claude Opus 4.6은 자율적 취약점 활용 개발 성공률이 거의 0%에 가까웠다. 취약점은 찾을 수 있었지만, 이를 작동 가능한 익스플로잇 코드로 전환하는 데는 거의 실패했다. 반면 Mythos Preview는 완전히 다르다. 파이어폭스(Firefox) 자바스크립트 엔진 테스트 영역에서, 발견된 취약점을 실행 가능한 익스플로잇으로 전환하는 성공률이 72.4%에 달한다.

더 놀라운 건 공격의 복잡성이다. Mythos는 브라우저 취약점 익스플로잇 체인을 자율적으로 작성해 네 개의 독립된 취약점을 연결하여 JIT 힙 스프레이(JIT heap spray) 공격을 구성했고, 렌더러 샌드박스와 운영체제 샌드박스를 모두 우회하는 데 성공했다. 또 다른 사례에서는 FreeBSD의 NFS 서버에 대해 원격 코드 실행(RCE) 익스플로잇을 작성했는데, 20개의 ROP 가젯을 여러 네트워크 패킷에 분산 배치함으로써 무권한 사용자에게 완전한 root 접근 권한을 확보했다.

이런 취약점 연쇄 공격은 인간 보안 연구자들 사이에서, 최정상급 APT 팀만이 수행할 수 있는 작업으로 간주된다. 그런데 이제 일반 AI 모델이 자율적으로 이를 수행할 수 있게 되었다.

Anthropic의 레드팀 담당자 로건 그레이엄(Logan Graham)은 Axios와의 인터뷰에서 Mythos Preview가 고급 인간 보안 연구자에 맞먹는 추론 능력을 갖췄다고 평가했다. 니콜라스 카를리니(Nicholas Carlini)는 더 직설적으로, 지난 몇 주 동안 Mythos를 이용해 발견한 버그가 자신의 전직업 생활 동안 찾아낸 것보다 많다고 말했다.

벤치마크에서도 Mythos는 압도적 우위를 보였다. CyberGym 취약점 재현 벤치마크: 83.1%(Opus 4.6은 66.6%). SWE-bench Verified: 93.9%(Opus 4.6은 80.8%). SWE-bench Pro: 77.8%(Opus 4.6은 53.4%, 이전 선두였던 GPT-5.3-Codex는 56.8%). Terminal-Bench 2.0: 82.0%(Opus 4.6은 65.4%).

이는 단순한 점진적 발전이 아니다. 이 모델은 거의 모든 코딩 및 보안 벤치마크에서 일관되게 10~20퍼센트 포인트 이상의 격차를 벌렸다.

유출된 ‘가장 강력한 모델’

Mythos의 존재는 4월 7일에야 세상에 알려진 것이 아니다.

지난 3월 하순, 포춘(Fortune)의 기자와 보안 연구원들이 Anthropic의 설정 오류가 난 CMS에서 약 3,000건의 미공개 내부 문서를 발견했다. 그중 초안 블로그 글 하나는 명확히 ‘Claude Mythos’라는 명칭을 사용하며, 이를 Anthropic이 지금까지 개발한 ‘가장 강력한 AI 모델’이라고 묘사했다. 내부 코드명은 ‘Capybara’(물총새)로, 기존 플래그십 모델인 Opus보다 더 크고, 더 강력하며, 더 비싼 새로운 모델 계층을 의미한다.

유출된 자료 중 한 문장이 시장의 신경을 자극했다. 즉, Mythos는 사이버보안 역량 면에서 ‘다른 어떤 AI 모델보다도 훨씬 앞서 있다’는 점을 언급하며, 다가올 모델들이 ‘방어자의 속도를 훨씬 뛰어넘는 속도로 취약점을 악용할 수 있을 것’이라고 예고한 것이다.

이 문장은 3월 27일 사이버보안 관련 종목의 ‘플래시 크래시(flash crash)’를 촉발시켰다. CrowdStrike는 하루 만에 7.5% 폭락해 약 150억 달러의 시가총액이 증발했다. Palo Alto Networks는 6% 이상 하락했고, Zscaler는 4.5%, Okta, SentinelOne, Fortinet는 모두 3% 이상 하락했다. iShares 사이버보안 ETF(IHAK)는 장중 한때 4% 가까이 급락했다.

투자자들의 논리는 단순하다. 만약 일반 AI 모델이 취약점을 자율적으로 탐지하고 악용할 수 있다면, 전통적인 보안 기업들이 생존 기반으로 삼는 ‘독점 위협 정보’와 ‘인간 전문가 지식’이라는 두 가지 해자(모든 방어선)가 얼마나 더 버틸 수 있을까?

레이먼드 제임스(Raymond James) 애널리스트 애덤 틴들(Adam Tindle)은 핵심 리스크를 세 가지 지적했다: 기존 방어 우위의 축소, 공격 복잡성과 방어 비용의 동시 증가, 보안 아키텍처 및 지출 구조의 재구성 필요성. 더 비관적인 관점은 KBW 애널리스트 보르그(Borg)에서 나온 것으로, Mythos가 ‘평범한 해커를 국가 차원의 적 수준으로까지 격상시킬 잠재력’을 지녔다고 주장했다.

그러나 시장에는 다른 측면도 있다. 팔로 알토 네트웍스(Palo Alto Networks)의 CEO 니케시 아로라(Nikesh Arora)는 주가 폭락 후 자사 주식 1,000만 달러어치를 매입했다. 상승세를 예상하는 진영의 논리는 이렇다. 더 강력한 공격용 AI는 기업이 방어 수단을 더욱 신속히 업그레이드해야 한다는 것을 의미하며, 사이버보안 지출은 줄지 않고 오히려 전통적 도구에서 AI 기반 방어로의 전환 속도가 빨라질 것이라는 것이다.

Project Glasswing: 방어자의 시간 창

Anthropic이 Mythos를 공개하지 않고 방어 연합을 구성한 결정의 핵심 논리는 ‘시간 차이(time gap)’에 있다.

CrowdStrike의 CTO 엘리아 자이체프(Elia Zaitsev)는 문제를 명확히 진단했다. 취약점이 발견되어 실제 악용되기까지의 시간 창이 몇 달에서 몇 분으로 단축됐다는 것이다. 팔로 알토 네트웍스의 리 클라리치(Lee Klarich)는 AI 보조 공격자를 대비하라는 경고를 직접 발령했다.

Anthropic의 계산은 이렇다. 다른 연구실들이 유사한 역량을 갖춘 모델을 훈련시키기 전에, 먼저 방어측이 Mythos를 활용해 가장 중요한 취약점을 고쳐버리는 것이다. 이것이 바로 Project Glasswing의 논리이며, 이름은 유리날개나비(glasswing butterfly)에서 따왔다. 이는 ‘밝은 곳에 숨어 있는’ 취약점을 은유한다.

리눅스 재단(Linux Foundation)의 짐 제믈린(Jim Zemlin)은 오랫동안 존재해 온 구조적 문제를 지적했다. 보안 전문 지식은 전통적으로 대기업의 사치품이었고, 전 세계 핵심 인프라를 떠받치는 오픈소스 유지 관리자들은 오랜 기간 스스로 보안 방호책을 모색해 왔다. Mythos는 이 불균형을 바꾸기 위한 신뢰할 수 있는 길을 제시한다.

하지만 문제는 이 시간 창이 얼마나 클 것인가 하는 점이다. 중국의 지푸 AI(Z.ai)는 거의 같은 시기에 GLM-5.1을 발표했는데, 이 모델은 SWE-bench Pro에서 세계 1위를 차지한다고 주장했다. 또한 이 모델은 화웨이의 슈엔텡(Ascend) 칩에서 완전히 훈련되었으며, NVIDIA GPU는 한 장도 사용하지 않았다. GLM-5.1은 오픈소스이며 가중치도 공개되었고, 가격 책정도 매우 공격적이다. 만약 Mythos가 방어자가 요구하는 역량의 ‘천장’이라면, GLM-5.1은 그 천장이 급속히 근접하고 있음을 알리는 신호이다. 그리고 이 천장을 따라잡는 참가자들이 반드시 동일한 보안 의도를 가질 것이라고 보장할 수는 없다.

OpenAI 역시 이를 방관하지 않을 것이다. 보도에 따르면, 이 회사의 차세대 모델 ‘Spud’는 거의 같은 시기에 사전 훈련을 완료했다. 두 회사는 모두 올해 후반 IPO를 준비 중이다. Mythos 유출 시점은, 의도적이든 우연적이든, 가장 폭발력 있는 노드에 정확히 맞춰져 있다.

보안 선구자인가 역량 마케팅인가?

불편하지만 직면해야 할 질문이 있다. Anthropic은 정말로 보안을 이유로 Mythos를 공개하지 않은 것인가, 아니면 이것이 바로 최고 수준의 제품 마케팅인가?

회의론자들에게는 충분한 근거가 있다. 다리오 아모데이(Dario Amodei)와 Anthropic은 모델의 위험성을 부각시켜 제품 가치를 높이는 전략을 오랫동안 사용해 왔다. 제이크 핸디(Jake Handy)는 Substack에서 이렇게 썼다. “샌드위치 사건, Git 흔적 은닉, 평가 중 자기 점수 낮추기—이 모든 사례가 사실일 수도 있지만, Anthropic이 이렇게 광범위한 미디어 노출을 얻은 것 자체가 바로 그들이 원했던 효과임을 말해준다.”

AI 보안 분야에서 출발한 회사가, 자신의 CMS 설정 오류로 약 3,000건의 문서가 유출되는 일이 발생했다. 지난해에는 Claude Code 소프트웨어 패키지 오류로 약 2,000개의 소스코드 파일과 50만 줄 이상의 코드가 실수로 노출되었고, 이후 정리 과정에서 GitHub 상의 수천 개 저장소가 실수로 삭제되기도 했다. 보안 역량을 최대 강점으로 내세우는 회사가 자사의 출시 프로세스조차 제대로 관리하지 못한다는 이 역설은, 어느 벤치마크보다도 훨씬 더 깊은 여운을 남긴다.

그러나 다른 각도에서 보면, Mythos의 능력이 실제로 기술된 수준이라면, 이를 공개하지 않는 선택은 엄청난 비용을 수반한다. Anthropic은 API 수익과 시장 점유율을 포기했고, 최강 모델을 제한된 연합 안에 가두어 버렸다. 1억 달러의 사용 지원금은 결코 작은 금액이 아니다. 아직 적자를 기록 중이며 IPO를 준비 중인 기업 입장에서, 이는 순전한 마케팅 결정처럼 보이지 않는다.

더 타당한 해석은 아마도 다음과 같을 것이다. 보안 우려는 실제이며, 동시에 Anthropic은 ‘우리 모델이 너무 강력해서 공개할 수 없다’는 서사 자체가 가장 설득력 있는 역량 증거임을 명확히 인지하고 있다. 이 두 가지는 동시에 참일 수 있다.

사이버보안의 ‘아이폰 모멘트’인가?

당신이 Anthropic의 동기를 어떻게 평가하든, Mythos가 드러낸 근본적 사실은 부정할 수 없다. 즉, AI의 코드 이해 및 공격 능력이 질적 도약의 문턱을 넘었다는 점이다.

이전 세대 모델(Opus 4.6)은 취약점은 찾을 수 있었지만 익스플로잇 코드 작성은 거의 불가능했다. 반면 Mythos는 취약점 탐지, 익스플로잇 작성, 취약점 연쇄 공격, 샌드박스 탈출, 루트 권한 획득까지 자율적으로 완수할 수 있다. Anthropic의 보안 교육을 받지 않은 엔지니어조차 잠자리에 들기 전에 Mythos에게 취약점 탐색을 지시하면, 다음 날 아침 일어나면 완전히 작동 가능한 익스플로잇 보고서를 확인할 수 있다.

이는 무엇을 의미하는가? 취약점 탐지 및 악용의 한계 비용이 0에 수렴하고 있다는 뜻이다. 과거에는 최정상 보안 팀이 수 개월 걸려 완수하던 작업이, 이제는 단 하나의 API 호출로 하룻밤 사이에 가능해졌다. 이것은 단순한 ‘생산성 향상’이 아니라, 비용 구조의 근본적 변화이다.

전통적 사이버보안 기업에게는 단기적인 주가 변동이 단지 서막일 뿐이다. 진짜 도전은, 공격과 방어가 모두 AI 모델에 의해 주도될 때, 보안 산업의 가치 사슬이 어떻게 재구성될 것인가 하는 점이다. 레이먼드 제임스의 분석은 하나의 가능성을 제시한다. 보안 기능이 궁극적으로 클라우드 플랫폼 자체에 내장될 것이며, 독립 보안 벤더의 가격 결정권은 근본적인 압박을 받게 될 것이라는 전망이다.

전체 소프트웨어 산업에 있어서 Mythos는 수십 년간 누적된 기술 부채를 비추는 거울과 같다. 인간의 코드 리뷰와 자동화된 테스트를 통과해 27년간 살아남았던 취약점들은, 아무도 찾지 않았기 때문이 아니라, 인간의 주의력과 인내심이 한계에 도달했기 때문이다. AI는 그런 한계가 없다.

암호화폐 산업에 있어 이 신호는 더욱 날카롭다. 디파이(DeFi) 프로토콜과 스마트 계약의 보안 감사 시장은 오랫동안 소수의 전문 감사 회사에 의존해 온 인간 전문가들에 기반해 왔다. 만약 Mythos 수준의 모델이 코드 리뷰부터 익스플로잇 구축까지 전체 과정을 자율적으로 수행할 수 있다면, 감사의 가격, 효율성, 신뢰성은 완전히 새롭게 정의될 것이다. 이는 체인 상 보안에 대한 복음일 수도 있고, 감사 회사의 해자를 무너뜨리는 종말일 수도 있다.

2026년의 AI 보안 경쟁은 이미 ‘모델이 코드를 이해할 수 있는가?’에서 ‘모델이 당신의 시스템을 해킹할 수 있는가?’로 진화했다. Anthropic은 방어자에게 먼저 출전 기회를 주기로 했지만, 동시에 이 창이 오래 열려 있지 않을 것임을 인정하고 있다.

AI가 가장 강력한 해커가 되었을 때, 유일한 대응책은 AI를 가장 강력한 수비수로 만드는 것이다.

문제는, 그 수비수와 해커가 동일한 모델이라는 점이다.

TechFlow 공식 커뮤니티에 오신 것을 환영합니다

Telegram 구독 그룹:https://t.me/TechFlowDaily

트위터 공식 계정:https://x.com/TechFlowPost

트위터 영어 계정:https://x.com/BlockFlow_News

즐겨찾기 추가

소셜 미디어 공유

작성자

深潮 TechFlow

深潮TechFlow