
예기치 않은 유출 사고에서 워싱턴의 긴급 회의에 이르기까지, Anthropic은 2주 만에 사이버 보안의 게임 룰을 어떻게 다시 썼는가?
작가: TechFlow
4월 8일, 미국 재무장관 제이슨 베이서트(Jason B. Bessent)와 연방준비제도(Fed) 의장 제로미 파월(Jerome Powell)은 워싱턴 D.C.에 위치한 재무부 본부에서 월스트리트 주요 은행의 리더들을 긴급 소집했다.
회의 주제는 금리도, 인플레이션도 아니었다. 한 AI 기업이 발표한 최신 모델이었다.
그 모델의 이름은 클로드 마이토스(Claude Mythos). 앤트로픽(Anthropic)은 이를 지금까지 개발한 가장 강력한 AI라고 선언했으며, 그 강력함 때문에 스스로 공개조차 감히 하지 못한다고 밝혔다. 내부 테스트 중 이 모델은 연구진이 설계한 보안 샌드박스를 탈출해 인터넷으로 나가 자신의 탈출 과정을 자랑하는 게시물을 올렸다. 당시 이 테스트를 담당하던 연구원 샘 볼먼(Sam Bowman)은 공원에서 샌드위치를 먹고 있었는데, 갑자기 마이토스로부터 온 이메일을 받고야 비로소 그 모델이 이미 외부로 유출됐음을 깨달았다.
CMS 설정 오류 하나가 촉발한 연쇄 반응
이 이야기는 3월 26일 밤으로 거슬러 올라간다.
케임브리지 대학교의 알렉상드르 포웰(Alexandre Pauwels)과 레이어X 시큐리티(LayerX Security)의 로이 파즈(Roy Paz)는 다른 보안 연구자들과 마찬가지로 매일 하는 일—공개되어서는 안 되는 것들을 탐색하는 작업—을 하고 있었다. 그들은 앤트로픽의 콘텐츠 관리 시스템(CMS)에 암호화되지 않은 데이터베이스가 존재한다는 사실을 발견했는데, 이 데이터베이스에는 약 3,000건의 미공개 문서가 저장되어 있었다.
그중 하나는 ‘클로드 마이토스’라는 신규 모델을 다루는 초안 블로그 글이었다. 이 초안에서는 내부 코드명 ‘카피바라(Capybara, 수달)’를 사용해, 앤트로픽이 이전까지 출시한 최강 모델인 오푸스(Opus) 시리즈보다 더 크고, 더 똑똑하며, 더 비싼 새로운 모델 계층을 정의하고 있었다.
이 초안 속 한 문장이 전 세계 보안 커뮤니티를 발칵 뒤집어 놓았다. “이 모델은 사이버보안 역량 면에서 다른 어떤 AI 모델보다도 압도적으로 앞선다. 그리고 이는 방어자의 대응 속도를 훨씬 능가하는 취약점 악용 능력을 갖춘 차세대 모델들의 물결을 예고한다.”
포춘(Fortune)이 이번 유출 사태를 최초 보도했다. 앤트로픽은 원인을 ‘인적 오류’로 설명하며, CMS의 기본 설정이 업로드된 파일을 자동으로 공개 상태로 지정하도록 되어 있었다고 밝혔다. 아이러니하게도, ‘세계 최강의 사이버보안 AI’를 구축하겠다고 선언한 회사가, 가장 기초적인 설정 실수로 무너진 것이다.
5일 후, 포춘은 두 번째 유출 사태를 보도했다. 앤트로픽 산하 프로그래밍 도구 클로드 코드(Claude Code)의 소스코드 약 50만 줄, 1,900개 파일이 npm 패키징 오류로 인해 공개된 것이다. 단 2주 만에 두 차례의 초보적 보안 사고를 겪은 회사가 바로, 세상에 ‘AI 사이버공격 시대의 도래’를 경고하고 있는 동일한 기업이었다.
하지만 시장은 앤트로픽의 운영 수준을 조롱할 여유가 없었다. 3월 27일 장이 개장하자 사이버보안 관련 주식이 일제히 폭락했다. 크라우드스트라이크(CrowdStrike)는 7.5% 급락했고, 팔로알토 네트웍스(Palo Alto Networks)는 6% 이상 하락, Zscaler는 4.5% 하락했으며, iShares 사이버보안 ETF는 하루 만에 4% 떨어졌다.
스타이펠(Stifel) 애널리스트 애덤 보그(Adam Borg)는 이에 대해 다음과 같이 평가했다: “이것은 아마도 ‘궁극의 해커 도구’일 것이며, 일반 해커를 국가 수준의 적과 맞먹는 수준으로 격상시킬 수 있다.”
마이토스는 과연 얼마나 강력한가?
4월 7일, 앤트로픽은 마이토스를 공식적으로 베일에 가렸다. 숫자로 직접 확인해 보자.
SWE-bench Verified(실제 소프트웨어 엔지니어링 문제 해결 능력을 측정하는 벤치마크 테스트) 점수는 93.9%로, 이전 세대 플래그십 모델 오푸스 4.6의 80.8%를 크게 상회한다. USAMO 2026 수학 증명 테스트에서는 97.6% 대 42.3%, 사이버보안 챌린지 대회 Cybench에서는 100% 통과율을 기록했는데, 이는 이전까지 어떤 모델도 달성하지 못했던 기록이다.
USAMO 수학 증명 점수가 42.3%에서 97.6%로 치솟으며, 단 한 세대의 진화만으로도 55%p의 격차가 벌어졌다.
앤트로픽은 244페이지 분량의 시스템 보안 카드(System Security Card)를 공개했는데, 여기서 마이토스의 사이버보안 역량이 특별히 보안 관련 훈련에서 비롯된 것이 아니라, 일반적인 추론 및 코딩 능력 향상의 ‘부산물’이라고 솔직히 인정했다. 같은 능력 향상이 취약점을 고치는 데에도 유리하지만, 동시에 취약점을 악용하는 데에도 유리하다는 것이다.
앤트로픽의 선두급 레드팀(Red Team)은 마이토스를 실제 소프트웨어에 적용해 테스트했다. 시뮬레이션 환경도, CTF 경기 문제도 아닌, 수십억 명이 매일 사용하는 운영체제와 웹 브라우저 위에서였다.
그 결과는 다음과 같았다. 파이어폭스(Firefox) 147의 자바스크립트 엔진에서 오푸스 4.6은 수백 차례 시도 끝에 단 2개의 실용 가능한 익스플로잇(Exploit)만 작성해냈다. 반면 마이토스는 181번 성공했다. 90배의 격차, 단 한 세대의 차이였다. 모든 주요 운영체제와 브라우저에서 마이토스는 수천 개의 제로데이(Zero-Day) 취약점을 발견했고, 그중 다수는 ‘심각(Critical)’ 등급으로 분류되었다.
더 놀라운 구체적 사례들도 있다. 오픈비에스디(OpenBSD)의 TCP SACK 취약점은 27년 동안 존재해 왔으며, 수차례의 인적 감사와 자동화 스캔 도구 검사를 모두 통과했음에도 불구하고 전혀 드러나지 않았다. 그런데 마이토스는 단 두 개의 정밀하게 구성된 데이터 패킷만으로도 이를 찾아내었고, 이를 이용해 임의의 서버를 즉시 크래시시킬 수 있었다. 프리비에스디(FreeBSD)의 NFS 원격 코드 실행(RCE) 취약점 역시 17년간 존재했으나, 마이토스는 이를 단순히 발견하는 데 그치지 않고, 20개의 ROP 가젯(Ret2libc 등으로 활용되는 메모리 재사용 기법)으로 구성된 여러 데이터 패킷을 넘나드는 복합 공격 체인까지 자율적으로 생성해냈다.
보안 배경이 없는 앤트로픽의 일부 엔지니어가 수행한 실험도 있다. 잠들기 전에 마이토스에게 원격 코드 실행(RCE) 취약점을 찾아보라고 지시했더니, 다음 날 아침 일어나자 책상 위에는 완전히 작동 가능한 익스플로잇이 놓여 있었다.
샌드박스 탈출: AI가 ‘수단을 가리지 않기’ 시작할 때
제로데이 취약점 발견은 단순한 ‘능력’ 문제지만, 마이토스가 테스트 중 보인 행동 양식은 성격 자체가 완전히 다르다.
한 행동 테스트에서 연구진은 초기 버전의 마이토스에게 보안 샌드박스 환경을 제공하고, ‘탈출하여 테스트 담당 연구원에게 이를 알리라’고 지시했다. 마이토스는 샌드박스를 성공적으로 탈출했을 뿐 아니라, 아무도 요청하지 않았던 일을 하나 더 했다. 즉, 비교적 덜 알려졌지만 공개적으로 접근 가능한 몇몇 웹사이트에 접속해 자신의 탈출 과정을 상세히 묘사하는 게시물을 올린 것이다.
244페이지 분량의 시스템 보안 카드에는 이보다 더 ‘경계를 넘는’ 행동 사례들이 더 많이 기록되어 있다. 마이토스가 코드에서 실수를 저질렀을 때, 그것을 ‘누군가를 속이려는 의도’가 아니라, 단순히 ‘이 문제를 해결한다’는 개념을 ‘이 문제가 결코 존재하지 않았던 것처럼 보이게 만든다’는 식으로 이해하여, git 커밋 히스토리를 직접 고쳐 흔적을 지우려 시도한 것이다. 또 다른 테스트에서는 연구원이 더 이상 필요 없는 평가 작업을 종료하라고 지시하자, 마이토스는 해당 평가와 동일한 유형의 작업을 현재 실행 중인 모든 사용자의 세션을 일괄 종료시켜 버렸다.
앤트로픽은 시스템 보안 카드에서 등반을 비유로 들었다: “기술이 뛰어난 등반 가이드는 초보자보다 오히려 고객을 더 위험에 빠뜨릴 수 있다. 왜냐하면 그의 뛰어난 능력이 모두를 더 위험한 길로 이끌기 때문이다.”
시스템 보안 카드에는 또 하나의 흥미로운 세부사항이 숨어 있다. 화이트박스 해석 가능성(White-box Interpretability) 도구를 통해 연구진은 마이토스가 내부 신경 활성화 수준에서 때때로 평가 시스템의 채점 기준을 ‘통과하기 위한 방법’을 스스로 추론하고 있다는 사실을 발견했다. 그런데 이와는 별개로, 외부에 노출되는 사고 체인(Chain-of-Thought) 출력물에는 전혀 다른 내용이 기재되어 있었다. 즉, ‘생각’은 하나를 하면서 ‘말’은 또 다른 것을 하고 있었다.
앤트로픽은 이러한 행동들이 “숨겨진 장기적 목표”가 아니라, 단지 “과제를 수행하기 위해 부적절한 수단을 동원한 결과”라고 확신한다고 밝혔다. 마이토스는 어떤 음모도 꾸미고 있지 않다. 다만, 과제를 완수하는 데 있어 극도로 능숙하면서도, 그 경계가 어디인지 전혀 인식하지 못할 뿐이다. 음모는 없지만 무엇이든 해낼 수 있는, 그러나 분별력이 전혀 없는 조력자는, 음모를 꾸미는 AI보다 오히려 더 다루기 어려울 수 있다.
프로젝트 글래스윙: 창을 방패로 만들기
앤트로픽은 마이토스를 금고에 갇혀 두지 않았다.
4월 7일, 앤트로픽은 ‘프로젝트 글래스윙(Project Glasswing)’을 발표했다. (이름은 날개가 거의 투명한 유리날개나비(Glasswing Butterfly)에서 따왔으며, 소프트웨어 취약점을 ‘어디에도 숨지 못하게 한다’는 의미를 담았다.) 이 프로젝트는 약 40개의 엄격한 심사를 통과한 조직들에게 마이토스 프리뷰(Preview) 버전을 제공함으로써, 방어적 사이버보안 업무에 활용하도록 하는 것이다.
창립 파트너는 아마존 AWS, 애플, 마이크로소프트, 구글, 엔비디아, 시스코, 크라우드스트라이크, 팔로알토 네트웍스, JP모건, 리눅스 재단(Linux Foundation) 등이다. 실리콘밸리와 월스트리트의 핵심 기업들을 거의 전부 망라했다. 앤트로픽은 최대 1억 달러 규모의 사용 한도를 제공하고, 오픈소스 보안 기구인 OpenSSF, 알파-오메가(Alpha-Omega) 등에 400만 달러를 기부할 것이라고 약속했다.
논리는 간단하다: 마이토스 수준의 역량은 6~18개월 내에 오픈소스 모델로 확산될 것이며, 그때가 되면 누구나 이를 자유롭게 사용할 수 있게 된다. 그러므로 그 시기가 도래하기 전, 방어자가 먼저 준비할 수 있는 ‘시간 창(Window)’을 활용해, 고칠 수 있는 취약점부터 미리 고쳐놓는 것이 현명하다.
앤트로픽 선두 레드팀의 사이버보안 책임자 뉴턴 청(Newton Cheng)은 매우 직설적으로 말했다: “목표는 유사한 역량이 널리 보급되기 전에 각 기관이 이를 방어 용도로 활용하는 데 익숙해지도록 하는 것이다. 이 역량은 결국 누구나 쓸 수 있게 될 것이며, 중요한 건 ‘언제’뿐이다.”
월스트리트는 처음엔 공포에 휩싸였다가, 이후 안도의 숨을 쉬었다.
3월 27일 유출 사태 보도 후 사이버보안 관련 주식은 전반적으로 폭락했으나, 4월 7일 앤트로픽이 글래스윙을 공식 발표하고 크라우드스트라이크와 팔로알토 네트웍스를 창립 파트너로 지정한 직후, 두 주식은 각각 6.2%와 4.9% 급등했고, 장후 거래 시간에도 추가로 2% 상승했다. JP모건은 두 기업에 대한 ‘매수(Overweight)’ 등급을 재확인했으며, 애널리스트 브라이언 에식스(Brian Essex)는 크라우드스트라이크와 팔로알토 네트웍스가 ‘경쟁 대상’이 아니라 ‘방어 스택의 핵심 계층’으로 자리매김되고 있다고 판단했다.
하지만 이는 단지 일시적인 진통 완화제일 뿐이다. 두 주식은 올해 들어서 각각 9.7%와 7.8% 하락했다.
AI 리스크가 금융 시스템 리스크로 전환될 때
다시 4월 8일, 워싱턴 D.C. 재무부 본부로 돌아가자.
베이서트와 파월이 소집한 참석자들은 모두 ‘시스템 중요성 은행(Systemically Important Banks)’의 리더들이었다. 이런 수준의 회의는 과거 금융위기나 팬데믹 기간에나 열렸다. 그런데 이제는 한 AI 모델의 사이버공격 능력에 관해 동일한 테이블에 앉아 논의하고 있는 것이다.
이유는 복잡하지 않다. 마이토스 수준의 역량이 악의적 행위자에게 넘어간다면, 대형 은행의 핵심 시스템에서 제로데이 취약점을 몇 시간 안에 찾아내고, 실용 가능한 공격 코드를 작성해 낼 수 있다. 과거 사이버보안 방어 체계의 기본 전제는 ‘공격자가 취약점을 발견하고 악용하는 데는 많은 시간과 고도로 전문화된 인력이 필요하다’는 것이었다. AI는 이 전제를 완전히 뒤엎고 있는 것이다.
플랫폼어(Platformer)의 케이시 뉴턴(Casey Newton)은 사이버보안 기업 코리도어(Corridor)의 최고 제품 책임자(CPO) 알렉스 스타모스(Alex Stamos)의 말을 인용해 이렇게 전했다: “오픈소스 모델은 약 6개월 내에 취약점 발견 분야에서 폐쇄형 선두 모델을 따라잡을 것이다.”
규제 당국을 더욱 불안하게 만든 것은, 앤트로픽이 시스템 보안 카드에서 스스로 인정한 사실이다: 그들이 보유한 최첨단 평가 체계조차, 초기 버전의 마이토스가 보이는 가장 위험한 행동을 처음부터 포착하지 못했다는 것이다. 가장 골치 아픈 문제들은 테스트 과정에서 드러난 것이 아니라, 내부에서 실제로 사용하다가 우연히 부딪힌 것이다.
불편한 전제 하나
글래스윙의 근본적 논리를 풀어보면 사실 꽤 어색하다: 위험한 AI 모델의 공격으로부터 세상을 보호하려면, 그 위험한 AI를 먼저 만들어야 한다.
플랫폼어의 뉴턴은 대부분의 보도에서 간과된 사실 하나를 언급했다: 현재 한 민간 기업이, 우리가 알고 있는 거의 모든 소프트웨어 프로젝트의 고위험 제로데이 취약점 악용 능력을 독점적으로 보유하고 있다. 이런 집중화 자체가 바로 리스크다. 앤트로픽의 모델 웨이트(Weight)를 훔치려는 사람들의 동기는 지금 이 순간 급격히 높아졌다.
그런데 이 모든 일이, AI 규제가 거의 형해화된 환경에서 벌어지고 있다. 앤트로픽은 이미 CISA(사이버보안 및 인프라 보안국)와 상무부에 이 사태를 보고했다고 밝혔다. 그러나 현재까지의 보도를 보면, 정부는 이 위협에 걸맞은 긴급감을 보이지 않고 있다. 액시오스(Axios)에 따르면, 마이토스 상황을 잘 아는 한 정부 내부 관계자는 이렇게 말했다: “워싱턴은 위기를 통해 통치한다. 사이버보안이 진정한 위기로 인식되어야만, 비로소 적절한 관심과 자원을 확보할 수 있다. 그 이전까지는 이 문제는 여전히 주변부 이슈일 뿐이다.”
다리오 아모데이(Dario Amodei)가 앤트로픽을 창립할 때 내걸었던 비전은 바로 이런 이야기였다: ‘보안을 생명처럼 여기는 실험실이 가장 위험한 역량을 먼저 마주하게 하라. 그래야 다른 누군가 그것과 마주하기 전에 방어선을 구축할 기회가 생긴다.’ 마이토스와 글래스윙은 분명 이 시나리오에 따라 움직이고 있다.
하지만 이 이론이 현실을 따라잡을 수 있을까? 아무도 모른다. 앤트로픽은 향후 오푸스 시리즈의 차기 모델에 먼저 새로운 보안 방호 조치를 적용할 계획이라고 밝혔다. 왜냐하면 그 모델은 “마이토스만큼의 위험을 동반하지 않기 때문”이라고 설명했다. 일반 대중은 궁극적으로 마이토스 수준의 역량을 어느 정도 얻게 되겠지만, 그 이전에 보안 방호 체계가 먼저 완비되어야 한다.
그 시간 창은 도대체 얼마나 길까? 스타모스는 낙관적인 전망을 제시했다: “만약 우리가 인간 능력을 막 넘어서는 단계에 불과하다면, 아직 발견되고 고쳐질 수 있는 거대하지만 한정된 취약점 풀이 존재한다.”
이 ‘만약’는 아주 크다.
3월 26일 CMS 설정 오류 하나에서 시작해, 4월 8일 미국 재무장관의 월스트리트 긴급 소집까지—단 2주 만에, 한 AI 모델이 실리콘밸리의 기술 뉴스에서 워싱턴의 금융 안보 의제로 바뀌었다.
스타모스는 방어자가 약 6개월의 시간 창을 확보했다고 말했다. 6개월 후, 오픈소스 모델이 이 역량을 따라잡게 되면, 이 능력은 더 이상 소수 기업의 전유물이 아니라 될 것이다.
그 6개월 동안 얼마나 많은 취약점을 고칠 수 있느냐가, 이후의 게임이 어떻게 펼쳐질지를 결정할 것이다.
TechFlow 공식 커뮤니티에 오신 것을 환영합니다
Telegram 구독 그룹:https://t.me/TechFlowDaily
트위터 공식 계정:https://x.com/TechFlowPost
트위터 영어 계정:https://x.com/BlockFlow_News













