
실제 테스트: 클로드 역대 최강 모델 ‘페이블 5’ – 일반 사용자는 신중히 이용하세요
저자: APPSO
일반 사용자에게 가장 나쁜 소식이 다가오고 있다.
바로 지금, Anthropic가 Claude Fable 5와 Claude Mythos 5를 공식 출시했다.
이 중 Fable 5는 Anthropic이 일반 대중에게 처음으로 공개하는 Mythos급 모델이며, Mythos 5는 소수의 사이버보안 방어 기관, 핵심 인프라 제공업체 및 향후 신뢰할 수 있는 접근 계획(Trusted Access Program)에 참여하는 생물의학 연구자들에게만 제한적으로 제공된다.
그러나 거의 주목받지 않았던 사실은, 공식 설명에 따르면 Fable 5는 현재부터 6월 22일까지 Pro, Max, Team 및 좌석 기반 요금제(Enterprise)에 포함되며 추가 비용 없이 이용 가능하다는 점이다. 그러나 6월 23일부터는 해당 구독 요금제에서 Fable 5가 제외되며, 계속 사용하려면 usage credit을 소비해야 한다.
즉, 과거처럼 한 달 정액제('월정액')로 최강 AI를 무제한 사용하던 방식은 이제 영원히 사라질 가능성이 높다. 사용자 입장에서는 앞으로 단순히 구독료만 고민하는 것이 아니라, 매번 API 호출 시, 그리고 긴 작업을 수행할 때마다 실제로 소모되는 토큰(token) 비용까지 세심하게 고려해야 한다.
환영합니다, 토큰 과금 시대에.
Claude Fable 5, 신화 속 등장—그러나 동시에 가장 치명적인 ‘토큰 암살자’
Anthropic은 Fable과 Mythos라는 명명에 대해서도 해설을 내놓았다. ‘Fable’은 라틴어 ‘fabula’에서 유래했으며, ‘말해진 짧은 이야기’를 의미하며, 그리스어 ‘Mythos’와 의미상 근접하다.
두 이름은 마치 별개의 모델처럼 보이지만, 실질적으로는 동일한 기반 모델의 두 가지 버전에 가깝다. 현재 Fable 5는 일반 대중에게 개방되어 있으며, 보안 제한이 더 엄격하다.
반면 Mythos 5는 현재 Project Glasswing 계획을 통해 소수의 사이버보안 방어 기관 및 핵심 인프라 협력 파트너에게만 제공된다.
Anthropic 공식 블로그에 따르면, Fable 5는 현재 일반적으로 사용 가능한 모델 중 가장 강력한 성능을 갖추었으며, 소프트웨어 엔지니어링, 지식 노동(knowledge work), 시각 이해, 과학 연구 등 다양한 분야에서 눈에 띄는 향상을 보였다. 특히 작업이 길고 복잡할수록 이전 Claude 모델 대비 우위가 더욱 두드러진다.
Fable 5의 진정한 의미는, Mythos급 능력이 처음으로 일반 사용자에게 대규모로 개방되었다는 점에 있다. 아래 벤치마크 테스트 결과 그래프를 보면, 타사 모델을 압도하는 수준임을 한눈에 확인할 수 있다.
다만, 모델 이름 자체가 일부 논란을 불러일으키기도 했다. 원래 OpenAI Codex 관련 책임자였던 Tibo는 SNS에서 “Anthropic이 OpenAI가 사용하고 싶었으나 결국 쓰지 못했던 ‘Fable’이라는 이름을 차지했다”고 농담 섞인 글을 올리기도 했다.
성능 면에서는 소프트웨어 엔지니어링이 공식적으로 가장 강조된 분야 중 하나다.
Anthropic은 Stripe가 초기 테스트에서 Fable 5에게 5,000만 줄의 Ruby 코드베이스 마이그레이션 작업을 맡겼다고 밝혔다. 이 작업을 엔지니어링 팀이 수작업으로 처리하려면 두 달 이상이 걸렸겠지만, Fable 5는 하루 만에 완료했다.
Cognition의 FrontierCode 테스트에서도 Fable 5는 복잡한 프로덕션 수준의 코드 작업에서 선두를 달렸다. 이 평가는 단순한 코딩 문제를 푸는 것을 넘어, 모델이 어려운 프로그래밍 과제를 수행하고, 고품질의 프로덕션 코드베이스 수준에 도달할 수 있는지를 평가한다.
Anthropic은 또 Fable 5가 이전 Claude 모델보다 토큰을 더 절약한다고 강조했다. 물론 이 말은 가볍게 들어두는 게 좋다. 그간 매번 새로운 Claude 모델 출시 시마다 유사한 주장이 반복되었지만, 대부분 ‘토큰 암살자’로 전락해 인터넷에 웃음을 선사하기 일쑤였다.
지식 노동 분야에서는 Hebbia의 금융 벤치마크 테스트에서 Fable 5가 최고 점수를 기록했으며, 특히 문서 추론, 차트 이해, 복합적 문제 분석 능력에서 두드러진 향상이 있었다. IMC의 거래 분석 평가에서도 Fable 5는 사실 검색, 개념 추론, 원인 분석, 기대값 분석 등 여러 항목에서 뛰어난 성과를 보였다.
시각 능력 역시 이번 출시의 핵심 포인트다. Anthropic은 Fable 5가 복잡한 과학 차트에서 정확한 숫자를 추출할 수 있고, 웹페이지 스크린샷만으로도 애플리케이션 소스코드를 재구성할 수 있다고 밝혔다.
공식 발표에서는 보다 직관적인 사례도 소개했는데, Fable 5가 오직 게임 화면만을 기반으로 《포켓몬 파이어레드》를 완주한 것이다. 이때 별도의 지도, 탐색 도구 또는 게임 상태 정보는 전혀 사용하지 않았다. 이전 Claude 모델들은 유사한 작업을 수행할 때 훨씬 복잡한 보조 시스템이 필요했다.
긴 문맥 처리 및 메모리 능력 또한 향상됐다. Anthropic은 《킬링 플로어》(Slay the Spire) 테스트에서 지속 가능한 파일 기반 메모리를 모델에 제공했을 때, Fable 5의 성능 향상 폭이 Opus 4.8의 3배에 달했으며, 최종 챕터에 도달하는 빈도 역시 3배 증가했다고 밝혔다.
생명과학 분야는 특히 민감한 영역이다. Anthropic은 내부 단백질 설계 전문가들이 Mythos 5를 활용해 일부 신약 개발 프로세스를 약 10배 빠르게 가속화했다고 밝혔다.
한 사례에서는 Mythos 5가 단백질 설계 및 생물정보학 도구를 활용해 인간의 개입 없이 과학자가 보통 수행하는 전 과정—결합 부위 선택, 설계 도구 호출, 실패 결과 처리—을 자동으로 완료했다. 총 14개의 단백질 표적 중 9개에서 후속 연구가 가치 있는 후보 물질이 도출되었다.
생명과학 및 사이버보안 역량의 향상은, Anthropic이 왜 완전한 Mythos급 능력을 일반에 공개하지 않았는지를 설명해준다.
Fable 5가 일반 대중에게 공개될 때, Anthropic은 이를 위해 새로운 보안 분류기(security classifier)를 함께 도입했다. 사용자의 요청이 사이버보안, 생명과학, 화학 또는 모델 증류(model distillation) 등 고위험 분야와 관련될 경우, 시스템은 자동으로 Claude Opus 4.8으로 응답을 전환하고, 사용자에게 모델 변경 사실을 알린다.
Anthropic은 초기 데이터에 따르면, Fable 5 대화의 95% 이상이 이러한 전환을 유발하지 않는다고 밝혔다. 일반적인 글쓰기, 프로그래밍, 분석, 디자인, 데이터 처리 등의 작업은 대부분 여전히 Fable 5 자체로 수행 가능하다. 하지만 고위험 영역에 진입하면 모델의 능력이 즉시 제한된다.
사이버보안은 가장 엄격하게 제한되는 분야다. Anthropic은 Mythos급 모델이 소프트웨어 취약점을 탐지하고 악용하는 데 능숙하며, 정찰, 탐지, 수평 이동(horizontal movement) 등을 아우르는 에이전트 기반 공격 능력도 보유하고 있다고 인정했다. 이러한 능력의 남용을 방지하기 위해, Fable 5의 사이버보안 분류기는 매우 광범위한 범위를 커버한다.
생명과학 및 화학 분야도 유사하다. Anthropic은 이미 모델이 실제 과학적 작업을 수행할 수 있는 수준에 도달했으며, 과거처럼 생물무기 관련 질문 몇 개만 차단하는 정도로는 더 이상 충분하지 않다고 판단했다. 따라서 Fable 5는 현재 대부분의 생명과학 및 화학 관련 요청에 대해 자동으로 Opus 4.8로 대체 처리한다.
흥미롭게도, Anthropic은 Fable 5에 첨단 대규모 언어모델(LLM) 개발을 위한 은닉 보호 기능(hidden safeguard)도 추가했다.
이는 주로 Claude가 사전 훈련 파이프라인(pretraining pipeline), 분산 훈련 인프라(distributed training infrastructure), 또는 ML 가속기 설계 등과 같은 작업을 지원하는 것을 제한함으로써, 모델이 다른 기관이 차세대 첨단 모델을 훈련시키는 것을 간접적으로 가속화하는 것을 막기 위함이다.
Opus 4.8로 전환되는 보안 제한과 달리, 이 유형의 보호는 사용자에게 직접 알리지 않으며, 프롬프트 수정(prompt rewriting), 스티어링 벡터(steering vectors), PEFT(Parameter-Efficient Fine-Tuning) 등의 방법을 통해 Fable 5의 관련 작업 성능을 의도적으로 저하시킨다. 현재 이미 피해 사례가 보고되고 있다.
현재까지, Claude Fable 5는 전 세계 사용자에게 공식 개방됐다. 개발자는 Claude API를 통해 claude-fable-5를 호출할 수 있다. Claude API 및 사용량 기반 요금제(Enterprise on-demand)는 출시일부터 전면 적용 가능하다.
Fable 5와 Mythos 5의 가격은 동일하며, 입력 토큰 100만 개당 10달러, 출력 토큰 100만 개당 50달러이다. Anthropic에 따르면, 이는 Claude Mythos Preview 가격의 절반 미만이지만, 고강도 장시간 작업에는 여전히 상당한 비용이 발생한다.
AI가 드디어 6개의 손가락을 세었다
공식 블로그보다 실측이 Fable 5의 진정한 향상을 더 잘 보여준다. 필자의 실측 결과에 따르면, Fable 5는 이제 손가락 6개를 정확히 인식할 수 있다.
마침 대학수학능력시험(수능)이 끝난 시점이라, 전국 수능 국어 1교시 작문 문제를 Fable 5에게 제시해 보았다. 전체적으로 문체와 표현이 유창하며, 결코 ‘평범하지 않다’는 느낌을 준다.
더 구체적인 비교는 @Hypergent의 실측 결과를 참고할 수 있다. 소행성 시각화 작업에서 Fable 5는 단순한 데이터 추출을 넘어, 궤도 경로와 호버링 상세 정보를 포함한 상호작용형 시각화 인터페이스까지 설계했다. 성능을 유지하면서도 정보 전달력을 크게 향상시켰다.
피트니스 리조트 계획 작업에서는 Fable 5가 GPT-Image-2 및 Nano Banana를 활용해 실제 운영 논리에 부합하는 공간 구성 방안을 생성했다. 단순히 건물을 배치하는 수준을 넘어, 지역 간 연결성, 기능별 공간 분포, 사람들의 동선 등을 종합적으로 고려했다.
Fable 5는 천문 현상과 시각 표현을 결합해 태양 흑점 활동이 오로라에 미치는 영향을 시뮬레이션하여 시각화할 수 있다. 반면 Opus 4.8은 이 작업을 제대로 로드조차 하지 못했다.
전 테슬라 AI 총괄 책임자이자 OpenAI 공동 창립자인 Andrej Karpathy(현 Anthropic 소속)의 평가가 개발자들의 실감을 더 잘 전달한다.
다만, 디자인 감각 측면에서는 여전히 인간이 약간 우위를 점하고 있다.
워튼 스쿨 교수이자 AI 연구자인 Ethan Mollick의 실측은 Fable 5의 변화를 더욱 입체적으로 보여준다. 그는 조기 접근 권한을 받아 게임, 지도, 연구 도구 등 복잡한 작업을 집중적으로 테스트했다.
가장 대표적인 사례는 등시선(isochrone) 지도 프로젝트다. Mollick은 Fable 5에게 실제 교통 데이터 기반의 상호작용형 지도를 구축해 특정 시간 내 각 도시의 접근 가능 범위를 시각화하도록 요청했다. 이에 모델은 여러 에이전트를 활용해 항공편, 철도, 도로 데이터를 수집하고, 동시에 코드 작성 및 테스트를 수행하며, 피드백에 따라 결과를 지속적으로 보완했다.
또한 Mollick은 Fable 5에게 ‘Concord’라는 연구 도구 개발을 지시했다. 모델은 먼저 19페이지 분량의 설계 문서를 생성한 후, 9시간 30분 동안 연속 작업하여, 개방형 연구 데이터를 분석하고 인간과 AI의 판단 결과를 교차 검증하는 소프트웨어를 완성했다.
실측 과정에서는 명확한 한계점도 드러났다. Mollick은 Fable 5가 여전히 오류와 누락을 범할 수 있으며, 반드시 인적 검토 및 보완이 필요하다고 지적했다. 동시에 장시간 작업 시 토큰 소모량이 매우 크고, Fable 5의 가격은 Opus 4.8보다 훨씬 높기 때문에, 실제 생산 환경에 투입될 경우 비용이 가장 큰 현실적 장벽이 될 수 있다고 경고했다.
고강도 장시간 작업 능력은 결국 사용 비용으로 직결된다. 필자는 20달러 요금제인 Pro 사용자인데, 단순히 몇 차례 작업만 실행했음에도 불구하고 할당량을 모두 소진했다.
Claude 클라이언트에서도 Fable 5가 ‘6월 22일까지 포함됨(included until June 22)’이라고 명시돼 있다. 앞서 언급한 바에 따르면, Anthropic의 계획에 따라 무료 포함 기간이 종료되면 Fable 5는 일부 구독 요금제에서 제외되며, 이후 사용을 원할 경우 usage credit을 소비해야 한다.
과거에는 사용자들이 그리 비싸지 않은 월정액을 지불함으로써, 세계 최고 수준의 지능을 상당 부분 자유롭게 이용할 수 있었다. 구독제는 실제 비용을 흐릿하게 만들었고, 일반 개인이 어떤 순간에는 거대 기업들과 동일한 출발선에 서 있을 수 있게 했다.
토큰 과금제가 도입된 후, 모든 것이 바뀔 것이다.
AI는 이제 월정액 서비스에 가까운 형태에서, 사용량에 따라 소모되는 생산 자료로 전환되고 있다. 최강 모델은 이제 더 비싸고, 더 정밀하게 측정·청구되는 생산 도구가 되고 있다.
비용을 크게 신경 쓰지 않는 사람들도 있다. 예를 들어, Fable 5에게 24시간 연속 작업을 맡겨 5,000만 줄의 코드를 재구성하거나, 독자적으로 완전한 애플리케이션을 개발하거나, 연구 프로젝트를 지속적으로 실행하거나, 결과를 반복적으로 테스트하고 수정하는 것 등이다.
그러나 더 많은 일반 사용자들은 매번 호출하기 전에 무의식적으로 고민하게 될 것이다: 이 질문에 토큰을 쓸 가치가 있을까? 이 작업을 최강 모델에게 맡길 가치가 있을까? 이번 시도가 실패한 후, 다시 한 번 시도해 볼 가치가 있을까?
가장 나쁜 소식은 바로 이것이다. AI가 약해진 것이 아니다. 오히려 AI는 인간의 정신노동 영역을 점점 더 많이 대체할 수 있을 만큼, 전례 없는 속도로 강해지고 있다.
동시에, 이런 능력을 얻기 위한 ‘입장권’은 점점 더 비싸지고 있다. 대규모 언어모델이 최근까지 좁혀온 일반인과 첨단 생산력 사이의 정보 격차는, 비싼 토큰 과금제로 인해 다시 벌어질 가능성이 높다.
Anthropic이 그렇듯, 앞으로 OpenAI 등 다른 주요 AI 기업들도 예외가 될 수 없다. 선두 모델이 강해질수록 훈련 및 추론 비용은 증가하며, 특히 이 두 기업은 현재 모두 상장을 준비 중이고, 자본시장에 자신들이 단순히 더 강력한 모델을 훈련시키는 회사가 아니라, 모델의 능력을 지속적인 수익으로 전환할 수 있는 기업임을 입증해야 하기 때문이다.
따라서 Fable 5의 출시는 단순한 모델 업그레이드라기보다는, AI 구독 체계를 완전히 재정비하는 사전 예고라고 보는 것이 더 정확하다. 만약 AI의 보급 확산 기간이 이제 막 카운트다운을 시작했다면, 이는 결코 좋은 소식이 아니다.
TechFlow 공식 커뮤니티에 오신 것을 환영합니다
Telegram 구독 그룹:https://t.me/TechFlowDaily
트위터 공식 계정:https://x.com/TechFlowPost
트위터 영어 계정:https://x.com/BlockFlow_News














