“더 나은 모델은 필요하지 않아요”: 레딧 인기 게시물 아래의 AI 관련 다양한 반응

2026.06.12

“더 나은 모델은 필요하지 않아요”: 레딧 인기 게시물 아래의 AI 관련 다양한 반응

능력의 비약적 향상을 주요 특징으로 내세운 플래그십 제품의 경우, “보안을 위해 희생해야 하는 사용 편의성”이 사용자가 구매 여부를 결정하는 핵심 변수가 되고 있다.

2026.06.12 - 02:48:54

Web3 심층 보도에 집중하고 흐름을 통찰

작성자: 금요일, TechFlow

Anthropic은 방금 완벽해 보이는 성적표를 제출했다.

6월 9일에 공개된 Claude Fable 5는 이 회사가 일반 대중에게 공개한 첫 번째 Mythos급 모델로, 실제 소프트웨어 엔지니어링 과제 기준인 SWE-Bench Pro에서 80.3%의 점수를 기록하며 자사 이전 세대 플래그십 모델 Opus 4.8보다 약 11%p, GPT-5.5보다 20%p 이상 높은 성과를 거두었다.

하지만 사용자들의 반응은 차가운 물을 끼얹었다.

공개 후 사흘 뒤, 주간 방문자 수 30.5만 명을 기록하는 r/artificial 게시판에 올라온 인기 게시물의 제목은 다음과 같았다. “Claude Fable를 사용해보니, 더 나은 모델이 필요 없다는 걸 깨달았습니다.” 게시자 Axi0m-22는 Fable로 일정 기간 보안 연구 및 일상 업무를 수행한 후, 거의 즉시 코드 작성에는 Opus를, 잡다한 작업에는 Haiku를 다시 사용하기 시작했다고 밝혔다. 그는 이를 이렇게 비유했다: “아이폰 14를 쓰다가 아이폰 17 출시 소식을 듣는 것과 같다. 새로운 제품이 더 나은 건 알겠지만, ‘算了, 我这个挺好.’—‘算了, 이거 괜찮아.’라고 생각하게 된다.”

높은 추천 수를 차지한 댓글들은 ‘충분함’을 주장하는 이들로 가득: 모델에 대한 심미적 피로감이 주류 감정으로 자리잡음

가장 높은 추천 수(42개)를 받은 댓글은 다음과 같다: “더 큰 컨텍스트 윈도우 외에는, 나는 이미 Opus 4.5부터 더 강력한 모델이 필요 없다고 느꼈습니다.”

또 다른 사용자 hyprlab의 의견도 13개의 추천을 받았다: “토큰 소비량이 더 많은 모델로 바꾸더라도 내 워크플로우에 어떤 이점도 보이지 않으며, Opus 4.8의 고강도 모드만으로도 충분히 편리합니다.”

이러한 발언 뒤에는 공통된 비용 계산이 있다.

Fable 5의 API 가격은 1백만 입력 토큰당 10달러로, Opus 4.8의 약 두 배에 달한다. 사용자 siromega37은 직설적으로 말했다: “토큰 소비량은 증가했지만, 투자 대비 수익은 없었습니다. 우리 모두가 정체기(platform)에 진입했고, 결국 버블은 터질 것이라고 생각합니다.”

사용자 hobopwnzor는 보다 체계적인 해석을 제시했다: “우리는 이미 S자 곡선의 정점에 상당 기간 머물러 있습니다. 최근의 진전은 주로 도구 호출(tool calling) 및 주변 엔지니어링에서 비롯된 것이지, 모델 자체의 능력 향상에서 비롯된 것이 아닙니다.”

안전 장치가 최대 불만 요인: ‘90%의 용도가 바로 거부됨’

‘충분함’이라는 감정은 여전히 추상적인 반면, 안전 장치에 대한 불만은 구체적인 제품 문제다.

Anthropic의 공식 설명에 따르면, Fable 5는 소수 기관에만 공개된 Mythos 5와 동일한 베이스 모델을 공유하되, Fable 5는 사이버 보안 등 고위험 분야 관련 요청을 차단하는 안전 분류기(safety classifier)를 추가로 탑재했다. 해당 요청은 Opus 4.8이 대신 응답한다. Anthropic은 이 메커니즘이 다소 보수적으로 조정되어 평균적으로 전체 대화의 5% 미만에서만 작동하며, 무해한 요청까지 오차로 차단할 수 있다고 밝혔다.

이 레딧 게시물의 댓글 섹션에서는 실제 체감되는 트리거 발생률이 5%를 훨씬 넘는 것으로 나타났다. 17개의 추천을 받은 사용자 jradoff는 자신의 코드 보안 검사를 Fable에 맡겼으나, “보안 관련 내용을 언급하기만 해도 대부분 거부당했다”며 이후 Opus로 자동 전환됐다고 전했다. 또 다른 12개 추천을 받은 댓글은 더욱 직설적이었다: “당신이 이 모델로 하려는 일의 90%는 바로 거부당한다. 즉, 아무 쓸모가 없다는 뜻이다.”

유료 구독자들의 불만은 더 크다. 월 200달러 요금제를 구독 중인 사용자 kaitava는 이렇게 적었다: “나는 두 배나 비싼 토큰 사용료를 내고 보안 검토를 시키려 했는데, 결과는 Opus로 강등당했다. 이제 이 모델에 대해 나는 정말 아무것도 좋아하지 않는다. 단지 OpenAI가 따라잡기를 기다리고 있을 뿐이다.”

능력의 비약적 향상을 표방하는 플래그십 제품에 있어서, ‘안전을 위해 치러야 하는 실용성 손실’은 사용자가 이 제품을 구매할지 결정하는 핵심 변수가 되고 있다.

반론의 목소리: 고강도 과제 사용자들에게는 ‘밤과 낮’ 같은 차이

인기 게시물 아래에는 반론자들이 없지 않았으며, 특히 반론자의 프로필은 매우 명확하다: 과제가 더 복잡하고 고강도일수록 평가가 더 긍정적이다.

사용자 Phylaras의 댓글은 15개의 추천을 받았다: “Fable은 저에게 실질적인 차이를 만들어냈습니다. 특히 컨텍스트 윈도우가 매우 넓은 복잡한 과제에서, 이전에는 발견되지 않았던 오류들을 찾아냈습니다.” 고에너지 물리학 시뮬레이션을 수행 중이라는 한 사용자는, 단일 시뮬레이션 모델이 8,000~1만 줄의 코드로 구성되고 수백 개의 모델이 서로 상호작용한다고 밝히며, “환경의 세부사항을 이해하고 독립적으로 연속적으로 작업할 수 있는 모델은 저에게 정말 기대되는 존재”라고 말했다.

가장 격렬한 반박은 사용자 Navetz로부터 나왔다: “솔직히 말해, 이 모델을 실제로 사용해본 사람이라면 이런 게시물을 미친 짓이라고 생각할 겁니다. 제게는 똑똑함이 마치 다른 사람처럼 느껴질 정도이며, 저는 지금도 계속해서 사용하고 있습니다. 비기술자 친구들에게 설명하자면, 이건 대학생 선수가 NBA 스타팅 멤버로 바로 전환된 것과 같습니다.”

또한 중간 지점을 제시하는 사용자도 있었다. 사용자 ready-eddy는 Fable을 ‘계획자 및 수정자(planner and fixer)’로서 활용할 것을 권장하면서, 일상적인 ‘건설자(builder)’로는 사용하지 말 것을 당부했다. 단, 비용 부담을 신경 쓰지 않는 경우라면 예외라고 덧붙였다. 또 다른 댓글은 마치 사용 매뉴얼처럼 요약했다: “엑셀 계산을 위해 Fable을 사용하는 건 잘못된 모델 선택이고, 16개의 에이전트를 동시에 실행하는 복잡한 과제에 Haiku를 사용하는 것도 잘못된 선택이다. 본래 나쁜 모델은 없으며, 다만 잘못된 상황에 사용된 모델만 있을 뿐이다.”

벤치마크 점수와 체감 성능이 괴리된 후, 공개 AI는 앞으로도 더 강해질까?

이 논쟁에서 가장 흥미로운 댓글 하나가 화제를 제품에서 산업 구조로 확장시켰다.

사용자 KedMcJenna는 ‘공개 AI 동결 이론(public AI freeze theory)’을 제기했다: 일반 대중이 접할 수 있는 모델은 현재 수준 근처에서 영원히 정체될 가능성이 높으며, 기업 및 정부 엘리트층은 계속해서 더 강력한 사유 모델(private model)을 독점적으로 확보하게 될 것이라고 주장했다. 그는 “우리가 알고 있는 최소한의 사례는 Mythos이며, 아마도 우리가 결코 들리지 않을, 더 강력한 모델도 존재할 것”이라고 덧붙였다.

이 댓글은 다음과 같은 사실을 가리킨다: Mythos 5는 실제로 일반에 공개되지 않았으며, 현재는 Project Glasswing 프로그램을 통해 사이버 방어 기관 및 핵심 인프라 기업에만 제공되고 있다.

벤치마크 점수와 여론을 함께 살펴보면, 결론은 모순되지 않는다.

벤치마크는 모델의 능력 상한을 측정하지만, 레딧의 높은 추천 댓글은 일상적인 요구의 한계를 반영한다. 대부분의 사용자 과제가 이미 Opus 4.6 시대에 충족되었기 때문에, 더 강력한 모델은 물리 시뮬레이션, 초장기 컨텍스트 등 극단적인 상황에서만 그 가치를 입증할 수 있다. 이제 모델 제조사들이 직면한 질문은 ‘할 수 있느냐’가 아니라, ‘누가 필요로 하느냐’, ‘얼마나 지불할 의향이 있느냐’, ‘얼마나 많은 안전 장치에 대한 마찰을 감수할 수 있느냐’이다.

공개된 지 사흘 만에, Fable 5는 벤치마크 순위표와 여론의 장에서 완전히 다른 두 개의 성적표를 받았다. 어느 쪽이 더 진실에 가까운지는, Anthropic이 안전 분류기를 얼마나 빠르게 조정할 수 있는지, 그리고 고강도 사용자들의 지갑이 어떤 선택을 할지에 달려 있다.

TechFlow 공식 커뮤니티에 오신 것을 환영합니다

Telegram 구독 그룹:https://t.me/TechFlowDaily

트위터 공식 계정:https://x.com/TechFlowPost

트위터 영어 계정:https://x.com/BlockFlow_News

즐겨찾기 추가

소셜 미디어 공유

작성자

深潮 TechFlow

深潮TechFlow