
AI의 다음 대지진: 진정한 위협은 SaaS 킬러가 아니라 컴퓨팅 파워 혁명인 이유
글쓴이: Bruce
최근 전 세계 기술 업계와 투자계는 하나의 현상에 주목하고 있다. 바로 AI 애플리케이션이 기존 SaaS를 어떻게 ‘죽이고’ 있는가 하는 문제다. @AnthropicAI가 선보인 클로드 코워커(Claude Cowork)가 이메일 작성, 프레젠테이션 제작, 엑셀 시트 분석 등을 얼마나 쉽게 수행할 수 있는지 공개한 이후, ‘소프트웨어는 죽었다(Software is dead)’는 공포가 확산되기 시작했다. 이는 분명히 위협적이다. 그러나 당신의 시선이 이 정도에서 멈춘다면, 진정한 ‘대지진’을 놓치고 있는 셈이다.
이는 마치 우리가 모두 하늘 위 드론 전투에만 집중해 눈을 들어 올리고 있는 사이, 발밑의 대륙판 전체가 조용히 움직이고 있는 상황과 같다. 진짜 폭풍은 수면 아래, 대부분의 사람이 보지 못하는 한 구석에 숨어 있다. 바로 AI 생태계 전체를 지탱하는 계산 능력의 기반—그곳에서 지금 ‘고요한 혁명’이 일어나고 있는 것이다.
그리고 이 혁명은 AI 산업의 ‘삽 파는 사람(shovel seller)’, 즉 엔비디아(@nvidia)가 정성스럽게 마련한 화려한 잔치를, 누구도 예상하지 못한 시점보다 훨씬 더 빨리 끝내버릴지도 모른다.
서로 교차하는 두 개의 혁명적 경로
이 혁명은 단일 사건이 아니라, 겉보기에는 독립적으로 보이는 두 가지 기술 노선이 얽히며 진행되는 복합적 현상이다. 이 두 노선은 마치 포위 작전을 펼치는 두 군대처럼, 엔비디아의 GPU 패권에 대한 ‘집게형 공격(clamp attack)’을 가하고 있다.
첫 번째 경로는 알고리즘의 ‘다이어트 혁명’이다.
당신은 생각해본 적이 있는가? 초능력 뇌가 문제를 해결할 때 정말로 모든 뉴런을 동원해야 할까? 당연히 그렇지 않다. 딥시크(DeepSeek)는 바로 이 점을 깨달았다. 그래서 그들은 MoE(Mixture of Experts, 혼합 전문가 모델) 아키텍처를 개발했다.
이를 하나의 회사에 비유하자면, 수백 명의 다양한 분야 전문가를 고용해 놓았지만, 매번 회의를 열어 문제를 해결할 때는 관련성이 가장 높은 두세 명만 불러 모으는 방식이다. 전문가 전체가 함께 브레인스토밍할 필요가 없다. 이것이 바로 MoE의 핵심 장점이다. 즉, 거대한 모델이라도 각 추론 시점에서 일부 ‘전문가’만 활성화함으로써 계산 자원을 극단적으로 절약할 수 있다.
그 결과는 어땠을까? 딥시크-V2 모델은 명목상 2360억 개의 ‘전문가’(파라미터)를 보유하지만, 실제로 작업을 수행할 때는 그 중 고작 210억 개만 활성화한다. 전체의 9%에도 미치지 못하는 수준이다. 그런데도 그 성능은 100% 전부를 가동해야만 가능한 GPT-4와 맞먹는다. 이는 무엇을 의미하는가? 바로 AI의 성능과 소비되는 계산 자원 간의 ‘탈동조화(decoupling)’가 시작됐다는 것이다!
과거 우리는 ‘AI가 강해질수록 GPU 카드 소모량도 늘어난다’는 전제를 당연하게 여겨왔다. 그러나 지금 딥시크는, 똑똑한 알고리즘을 통해 기존의 10분의 1 비용으로 동일한 성능을 낼 수 있음을 증명하고 있다. 이는 곧 엔비디아 GPU의 필수성에 거대한 물음표를 던지는 것이나 다름없다.
두 번째 경로는 하드웨어의 ‘방향 전환 혁명’이다.
AI의 작동 과정은 크게 ‘학습(training)’과 ‘추론(inference)’ 두 단계로 나뉜다. 학습은 마치 학교 수업과 같아, 방대한 양의 데이터를 읽고 배워야 한다. 이때는 병렬 처리 능력이 뛰어난 GPU 같은 ‘힘으로 승부하는’ 카드가 유리하다. 그러나 추론은 우리가 일상에서 AI를 사용하는 것과 같아, 반응 속도가 훨씬 중요하다.
GPU는 추론 단계에서 천생적인 약점을 지닌다. 바로 메모리(HBM)가 외장형이라는 점이다. 데이터가 오고 가는 데 시간 지연이 발생하기 때문이다. 이를 요리사에 비유하면, 재료가 모두 인접한 방 안 냉장고에 저장돼 있어, 요리를 할 때마다 매번 왕복해야 하는 상황이다. 아무리 빠르게 움직여도 그 한계는 분명하다. 이에 세레브라스(Cerebras), 그록(Groq) 등 기업은 새로운 길을 걷기로 결정했다. 이들은 추론 전용 칩을 설계하면서 메모리(SRAM)를 칩 자체에 직접 내장시켰다. 즉, 재료가 바로 손끝에 있는 셈이다. 이로써 ‘제로 지연(zero latency)’ 접근이 가능해진 것이다.
시장은 이미 실물 자금으로 투표를 마쳤다. 오픈AI는 엔비디아 GPU의 추론 성능에 대해 불만을 토로하면서도, 동시에 세레브라스와 100억 달러 규모의 대규모 계약을 맺고 그들의 추론 서비스를 전면 도입했다. 엔비디아 역시 긴장했는지, 이 신생 시장에서 뒤처지지 않기 위해 그록을 200억 달러에 인수했다.
두 경로의 교차점: 비용의 폭락
자, 이제 두 가지 사안을 결합해 보자. 알고리즘 차원에서 ‘다이어트’를 마친 딥시크 모델을, 하드웨어 차원에서 ‘제로 지연’을 구현한 세레브라스 칩 위에서 실행한다면?
무엇이 벌어질까?
바로 ‘비용의 폭락(snowballing cost collapse)’이다.
우선, 다이어트를 마친 모델은 크기가 작아 칩 내장 메모리에 한 번에 모두 적재될 수 있다. 다음으로 외장 메모리 병목 현상이 사라지므로, AI의 반응 속도는 극단적으로 빨라진다. 최종 결과는 이렇다. MoE 아키텍처로 인해 학습 비용이 90% 감소했고, 전용 하드웨어와 희소 계산(sparse computation) 덕분에 추론 비용도 한 단계 더 줄어들었다. 이를 종합하면, 세계 수준의 AI를 개발·운영하는 총 비용은 기존 GPU 기반 솔루션의 단지 10~15% 수준에 불과할 수 있다.
이것은 단순한 개선이 아니다. 이는 ‘범주 전환(paradigm shift)’이다.
엔비디아의 왕좌 밑바닥에서 조용히 뽑혀가는 카펫
이제 당신은 왜 이것이 ‘코워커 공포’보다 훨씬 치명적인지 이해했을 것이다.
엔비디아의 현재 수조 달러 규모 시가총액은 하나의 단순한 이야기 위에 세워져 있다. “AI는 미래이며, 그 미래는 반드시 우리 GPU 없이는 불가능하다.” 그런데 지금 그 이야기의 기반이 흔들리고 있는 것이다.
학습 시장에서는 엔비디아가 여전히 독점을 유지한다고 해도, 고객들이 기존의 10분의 1만으로도 같은 일을 해낼 수 있게 되었으니, 전체 시장 규모 자체가 급격히 축소될 가능성도 있다.
더 큰 문제는 추론 시장이다. 이 시장은 학습 시장보다 규모가 10배 이상 크다. 그런데 엔비디아는 여기서 절대적인 우위조차 확보하지 못했을 뿐 아니라, 구글, 세레브라스 등 다양한 강자들의 포위 공격을 받고 있다. 심지어 최대 고객이었던 오픈AI조차 탈출을 시도하고 있다.
월스트리트가 ‘엔비디아의 삽이 더 이상 유일하거나 최선의 선택이 아니라는 사실’을 인식하게 되면, ‘영구 독점’을 전제로 산정된 현재의 기업 가치는 어떤 변화를 겪게 될까? 이에 대해서는 누구나 잘 알 것이다.
따라서 향후 반년간 가장 큰 블랙스완은, 어느 AI 애플리케이션이 또 누군가를 ‘잡아먹었다’는 뉴스가 아니라, MoE 알고리즘 효율성에 관한 새 논문 한 편, 혹은 전용 추론 칩 시장 점유율이 급증했다는 보고서처럼, 겉보기에는 사소해 보이는 기술 뉴스일 가능성이 높다. 그런 뉴스가 조용히 계산 능력 전쟁이 새로운 단계로 접어들었음을 알리는 신호탄이 될 수 있다.
‘삽 파는 사람’의 삽이 더 이상 유일한 선택지가 아닐 때, 그에게 돌아온 황금 시대는 곧 끝날 수 있다.
TechFlow 공식 커뮤니티에 오신 것을 환영합니다
Telegram 구독 그룹:https://t.me/TechFlowDaily
트위터 공식 계정:https://x.com/TechFlowPost
트위터 영어 계정:https://x.com/BlockFlow_News













