
DeepSeek의 비용은 어떻게 계산되는가?
작자: 왕루, 정초원(정초원)
딥시크는 전 세계를 완전히 불안하게 만들었다.
어제 머스크는 지구상에서 가장 똑똑한 AI인 곡스 3(Grok 3)을 라이브 방송을 통해 공개하며, "추론 능력이 현재 알려진 모든 모델을 능가한다"고 주장했으며, 추론-테스트 시간 점수에서도 딥시크 R1과 OpenAI o1보다 우수하다고 했다. 얼마 전 국민급 앱 위챗은 딥시크 R1의 접속을 발표하고 그레이드 테스트를 진행 중이며, 이 조합은 외부에서 AI 검색 분야의 판도 변화를 예고한다고 평가받고 있다.
현재 마이크로소프트, 엔비디아, 화웨이클라우드, 텐센트클라우드 등 글로벌 주요 기술기업들이 이미 딥시크에 접속했다. 네티즌들은 사주, 복권 예측 등의 새로운 활용법을 개발해냈으며, 그 인기는 실제 수익으로 전환되어 딥시크의 가치를 급격히 상승시키고 있으며, 최고치는 이미 천억 달러에 달했다.
딥시크가 대중화된 이유는 무료이고 사용하기 쉬운 것 외에도, 단 557.6만 달러의 GPU 비용으로 OpenAI o1과 능력이 비슷한 딥시크 R1 모델을 훈련시켰기 때문이다. 사실 지난 몇 년간의 '백모델 전쟁'에서 국내외 AI 대형 모델 기업들은 수십억에서 수백억 달러까지 투자했다. 곡스 3가 '세계에서 가장 똑똑한 AI'가 되기 위한 대가는 막대했는데, 머스크는 곡스 3 훈련에 누적 20만 장의 엔비디아 GPU(단가 약 3만 달러)가 소모되었다고 밝혔으며, 업계 관계자들은 딥시크의 경우 약 1만 장 이상이라고 추정한다.
하지만 최근에는 리페이페이 팀이 클라우드 컴퓨팅 비용 50달러 미만으로 추론 모델 S1을 훈련시켰다고 발표했으며, 수학 및 코딩 능력 테스트에서 OpenAI의 o1과 딥시크의 R1에 버금가는 성능을 보였다. 다만 주의할 점은 S1이 중형 모델이며, 딥시크 R1의 수천억 파라미터 규모와는 차이가 있다는 것이다.
그럼에도 불구하고 50달러에서 수백억 달러에 이르는 거대한 훈련 비용 차이는 사람들의 호기심을 자극한다. 한편으로 딥시크의 능력이 얼마나 강력한지, 왜 모두가 이를 따라잡거나 넘어서려 하는지 궁금해하며, 다른 한편으로는 대형 모델 하나를 훈련하는 데 실제로 얼마가 드는지, 어떤 단계를 포함하는지, 미래에 훈련 비용을 더욱 낮출 수 있을지에 대한 의문이 제기된다.
'일부를 가지고 전체를 판단하는' 딥시크
업계 종사자들에 따르면 이러한 질문에 답하기 전에 먼저 몇 가지 개념을 정리해야 한다.
첫째로 딥시크에 대한 이해가 '일부를 가지고 전체를 판단하는' 경향이다. 사람들이 놀라워하는 것은 여러 대규모 모델 중 하나인 추론 전문 모델 딥시크-R1이지만, 딥시크는 다른 대형 모델들도 보유하고 있으며, 각기 다른 기능을 수행한다. 그리고 557.6만 달러는 범용 대형 모델 딥시크-V3의 훈련 과정에서 발생한 GPU 비용으로, 순수한 컴퓨팅 비용이라 할 수 있다.
간단한 비교:
-
범용 대형 모델:
명확한 지시를 받아들여 단계를 분해하며, 사용자는 작업 내용을 명확히 설명해야 하며, 예를 들어 요약 후 제목을 작성하거나 그 반대로 해야 하는지 등을 지시해야 한다.
답변 속도가 빠르며, 확률 기반 예측(빠른 반응)을 통해 방대한 데이터로 답변을 예측한다.
-
추론 대형 모델:
간단하고 목표 중심적인 작업을 받으며, 사용자가 원하는 바를 직접 말하면 스스로 계획을 세울 수 있다.
답변 속도가 느리며, 사고 연쇄 기반(느린 사고)으로 문제 해결 단계를 거쳐 답변을 도출한다.
두 모델의 주요 기술적 차이는 훈련 데이터에 있다. 범용 대형 모델은 질문+답변 형식이고, 추론 대형 모델은 질문+사고 과정+답변 형식이다.
둘째, 딥시크의 추론 대형 모델 딥시크-R1이 더 큰 관심을 받으면서,많은 사람들이 추론 대형 모델이 반드시 범용 대형 모델보다 더 우월하다고 잘못 생각한다.
분명히 인정할 점은 추론 대형 모델이 선도적인 모델 유형이라는 것이며, 대형 모델의 사전 훈련 패러다임이 한계에 부딪힌 이후 OpenAI가 추론 단계에서 컴퓨팅 파워를 추가한 새로운 패러다임이다. 범용 대형 모델에 비해 추론 대형 모델은 비용이 더 많이 들며, 훈련 시간도 더 길다.
하지만 그렇다고 해서 추론 대형 모델이 반드시 범용 대형 모델보다 더 나은 것은 아니며, 특정 유형의 문제에서는 오히려 부적절할 수 있다.
대형 모델 분야의 저명한 전문가 류총은 「정초원」에 다음과 같이 설명했다. 예를 들어 어떤 국가의 수도나 어떤 지역의 성도(省會)를 묻는 경우, 추론 대형 모델은 범용 대형 모델보다 성능이 떨어진다.

딥시크-R1이 간단한 질문에 대해 과도하게 고민함
그는 이런 간단한 질문에 직면했을 때 추론 대형 모델은 답변 효율이 범용 대형 모델보다 낮을 뿐 아니라, 컴퓨팅 비용도 더 많이 소모되며, 심지어 과도한 사고(overthinking) 현상이 발생해 결국 잘못된 답변을 내놓을 수 있다고 말했다.
그는 수학 난제, 어려운 코딩 등 복잡한 작업에는 추론 모델을 사용하고, 요약, 번역, 기본 질의응답 등 간단한 작업에는 범용 모델이 더 효과적이라고 조언했다.
셋째는 딥시크의 진정한 실력이 어느 정도인지에 대한 것이다.
권위 있는 순위표와 업계 종사자들의 의견을 종합하면,「정초원」은 추론 대형 모델과 범용 대형 모델 분야에서 각각 딥시크의 위치를 정리했다.
추론 대형 모델 1티어에는 주로 네 곳이 있다. 해외의 OpenAI o 시리즈 모델(o3-mini 등), Google Gemini 2.0; 국내의 딥시크-R1, 알리바바 QwQ.
복수의 업계 종사자들은 외부에서 딥시크-R1이 국내 최고 수준의 모델로서 OpenAI를 추월했다고 논의되고 있지만, 기술적으로 보면 OpenAI의 최신 o3와는 여전히 일정한 격차가 있다고 본다.
딥시크-R1의 더 중요한 의미는 국내외 최정상 수준 간의 격차를 크게 줄였다는 점이다. "기존의 격차가 2~3세대였다면, 딥시크-R1 출현 이후 0.5세대로 좁혀졌다"고 AI 업계 베테랑 종사자 장수는 말했다.
그는 자신의 사용 경험을 바탕으로 네 곳의 장단점을 소개했다.

범용 대형 모델 분야에서는 LM Arena(대규모 언어 모델(LLM) 성능 평가 및 비교를 위한 오픈소스 플랫폼) 순위표에 따르면 1티어에 오른 곳은 다섯 곳이다. 해외의 Google Gemini(폐쇄형), OpenAI ChatGPT, Anthropic Claude; 국내의 딥시크, 알리바바 Qwen.
장수는 또한 이들 제품 사용 경험을 나열했다.

쉽게 알 수 있듯이 딥시크-R1이 글로벌 기술계를 놀라게 했고 그 가치는 의심의 여지가 없지만, 각 대형 모델 제품마다 장단점이 있으며, 딥시크 역시 모든 대형 모델에서 완벽하지 않다. 예를 들어 류총은 딥시크가 최근 발표한 이미지 이해 및 생성 작업에 특화된 멀티모달 대형 모델 Janus-Pro의 사용 효과가 일반적이라고 지적했다.
대형 모델 훈련에 드는 비용은?
대형 모델 훈련 비용 문제로 돌아가보자. 대형 모델은 어떻게 탄생하는가?
류총에 따르면 대형 모델의 탄생은 주로 사전 훈련(pre-training)-후속 훈련(post-training) 두 단계로 나뉘며, 대형 모델을 아이에 비유하면, 사전 훈련과 후속 훈련은 아이가 태어나서 울기만 하던 상태에서 어른이 말하는 것을 이해하게 되고, 다시 어른에게 말을 걸 수 있게 되는 과정을 의미한다.
사전 훈련은 주로 훈련용 코퍼스를 의미한다. 예를 들어 방대한 텍스트 데이터를 모델에 제공하여 아이가 지식을 습득하게 하지만, 이때는 지식만 배웠을 뿐 아직 활용하진 못한다.
후속 훈련은 아이가 배운 지식을 어떻게 사용하는지 가르치는 것으로, 모델 파인튜닝(SFT)과 강화 학습(RLHF) 두 가지 방법을 포함한다.
류총은 범용 대형 모델이든 추론 대형 모델이든, 국내든 해외든 모두 이 프로세스를 따르고 있다고 말했다. 장수도 「정초원」에 각 회사가 트랜스포머 모델을 사용하기 때문에 가장 근본적인 모델 구조와 훈련 단계에서 본질적인 차이가 없다고 전했다.
여러 종사자들은 각 대형 모델의 훈련 비용 차이가 크며, 주로 하드웨어, 데이터, 인건비 세 부분에 집중되며, 각 부분마다 다른 방식을 취할 수 있고, 따라서 비용도 다르다고 말했다.
류총은 예를 들어 하드웨어를 구매할지 임대할지를 들었는데, 두 방식의 가격 차이는 매우 크다. 구매할 경우 초기 일회성 투자가 크지만 이후에는 크게 감소하며, 기본적으로 전기료만 지불하면 된다. 임대할 경우 초기 투자는 작을 수 있으나 이 비용은 영원히 절감되지 않는다. 사용하는 훈련 데이터도 기성품 데이터를 직접 구매하는지, 아니면 자체적으로 크롤링하는지에 따라 큰 차이가 있다. 매번의 훈련 비용도 조금씩 다르며, 처음에는 크롤러를 작성하고 데이터 필터링을 해야 하지만 다음 버전부터는 이전 버전의 반복 작업을 활용할 수 있어 비용이 낮아진다. 또한 최종적으로 모델을 공개하기 전에 얼마나 많은 버전을 반복했는지도 비용의 높낮이를 결정하지만, 대형 모델 기업들은 이에 대해 함구하고 있다.
결국 모든 단계에는 많은 고비용의 숨겨진 비용이 존재한다.
외부에서는 GPU 기준으로 정상급 모델 중 GPT-4의 훈련 비용이 약 7800만 달러, Llama3.1은 6000만 달러 이상, Claude3.5는 약 1억 달러로 추정했다. 그러나 이러한 정상급 대형 모델들은 모두 폐쇄형이며, 각 기업이 컴퓨팅 파워 낭비 현상이 있는지 여부는 외부에서 알기 어렵다. 동일한 수준의 딥시크가 557.6만 달러로 등장할 때까지 말이다.

이미지 출처 / Unsplash
주의할 점은 557.6만 달러는 딥시크 기술 보고서에 언급된 베이스 모델 딥시크-V3의 훈련 비용이라는 것이다. "V3 버전의 훈련 비용은 마지막 성공적인 훈련 비용만을 의미하며, 초기 연구, 아키텍처 및 알고리즘의 시행착오 비용은 포함되어 있지 않다. R1의 구체적인 훈련 비용은 논문에 언급되지 않았다"고 류총은 말했다. 즉, 557.6만 달러는 모델 총 비용의 일부에 불과하다.
반도체 시장 분석 및 예측 기관 세미애널리시스(SemiAnalysis)는 서버 자본 지출, 운영 비용 등을 고려할 때 딥시크의 총 비용은 4년 내에 25.73억 달러에 이를 수 있다고 지적했다.
업계 종사자들은 다른 대형 모델 기업들의 수백억 달러 투자에 비해 25.73억 달러로 계산하더라도 딥시크의 비용은 낮은 편이라고 본다.
또한 딥시크-V3의 훈련 과정은 단 2048장의 엔비디아 GPU만 필요하며, GPU 시간은 278.8만 시간에 불과하다. 반면 OpenAI는 수만 장의 GPU를 사용했고, 메타는 모델 Llama-3.1-405B 훈련에 3084만 GPU 시간을 사용했다.
딥시크는 모델 훈련 단계뿐만 아니라 추론 호출 단계에서도 더 효율적이며 비용이 낮다.
딥시크가 공개한 각 대형 모델 API 가격(개발자는 API를 통해 대형 모델을 호출해 텍스트 생성, 대화 상호작용, 코드 생성 등을 구현 가능)을 보면 비용이 'OpenAI들'보다 낮음을 알 수 있다. 일반적으로 개발 비용이 높은 API는 높은 가격 책정을 통해 비용을 회수해야 한다고 여겨진다.
딥시크-R1의 API 가격은 백만 입력 토큰당 1위안(캐시 적중), 백만 출력 토큰당 16위안이며, 반면 OpenAI의 o3-mini는 입력(캐시 적중), 출력 모두 백만 토큰당 각각 0.55달러(4위안), 4.4달러(31위안)이다.
캐시 적중(cache hit)은 새로 계산하거나 모델을 호출해 결과를 생성하는 대신 캐시에서 데이터를 읽는 것을 의미하며, 데이터 처리 시간을 줄이고 비용을 절감할 수 있다. 업계는 캐시 적중과 미적중을 구분해 API 가격 경쟁력을 높이며, 저렴한 가격은 중소기업의 접근성을 높인다.
최근 할인 기간이 종료된 딥시크-V3는 기존 백만 입력 토큰당 0.1위안(캐시 적중), 백만 출력 토큰당 2위안에서 각각 0.5위안, 8위안으로 인상되었지만 여전히 다른 주류 모델보다 저렴하다.
대형 모델의 총 훈련 비용은 정확히 예측하기 어렵지만, 업계 종사자들은 딥시크가 현재 일류 대형 모델 중 최저 비용을 나타낼 가능성이 있으며, 향후 각 기업들이 딥시크를 기준으로 비용을 낮춰갈 것이라고 본다.
딥시크의 비용 절감 교훈
딥시크는 어디에서 비용을 절감했을까? 업계 종사자들의 의견을 종합하면 모델 구조-사전 훈련-후속 훈련까지 모든 측면에서 최적화를 진행했다.
예를 들어 답변의 전문성을 보장하기 위해 많은 대형 모델 기업들이 MoE 모델(혼합 전문가 모델)을 채택하는데, 복잡한 문제를 여러 하위 작업으로 분해한 후 각 하위 작업을 서로 다른 전문가에게 배정해 해결한다. 많은 대형 모델 기업들이 이 모델을 언급했지만, 딥시크는 궁극적인 전문가 전문화 수준에 도달했다.
비결은 세분화된 전문가 분할(동일 카테고리 내 전문가를 다시 하위 작업으로 세분화)과 공유 전문가 격리(일부 전문가를 격리해 지식 중복 완화)를 채택한 것이다. 이를 통해 MoE의 파라미터 효율성과 성능을 크게 향상시켜 더 빠르고 정확한 답변을 제공할 수 있다.
업계 종사자들은 딥시크MoE가 약 40%의 계산량만으로도 LLaMA2-7B와 유사한 효과를 달성했다고 추정한다.
데이터 처리 또한 대형 모델 훈련의 중요한 관문으로, 각 기업들은 계산 효율을 높이면서 메모리와 대역폭 같은 하드웨어 요구사항을 낮추는 방법을 고민한다. 딥시크가 찾은 방법은 데이터 처리 시 FP8 저정밀 훈련(딥러닝 훈련 가속화 목적)을 사용하는 것이다. "이 방법은 알려진 오픈소스 모델 중에서 비교적 선도적이다. 대부분의 대형 모델이 FP16 또는 BF16 혼합 정밀 훈련을 사용하는 반면, FP8 훈련 속도는 훨씬 빠르다"고 류총은 말했다.
후속 훈련의 강화 학습에서 전략 최적화는 큰 난관이며, 대형 모델이 의사결정을 더 잘하도록 만드는 것으로 이해할 수 있다. 예를 들어 알파고는 전략 최적화를 통해 바둑에서 최적의 착수 전략을 배웠다.
딥시크는 PPO(근접 전략 최적화) 대신 GRPO(그룹 상대 전략 최적화) 알고리즘을 선택했는데, 두 가지 주요 차이점은 알고리즘 최적화 시 가치 모델을 사용하는지 여부이다. 전자는 그룹 내 상대 보상을 통해 이점 함수를 추정하고, 후자는 별도의 가치 모델을 사용한다. 모델이 하나 적으므로 컴퓨팅 요구가 자연스럽게 줄어들고 비용도 절감된다.
또한 추론 층에서는 전통적인 다중 헤드 어텐션(MHA) 대신 다중 헤드 잠재 어텐션 메커니즘(MLA)을 사용해 그래픽 메모리 점유율과 계산 복잡도를 크게 낮췄으며, 가장 직접적인 이점은 API 인터페이스 요금의 하락이다.
하지만 이번 딥시크가 류총에게 준 가장 큰 깨달음은 다양한 각도에서 대형 모델의 추론 능력을 향상시킬 수 있다는 것이며, 순수 모델 파인튜닝(SFT)과 순수 강화 학습(RLHF)만으로도 훌륭한 추론 대형 모델을 만들 수 있다는 점이다.

이미지 출처 / Pexels
즉, 현재 추론 모델을 만드는 데에는 네 가지 방식이 있다:
첫째: 순수 강화 학습 (DeepSeek-R1-zero)
둘째: SFT + 강화 학습 (DeepSeek-R1)
셋째: 순수 SFT (DeepSeek 증류 모델)
넷째: 순수 프롬프트 (저비용 소형 모델)
"기존 업계는 모두 SFT + 강화 학습을 표준으로 삼았으며, 순수 SFT나 순수 강화 학습만으로도 좋은 효과를 낼 수 있다는 것을 아무도 생각하지 못했다"고 류총은 말했다.
딥시크의 비용 절감은 업계 종사자들에게 기술적 영감을 줄 뿐 아니라 AI 기업의 발전 방향에도 영향을 미친다.
잉노엔젤스펀드 파트너 왕성은 AGI 방향을 실현하는 AI 산업에서 종종 두 가지 다른 경로 선택이 있다고 소개했다. 하나는 '컴퓨팅 군비경쟁' 패러다임으로, 기술과 돈, 컴퓨팅 파워를 투입해 대형 모델 성능을 먼저 높은 수준으로 끌어올린 후 산업 적용을 고려하는 것이며, 다른 하나는 '알고리즘 효율' 패러다임으로, 처음부터 산업 적용을 목표로 아키텍처 혁신과 공학적 역량을 통해 저비용 고성능 모델을 출시하는 것이다.
"딥시크의 일련의 모델들은 천장이 더 이상 상승하지 않는 상황에서 능력 증가보다 효율 최적화에 초점을 맞추는 패러다임의 실행 가능성을 입증했다"고 왕성은 말했다.
업계 종사자들은 앞으로 알고리즘이 진화함에 따라 대형 모델 훈련 비용이 더욱 낮아질 것이라고 믿는다.
아크인베스트먼트(Ark Invest)의 설립자이자 CEO인 '우드 여사'(Woodie)는 딥시크 이전에 인공지능 훈련 비용은 매년 75% 감소했으며, 추론 비용은 85~90% 감소했다고 지적했다. 왕성도 올해 초 출시된 모델을 연말에 다시 출시하면 비용이 크게 줄어들어 1/10 수준으로 낮아질 수 있다고 말했다.
독립 연구기관 세미애널리시스는 최근 분석 보고서에서 추론 비용의 감소가 인공지능의 꾸준한 진보를 나타내는 징표 중 하나라고 지적했다. 과거에는 슈퍼컴퓨터와 여러 장의 GPU가 필요했던 GPT-3 대형 모델의 성능이 지금은 노트북에 설치된 소형 모델에서도 동일한 효과를 낼 수 있게 되었다. 비용도 크게 줄어들었으며, Anthropic의 CEO 다리오는 알고리즘 기반 가격 책정이 GPT-3 수준으로 발전하면서 비용이 1200배 감소했다고 평가했다.
앞으로 대형 모델의 비용 절감 속도는 더욱 빨라질 것이다.
TechFlow 공식 커뮤니티에 오신 것을 환영합니다
Telegram 구독 그룹:https://t.me/TechFlowDaily
트위터 공식 계정:https://x.com/TechFlowPost
트위터 영어 계정:https://x.com/BlockFlow_News














