
DeepSeek의 '서버 과부하'로 모든 사람이 당황한 가운데, 그 이면에 숨겨진 진실은 무엇일까?

이미지 출처: 무계AI 생성
DeepSeek가 빈번하게 응답하는 "서버 혼잡, 잠시 후 다시 시도해 주세요"라는 메시지는 전 세계 사용자들을 난처하게 만들고 있다.
그동안 대중에게 잘 알려지지 않았던 DeepSeek는 2024년 12월 26일 GPT-4o와 경쟁하는 언어 모델 V3를 출시하면서 일약 주목받게 되었다. 이후 1월 20일에는 OpenAI의 o1과 경쟁하는 언어 모델 R1을 발표했으며, '심층 사고' 모드에서 생성되는 고품질 답변과 함께 모델 훈련 초기 단계의 비용이 급격히 감소할 수 있다는 긍정적인 신호를 제시함으로써 회사와 애플리케이션은 완전히 대중화되었다. 그러나 그 후로 DeepSeek R1은 지속적인 접속 폭주를 겪었으며, 인터넷 검색 기능은 간헐적으로 마비되었고, 심층 사고 모드에서는 자주 "서버 혼잡"이라는 메시지가 표시되어 많은 사용자들이 불편을 겪고 있다.
약 2주 전부터 DeepSeek는 서버 중단 현상을 겪기 시작했으며, 1월 27일 정오경 DeepSeek 공식 웹사이트는 여러 차례 "deepseek 웹페이지/API 이용 불가"라는 메시지를 표시했다. 같은 날 DeepSeek는 주말 동안 아이폰 다운로드 순위 1위를 기록하며 미국 지역 다운로드 차트에서 ChatGPT를 추월하기도 했다.

2월 5일 기준, DeepSeek 모바일 앱 출시 26일 만에 일간 활성 사용자(DAU)가 4천만 명을 돌파했다. 이는 ChatGPT 모바일 버전의 DAU인 5495만 명의 74.3% 수준이다. DeepSeek가 가파른 성장 곡선을 그리는 거의 동시에 서버 혼잡에 대한 불만이 쏟아졌으며, 전 세계 사용자들은 몇 가지 질문을 하기도 전에 서비스가 다운되는 불편을 겪고 있다. 이에 따라 다양한 대체 접근 방식들이 등장했는데, 예를 들어 DeepSeek의 대체 사이트, 주요 클라우드 서비스 제공업체, 반도체 업체 및 인프라 기업들이 앞다투어 서비스를 출시했으며, 개인용 배포 튜토리얼도 널리 퍼졌다. 하지만 사용자들의 불만은 여전히 해소되지 않았다. 전 세계 대부분의 주요 기업들이 DeepSeek 배포를 지원한다고 선언했음에도 불구하고, 각국 사용자들은 여전히 서비스의 불안정성을 호소하고 있다.
과연 이 이면에서 도대체 무슨 일이 벌어지고 있는 것일까?
1、ChatGPT에 익숙한 사람들은 DeepSeek가 열리지 않는 것을 참을 수 없다
사람들이 "DeepSeek 서버 혼잡"에 대해 불만을 갖는 이유는 그동안 ChatGPT를 중심으로 한 AI 상위 앱들이 거의 지연 없이 안정적으로 작동했기 때문이다.
OpenAI 서비스 출시 이후 ChatGPT도 몇 차례 P0 수준(가장 심각한 수준의 사고)의 다운타임을 겪긴 했지만, 전반적으로는 비교적 신뢰할 수 있으며 혁신과 안정성 사이에서 균형을 찾았고 점차 전통적인 클라우드 서비스처럼 중요한 구성 요소로 자리매김했다.

ChatGPT의 대규모 다운타임 횟수는 많지 않다
ChatGPT의 추론 과정은 비교적 안정적이며, 인코딩과 디코딩 두 단계로 나뉜다. 인코딩 단계에서는 입력된 텍스트를 의미 정보를 포함하는 벡터로 변환하고, 디코딩 단계에서는 이전에 생성된 텍스트를 문맥으로 활용하여 Transformer 모델을 통해 다음 단어나 구문을 생성한다. 이 과정은 요구되는 완전한 문장을 생성할 때까지 반복되며, 대규모 모델 자체는 디코더(Decoder) 아키텍처에 속하므로 디코딩 단계는 하나의 token(token은 대규모 모델이 텍스트를 처리할 때의 최소 단위)씩 출력하는 과정이다. 사용자가 ChatGPT에 질문을 할 때마다 추론 프로세스가 한 번씩 실행된다.
예를 들어, "오늘 기분이 어때?"라고 물으면, ChatGPT는 이 문장을 인코딩하여 각 계층의 어텐션 표현을 생성하고, 이전 모든 token의 어텐션 표현을 바탕으로 첫 번째 출력 token인 "나"를 예측한다. 이후 이를 디코딩하여 "오늘 기분이 어때? 나"로 조합한 후 새로운 어텐션 표현을 얻고, 다음 token인 "의"를 예측한다. 이후 이러한 과정을 반복하여 결국 "오늘 기분이 어때? 내 기분은 아주 좋아."라는 결과를 도출한다.
컨테이너 오케스트레이션 도구인 Kubernetes는 ChatGPT의 '숨은 지휘자'로서 서버 리소스를 스케줄링하고 분배하는 역할을 한다. 사용자가 몰려들어 Kubernetes 컨트롤 플레인의 처리 능력을 초과하면 ChatGPT 시스템 전체가 마비될 수 있다.
ChatGPT가 마비된 총 횟수는 많지 않지만, 그 이면에는 강력한 자원 지원이 존재하며, 안정적인 운영 뒤에는 막대한 컴퓨팅 파워가 필요하다는 점이 핵심이다. 그러나 이 부분은 종종 간과된다.
일반적으로 추론 처리 시 데이터 규모가 비교적 작기 때문에 컴퓨팅 파워 요구량은 훈련보다 낮다. 업계 관계자들은 일반적인 대규모 모델 추론 과정에서 메모리의 주요 사용 용도는 모델 파라미터 가중치이며, 이는 전체의 80% 이상을 차지한다고 추산한다. 실제로 ChatGPT에 내장된 여러 모델들 중 기본 모델 크기는 DeepSeek-R1의 671B보다 작으며, ChatGPT는 DeepSeek보다 훨씬 많은 GPU 컴퓨팅 파워를 보유하고 있어 DS-R1보다 자연스럽고 안정적인 성능을 보여준다.
DeepSeek-V3와 R1 모두 671B 규모의 모델이며, 모델 구동 과정 자체가 추론 과정이다. 추론 시 필요한 컴퓨팅 파워는 사용자 수와 맞물려야 한다. 예를 들어 1억 명의 사용자가 있으면 1억 명 분의 그래픽카드를 확보해야 하며, 이는 거대한 규모이며 훈련용 컴퓨팅 파워와는 별개이다. 여러 정보를 종합해 보면 DS의 그래픽카드 및 컴퓨팅 파워 비축량은 명백히 부족하여 빈번한 지연 현상이 발생한다.
이러한 비교는 ChatGPT의 원활한 경험에 익숙한 사용자들에게 적응하기 어렵게 만들며, 특히 R1에 대한 관심이 더욱 높아지고 있는 현재 상황에서 더욱 그러하다.
2、지연, 또 지연
또한 세밀히 비교해 보면 OpenAI와 DeepSeek가 직면한 상황은 매우 다르다.
전자는 마이크로소프트를 후원자로 두고 있으며, 마이크로소프트 Azure 클라우드 서비스는 OpenAI의 독점 플랫폼으로 ChatGPT, DALL·E 2 이미지 생성기, GitHub Copilot 자동 코딩 도구 등을 탑재했다. 이후 이 조합은 클라우드+AI의 전형적인 패턴이 되어 산업계 표준으로 빠르게 확산되었다. 후자는 스타트업이지만 대부분 자체 데이터센터를 구축하여 운영하며, 구글과 유사하게 제3자 클라우드 컴퓨팅 제공업체에 의존하지 않는다. 실리콘스타(Silicon Star)가 공개 정보를 확인한 결과, DeepSeek는 어느 수준에서도 클라우드 업체나 반도체 업체와 협력을 시작하지 않았다(설 연휴 기간 동안 여러 클라우드 업체가 DeepSeek 모델을 자사 플랫폼에 올렸다고 발표했지만, 실제로는 어떤 의미 있는 협력도 진행되지 않았다).
또한 DeepSeek는 전례 없는 사용자 증가를 겪고 있으며, 이는 비상 상황에 대비할 시간이 ChatGPT보다 더 적다는 것을 의미한다.
DeepSeek의 우수한 성능은 하드웨어 및 시스템 수준에서의 전반적인 최적화 덕분이다. DeepSeek의 모회사인 항방양화는 2019년 이미 2억 위안을 들여 '형화 1호' 슈퍼컴퓨터 클러스터를 구축했으며, 2022년에는 만 장의 A100 그래픽카드를 조용히 비축했다. 보다 효율적인 병렬 훈련을 위해 DeepSeek는 자체 개발한 HAI LLM 훈련 프레임워크를 사용했다. 업계에서는 형화 클러스터가 수천에서 수만 장의 고성능 GPU(예: 엔비디아 A100/H100 또는 중국산 칩)를 사용하여 강력한 병렬 컴퓨팅 능력을 제공한다고 본다. 현재 형화 클러스터는 DeepSeek-R1, DeepSeek-MoE 등의 모델 훈련을 지원하며, 이 모델들은 수학, 코드 등 복잡한 작업에서 GPT-4 수준에 근접한 성능을 보인다.
형화 클러스터는 DeepSeek가 새로운 아키텍처와 방법론에 대한 탐색 과정을 상징하며, 외부에서는 이러한 혁신 기술을 통해 DS가 훈련 비용을 낮췄고, 서방 최첨단 모델의 일부에 불과한 컴퓨팅 파워로도 최고 수준의 AI 모델과 유사한 성능을 가진 R1을 훈련할 수 있다고 평가한다. SemiAnalysis의 추산에 따르면, DeepSeek는 실제로 방대한 컴퓨팅 파워를 보유하고 있으며, 총 6만 장의 엔비디아 GPU를 보유하고 있는데, 이 중 A100이 1만 장, H100이 1만 장, '특수판' H800이 1만 장, '특수판' H20이 3만 장이라고 한다.
이는 마치 R1의 카드 수가 충분해 보이지만, 실제로는 추론 모델인 R1이 OpenAI의 O3와 경쟁한다는 점에서 응답 단계에 더 많은 컴퓨팅 파워를 배치해야 한다. 그러나 DS가 훈련 비용 측면에서 절약한 컴퓨팅 파워와 추론 비용 측면에서 급증한 컴퓨팅 파워 중 어느 쪽이 더 큰지 아직 명확하지 않다.
특히 언급할 점은 DeepSeek-V3와 DeepSeek-R1 모두 대규모 언어 모델이지만 운용 방식이 다르다는 것이다. DeepSeek-V3는 ChatGPT와 유사한 명령 모델로, 프롬프트를 받아 해당 텍스트를 생성하여 응답한다. 반면 DeepSeek-R1은 추론 모델로, 사용자가 질문하면 먼저 광범위한 추론 과정을 거친 후 최종 답변을 생성한다. R1이 생성하는 token 중 처음 나타나는 것은 다량의 사고 연쇄 과정이며, 모델은 답변을 생성하기 전에 문제를 설명하고 분해하며, 이러한 모든 추론 과정이 token 형태로 빠르게 생성된다.
요투캐피탈 부사장 온팅찬은 앞서 언급한 DeepSeek의 방대한 컴퓨팅 파워는 훈련 단계를 의미하며, 훈련 단계의 컴퓨팅 파워는 팀이 계획하고 예측 가능하여 부족 현상이 발생하기 어렵지만, 추론 컴퓨팅 파워는 사용자 규모와 사용량에 따라 달라져 불확실성이 크고 탄력성이 크다고 말했다. "추론 컴퓨팅 파워는 일정한 규칙에 따라 증가하지만, DeepSeek가 현상급 제품이 되면서 단기간 내 사용자 규모와 사용량이 폭발적으로 증가하여 추론 단계의 컴퓨팅 파워 수요가 폭발적으로 증가했고, 이로 인해 지연이 발생했다."
즉각 플랫폼에서 활동하는 모델 제품 디자이너이자 독립 개발자 귀장은 카드 수가 DeepSeek 지연의 주요 원인이라며, DS가 현재 전 세계 140개 시장에서 가장 많이 다운로드된 모바일 앱이 된 상황에서 지금의 지연은 아무리 새로운 카드를 사용해도 감당할 수 없다고 말한다. 왜냐하면 "새로운 카드를 클라우드로 사용하는 데는 시간이 걸리기 때문"이라고 설명했다.
"엔비디아 A100, H100 등의 칩은 시간당 운용 비용이 공정한 시장 가격을 가지며, DeepSeek는 출력 토큰 기준 추론 비용이 OpenAI의 유사 모델 o1보다 90% 이상 저렴하다. 이는 대부분의 계산과 크게 벗어나지 않는다. 따라서 모델 아키텍처인 MoE 자체가 가장 큰 문제가 아니지만, DS가 보유한 GPU 수량이 결정하는 것은 매분 생산 가능한 토큰 수의 상한선이다. 설령 더 많은 GPU를 사전 훈련 연구가 아닌 추론 서비스에 사용하더라도 상한선은 고정되어 있다." AI 네이티브 앱 '고양이 보조등'의 개발자 천윈페이도 유사한 견해를 갖고 있다.
또한 업계 관계자들은 DeepSeek의 지연 현상의 근본 원인이 사설 클라우드 준비 부족이라고 지적했다.
해킹 공격 또한 R1 지연의 또 다른 원인이다. 1월 30일, 언론은 사이버 보안 회사 치안신으로부터 DeepSeek 온라인 서비스에 대한 공격 강도가 갑작스럽게 증가했으며, 공격 명령어 수가 1월 28일 대비 수백 배 증가했다는 정보를 입수했다. 치안신 Xlab 실험실은 최소 2개의 봇넷이 공격에 참여하고 있음을 관찰했다.
하지만 R1 자체 서비스의 지연은 비교적 명백한 해결책이 하나 있는데, 바로 제3자 제공 서비스이다. 이것이 우리가 설 연휴 동안 목격한 가장 화려한 광경이기도 하다—각종 업체들이 앞다퉈 서비스를 배포하며 DeepSeek에 대한 수요를 감당하려 하고 있다.
1월 31일, 엔비디아는 NVIDIA NIM이 이제 DeepSeek-R1을 사용할 수 있다고 발표했다. 이전 엔비디아는 DeepSeek 영향으로 하루 만에 시가총액이 약 6000억 달러 증발하기도 했다. 같은 날 아마존 AWS 사용자는 인공지능 플랫폼 Amazon Bedrock과 Amazon SageMaker AI에서 DeepSeek 최신 R1 기본 모델을 배포할 수 있게 되었다. 이후 Perplexity, Cursor 등 AI 애플리케이션의 신예들도 대거 DeepSeek에 접속했다. 마이크로소프트는 아마존, 엔비디아보다 앞서 클라우드 서비스 Azure와 Github에 DeepSeek-R1을 먼저 배포했다.
2월 1일 대보름날부터 화웨이클라우드, 알리클라우드, 바이트댄스 산하의 화산엔진, 텐센트클라우드도 이에 동참하였으며, 일반적으로 DeepSeek 전 라인업 및 전 크기 모델 배포 서비스를 제공한다. 이후 빙런테크놀로지, 한보반도체, 승등, 무시 등 AI 칩 제조업체들도 DeepSeek 원본 또는 소형 증류 버전을 자체적으로 최적화했다고 밝혔다. 소프트웨어 회사 측면에서는 용우, 진디 등이 일부 제품에 DeepSeek 모델을 통합하여 제품 경쟁력을 강화했으며, 마지막으로 레노버, 화웨이, 홀러 등 단말 제조업체들도 일부 제품에 DeepSeek 모델을 탑재하여 엣지 측 개인 어시스턴트 및 자동차 스마트 콕핏으로 활용하고 있다.
현재까지 DeepSeek는 자체 가치를 바탕으로 국내외 클라우드 업체, 통신사업자, 증권사, 국가급 플랫폼인 국립초고속컴퓨팅인터넷플랫폼까지 아우르는 광범위한 협력 생태계를 구축했다. DeepSeek-R1이 완전히 오픈소스 모델이기 때문에, 접속한 서비스 제공업체들은 모두 DS 모델의 수혜자가 되었다. 이는 한편으로 DS의 위상을 크게 높였지만, 동시에 더욱 빈번한 지연 현상을 초래하였으며, 서비스 제공업체들과 DS 자체 모두 몰려드는 사용자들에 휘둘리며 안정적인 사용 문제 해결의 핵심 실마리를 찾지 못하고 있다.
DeepSeek V3와 R1 두 모델 모두 원본 기준 6710억 개의 파라미터를 가지고 있어 클라우드에서 실행하기에 적합하며, 클라우드 업체는 자체적으로 보다 풍부한 컴퓨팅 파워와 추론 능력을 갖추고 있으므로 DeepSeek 관련 배포 서비스를 출시하여 기업의 사용 장벽을 낮추는 것이 목적이다. 이들 업체가 DeepSeek 모델을 배포한 후 외부에 DS 모델 API를 제공하는 것은 DS 자체가 제공하는 API보다 더 나은 사용 경험을 제공할 수 있을 것으로 여겨졌다.
하지만 현실에서는 DeepSeek-R1 모델 자체의 운용 경험 문제가 각 서비스 제공업체에서도 해결되지 않았으며, 외부에서는 서비스 제공업체들이 카드 부족은 아니라고 보지만 실제로 배포된 R1의 경우 개발자들의 반응이 느린 체감 불안정 피드백 빈도가 R1 자체와 거의 동일하며, 이는 R1에 할당된 추론용 카드 수량이 많지 않기 때문이다.

"R1의 인기가 계속 높게 유지되고 있어 서비스 제공업체는 다른 접속 모델들도 고려해야 하므로 R1에 제공할 수 있는 카드가 매우 제한적이다. 그런데 R1 인기가 너무 높아 누구든 R1을 도입해 상대적으로 낮은 가격에 제공하면 금세 무너진다." 모델 제품 디자이너이자 독립 개발자 귀장이 실리콘스타에게 원인을 설명했다.
모델 배포 최적화는 훈련 완료부터 실제 하드웨어 배포까지 다양한 단계를 포함하는 광범위한 분야이지만, DeepSeek의 지연 사건의 경우 원인은 훨씬 단순할 수 있다. 예를 들어 지나치게 큰 모델과 출시 전 최적화 준비 부족 등이 있다.
인기 있는 대규모 모델이 출시되기 전에는 기술, 엔지니어링, 비즈니스 등 다양한 측면의 도전에 직면하게 된다. 예를 들어 훈련 데이터와 운영 환경 데이터의 일관성 문제, 데이터 지연 및 실시간성으로 인한 추론 효과 저하, 온라인 추론 효율과 리소스 사용량 과다, 모델 일반화 능력 부족, 그리고 서비스 안정성, API 및 시스템 통합 등 엔지니어링 측면의 문제 등이 있다.
많은 인기 있는 대규모 모델들은 출시 전 추론 최적화에 매우 중점을 둔다. 이는 계산 시간과 메모리 문제 때문인데, 전자는 추론 지연이 너무 길어 사용자 경험을 해치거나 지연 요구를 충족하지 못해 지연 등의 현상이 발생하며, 후자는 모델 파라미터 수가 많아 VRAM을 많이 소모하여 단일 GPU 카드에 저장조차 안 되는 경우도 발생하여 지연을 초래하기 때문이다.
온팅찬은 서비스 제공업체들이 R1 서비스 제공에 어려움을 겪는 근본적인 이유는 DS 모델 구조가 특별하고, 모델이 너무 크며 MoE(Mixture of Experts, 효율적인 계산 방식 중 하나) 아키텍처를 사용하기 때문이라고 실리콘스타에게 설명했다. "(서비스 제공업체의) 최적화에는 시간이 필요하지만, 시장의 인기는 시간 창을 가지기 때문에 우선 출시하고 나서 최적화하는 것이지, 충분히 최적화한 후 출시하는 것이 아니다."
R1이 안정적으로 작동하려면 현재 핵심은 추론 측면의 비축 및 최적화 능력이다. DeepSeek가 해야 할 일은 추론 비용을 낮추는 방법을 찾고, 카드 출력과 단일 출력 token 수를 줄이는 것이다.
동시에 지연 현상은 DS 자체의 컴퓨팅 파워 비축량이 SemiAnalysis가 주장한 만큼 방대하지 않을 가능성을 시사한다. 항방펀드도 카드를 사용해야 하고, DeepSeek 훈련팀도 카드를 사용해야 하기 때문에 일반 사용자에게 할당 가능한 카드 수는 항상 많지 않았다. 현재 상황을 보면 단기간 내 DeepSeek가 더 나은 사용자 경험을 제공하기 위해 비용을 지불하며 서비스를 임대할 동기는 없어 보인다. 그들은 첫 번째 C단 비즈니스 모델이 명확해진 후에야 서비스 임대 문제를 고려할 가능성이 높으며, 이는 지연 현상이 당분간 계속될 것임을 의미한다.
"그들은 아마 두 가지 조치가 필요할 것이다. 1) 유료제 도입으로 무료 사용자의 모델 사용량 제한; 2) 클라우드 서비스 업체와 협력하여 타사의 GPU 자원을 활용." 개발자 천윈페이가 제시한 임시 해결책은 업계에서 상당한 공감대를 얻고 있다.
하지만 현재까지 DeepSeek는 이 '서버 혼잡' 문제에 대해 그리 급할 필요성을 느끼지 않는 듯하다. AGI를 추구하는 회사로서 DeepSeek는 몰려드는 사용자 트래픽에 너무 집착하기를 원하지 않는 것 같다. 앞으로도 사용자들은 상당한 기간 동안 '서버 혼잡'이라는 인터페이스를 마주하며 살아가야 할지도 모른다.
TechFlow 공식 커뮤니티에 오신 것을 환영합니다
Telegram 구독 그룹:https://t.me/TechFlowDaily
트위터 공식 계정:https://x.com/TechFlowPost
트위터 영어 계정:https://x.com/BlockFlow_News














