
딥시크가 던진 두 번째 오픈소스 왕짜의 정체는 대체 무엇인가?
저자: 양쓰치

이미지 출처: 무계 AI 생성
2월 25일, 오픈소스 혜택을 제공하는 DeepSeek가 왕패를 공개했다. 바로 MoE 모델을 위한 세계 최초의 전 스택 통신 라이브러리인 DeepEP이다. AI 컴퓨팅 리소스 부족 문제를 직접 해결함으로써 GitHub에서 순식간에 별 1500개(스크랩 수)를 기록했고, 업계 전체가 술렁였으며 그 중요성을 짐작할 수 있다.

많은 사람들이 DeepEP가 무엇을 의미하는지 궁금해한다. 광군제의 택배 물류센터를 상상해보자. 200개의 창고(서버) 안에서 2048명의 택배기사(GPU)가 인공지능 데이터라는 소포를 열심히 옮긴다. 기존 운송 시스템은 기사들이 삼륜차를 타고 배달하는 것과 같지만, DeepEP는 전 직원에게 '자기부상+양자전송' 장비 세트를 제공하여 정보를 안정적이고 효율적으로 전달한다.
특징 1: 운송 규칙 자체를 변화시킨다
2024년 8월 29일 네비디아 전화 회의에서 젠슨 황은 NVLink(네비디아가 개발한 GPU 간 직접 연결 기술로, 양방향 전송 속도가 초당 1.8TB/s에 달함)가 낮은 지연 시간, 높은 처리량 및 대규모 언어 모델에 중요한 역할을 한다며, 이 기술이 대형 모델 발전을 견인하는 핵심 기술 중 하나라고 강조했다.
그러나 이번에 중국 팀이 이 과대평가된 NVLink 기술을 한 차원 더 끌어올렸다. DeepEP의 핵심은 바로 NVLink 최적화에 있다. 같은 창고 내 택배기사들 사이에서는 자기부상 트랙을 이용해 초당 158GB의 속도로 운송하며, 베이징에서 상하이까지의 거리를 물 한 모금 마시는 시간으로 단축시킨다.
두 번째 하이테크는 RDMA 기술 기반의 저지연 커널로, 서로 다른 도시의 창고 사이에서 화물이 직접 '양자전송'되는 것을 상상하면 된다. 각 비행기(네트워크 카드)는 초당 47GB의 운송 능력을 가지며, 동시에 화물을 싣는 동안 비행도 가능하게 해 계산과 통신을 중첩시켜 정지 대기 상태를 완전히 없앤다.
특징 2: 스마트 분류 기술 - AI판 '최강 두뇌'
화물을 다양한 전문가(MoE 모델의 서브넷)에게 나눠줘야 할 때, 기존 분류원은 일일이 박스를 열어 확인해야 하지만, DeepEP의 '스케줄링-결합' 시스템은 예지 능력이 있는 듯하다. 훈련 프리패딩 모드에서는 4096개의 패킷이 동시에 스마트 컨베이어 벨트를 타고 자동으로 동일 도시 또는 타 도시 목적지를 식별한다. 추론 프리패딩 모드에서는 128개 급행 소포가 VIP 채널을 통해 163마이크로초 만에 도착하며, 이는 인간의 눈 깜빡임보다 5배 빠르다. 동시에 동적 경로 변경 기술을 사용해 트래픽 피크 발생 시 즉시 전송 모드를 전환하여 다양한 시나리오 요구에 완벽하게 적응한다.
특징 3: FP8 '축골술'
일반 화물은 표준 상자(FP32/FP16 형식)로 운송하지만, DeepEP는 이를 미니 캡슐(FP8 형식)로 압축해 동일한 트럭으로 3배 더 많은 화물을 실을 수 있다. 더욱 신기한 것은 이 캡슐들이 목적지에 도착하면 자동으로 원래 형태로 복원되어 우편비와 시간 모두 절약된다.
이 시스템은 이미 DeepSeek의 자체 창고(H800 GPU 클러스터)에서 실측을 완료했다. 동일 도시 운송 속도가 3배 향상되었고, 타 도시 전송 지연 시간은 인간이 감지하기 어려운 수준으로 낮아졌으며, 가장 파격적인 점은 진정한 '무감각 전송'을 실현했다는 것이다. 마치 택배기사가 자전거를 타면서 동시에 택배함에 소포를 넣는 것처럼 매끄럽게 진행된다.
이제 DeepSeek가 이 에이스 카드를 오픈소스로 공개한 것은 마치 SF익스프레스의 무인 분류 시스템 설계도를 세상에 공개한 것과 같다. 기존에 2000대의 GPU가 필요했던 대규모 작업도 이제는 수백 대만으로 여유 있게 처리할 수 있다.
이보다 앞서 DeepSeek는 '오픈소스 주간'의 첫 번째 성과로 FlashMLA(직역: 고속 다중 헤드 잠재 어텐션 메커니즘) 코드를 공개했는데, 이 역시 대형 모델 훈련 비용을 줄이는 핵심 기술 중 하나이다. 산업 체인 전반의 비용 부담을 완화하기 위해 DeepSeek는 아낌없이 기술을 공유하고 있다.
이전에 루청테크의 창립자 유양은 소셜미디어에 "단기적으로 중국의 MaaS 모델은 아마도 최악의 비즈니스 모델일 것"이라고 게시했다. 그는 간단히 추산해 하루에 1000억 토큰을 출력한다면 DeepSeek 기반 서비스의 월 기계 비용은 4.5억 위안이며, 4억 위안의 손실이 발생한다고 설명했다. AMD 칩을 사용하면 월 수입은 4500만 위안, 월 기계 비용은 2.7억 위안으로, 이 경우에도 2억 위안 이상의 손실이 발생한다는 것을 의미한다.
TechFlow 공식 커뮤니티에 오신 것을 환영합니다
Telegram 구독 그룹:https://t.me/TechFlowDaily
트위터 공식 계정:https://x.com/TechFlowPost
트위터 영어 계정:https://x.com/BlockFlow_News














