중·미 AI 창업자 비공개 토론: DeepSeek-R1 이후 AI 창업의 변화와 새로운 트렌드

2025.02.12

중·미 AI 창업자 비공개 토론: DeepSeek-R1 이후 AI 창업의 변화와 새로운 트렌드

챗봇이 사용자의 첫 번째 AI 제품이 되어야 할 필요는 없다.

2025.02.12 - 10:54:58

DeepSeekAI

Web3 심층 보도에 집중하고 흐름을 통찰

챗봇이 사용자의 첫 번째 AI 제품이 되어야 할 필요는 없다.

기사 출처:FounderPark

이미지 출처: 무계AI 생성

DeepSeek는 2025년 춘절 기간 동안 확실히 주목을 받았다. 애플 앱스토어 무료 차트 정상에 오른 앱에서부터 각 클라우드 업체들이 앞다퉈 DeepSeek-R1을 배포하기 시작했으며, 많은 사람들에게 처음 경험한 AI 제품이 되었다. 창업가들에게 있어서도 기술 혁신 포인트 논의부터 훈련 및 추론 비용 분석, 나아가 전체 AI 산업에 미치는 영향까지 모두가 이야기하고 있다.

2월 2일, Founder Park와 극객공원 산하 글로벌 폐쇄형 커뮤니티 Global Ready는 폐쇄형 토론회를 개최하여 실리콘밸리, 국내, 런던, 싱가포르, 일본 등지에 위치한 AI 회사들의 창립자 및 기술 전문가 60여 명을 초청해 DeepSeek가 촉발한 기술적 신방향과 제품 트렌드에 대해 기술 혁신, 제품 상용화, 컴퓨팅 파워 부족 문제 등의 관점에서 심층적인 논의를 진행했다.

민감 정보를 제거한 후 본 폐쇄 토론회의 핵심 내용을 정리하였다.

01 DeepSeek의 혁신은 어디에 있는가?

DeepSeek는 12월 말 V3 베이스 모델을 발표하였으며, 현재 산업계에서 공개된 가장 강력한 모델 중 하나로, 37B 활성화 파라미터를 포함하며 전체 파라미터 규모는 671B이며, 대규모 MoE(혼합 전문가) 모델이다.

2025년 1월에 발표된 R1 모델의 'Aha moment'란 모델이 추론을 수행할 때 일정 수준의 성찰 능력을 보일 수 있음을 의미한다. 예를 들어 문제 해결 과정에서 특정 방법이 더 이상 적합하지 않다고 인식하고, 그 과정에서 더 효과적인 방법으로 전환할 수 있다는 것이다. 이러한 성찰 능력은 강화학습(RL)에서 비롯된다.

R1은 DeepSeek의 플래그십 모델로서 추론 능력 면에서 OpenAI o1과 맞먹는다. 구체적인 구현 방법은 다음과 같이 요약할 수 있다. R1은 두 단계의 강화학습과 두 단계의 SFT를 통해 이루어지며, 초기 두 단계의 RL과 SFT는 데이터 생성용 교사 모델을 구축하여 세 번째 단계의 데이터 생성을 지도하는 데 사용된다. 이 모델은 현재 가장 강력한 추론 모델이 되는 것을 목표로 하고 있다.

DeepSeek R1-Zero 모델의 핵심 혁신은 전통적인 미세조정(SFT) 과정을 건너뛰고 바로 강화학습(RL)을 통해 추론 최적화를 수행한다는 점이다. 또한 DeepSeek R1을 교사 모델로 활용하여 Qwen1.7B/7B/14B/32B와 같은 공개 소규모 또는 중규모 모델에 지식을 증류하면 소형 모델의 능력을 크게 향상시킬 수 있다.
코드 작성 능력 측면에서 DeepSeek의 R1은 최근 출시된 openAI의 o3 mini와 거의 비슷하며 전반적인 능력에서는 o3 mini가 다소 우세하다. 다른 점은 R1이 오픈소스라는 것이며, 이는 더 많은 애플리케이션 개발자가 R1을 사용하도록 자극할 것이다.
DeepSeek가 성공한 핵심은 고도로 통합된 엔지니어링 솔루션을 통해 가격을 낮춘 것이다. 그들의 방법을 하나씩 분해해 보면 각각은 작년 논문에서 찾아볼 수 있는 것들이지만, DeepSeek는 최신 방법들을 매우 공격적으로 적용한다. 이러한 방법들은 자체적으로 부작용을 유발할 수 있으며 추가적인 저장 공간을 필요로 하지만, 클러스터의 유휴율 감소에는 큰 효과를 가져온다.
대규모 클러스터가 아니거나 대규모 사용자에게 서비스를 제공하는 모델이 아닌 경우 MLA 아키텍처는 오히려 부작용을 일으킬 수 있다. DeepSeek의 많은 방법들은 특정 시나리오와 환경에서 실행되지 않으면 최대 성능 최적화를 달성할 수 없으며, 개별적으로 해당 기술을 사용하면 오히려 부작용이 발생한다. 그들의 시스템 설계는 매우 정교해서, 단지 기술을 따로 떼어내서 사용한다고 해서 그들과 같은 효과를 얻을 수 없다.
과정 보상 모델(process reward model)만을 훈련시키는 것은 바람직하지 않다. 왜냐하면 이런 모델만을 훈련하면 결국 예상 효과에 도달하지 못하거나 과적합을 초래할 수 있기 때문이다. DeepSeek는 가장 원시적인 강화학습 방법을 선택하여 휴리스틱 규칙을 기반으로 최종 결과에 점수를 매기고, 전통적인 강화학습 방법을 이용해 과정을 수정한다. 그들이 선택한 방법 역시 반복적인 시행착오를 통해 도출된 것이며, 이는 DeepSeek가 충분히 효율적인 인프라(infra)를 보유하고 있기 때문에 가능하다.
DeepSeek가 추론 코드를 공개하지 않았다 하더라도, 다른 팀들은 대략적으로 어떤 방법을 사용했는지를 추측할 수 있다. 공개된 모델 가중치만으로도 다른 팀들이 그 성능을 재현하는 데 충분하지만, 어려움은 내부의 특수 설정을 어떻게 찾아내느냐 하는 점에 있으며, 이는 시간이 필요하다.
데이터 주석에만 의존하는 보상 모델은 슈퍼휴먼 인텔리전스(super human intelligence) 수준의 능력을 달성하기 어렵다. 더욱 고차원적인 보상 최적화를 실현하고 슈퍼휴먼 인텔리전스를 만들어내기 위해서는 실제 데이터 혹은 실제 환경 피드백을 기반으로 한 진정한 보상 모델이 필요하다.
기술적 추측: 베이스 모델 자체가 강한 일반성을 가지고 있고, 수학 및 코드 작성 능력도 갖추고 있다면, 두 부분이 결합되어 더욱 강력한 일반화 능력을 발휘할 수 있다. 예를 들어 어느 정도 지능을 갖춘 베이스 모델이 글쓰기 분야에서 이미 우수한 성능을 보이고 있다고 가정하자. 여기에 수학 및 코드 관련 강화학습을 결합하면 좋은 일반화가 가능해지고, 궁극적으로 매우 강력한 능력을 발휘할 수 있다. 구체적인 예로는 경문에서 절구, 여시 등 다양한 체재의 작품을 작성할 수 있으나 다른 몇몇 모델은 이 분야에서 비교적 부진하다.

02 왜 DeepSeek의 비용이 이렇게 낮은가?

모델의 희소성이 매우 높다. 600B 이상의 파라미터를 가진 대규모 모델임에도 불구하고 추론 시 각 토큰마다 실제로 활성화되는 파라미터는 매우 작으며, 단지 37B에 불과하다. 이는 추론 속도와 리소스 소비가 마치 37B 파라미터 모델과 같다는 의미이다. 그러나 이를 실현하기 위해서는 전체 시스템에 대한 방대한 설계 변경이 필요하다.
DeepSeek V3에서 MoE 아키텍처는 256개의 전문가 모듈을 포함하지만, 각 추론 시에는 그 일부만 활성화된다. 고부하 상황에서는 리소스 사용률을 동적으로 조정할 수 있으며, 이론적으로 기존 비용의 1/256 수준까지 압축할 수 있다. 이러한 설계는 DeepSeek가 소프트웨어 아키텍처에 있어 선견지명을 갖고 있음을 보여준다. 시스템 최적화가 충분히 잘 이루어진다면 동일한 규모에서 가격을 크게 낮출 수 있다.
모델 훈련 시 일반적으로 세 가지 병렬화 기법(data parallelism, pipeline parallelism, tensor parallelism)을 사용한다. 첫째는 데이터 수준에서의 병렬 처리로, 데이터 병렬화(Data Parallelism)라고 한다. 둘째는 모델 계층 간 독립성을 활용한 모델 수준의 분할로 파이프라인 병렬화(Pipeline Parallelism)이다. 셋째는 모델 가중치를 분할하여 서로 다른 GPU에 할당하는 것으로 텐서 병렬화(Tensor Parallelism)라고 한다. 희소 모델 설계에 맞추기 위해 DeepSeek는 훈련 프레임워크와 파이프라인을 대폭 조정하여 훈련 과정에서 Tensor Parallelism을 포기하고 Data Parallelism과 Pipeline Parallelism만 사용하며, 이를 기반으로 더욱 정교한 전문가 병렬화(Expert Parallelism)를 수행한다. 전문가 수(최대 256개)를 정밀하게 분할하여 서로 다른 전문가를 다른 GPU에 할당한다. 또한 DeepSeek는 Tensor Parallelism을 포기함으로써 하드웨어 제약을 우회하여 H800과 H100의 훈련 효율을 거의 동일하게 만들 수 있었다.
모델 배포 측면에서 실험 결과, 컴퓨팅 파워 비용이 통제 가능하며 기술 난이도도 높지 않아 일반적으로 1~2주 이내에 재현이 가능하여 많은 애플리케이션 개발자에게 매우 유리하다.
가능한 모델 아키텍처 하나: 추론용 RL을 대규모 언어 모델 자체에 국한하지 않고 외부에 thinking machine을 추가하여 전체 추론 능력을 완성하는 방식으로, 전체 비용을 여러 수준 더 낮출 수 있다.

03 챗봇이 반드시 사용자의 첫 번째 AI 제품이 되지는 않을 수 있다

DeepSeek R1의 성공은 단순히 추론 능력뿐 아니라 검색 기능과의 결합에도 있다. reasoning model + 검색은 일종의 micro agent 프레임워크와 같다. 대부분의 사용자에게 이것은 처음 경험하는 추론 모델이며, 이미 OpenAI의 o1 등 다른 추론 모델을 사용해본 사용자에게도 검색 기능이 통합된 DeepSeek R1은 새로운 경험을 제공한다.
AI 제품을 사용해보지 않은 사용자에게 있어 그들의 첫 번째 AI 제품이 반드시 ChatGPT와 같은 언어 상호작용 제품일 필요는 없으며, 모델 기반의 또 다른 시나리오에서 구동되는 제품일 수도 있다.
AI 분야 애플리케이션 기업의 경쟁 장벽은 제품 경험에 있다. 누구나 더 빠르고, 더 좋으며, 사용자에게 더 편안한 기능을 제공할 수 있는 기업이 시장에서 경쟁 우위를 점할 수 있다.
현재 모델이 보여주는 사고 과정은 만족스러운 설계이지만, 강화학습(RL)을 통해 모델 능력을 향상시키는 초기 단계 작업에 더 가깝다. 추론 과정의 길이가 최종 결과의 정확성을 판단하는 유일한 기준은 아니며, 미래에는 복잡한 장시간 추론에서 더 간결한 단시간 추론으로 전환될 것이다.

04 수직 시나리오에서 AI의 상용화가 쉬워졌다

상대적으로 수직적인 작업(vertical task)의 경우, 작업 평가는 복잡한 보상 모델(rewarding model)에 의존하지 않고 규칙 시스템(rule system)을 통해 완료할 수 있다. 정의된 수직 작업에서는 Tiny Zero 또는 7B와 같은 모델도 빠르게 사용 가능한 결과를 얻을 수 있다.
특정 수직 작업에서 DeepSeek로 증류된 70억 파라미터 이상의 모델을 훈련하면 빠르게 'aha moment'를 얻을 수 있다. 비용 측면에서 보면, 7B 모델로 간단한 산술 문제나 블랙잭처럼 명확한 정답이 있는 작업을 수행할 때 2~4장의 H100 또는 H200만으로 반나절 이내에 모델이 수렴하여 사용 가능한 상태가 된다.
수직 분야, 특히 수학 계산, 물리 법칙 판단(물체 배치, 운동이 규칙에 부합하는지 여부) 등 명확한 정답이 있는 작업에서 DeepSeek R1의 효과는 타 모델보다 우수하며 비용도 통제 가능하므로 광범위한 수직 분야에 적용할 수 있다. 그러나 정답이 없는 작업, 예를 들어 어떤 물건이 아름다운지 여부나 어떤 답변이 사람을 기쁘게 하는지와 같은 주관적 평가를 규칙 기반(rule-based) 방법으로는 잘 해결할 수 없다. 이러한 문제는 3개월 또는 6개월 정도 기다려야 더 나은 해결 방법이 나올 수 있다.
감독 미세조정(SFT) 또는 유사한 방법을 사용할 경우, 시간이 많이 소요되는 데이터셋 조회를 해결하기 어렵고, 이러한 데이터셋의 도메인 분포(domain distribution)도 작업의 모든 수준을 포괄하기 어렵다. 이제 새로운 고품질 툴킷과 고품질 모델이 등장하여 과거 데이터 수집이 어려웠던 명확한 정답을 가진 수직 작업을 해결할 수 있게 되었다.
규칙 시스템(rule-based)만으로는 수학 및 코드 분야에서 비교적 명확한 규칙을 정의할 수 있지만, 더 복잡하거나 더 개방적인 작업에 대응하려면 규칙 시스템에 의존하는 것이 매우 어려워진다. 따라서 궁극적으로는 이러한 복잡한 시나리오의 결과를 평가하기 위한 더 적합한 모델을 탐색하게 될 것이다. ORM(결과 중심 보상 함수)을 PRM(과정 중심 보상 함수) 대신 사용하거나 유사한 방법을 탐색할 수 있다. 궁극적으로는 다양한 모델의 의사결정에 더 나은 피드백을 제공할 수 있는 '월드 모델'과 같은 시뮬레이터를 구축하게 될 수도 있다.
소형 모델로 추론 능력을 훈련할 때, 토큰 기반 솔루션에 의존할 필요조차 없다. 어떤 전자상거래 분야 솔루션에서는 Transformer 기반 모델에서 전체 추론 능력을 직접 분리하여 다른 소형 모델로 모든 추론 작업을 수행하고 Transformer와 결합하여 전체 작업을 완성한다.
자체적으로 모델을 개발하여 사용하는 회사(예: 헤지펀드)에게 있어 도전 과제는 비용 문제이다. 대기업은 고객을 통해 비용을 분산시킬 수 있지만 소규모 팀이나 기업은 높은 연구개발 비용을 감당하기 어렵다. DeepSeek의 오픈소스는 그들에게 매우 중요한 의미를 가지며, 이전에는 높은 연구개발 비용을 감당할 수 없었던 팀들도 이제 모델을 구축할 수 있게 되었다는 의미이다.
금융 분야, 특히 양적 펀드에서는 회사 재무제표 및 블룸버그 데이터와 같은 방대한 재무 데이터를 분석해야 하는 경우가 많다. 이러한 기업들은 일반적으로 자체 데이터셋을 구축하고 감독 훈련(supervised training)을 수행하지만 데이터 주석 비용이 매우 높다. 이러한 기업들에게 있어 미세조정(fine-tuning) 단계에서 강화학습(RL)을 적용하면 모델 성능을 크게 향상시켜 질적 도약을 실현할 수 있다.

05 국산 칩이 추론 컴퓨팅 파워 문제 해결에 희망을 줄 수 있다

국내에서 A100, A800과 경쟁하는 칩은 많지만, 국산 칩의 가장 큰 병목은 칩 설계가 아니라 테이프아웃(流片)에 있다. DeepSeek가 화웨이에 적응한 것도 후자가 비교적 안정적으로 테이프아웃을 수행할 수 있고, 이후 더욱 엄격한 제재 하에서도 안정적인 훈련 및 추론을 보장할 수 있기 때문이다.
엔비디아의 향후 발전을 보면, 단일 카드 훈련 관점에서 이러한 고급 칩들은 일부 응용 시나리오에서 컴퓨팅 파워가 남는 경우가 있다. 예를 들어 단일 카드의 컴퓨팅 파워는 훈련 단계에서 추가적인 캐시 및 메모리 제약으로 인해 충분히 발휘되지 못해 훈련 작업에 가장 적합하지 않을 수 있다.
국내 칩 시장에서 만약 과학 계산을 고려하지 않고 오직 AI 응용에 집중하여 고정도 부동소수점 연산 능력을 크게 줄이고 AI 작업에만 집중한다면, 일부 성능 지표에서 엔비디아의 플래그십 칩을 따라잡을 수 있다.

06 더욱 강력한 에이전트 및 애플리케이션 간 호출 능력

많은 수직 분야에서 에이전트(agent)의 능력은 크게 향상될 것이다. 먼저 기본 모델을 확보하고 일부 규칙을 규칙 모델(rule model)로 만든다. 이 규칙 모델은 순수한 엔지니어링 솔루션(pure engineering solution)일 수 있다. 그런 다음 이 엔지니어링 솔루션을 이용해 기본 모델을 위에서 반복(iteration) 및 훈련(training)시킨다. 그렇게 하면 이미 일정 수준의 초인간 지능(super human intelligence)을 나타내는 결과를 얻을 수 있다. 이基础上에서 일부 선호 조정(preference tuning)을 거쳐 답변이 인간의 독서 습관(human-readable)에 더 부합하게 만들면, 특정 수직 분야에서 더욱 강력한 추론 에이전트를 얻을 수 있다.
이러한 접근은 문제가 될 수 있는데, 모든 수직 분야에서 강한 일반화 능력을 갖춘 에이전트를 가질 수 없다는 점이다. 특정 분야에서 훈련된 에이전트는 그 분야에서만 작동하며 다른 수직 분야로 일반화되지 않는다. 그러나 DeepSeek가 제공하는 추론 비용(inference cost)이 매우 낮기 때문에 하나의 모델을 선택해 일련의 강화 훈련을 거친 후 특정 수직 분야에만 서비스를 제공하고 다른 분야는 신경 쓰지 않는 방식은 가능한(상용화) 방향이 될 수 있다. 수직 AI 기업 입장에서는 수용 가능한 해결책이다.
학술적 관점에서 보면, 향후 1년간 중요한 트렌드 중 하나는 강화학습의 기존 방법들이 대규모 모델 응용으로 이전되어 현재의 일반화 부족 또는 평가 부정확 문제를 해결하는 것이다. 이를 통해 모델의 성능과 일반화 능력을 더욱 향상시킬 수 있으며, 강화학습의 적용으로 구조화된 정보 출력 능력이 크게 향상되어 궁극적으로 다양한 응용 시나리오를 더 잘 지원할 수 있고, 특히 그래프 및 기타 구조화된 콘텐츠 생성 효과를 향상시킬 수 있다.
점점 더 많은 사람들이 R1을 이용해 post training을 수행하게 되며, 각자가 자신만의 에이전트를 만들 수 있다. 모델 계층은 다양한 에이전트 모델이 되고, 서로 다른 도구를 사용하여 서로 다른 분야의 문제를 해결하며 궁극적으로 multi agent system을 실현하게 된다.
2025년은 지능형 에이전트(agent)의 원년이 될 가능성이 있다. 많은 기업들이 작업 계획 능력을 갖춘 에이전트를 출시할 것이다. 그러나 현재 이러한 작업을 지원할 만큼 충분한 데이터가 부족하다. 예를 들어 외식 주문, 여행 예약, 관광지 티켓 잔여량 확인 등을 도와주는 작업 계획이 필요한데, 이러한 작업에는 모델 정확도를 평가하기 위한 방대한 데이터와 보상 메커니즘이 필요하다. 예를 들어 장자제 여행 일정을 계획할 때, 옳고 그름을 어떻게 판단하며 어떻게 모델 학습을 진행할 것인지 등이 향후 연구의 핵심 과제가 될 것이며, 추론 능력은 궁극적으로 실제 문제 해결에 사용될 것이다.
2025년 애플리케이션 간 호출 능력은 핫이슈가 될 것이다. 안드로이드 시스템은 오픈소스 특성상 개발자가 저수준 권한을 통해 애플리케이션 간 작업을 수행할 수 있으므로, 에이전트는 앞으로 사용자의 브라우저, 휴대폰, 컴퓨터 등을 제어할 수 있다. 그러나 애플 생태계는 엄격한 권한 관리로 인해 에이전트가 기기의 모든 애플리케이션을 완전히 제어하는 데 큰 어려움이 있으며, 애플은 모든 애플리케이션을 제어할 수 있는 에이전트를 자체 개발해야 한다. 안드로이드는 오픈소스이긴 하지만 OPPO, 화웨이 등 제조사와 협력하여 휴대폰, 태블릿, 컴퓨터 등 기기에서 저수준 권한을 개방하고 데이터를 획득하여 에이전트 발전을 지원해야 한다.