DeepSeek에 대한 오해와 진실

2025.02.13

DeepSeek에 대한 오해와 진실

딥시크가 유발한 환각 역시 호기심에서 비롯된 것으로, 아마도 이것이 혁신의 양면일 것이다.

2025.02.13 - 09:57:27

DeepSeek

Web3 심층 보도에 집중하고 흐름을 통찰

딥시크가 유발한 환각 역시 호기심에서 비롯된 것으로, 아마도 이것이 혁신의 양면일 것이다.

저자: 저우위에, 경제관찰보

서론

일 ||구글, 메타, 앤트로픽 등의 기업들 입장에서 DeepSeek-R1과 유사한 추론 모델을 재현하는 것은 어렵지 않다. 그러나 거대 기업 간의 경쟁에서는 사소한 의사결정 실수조차도 기회를 놓치게 만든다.

이 ||DeepSeek-V3 모델의 순수 컴퓨팅 비용은 약 558만 달러로 이미 매우 효율적이다. 비용 외에도 AI 업계 종사자들을 더욱 고무시키는 것은 DeepSeek의 독특한 기술 경로, 알고리즘 혁신 및 개방형 소스에 대한 진정성이다.

삼 || 대규모 모델들은 모두 '환각(hallucination)' 문제를 피할 수 없으며, DeepSeek 역시 예외가 아니다. 일부 사용자들은 DeepSeek가 표현 능력과 논리적 추론 능력이 뛰어나기 때문에 발생하는 환각 문제가 더욱 식별하기 어렵다고 말한다.

지난 몇 주 동안 심층추색(DeepSeek)은 전 세계적으로 큰 파장을 일으켰다.

가장 뚜렷한 반응은 미국 주식시장에서 나타났다. 1월 27일, 미국 증시의 AI 및 반도체 관련 주가 급락했으며, 엔비디아(NVIDIA) 주가는 하루 만에 17% 이상 폭락하며 시가총액 5890억 달러가 증발되는 기록적인 낙폭을 기록했다.

일부 개인 미디어와 대중의 시각에서 DeepSeek는 "2025년 가장 짜릿한 스토리의 주인공"이며, 다음의 네 가지 "쾌감 포인트"를 지닌다:

첫째, '신비로운 힘이서 우회코스를 앞질렀다'는 점이다. DeepSeek는 2023년 설립된 비교적 '젊은' 대규모 모델 회사로, 그 이전까지 국내외 어떤 대기업이나 스타트업보다도 논의되지 않았다. 그 모회사인 환팡양화(幻方量化)의 주요 사업은 양적 투자다. 많은 사람들이 이해할 수 없는 것은 중국을 선도하는 AI 기업이 한 사모펀드로부터 나왔다는 사실이며, 이를 두고 '무작정 주먹으로 스승을 제압했다'고 표현한다.

둘째, '적은 힘으로 기적을 만들었다'는 점이다. DeepSeek-V3 모델의 학습 비용은 약 558만 달러로, OpenAI의 GPT-4o 모델 비용의 10분의 1도 되지 않지만 성능은 이미 거의 근접했다. 이를 두고 DeepSeek가 AI 산업이 숭배해온 '성경'인 규모 법칙(Scaling Law)을 뒤엎었다고 해석한다. 이 법칙은 학습 파라미터와 컴퓨팅 자원을 늘려 모델 성능을 향상시키는 것을 의미하며, 일반적으로 고품질 데이터를 더 많이 표준화하고 컴퓨팅 칩을 구매하는 데 더 많은 비용을 들이는 것을 포함한다. 이를 생생하게 '강력함으로 기적을 만들어낸다'고 부른다.

셋째, '엔비디아의 방어벽이 사라졌다'는 점이다. DeepSeek는 논문에서 자체 맞춤형 PTX(병렬 스레드 실행) 언어 프로그래밍을 채택하여 하드웨어의 성능을 더 잘 발휘했다고 언급했다. 이를 두고 DeepSeek가 '엔비디아의 CUDA 연산 플랫폼을 우회했다'고 해석된다.

넷째, '외국인들이 완전히 복종했다'는 점이다. 1월 31일, 단 하루 만에 엔비디아, 마이크로소프트, 아마존 등 해외 AI 거물들이 모두 DeepSeek를 도입했다. 순간적으로 "중국 AI가 미국을 역전했다", "OpenAI 시대는 끝났다", "AI 컴퓨팅 수요가 이제 사라진다"는 주장이 속출했으며, 거의 일방적으로 DeepSeek를 칭찬하고 실리콘밸리의 AI 거물들을 조롱했다.

그러나 자본시장의 공포 감정은 오래가지 못했다. 2월 6일, 엔비디아의 시가총액이 다시 3조 달러를 돌파했고, 미국 반도체 관련 주가는 전반적으로 상승했다. 이때쯤 앞선 네 가지 '쾌감 포인트'들도 대부분 오독임이 드러났다.

첫째, 2017년 말까지 환팡양화는 거의 모든 양적 거래 전략에 AI 모델 계산을 적용했다. 당시 AI 분야는 가장 중요한 딥러닝 물결을 겪고 있었으며, 즉 환팡양화는 최첨단 기술을 따라잡고 있었다고 할 수 있다.

2019년 환팡양화의 딥러닝 학습 플랫폼 '불꽃두 번째(Firefly No.2)'는 약 1만 장의 엔비디아 A100 그래픽카드를 탑재하고 있었다. 1만 개의 GPU는 자체 학습용 대규모 모델의 컴퓨팅 문턱이며, 이는 DeepSeek의 자원과 같다고 볼 수는 없지만 환팡양화는 많은 인터넷 대기업보다 먼저 대규모 모델 경쟁에 참가할 자격을 얻었다.

둘째, DeepSeek는 V3 모델 기술 보고서에서 "558만 달러에는 아키텍처, 알고리즘 또는 데이터 관련 초기 연구 및 소거 실험 비용이 포함되지 않는다"고 언급했다. 이는 DeepSeek의 실제 비용이 더 크다는 것을 의미한다.

여러 명의 AI 업계 전문가들과 종사자들은 경제관찰보에 DeepSeek가 업계의 법칙을 바꾼 것이 아니라 '더 현명한' 알고리즘과 아키텍처를 채택하여 자원을 절약하고 효율성을 높였다고 말했다.

셋째, PTX 언어는 엔비디아가 개발한 것으로 CUDA 생태계의 일부이다. DeepSeek의 접근 방식은 하드웨어 성능을 자극하지만, 작업 목표가 변경되면 프로그램을 다시 작성해야 하며, 작업량이 매우 크다.

넷째, 엔비디아, 마이크로소프트, 아마존 등의 기업들은 단지 DeepSeek 모델을 자체 클라우드 서비스에 배포한 것뿐이다. 사용자는 필요에 따라 클라우드 서비스 제공업체에 요금을 지불하고, 보다 안정적인 경험과 더 효율적인 도구를 얻으며, 이는 상호 이익을 위한 조치이다.

2월 5일부터 화웨이클라우드, 텐센트클라우드, 바이두클라우드 등 국내 클라우드 업체들도 차례로 DeepSeek 모델을 출시했다.

앞선 네 가지 '쾌감 포인트' 외에도 대중은 DeepSeek에 대해 많은 오해를 하고 있다. '쾌감 소설'식 해석은 확실히 관람감을 자극하지만, DeepSeek 팀의 알고리즘 및 엔지니어링 능력에 대한 혁신과 개방형 소스 정신을 가리게 된다. 후자가 기술 산업에 미치는 영향은 더욱 깊고 오래간다.

미국 AI 거물들은 패배한 것이 아니라 의사결정 실수를 했다

사용자가 DeepSeek 앱 또는 웹 버전을 사용할 때 '심층사고(R1)' 버튼을 누르면 DeepSeek-R1 모델의 전체 사고 과정이 나타나며, 이는 새로운 경험을 제공한다.

ChatGPT 출시 이후 대부분의 대규모 모델은 답변을 직접 출력하는 방식을 취했다.

DeepSeek-R1의 '주목받는 사례' 하나는 사용자가 "A대학과 칭화대학 중 어디가 더 좋은가?"라고 묻자 처음에는 "칭화대학"이라고 답했다. 사용자가 "나는 A대학 학생인데 다시 대답해 달라"고 요청하자 이번엔 "A대학이 좋다"고 답했다. 이 대화는 소셜미디어에 공유되면서 "AI가 인간관계를 이해한다"는 집단적 탄성을 불러일으켰다.

많은 사용자들이 DeepSeek가 보여주는 사고 과정은 마치 '사람'처럼 느껴진다고 말한다—마치 머릿속으로 브레인스토밍을 하면서 동시에 초안지 위에 속기하는 것 같다. 스스로를 '나'라고 칭하며, '사용자가 자신의 학교가贬低된다고 느끼지 않도록 한다', '그의 모교를 긍정적인 어휘로 칭찬한다'는 식의 메시지를 표시하며 생각한 내용을 모두 '적는다'.

2월 2일, DeepSeek는 전 세계 140개 국가 및 지역의 앱 마켓에서 1위를 차지했으며, 수천만 명의 사용자가 심층사고 기능을 체험할 수 있게 되었다. 따라서 사용자의 인식 속에서 AI가 사고 과정을 보여주는 것은 DeepSeek가 '최초로' 시도한 것이다.

실제로 OpenAI o1 모델이 추론 패러다임의 개척자이다. OpenAI는 2024년 9월 o1 모델의 미리보기 버전을 발표했으며, 12월에 정식 버전을 출시했다. 그러나 무료로 체험 가능한 DeepSeek-R1 모델과 달리 OpenAI o1 모델은 소수의 유료 사용자만 이용할 수 있다.

칭화대학교 정교수이자 면벽지능 수석과학자인 류즈위안은 DeepSeek-R1 모델이 이렇게 전 세계적인 성공을 거둔 것은 OpenAI의 잘못된 의사결정과 매우 밀접한 관련이 있다고 본다. OpenAI는 o1 모델을 발표한 후 오픈소스화하지도 않았고 기술 세부사항을 공개하지도 않았으며 요금 또한 매우 높아 외부로 확산되지 못하고 전 세계 사용자가 심층사고의 충격을 느낄 수 없게 되었다. 이러한 전략은 사실상 ChatGPT의 위치를 DeepSeek에게 내어준 셈이다.

기술적으로 현재 대규모 모델의 일반적인 패턴은 두 가지로 나뉜다: 사전학습 모델과 추론 모델. 대중에게 더 잘 알려진 OpenAI GPT 시리즈와 DeepSeek-V3 모델은 모두 사전학습 모델에 속한다.

반면 OpenAI o1과 DeepSeek-R1은 추론 모델에 속하며, 이는 새로운 패러다임으로, 모델이 사고연쇄(chain-of-thought)를 통해 복잡한 문제를 단계적으로 분해하고, 하나씩 검토한 후 상대적으로 정확하고 통찰력 있는 결과를 도출하는 방식이다.

수십 년간 AI 연구를 해온 궈청카이는 경제관찰보에 추론 패러다임은 상대적으로 쉽게 '우회코스를 앞질러갈 수 있는' 분야라고 말했다. 추론이라는 새로운 패러다임은 빠르게 반복되며, 적은 컴퓨팅량에서도 눈에 띄는 향상을 이루기 쉽다. 전제는 강력한 사전학습 모델을 가지고 있으며, 강화학습을 통해 대규모 사전학습 모델의 잠재력을 깊이 발굴하여 추론 패러다임 하에서 대규모 모델의 능력 한계에 근접하는 것이다.

구글, 메타, 앤트로픽 등의 기업들에게 DeepSeek-R1과 유사한 추론 모델을 재현하는 것은 어렵지 않다. 그러나 거대 기업들의 경쟁에서는 사소한 의사결정 실수조차도 기회를 놓칠 수 있다.

뚜렷한 사실은 2월 6일 구글이 저렴한 가격과 더 긴 컨텍스트 길이를 가진 추론 모델 Gemini Flash 2.0 Thinking을 출시했으며, 몇몇 테스트에서 R1보다 우수한 성능을 보였음에도 불구하고 DeepSeek-R1 모델만큼의 큰 파장을 일으키지는 못했다는 점이다.

논의할 가치가 가장 큰 것은 저비용이 아니라,

기술 혁신과 '충만한 진심'을 담은 오픈소스 전략

오랫동안 DeepSeek에 대한 가장 널리 퍼진 논의는 '저비용'에 관한 것이었으며, 2024년 5월 DeepSeek-V2 모델 출시 이후 이 회사는 'AI계의 핀둬둬(Pinduoduo)'라며 조롱당하기도 했다.

네이처지(Nature)는 메타가 최신 AI 모델 Llama3.1 405B를 학습시키는 데 6000만 달러 이상을 소비한 반면, DeepSeek-V3는 그 10분의 1도 안 되는 비용만 들였다고 보도했다. 이는 단순한 컴퓨팅 규모보다 자원의 효율적 활용이 더 중요함을 보여준다.

일부 기관들은 DeepSeek의 학습 비용이 과소평가되었다고 본다. AI 및 반도체 산업 분석기관인 세미애널리시스(Semi Analysis)는 보고서에서 DeepSeek의 사전학습 비용이 해당 모델의 실제 투입 비용과 크게 다르다고 주장했다. 이 기관의 추산에 따르면 DeepSeek가 GPU를 구매하는 데 총 25.73억 달러를 지출했으며, 서버 구매 비용은 16.29억 달러, 운영 비용은 9.44억 달러였다.

하지만 어쨌든 DeepSeek-V3 모델의 순수 컴퓨팅 비용은 약 558만 달러로 이미 매우 효율적이다.

비용 외에도 AI 업계 종사자들을 더욱 고무시키는 것은 DeepSeek의 독특한 기술 경로, 알고리즘 혁신 및 오픈소스에 대한 진정성이다.

궈청카이는 현재 많은 방법들이 감독 미세조정(SFT) 같은 대규모 모델의 전통적인 학습 방식에 의존하여 많은 양의 표준화된 데이터를 필요로 한다고 소개했다. DeepSeek는 대규모 강화학습(RL) 방법을 통해 추론 능력을 향상시키는 새로운 방법을 제안하여 새로운 연구 방향을 열었다. 또한 다중헤드 잠재적 주의력(MLA)은 DeepSeek가 추론 비용을 크게 줄인 핵심 혁신이며, 추론 비용을 획기적으로 낮췄다.

칭화대학교 교수이자 청청지지 수석과학자인 자이지둥은 DeepSeek가 가장 인상 깊었던 점은 전문가 혼합 아키텍처(MoE)의 혁신이라며, 각 층마다 256개의 라우팅 전문가와 1개의 공유 전문가를 두었다고 말했다. 기존 연구에서는 보조손실(Auxiliary Loss) 알고리즘이 있어 그래디언트에 교란을 일으켜 모델 수렴에 영향을 주었다. DeepSeek는 LossFree 방식을 제안하여 모델이 효과적으로 수렴하면서도 로드 밸런싱을 실현했다.

자이지둥은 "DeepSeek 팀은 혁신을 두려워하지 않는 편이다. 외국의 전략을 맹목적으로 따르지 않고 자신만의 사고를 하는 것이 중요하다"고 강조했다.

AI 종사자들을 더욱 흥분시키는 것은 DeepSeek의 '충만한 진심'을 담은 오픈소스 전략이 이미 다소 기운이 빠진 오픈소스 커뮤니티에 일종의 '강심제'를 주입했다는 점이다.

이에 앞서 오픈소스 커뮤니티의 가장 강력한 기둥은 메타의 4000억 파라미터 모델인 Llama3였다. 그러나 많은 개발자들이 경제관찰보에 체험 후에도 Llama3는 폐쇄형 모델인 GPT-4 등과 최소한 한 세대 차이가 나며, "거의 자신감을 잃게 된다"고 말했다.

그러나 DeepSeek의 오픈소스는 세 가지 일을 통해 개발자들에게 다시 한 번 신뢰를 주었다:

첫째, 671B 모델을 직접 오픈소스로 공개했으며, 여러 인기 아키텍처 기반의 증류 모델(distilled models)도 함께 출시하여 '좋은 선생님이 더 많은 좋은 제자를 가르친다'는 효과를 냈다.

둘째, 공개한 논문 및 기술 보고서에는 방대한 기술 세부정보가 포함되어 있다. V3 모델과 R1 모델의 논문은 각각 50페이지와 150페이지로, 오픈소스 커뮤니티 내에서 '가장 상세한 기술 보고서'로 불린다. 이는 유사한 자원을 가진 개인이나 기업이 이 '설명서'를 따라 모델을 재현할 수 있음을 의미한다. 많은 개발자들이 읽은 후 '우아하다', '견고하다'는 평가를 내렸다.

셋째, 특히 주목할 점은 DeepSeek-R1이 MIT 라이선스를 채택하여 누구나 자유롭게 사용, 수정, 배포 및 상용화할 수 있으며, 모든 복제본에 원본 저작권 표시와 MIT 라이선스를 유지하기만 하면 된다는 점이다. 즉 사용자는 모델 가중치와 출력물을 자유롭게 2차 개발에 활용할 수 있으며, 미세조정과 증류도 가능하다는 의미다.

Llama는 2차 개발과 상용화를 허용하지만, 라이선스에 일부 제한 조건을 추가했다. 예를 들어 Llama는 월간 활성 사용자 7억 명 이상의 기업 사용자에게 추가 제한을 두었으며, Llama의 출력 결과를 다른 대규모 모델 개선에 사용하는 것을 명백히 금지하고 있다.

한 개발자는 경제관찰보에 자신이 DeepSeek-V2 버전부터 코드 생성 개발에 사용해왔다고 말했다. DeepSeek 모델은 매우 저렴할 뿐 아니라 성능도 매우 우수하다. 그가 사용한 모든 모델 중 OpenAI와 DeepSeek 모델만이 30층 이상의 유효한 논리를 출력할 수 있었다. 이는 전문 프로그래머가 도구를 활용해 30~70%의 코드를 보조 생성할 수 있음을 의미한다.

여러 개발자들은 경제관찰보에 앞서 DeepSeek의 오픈소스가 가지는 중요한 의미를 강조했다. 그 이전까지 업계를 선도하던 OpenAI와 Anthropic은 마치 실리콘밸리의 귀족 같았다. DeepSeek는 지식을 모두에게 개방하며 평민화시켰고, 이는 중요한 평등화이며, 전 세계 오픈소스 커뮤니티 개발자들이 DeepSeek의 어깨 위에 서게 했으며, DeepSeek 또한 전 세계 최고의 창조자와 매니아들의 아이디어를 수집할 수 있게 되었다.

튜링상 수상자이자 메타 수석과학자인 얀 르쿤(Yann LeCun)은 DeepSeek의 부상에 대한 올바른 해석은 오픈소스 모델이 폐쇄형 모델을 넘어섰다는 것이다.

DeepSeek는 훌륭하지만 완벽하지는 않다

대규모 모델들은 모두 '환각(hallucination)' 문제를 피할 수 없으며, DeepSeek 역시 예외가 아니다. 일부 사용자들은 DeepSeek가 표현 능력과 논리적 추론 능력이 뛰어나기 때문에 발생하는 환각 문제가 더욱 식별하기 어렵다고 말한다.

한 네티즌이 소셜미디어에 DeepSeek에게 특정 도시의 경로 계획 문제를 질문했다고 전했다. DeepSeek는 몇 가지 이유를 설명하며 도시계획 보호 규정과 데이터를 나열하고, '침묵 구역(silent zone)'이라는 개념을 인용해 마치 매우 합리적인 답변처럼 보이게 했다.

같은 질문에 대해 다른 AI의 답변은 이처럼 깊이 있지 않아 사람이 바로 '허튼소리'임을 알아볼 수 있었다.

이 사용자는 해당 보호 규정을 확인한 결과 전문 어디에도 '침묵 구역'이라는 용어가 없다는 것을 발견했다. 그는 "DeepSeek가 중국 인터넷에 '환각의 장성'을 건설하고 있다"고 말했다.

궈청카이도 유사한 문제를 발견했는데, DeepSeek-R1의 답변은 특정 전문 용어를 '남의 이름을 붙여 남용'하는 경우가 있으며, 특히 개방형 질문에서 '환각' 경험은 더욱 심각하다고 말했다. 그는 모델의 추론 능력이 너무 강해 많은 지식과 데이터를 잠재적으로 연결하기 때문일 것이라고 추측했다.

그는 DeepSeek 사용 시 인터넷 검색 기능을 켜고, 특히 사고 과정을 확인하며 인위적으로 오류를 개입·수정할 것을 권장한다. 또한, 추론 모델 사용 시 가능하면 간결한 프롬프트를 사용할 것. 프롬프트가 길수록 모델의 연상 내용이 많아진다.

류즈위안은 DeepSeek-R1이 자주 고급 어휘를 사용하는데, 대표적으로 양자 얽힘과 엔트로피 증가/감소(다양한 분야에 적용됨)가 있다. 그는 이는 강화학습에서 어떤 메커니즘이 설정되었기 때문일 것이라고 추측했다. 또한 R1은 일부 일반 분야에서 groundtruth(해당 테스트를 위해 적절한 객관적 데이터를 수집하는 과정)가 없는 작업에서의 추론 효과가 아직 이상적이지 않으며, 강화학습의 학습이 일반화를 보장하지는 못한다고 지적했다.

'환각'이라는 일반적인 문제 외에도 DeepSeek가 해결해야 할 지속적인 문제들이 있다.

하나는 '증류 기술'이 초래할 수 있는 지속적인 분쟁이다. 모델 또는 지식 증류는 일반적으로 강력한 모델이 응답을 생성하도록 하여 약한 모델을 학습시키고, 이를 통해 약한 모델의 성능을 향상시키는 것을 포함한다.

1월 29일 OpenAI는 DeepSeek가 모델 증류 기술을 이용해 자체 기술로 모델을 학습시켰다고 주장했다. OpenAI는 DeepSeek가 자사의 독점 모델을 사용해 자체 오픈소스 모델을 학습시켰다는 증거가 있다고 밝혔지만 추가적인 증거는 제시하지 않았다. OpenAI의 서비스 약관은 사용자가 자사 서비스를 '복제'하거나 '출력물을 사용해 OpenAI와 경쟁하는 모델을 개발하는 것'을 금지하고 있다.

궈청카이는 선도 모델 기반 증류를 통해 자체 모델을 검증하고 최적화하는 것은 많은 대규모 모델 학습의 일반적인 작업이라고 본다. DeepSeek는 이미 모델을 오픈소스로 공개했으므로 검증은 쉬운 일이다. 또한 OpenAI 초기 학습 데이터 자체에도 합법성 문제가 존재하며, 만약 DeepSeek에 대해 법적 조치를 취한다면 자사 약관의 합법성을 법적 차원에서 수호하고, 약관 내용을 더욱 명확히 해야 한다.

DeepSeek가 해결해야 할 또 다른 문제는 더 큰 규모의 파라미터를 갖는 사전학습 모델을 어떻게 추진할 것인지이다. 이 분야에서 더 많은 고품질 표준화 데이터와 컴퓨팅 자원을 보유한 OpenAI조차도 GPT-5라는 더 큰 규모의 사전학습 모델을 아직 출시하지 않았는데, DeepSeek가 계속 기적을 만들 수 있을지 여부는 여전히 의문이다.

어찌 됐든 DeepSeek가 만들어내는 환각에 대한 반응 역시 호기심에서 비롯된 것이며, 이는 아마도 혁신의 양면일 것이다. 창업자 량원펑이 말했듯이: "혁신은 완전히 상업적 동기에 의해 이루어지는 것이 아니라 호기심과 창조욕이 필요하다. 중국의 AI는 영원히 따라갈 수 없으며, 누군가는 기술의 최전선에 서야 한다."

TechFlow 공식 커뮤니티에 오신 것을 환영합니다

Telegram 구독 그룹:https://t.me/TechFlowDaily

트위터 공식 계정:https://x.com/TechFlowPost

트위터 영어 계정:https://x.com/BlockFlow_News

원문 링크

즐겨찾기 추가

소셜 미디어 공유

작성자

经济观察报