두바오의 압박은 이제 막 시작됐다

2025.02.13

두바오의 압박은 이제 막 시작됐다

기자에 따르면 현재 두바오 팀 내부에서는 두바오 앱에 DeepSeek를 연동할지 여부를 논의 중이다.

2025.02.13 - 08:54:07

Web3 심층 보도에 집중하고 흐름을 통찰

기자에 따르면 현재 두바오 팀 내부에서는 두바오 앱에 DeepSeek를 연동할지 여부를 논의 중이다.

기사 출처: 장양양,차이롄 AI 데일리

이미지 출처: 무계AI 생성

오늘, 바이트댄스 두바오 대규모 모델 팀은 새로운 스파스 모델 아키텍처 UltraMem을 제안했다. 이 아키텍처는 MoE 추론 시 발생하는 높은 메모리 접근 비용 문제를 효과적으로 해결하며, 기존 MoE 아키텍처 대비 추론 속도가 2~6배 향상되고, 추론 비용은 최대 83%까지 절감할 수 있다.

현재 국내외 대규모 모델 분야의 경쟁은 갈수록 치열해져 이미 백열화 단계에 접어들었다. 두바오는 AI 기반 계층과 응용 계층 모두에서 전면적인 포지셔닝을 완료하고 지속적으로 반복 업그레이드하고 있다.

대규모 모델의 지속적인 비용 절감 및 효율 증가

두바오 대규모 모델 팀의 연구에 따르면, 트랜스포머 아키텍처 하에서 모델 성능은 파라미터 수와 계산 복잡도에 대해 로그 관계를 보인다. LLM 규모가 계속 커짐에 따라 추론 비용은 급격히 증가하고 속도는 느려진다.

MoE(Mixture of Experts, 전문가 혼합) 아키텍처가 이미 계산과 파라미터를 해체했음에도 불구하고, 추론 시 작은 배치 크기에서도 모든 전문가가 활성화되어 메모리 접근량이 급증하고, 결과적으로 추론 지연이 크게 증가한다.

바이트댄스 두바오 대규모 모델 파운데이션 팀은 UltraMem을 제안했는데, 이는 계산과 파라미터를 동일하게 분리하는 스파스 모델 아키텍처로, 모델 성능을 유지하면서 추론 과정의 메모리 접근 문제를 해결한다.

실험 결과에 따르면, 동일한 파라미터 및 활성화 조건에서 UltraMem은 MoE보다 우수한 모델 성능을 보이며 추론 속도를 2~6배 향상시켰다. 또한 일반적인 배치 크기에서 UltraMem의 메모리 접근 비용은 동일한 계산량의 Dense 모델과 거의 동일하다.

훈련 단계와 추론 단계 모두에서 대규모 모델 제조사들이 비용 절감과 효율 증가를 위해 노력하고 있음을 알 수 있다. 핵심 원인은 모델 규모 확대에 따라 추론 비용과 메모리 접근 효율성이 대규모 모델의 광범위한 적용을 제약하는 주요 병목 현상이 되었으며, DeepSeek는 이미 "저비용 고성능" 돌파의 길을 개척했다는 것이다.

옌신수즈 CEO 류판핑(劉凡平)은 科创板日报 기자 인터뷰에서 "대규모 모델 비용 절감을 위해서 업계는 기술적·공학적 측면에서의 돌파를 선호하며, 아키텍처 최적화를 통한 '회전코너 추월'을 실현하고자 한다. 기반 아키텍처, 예를 들어 트랜스포머 아키텍처의 비용은 여전히 높으며, 새로운 아키텍처 연구가 반드시 필요하다. 기본 알고리즘, 특히 역전파 알고리즘은 딥러닝의 병목일 수 있다."라고 분석했다.

류판핑은 단기적으로 고급 칩 시장은 여전히 엔비디아가 주도할 것이라고 말했다. 추론 애플리케이션 수요는 증가하고 있으며 국산 GPU 공급업체들도 지금 기회를 잡을 수 있다고 본다. 장기적으로 보면 알고리즘의 혁신 결과는 매우 인상적이며, 전체 컴퓨팅 파워 수요 시장은 향후 지켜봐야 할 부분이다고 덧붙였다.

두바오의 압박은 이제 막 시작됐다

막 지난 설 연휴 기간, DeepSeek는 낮은 훈련 비용과 높은 연산 효율로 빠르게 전 세계적으로 주목받으며 AI 분야의 다크호스가 되었다.현재 국내외 대규모 모델 분야의 경쟁은 갈수록 치열해져 이미 백열화 단계에 접어들었다.

DeepSeek는 현재 중국 내 대규모 모델 중에서 두바오의 가장 강력한 경쟁자이며, 1월 28일 일일 활성 사용자 수가 사상 처음으로 두바오를 넘어섰다. 현재 DeepSeek의 일일 활성 데이터는 4천만을 돌파하며, 중국 모바일 인터넷 역사상 출시 한 달도 안 돼 전국 일일 활성 Top50에 진입한 첫 번째 애플리케이션이 되었다.

최근 며칠간 두바오 대규모 모델 팀은 연이어 신제품을 발표했다. 이틀 전에는 비디오 생성 실험 모델 'VideoWorld'를 발표했는데, Sora, DALL-E, Midjourney 등 주요 멀티모달 모델과 달리 VideoWorld는 업계 최초로 언어 모델에 의존하지 않고도 세계를 인지할 수 있게 구현했다.

현재 두바오는 AI 기반 계층과 응용 계층 모두에서 전면적인 포지셔닝을 완료하고 지속적으로 반복 업그레이드하고 있다. 그들의 AI 제품 매트릭스는 AI 챗봇 어시스턴트 두바오, 마오샹, 즉몽AI, 시홍, 두바오 마스코드 등 여러 분야를 아우르고 있다.

2월 12일, 두바오 관련주가 오후 들어 급등세를 보였다. Wind 데이터에 따르면, 2월 이후 두바오 지수 누적 상승률은 15%를 넘었다. 개별 종목을 보면, 보옌테크놀로지가 강세로 상한가를 기록했으며, 한더정보도 급등해 상한가를 일시적으로 기록했고, 광허퉁, 씬진수퉁 등도 장중 상승세를 보였다.

광신증권은 이전 보고서에서 두바오 AI의 생태계 확장이 거물급 기업들의 새로운 기술 투자 사이클을 촉발할 것이라고 평가했다. AI 산업은 강력한 네트워크 효과와 규모의 경제를 갖추고 있어, 선도적인 AI 애플리케이션이 사용자 우위를 확보하면 모델 정확도, 한계비용, 사용자 유착력 등의 경쟁 우위가 점차 강화될 것이라고 분석했다.

두바오 사용자 수는 계속해서 증가하고 있으며, 두바오 AI 기반의 애플리케이션 생태계도 가속화될 전망이다. 한편으로는 회사의 AI 훈련 및 추론 컴퓨팅 인프라에 대한 투자를 촉진할 것이며, 다른 한편으로는 두바오 AI의 급속한 성장이 다른 거대 기업들이 AI 인프라에 대한 투자를 늘리는 데 자극을 줄 것이다.

하지만 두바오 입장에서는 우등생 DeepSeek와의 겨룸이 이제 막 시작되었을 뿐이다.

오픈소스 모델로서 DeepSeek의 저비용과 고성능은 많은 기업의 모델 선택 전략을 변화시키고 있다. 현재 화웨이, 바이두 등 여러 기업의 AI 애플리케이션들이 DeepSeek 도입을 발표했으며, 심지어 바이트댄스 자체도 자회사인 필라이트의 다차원 표 형식 기능에 DeepSeek-R1 모델을 도입했고, 화산엔진도 이를 적응시켰다.

科创板日报 취재에 따르면, 현재 두바오 팀 내부에서는 두바오 앱이 DeepSeek를 도입할지 여부를 놓고 논의 중이다. 사용자 경험 측면에서 더 우수한 모델을 선택하는 것은 당연하지만, 자체 모델을 포기하고 경쟁사 모델을 선택하는 것은 주주들에게 설명하기 어렵다. 게다가 새로운 모델 도입으로 인한 추가 적응 부담 등의 문제도 고려해야 한다.

TechFlow 공식 커뮤니티에 오신 것을 환영합니다

Telegram 구독 그룹:https://t.me/TechFlowDaily

트위터 공식 계정:https://x.com/TechFlowPost

트위터 영어 계정:https://x.com/BlockFlow_News

원문 링크

즐겨찾기 추가

소셜 미디어 공유

작성자

财联社AI daily