
전 세계에서 가장 큰 오픈소스 비디오 모델이 이제 중국에서 개발되었습니다. 계월(階躍)의 작품
작성자: 헝위, 출처: 오비사

이미지 출처: 무계 AI 생성
방금 전, 제약성우는 길리자동차그룹과 함께 두 가지 다중모달 대규모 모델을 오픈소스로 공개했다!
신규 모델은 총 2종:
-
전 세계적으로 파라미터 규모가 가장 큰 오픈소스 비디오 생성 모델 Step-Video-T2V
-
업계 최초의 제품급 오픈소스 음성 대화 대규모 모델 Step-Audio
다중모달 분야의 경쟁 강자인 제약성우가 마침내 다중모달 모델을 오픈소스로 공개했으며, Step-Video-T2V는 가장 개방적이고 자유로운 MIT 라이선스를 채택하여 임의 수정 및 상업적 활용이 가능하다.
(기존 방식대로 GitHub, Baai LLM Hub, ModelScope 링크는 기사 하단 참조)
두 가지 대규모 모델 개발 과정에서 양측은 컴퓨팅 자원, 알고리즘, 시나리오 트레이닝 등 분야에서 서로 보완하며 "다중모달 대규모 모델의 성능을 현저히 향상시켰다".
공식 발표한 기술 보고서에 따르면 이번에 공개된 두 모델은 벤치마크에서 우수한 성능을 보이며 국내외 동종 오픈소스 모델을 능가한다.
Baai LLM Hub 공식 계정도 중국 지역 담당자의 높은 평가를 리트윗했다.
핵심은 “The next DeepSeek”, “HUGE SoTA”.

아하, 그렇습니까?
양쯔닷컴은 본문에서 기술 보고서와 직접 실측 결과를 깊이 분석해 그 명성이 허명이 아닌지 확인할 것이다.

양쯔닷컴 확인 결과 현재 이 두 가지 새로운 오픈소스 모델은모두 '열문 앱(Yuewen App)'에 접속되어 누구나 체험 가능하다.
다중모달 경쟁 강자가 처음으로 다중모달 모델을 오픈소스화
Step-Video-T2V와 Step-Audio는 제약성우가 처음으로 공개한 다중모달 모델이다.
Step-Video-T2V
먼저 비디오 생성 모델 Step-Video-T2V를 살펴보자.
이 모델의 파라미터 수는 30B에 달하며, 현재까지 알려진 전 세계에서 파라미터 규모가 가장 큰 오픈소스 비디오 생성 대규모 모델이며, 원래부터 중문 및 영문 입력을 지원한다.

공식 설명에 따르면 Step-Video-T2V는 다음과 같은 4가지 주요 기술 특징을 갖췄다:
첫째, 최대 204프레임, 540P 해상도의 비디오를 직접 생성할 수 있어 생성된 비디오의 내용 일관성과 정보 밀도가 매우 높다.
둘째, 비디오 생성 작업을 위해 고압축률의 Video-VAE를 설계하고 학습시켰으며, 비디오 재구성 품질을 유지하면서 공간 차원에서 16×16배, 시간 차원에서 8배 압축이 가능하다.
현재 시장의 대부분 VAE 모델은 8x8x4 압축률인데 반해, Video-VAE는 동일한 프레임 수 기준으로 추가로 8배 더 압축되므로 학습 및 생성 효율이 모두 64배 향상된다.
셋째, DiT 모델의 초파라미터 설정, 모델 구조 및 학습 효율에 대해 Step-Video-T2V는 심층적인 시스템 최적화를 수행하여 학습 과정의 효율성과 안정성을 보장한다.
넷째, 사전 학습 및 후속 학습을 포함한 완전한 학습 전략을 상세히 소개하며 각 단계의 학습 작업, 학습 목표, 데이터 구성 및 선별 방법 등을 설명한다.
또한, Step-Video-T2V는 학습 마지막 단계에서 Video-DPO(비디오 선호도 최적화)를 도입했는데, 이는 비디오 생성을 위한 RL 최적화 알고리즘으로 비디오 생성 품질을 더욱 향상시키고 생성된 비디오의 타당성과 안정성을 강화한다.
최종 효과로서 생성된 비디오의 움직임이 더 부드럽고, 디테일이 더욱 풍부하며, 지시어 준수가 더욱 정확하게 된다.

오픈소스 비디오 생성 모델의 성능을 종합적으로 평가하기 위해 제약성우는 이번에 문장-비디오 생성 품질 평가용 신규 벤치마크 데이터셋 Step-Video-T2V-Eval을 함께 공개했다.
해당 데이터셋 또한 동시에 오픈소스화되었다~
이 데이터셋은 실제 사용자로부터 유래한 128개의 중국어 평가 질문을 포함하며, 운동, 풍경, 동물, 복합 개념, 초현실주의 등 11개 콘텐츠 범주에서 생성된 비디오의 품질을 평가하는 것을 목적으로 한다.
Step-Video-T2V-Eval에서의 평가 결과는 아래 이미지와 같다:

확인할 수 있듯이 Step-Video-T2V는 지시어 준수, 움직임 부드러움, 물리적 타당성, 미적 감각 등 여러 면에서 기존 최고의 오픈소스 비디오 모델을 능가한다.
이는 즉, 전체 비디오 생성 분야가 이제 이 새로운 최강 기반 모델을 바탕으로 연구와 혁신을 진행할 수 있음을 의미한다.
실제 효과 측면에서 제약성우는 다음과 같이 설명했다:
생성 효과 면에서 Step-Video-T2V는 복잡한 움직임, 미적 인물, 시각적 상상력, 기본 텍스트 생성, 원생 중영 이중 언어 입력, 카메라 연출 등 다양한 측면에서 강력한 생성 능력을 갖추었으며, 의미 이해 및 지시어 준수 능력이 뛰어나 비디오 창작자가 정밀한 창의 표현을 실현하도록 효율적으로 지원할 수 있다.
무엇을 기다리겠는가? 실측 시작하자―
공식 설명 순서에 따라, 첫 번째 관문은 Step-Video-T2V가 복잡한 움직임을 잘 처리할 수 있는지 테스트하는 것이다.
기존의 비디오 생성 모델은 발레/국제 표준 댄스/중국 무용, 리듬 체조, 공수도, 무술 등의 다양한 복잡한 움직임 세그먼트를 생성할 때 항상 이상한 화면이 나타났다.
예를 들어 갑자기 나타나는 세 번째 다리, 교차 융합된 팔 등 꽤 소름 끼친다.
이러한 경우를 대상으로 정밀 테스트를 진행하여 Step-Video-T2V에 다음 프롬프트를 제공했다:
실내 배드민턴 코트, 정면 시점, 고정 카메라가 남성 한 명이 배드민턴을 치는 장면을 녹화한다. 붉은색 반팔 티셔츠와 검정색 반바지를 입은 남성이 녹색 배드민턴 코트 중앙에 서서 배드민턴 라켓을 들고 있다. 네트가 코트를 가로질러 두 부분으로 나뉜다. 남성이 라켓을 휘두르며 셔틀콕을 맞힌다. 조명은 밝고 균일하며 화면은 선명하다.
장면, 인물, 카메라, 조명, 동작 모두 일치한다.
생성된 영상에 '미적 인물'이 포함되는 것은 양쯔닷컴이 Step-Video-T2V에게 내건 두 번째 도전 과제이다.
솔직히 말해, 현재 텍스트-이미지 생성 모델이 사람 사진을 생성하는 수준은 정지 상태와 국부적 디테일 면에서 완전히 현실감 있게 만들 수 있다.
하지만 비디오 생성 시 인물이 움직이기 시작하면 여전히 식별 가능한 물리적 또는 논리적 결함이 존재한다.
그런데 Step-Video-T2V의 성능은―
프롬프트:남성 한 명이 검정색 수트를 입고 진한 색 넥타이와 흰 셔츠를 매치하였으며 얼굴에 상처 자국이 있고 표정이 엄숙하다. 클로즈업 샷.
“별로 AI 느낌이 안 난다.”
이는 양쯔닷컴 편집부 동료들이 영상을 돌려보며 내린 일치된 평가이다.
즉, 얼굴형이 바르고 피부 질감이 사실적이며 얼굴의 상처 자국이 선명하게 보이는 그런 “별로 AI 느낌이 안 나는 것”이다.
또한 생생하면서도 주인공의 눈빛이 텅 빈 것이나 표정이 딱딱하지 않은 그런 “별로 AI 느낌이 안 나는 것”이다.
지금까지 두 가지 테스트 모두 Step-Video-T2V가 고정 카메라 위치를 유지하도록 했다.
그렇다면 추격, 당김, 요搖, 이동 등은 어떻게 될까?
세 번째 관문, Step-Video-T2V의 카메라 연출 숙련도를 시험한다. 예를 들어 줌인/줌아웃, 회전, 추적 등.
회전하라 하면 회전한다:
꽤 괜찮다! 스탠니캠을 어깨에 메고 세트장에서 카메라맨으로 활동해도 될 듯(농담).
여러 번의 테스트를 거쳐 생성 효과는 다음과 같은 답을 제시했다:
Step-Video-T2V는 평가 세트 결과처럼 의미 이해 및 지시어 준수 능력이 뛰어나다.
심지어 기본 텍스트 생성도 쉽게 해낸다:
Step-Audio
동시에 공개된 또 다른 모델인 Step-Audio는 업계 최초의 제품급 오픈소스 음성 대화 모델이다.
자체 개발하고 오픈소스화한 다차원 평가 체계 StepEval-Audio-360 벤치마크 테스트에서 Step-Audio는 논리 추론, 창작 능력, 지시어 제어, 언어 능력, 역할극, 문자 게임, 감성 가치 등 모든 차원에서 최고 점수를 기록했다.

LlaMA Question, Web Questions 등 5대 주요 공개 테스트 세트에서 Step-Audio는 모두 업계 동종 오픈소스 모델을 능가하며 1위를 차지했다.
특히 HSK-6(한어수평시험 6급) 평가에서 특히 두드러진 성과를 보였다.
실제 테스트는 다음과 같다:
제약성우 팀에 따르면 Step-Audio는 다양한 시나리오 요구에 따라 감정, 방언, 언어, 노래, 개인화된 스타일의 표현을 생성할 수 있으며 사용자와 자연스럽고 고품질의 대화를 할 수 있다.
동시에 생성된 음성은 사실적이고 자연스러울 뿐 아니라 고감성 특징을 갖추며 고품질 음성 복제 및 역할극도 가능하다.
결국 영화·엔터테인먼트, 소셜, 게임 등 산업 분야의 응용 수요를 Step-Audio가 완벽하게 만족시켜줄 것이다.
제약성우의 오픈소스 생태계가 눈덩이처럼 불어나고 있다
어떻게 보면, 딱 한 마디로 요약하면: 경쟁 심화.
제약성우는 정말 치열하다. 특히 자신들의 강점인 다중모달 모델 분야에서는―
자사 Step 시리즈의 다중모달 모델은 출시 이후 국내외 주요 권위 평가 세트, 경연장 등에서 줄곧 1위를 차지해왔다.
최근 3개월만 봐도 이미 수차례 정상에 올랐다.
-
지난해 11월 22일, 대규모 모델 경연장 최신 랭킹에서 다중모달 이해 모델 Step-1V가 이름을 올렸으며, 총점은 Gemini-1.5-Flash-8B-Exp-0827과 동등해 시각 분야 중국산 대규모 모델 중 1위를 기록했다.
-
올해 1월, 국내 대규모 모델 평가 플랫폼 '사낭'(OpenCompass)의 다중모달 모델 실시간 랭킹에서 새롭게 출시된 Step-1o 시리즈 모델이 1위를 차지했다.
-
같은 날 대규모 모델 경연장 최신 랭킹에서 다중모달 모델 Step-1o-vision이 국내 시각 분야 대규모 모델 1위를 차지했다.

또한 제약성우의 다중모달 모델은 성능이 우수하고 품질이 뛰어날 뿐 아니라 연구 개발 및 반복 주기도 매우 빠르다―
지금까지 제약성우는 이미 11종의 다중모달 대규모 모델을 차례로 출시했다.
지난달에는 6일 만에 6개 모델을 연이어 출시하여 언어, 음성, 시각, 추론 전 분야를 아우르며 다중모달 경쟁 강자의 위상을 더욱 공고히 했다.
이번 달에도 2종의 다중모달 모델을 오픈소스로 공개했다.
이런 리듬을 안정적으로 유지한다면 계속해서 '풀패키지급 다중모달 플레이어'의 지위를 증명할 수 있을 것이다.
강력한 다중모달 역량을 바탕으로 2024년부터 시장과 개발자들이 제약성우 API를 인정하고 광범위하게 접속하며 방대한 사용자 기반을 형성했다.
대중 소비재 분야에서 '차백도'는 전국 수천 개 매장을 다중모달 이해 모델 Step-1V에 연결하여 차 음료 산업에서의 대규모 모델 기술 적용을 탐색하고 스마트 점검, AIGC 마케팅 등을 수행하고 있다.
공개된 데이터에 따르면 하루 평균 백만 잔 이상의 차백도 음료가 대규모 모델의 스마트 점검 하에서 소비자에게 전달되고 있다.
Step-1V는 차백도 감독원들이 매일 자체 점검 및 검증 시간을 평균 75% 절감할 수 있도록 도와주며 차 음료 소비자들에게 더욱 안심되고 우수한 서비스를 제공한다.
독립 개발자들 역시 인기 AI 앱 '위지서', AI 심리 치유 앱 '림간 라오위스' 등이 국내 대부분의 모델로 AB 테스트를 진행한 후 결국 제약성우 다중모달 모델 API를 선택했다.
(속삭임: 왜냐하면 이걸 쓰면 결제 전환율이 가장 높기 때문)
구체적인 데이터에 따르면 2024년 하반기 제약성우 다중모달 대규모 모델 API 호출량은 45배 이상 증가했다.

다시 돌아와 이번 오픈소스는 제약성우가 가장 잘하는 다중모달 모델을 공개한 것이다.
시장과 개발자들 사이에서 이미 평판과 사용자 수를 확보한 제약성우가 이번 오픈소스는 후속 심층 접속을 고려해 모델 측면에서부터 전략을 세웠다는 점을 우리는 주목한다.
한편으로 Step-Video-T2V는 가장 개방적이고 자유로운 MIT 오픈소스 라이선스를 채택하여 임의 수정 및 상업적 활용이 가능하다.
말 그대로 '毫無隱藏(조금도 숨기지 않음)'이다.
다른 한편으로 제약성우는 "산업 접속 장벽을 최대한 낮추겠다"고 밝혔다.
예를 들어 Step-Audio는 시장의 오픈소스 솔루션처럼 재배포 및 재개발 작업이 필요 없이 일괄적인 실시간 대화 솔루션이며, 간단한 배포만으로 바로 실시간 대화가 가능하다.
제로 프레임에서부터 엔드투엔드 경험을 누릴 수 있다.
일련의 조치를 통해 제약성우와 그들의 다중모달 모델이라는 에이스 카드를 중심으로 제약성우만의 독자적인 오픈소스 기술 생태계가 초보적으로 형성되었다.
이 생태계 속에서 기술, 창의성, 상업적 가치가 얽히고설키며 다중모달 기술 발전을 함께 촉진하고 있다.
더욱이 제약성우 모델의 지속적인 연구 개발 및 반복, 개발자들의 신속하고 지속적인 접속, 생태계 파트너들의 지원과 협력으로 인해 제약성우 생태계의 '눈덩이 효과'가 이미 발생했으며 지금 더욱 커지고 있다.
중국의 오픈소스 세력이 실력으로 함께 목소리를 내고 있다
한때 대규모 모델 오픈소스 분야의 선두주자라고 하면 사람들은 메타의 LLaMA, 알버트 구의 Mamba를 떠올렸다.
하지만 지금은 의심의 여지없이 중국의 대규모 모델 오픈소스 세력이 전 세계적으로 빛을 발하며 '고정관념'을 실력으로 바꾸고 있다.
1월 20일, 용년 설 전날은 국내외 대규모 모델들이 격돌하던 날이었다.
가장 눈에 띄는 것은 DeepSeek-R1이 이날 세상에 등장했으며, 추론 성능이 OpenAI o1과 맞먹지만 비용은 후자의 1/3에 불과하다는 점이다.
그 영향은 너무 커서 하룻밤 사이에 엔비디아 시가총액이 5890억 달러(약 4조 2400억 위안) 증발하며 미국 증시 역사상 단일 일일 낙폭 최대 기록을 세웠다.
더 중요하고 더 빛나는 것은 R1이 추론 성능 우수와 저렴한 가격 외에도 오픈소스라는 속성 덕분에 수억 명이 흥분하는 높이로 올라섰다는 점이다.
일석이조, 장기간 '더 이상 open되지 않음'으로 놀림받던 OpenAI조차 CEO 알트먼이 수차례 공개적으로 발언해야 했다.
알트먼은 말했다. “오픈소스 가중치 AI 모델 문제에 대해 (개인적으로) 우리는 역사의 잘못된 편에 섰다.”
또 말했다. “세상에는 분명히 오픈소스 모델이 필요하며, 이는 사람들에게 많은 가치를 제공할 수 있다. 세상에 이미 훌륭한 오픈소스 모델들이 있다는 점이 기쁘다.”

이제 제약성우도 자신의 새로운 에이스 카드를 오픈소스로 공개하기 시작했다.
오픈소스는 초기 목적이다.
공식 입장으로 Step-Video-T2V와 Step-Audio를 오픈소스화한 목적은 대규모 모델 기술의 공유와 혁신을 촉진하고 인공지능의 보편적 발전을 추진하기 위해서다.
오픈소스는 등장과 동시에 여러 평가 세트에서 실력으로 존재감을 드러냈다.

현재 오픈소스 대규모 모델의 무대에서 DeepSeek는 강력한 추론을, 제약성우 Step은 다중모달을 중심으로 하고 있으며, 다양한 분야에서 지속적으로 성장하는 참가자들이 있다...
이들의 실력은 오픈소스 커뮤니티 내에서 두각을 나타낼 뿐 아니라 전체 대규모 모델 커뮤니티에서도 충분히 경쟁력이 있다.
―중국의 오픈소스 세력은 두각을 나타낸 후 더 한 단계 발전하고 있다.

제약성우의 이번 오픈소스를 예로 들면, 다중모달 분야의 기술적 돌파를 이루었으며 글로벌 개발자들의 선택 논리를 변화시켰다.
Eleuther AI 등 많은 오픈소스 커뮤니티의 기술 전문가들이 자발적으로 제약성우 모델을 테스트하며 “중국의 오픈소스에 감사합니다”라고 말했다.


Baai LLM Hub 중국 지역 책임자 왕티에전은 직접적으로 제약성우가 다음 “DeepSeek”가 될 것이라고 밝혔다.

'기술 돌파'에서 '생태 개방'으로, 중국 대규모 모델의 길은 점점 더 탄탄해지고 있다.
다시 말해, 제약성우가 이번에 두 모델을 오픈소스로 공개한 것은 아마도 2025년 AI 경쟁의 하나의 주석에 불과할지도 모른다.
더 깊은 의미에서 그것은 중국 오픈소스 세력의 기술적 자신감을 보여주며 하나의 신호를 전달한다:
미래의 AI 대규모 모델 세계에서 중국 세력은 반드시 등장할 것이며, 결코 뒤처지지 않을 것이다.
TechFlow 공식 커뮤니티에 오신 것을 환영합니다
Telegram 구독 그룹:https://t.me/TechFlowDaily
트위터 공식 계정:https://x.com/TechFlowPost
트위터 영어 계정:https://x.com/BlockFlow_News












