
世界最大のオープンソースビデオモデルが、今や中国で開発され、階躍からリリースされました
TechFlow厳選深潮セレクト

世界最大のオープンソースビデオモデルが、今や中国で開発され、階躍からリリースされました
未来のAI大規模モデルの世界において、中国の力は決して欠けることなく、決して遅れをとらない。
筆者:衡宇、出典:凹非寺

画像出典:無界AI生成
さきほど、StepFunと吉利汽車グループが共同で2つのマルチモーダル大規模モデルをオープンソース化しました!
新モデルは以下の2種:
-
世界でパラメータ数最大のオープンソース動画生成モデルStep-Video-T2V
-
業界初の製品レベルオープンソース音声対話大規模モデルStep-Audio
マルチモーダル分野のトップランナーであるTechFlowがマルチモーダルモデルのオープンソース化を開始。Step-Video-T2Vには最も開放的かつ緩やかなMITライセンスが採用されており、自由な編集・商用利用が可能です。
(例年通り、GitHub、Hugging Face、ModelScopeへのリンクは記事末尾に掲載)
両社はこの2つの大規模モデル開発において、計算リソース・アルゴリズム・シナリオ訓練などの分野で相互に強みを補完し、「マルチモーダル大規模モデルの性能を著しく向上させた」としている。
公式発表された技術レポートによると、今回オープンソース化された2モデルはベンチマークテストで優れた成績を収め、国内外の同類となるオープンソースモデルを上回る性能を示している。
Hugging Face中国地区の責任者も公式に高い評価をリツイートしています。
注目すべきポイントは、「The next DeepSeek」「HUGE SoTA」。

そうですか?
そこでQuantumBitは本稿で、技術レポートの詳細分析と実機テストを通じて、その真価を検証していきます。

QuantumBitが確認したところ、今回の2つの新しいオープンソースモデルはすでに「Yuewen」アプリに統合され、誰でも体験可能となっています。
TechFlow、マルチモーダルモデル初のオープンソース化
Step-Video-T2VおよびStep-Audioは、TechFlowが初めてオープンソース化するマルチモーダルモデルです。
Step-Video-T2V
まず、動画生成モデルStep-Video-T2Vを見てみましょう。
このモデルは30Bのパラメータ数を持ち、現時点で世界最大のオープンソース動画生成大規模モデルであり、ネイティブに中英バイリンガル入力に対応しています。

公式によれば、Step-Video-T2Vには以下の4つの主要技術的特徴があります:
第一に、最大204フレーム、540P解像度の動画を直接生成でき、生成される動画内容の高一貫性と高情報密度を確保します。
第二に、動画生成タスク向けに設計・学習された高圧縮率のVideo-VAEを採用。動画再構成品質を維持しつつ、空間次元で16×16倍、時間次元で8倍の圧縮を実現。
現在の市場にある多くのVAEモデルは8x8x4の圧縮比ですが、Video-VAEは同じフレーム数条件下でさらに8倍圧縮でき、トレーニングおよび生成効率が64倍向上します。
第三に、DiTモデルのハイパーパラメータ設定、アーキテクチャ、トレーニング効率に対して、Step-Video-T2Vは深いシステム最適化を行い、トレーニングプロセスの効率性と安定性を確保。
第四に、事前学習および後続学習を含む包括的なトレーニング戦略を詳細に紹介。各段階のトレーニングタスク、学習目標、データ構築および選定方法を明記。
さらに、Step-Video-T2Vはトレーニング最終段階でVideo-DPO(ビデオ嗜好最適化)を導入——これは動画生成向けの強化学習最適化アルゴリズムであり、生成品質をさらに向上させ、動画の妥当性と安定性を強化します。
その結果、生成される動画の動きはより滑らかになり、ディテールが豊かになり、指示との整合性も正確になります。

オープンソース動画生成モデルの性能を包括的に評価するため、TechFlowは今回、テキストから動画生成する品質評価用の新たなベンチマークデータセットStep-Video-T2V-Evalも同時に公開しました。
このデータセットもオープンソース化されています。
128件の実ユーザー由来の中国語評価質問を含み、運動、風景、動物、複合概念、超現実など11のコンテンツカテゴリにおける生成動画の品質を評価することを目的としています。
Step-Video-T2V-Evalでの評価結果は以下の通り:

Step-Video-T2Vは、指示遵守、動作の滑らかさ、物理的妥当性、美的感覚などにおいて、これまでの最良のオープンソース動画モデルを上回る性能を示しています。
つまり、動画生成分野全体が、この新たな最強基盤モデルを活用して研究と革新を進められるということです。
実際の生成効果について、TechFlow公式は次のように説明しています:
Step-Video-T2Vは、複雑な動き、美しい人物描写、視覚的想像力、基本的な文字生成、ネイティブの中英バイリンガル入力、カメラ言語などにおいて強力な生成能力を有しており、特に意味理解および指示遵守能力に優れ、動画クリエイターが正確なクリエイティブ表現を実現する上で高い支援力を提供します。
では何を待っている? 実測スタート――
公式紹介の順に従い、第一のテストはStep-Video-T2Vが複雑な動きを処理できるかの検証です。
過去の動画生成モデルでは、バレエ・ボールルームダンス・中国舞踊、新体操、空手、武術などの複雑な動きを生成する際に、奇妙な映像がよく発生していました。
突然現れる第3の脚、融合した二本の腕など、不気味な状況です。
このようなケースに対して、特定のテストを行いました。Step-Video-T2Vに次のプロンプトを入力:
屋内のバドミントンコート。正面視点で固定カメラが男性がバドミントンをする様子を記録。赤い半袖シャツ、黒いショートパンツを着た男性が、グリーンのバドミントンコート中央に立ち、ラケットを握っている。ネットがコートを横切り、2つのエリアに分けている。男性がスイングしてシャトルを相手側に打ち返す。明るく均一な照明で、画面は鮮明。
シーン、人物、カメラ位置、光、動作、すべて一致。
生成映像に「美しい人物」が含まれるかどうかは、QuantumBitがStep-Video-T2Vに課した第二のチャレンジです。
正直に言えば、現在のテキストから画像生成モデルの真人物生成レベルは、静止画・局所的ディテールにおいて完全にリアルに見せることができます。
しかし動画になると、人物が動く際に識別可能な物理的・論理的欠陥がまだ残っています。
一方、Step-Video-T2Vのパフォーマンスは――
プロンプト:男性。黒のスーツ、濃色ネクタイ、白シャツ。顔に傷跡があり、表情は重々しい。クローズアップ。
「AIっぽさがない。」
これはQuantumBit編集部のメンバー全員が閲覧後に一致して下した評価です。
端正な五官、リアルな肌の質感、はっきり見える顔の傷跡という意味での「AIっぽさがない」。
また、リアルながらも主人公の目が虚ろだったり、表情が硬直したりしていないという意味での「AIっぽさがない」。
上記2つのテストでは、いずれもStep-Video-T2Vに固定カメラ位置を維持させました。
では、パン・チルト・トラッキング・ズームなどのカメラ操作はどうでしょうか?
第三の関門、Step-Video-T2Vのカメラワーク制御能力、すなわちパン・チルト・トラッキング・ローテーション・フォローなどを試します。
回転を指示すれば、ちゃんと回転します:
なかなか良い! スタニコン担いで撮影現場でカメラマンを務められそう(冗談)。
一連のテストを通じて、生成結果は明確な答えを示しています:
Step-Video-T2Vは、評価セットの結果通り、意味理解および指示遵守能力に優れています。
さらには基本的な文字生成も余裕でこなします:
Step-Audio
もう一つ同時オープンソース化されたモデルStep-Audioは、業界初の製品レベルオープンソース音声対話モデルです。
TechFlowが独自に構築・オープンソース化した多面的評価体系「StepEval-Audio-360」のベンチマークテストにおいて、Step-Audioは論理推論、創作能力、指令制御、言語能力、ロールプレイ、言葉遊び、感情的価値などの次元で全て最高得点を獲得しています。

LlaMA Question、Web Questionsなど5つの主要公開テストセットにおいて、Step-Audioは業界内の同種オープンソースモデルを上回る性能を示し、いずれも一位を獲得。
特にHSK-6(中国語能力試験6級)でのパフォーマンスが際立っています。
実測結果は以下の通り:
TechFlowチームによると、Step-Audioは異なるシナリオに応じて感情、方言、言語、歌声、個性的なスタイルを生成でき、ユーザーと自然で高品質な対話を実現できます。
さらに、生成される音声はリアルで自然なだけでなく、高EQ(感情知能)を備え、高品質な音色の複製とロールプレイも可能。
要するに、映像・エンタメ、SNS、ゲームなどの業界用途において、Step-Audioは完全にニーズを満たします。
TechFlowのオープンソースエコシステム、雪だるま式に拡大
一言で言えば:激しい競争。
TechFlowは本当に激しい。特に得意とするマルチモーダルモデル分野では――
自社Stepシリーズのマルチモーダルモデルは、登場以来、国内外の主要評価ベンチマークや競技場ランキングで常に首位を占めています。
最近3ヶ月だけ見ても、何度もトップに立っています。
-
昨年11月22日、大規模モデル競技場最新ランキングで、マルチモーダル理解モデルStep-1Vが登場。総合スコアはGemini-1.5-Flash-8B-Exp-0827と並び、視覚分野の中国大規模モデルで首位。
-
今年1月、国内大規模モデル評価プラットフォーム「司南」(OpenCompass)のマルチモーダルモデル実時ランキングで、新登場のStep-1oシリーズが1位を獲得。
-
同日、大規模モデル競技場最新ランキングで、マルチモーダルモデルStep-1o-visionが国内視覚分野モデルで1位。

さらに、TechFlowのマルチモーダルモデルは性能・品質が高く、研究開発・更新頻度も非常に速い――
これまでに、TechFlowは累計11のマルチモーダル大規模モデルをリリースしています。
先月は6日間で6モデルを連続リリースし、言語・音声・視覚・推論の全領域をカバー、マルチモーダル分野の頂点的地位をさらに確固たるものにしました。
今月も2つのマルチモーダルモデルをオープンソース化。
このペースを維持できれば、「フルセットマルチモーダルプレイヤー」の地位を継続的に証明できます。
強力なマルチモーダル技術力により、2024年から市場および開発者たちがTechFlowのAPIを広く採用、大きなユーザーベースを形成しています。
大衆向け消費財では、茶百道が全国数千店舗でマルチモーダル理解モデルStep-1Vを導入。飲料業界での大規模モデル技術応用を模索し、スマート巡回点検やAIGCマーケティングを展開。
公開データによると、平均して毎日数百万杯の茶百道ドリンクが大規模モデルによるスマート点検のもとで消費者に届けられています。
Step-1Vは、茶百道の監督担当者の自己点検確認時間を平均して毎日75%削減し、消費者に安心かつ高品質なサービスを提供しています。
独立系開発者では、人気AIアプリ「胃之書」やAI心理療法アプリ「林間聊愈室」などが国内主要モデルでABテストを実施した結果、最終的にすべてTechFlowのマルチモーダルモデルAPIを選択しています。
(内緒:これを使うと、有料化率が最も高いから)
具体的なデータでは、2024年下半期にTechFlowのマルチモーダル大規模モデルAPIの呼び出し回数が45倍以上増加。

そして今回、TechFlowがオープンソース化したのは、まさに自社が最も得意とするマルチモーダルモデルです。
市場と開発者からの評判・実績を既に積み上げてきたTechFlowが、今回のオープンソース化では、モデル側から将来的な深層連携を意識しています。
一方、Step-Video-T2Vは最も開放的で緩やかなMITライセンスを採用しており、自由な編集・商用利用が可能です。
つまり、「一切隠さない」という姿勢です。
他方、TechFlowは「産業連携のハードルを全力で引き下げる」と表明。
例えばStep-Audioは、市販のオープンソースソリューションのように再デプロイ・再開発が必要なく、リアルタイム対話が可能な一括ソリューションであり、簡単なデプロイだけで即座にリアルタイム対話が可能になります。
ゼロからでもエンドツーエンド体験が即時利用可能。
こうした一連の取り組みにより、TechFlowとその手にするマルチモーダルモデルという切り札を中心に、独自のオープンソース技術エコシステムが初步的に形成されています。
このエコシステムの中で、技術・創造性・商業的価値が交差し合い、マルチモーダル技術の発展を共に推進しています。
そしてTechFlowモデルの継続的な研究開発・更新、開発者の迅速かつ持続的な連携、エコパートナーの協力によって、TechFlowエコの「雪だるま式効果」は既に始まり、拡大を続けています。
中国のオープンソース勢力、実力で世界と肩を並べる
かつて、大規模モデルのオープンソース分野のリーダーといえば、MetaのLLaMAやAlbert GuのMambaが思い浮かびました。
しかし今や、中国の大規模モデル界のオープンソース勢力が間違いなく世界に輝きを放ち、実力で「ステレオタイプ」を書き換えています。
1月20日、旧正月(へび年)前、国内外の大規模モデルが激突した日でした。
最も注目されたのは、DeepSeek-R1が登場し、OpenAI o1と同等の推論性能を達成しながら、コストはその1/3に抑えられたことです。
その影響は大きく、NVIDIAの時価総額が一夜にして5890億ドル(約4.24兆元)蒸発し、米国株式市場の単日最大下落記録を樹立しました。
さらに重要かつ目覚ましいのは、R1が億万人の期待を集めた理由が、優れた推論性能と親民的な価格に加え、そのオープンソース属性にあるということです。
波紋は広がり、長年「もはやオープンではない」と揶揄されてきたOpenAIのCEOオルトマンでさえ、繰り返し公に発言しました。
オルトマン氏は「オープンソースAIモデルに関して、(個人的には)我々は歴史の誤った側に立っていたと思います」と述べました。
また「世界には確かにオープンソースモデルが必要であり、人々に多大な価値を提供できる。世界に優れたオープンソースモデルがあることに嬉しく思います」とも。

今、TechFlowもまた自らの新エースカードをオープンソース化し始めました。
そしてオープンソース化こそが本来の目的です。
公式によれば、Step-Video-T2VおよびStep-Audioをオープンソース化する目的は、大規模モデル技術の共有と革新を促進し、AIの普及発展を推進することです。
オープンソース化直後から、複数の評価ベンチマークで実力を見せつけました。

現在のオープンソース大規模モデルの舞台では、DeepSeekが強力な推論を武器に、TechFlowのStepシリーズはマルチモーダルに特化。その他にもさまざまな成長中の選手が存在――
彼らの実力はオープンソースコミュニティ内だけでなく、大規模モデル全体の世界でも十分通用するレベルです。
――中国のオープンソース勢力は、台頭した後さらに前進しています。

TechFlowの今回のオープンソース化を例に挙げれば、マルチモーダル分野の技術的ブレイクスルーだけでなく、グローバル開発者の選択ロジックを変えるものでもあります。
Eleuther AIなど多くのオープンソースコミュニティの技術的キーパーソンたちが、自発的にTechFlowのモデルをテストし、「中国のオープンソースに感謝」と称賛しています。


Hugging Face中国地区責任者の王鉄震氏は、TechFlowが次の「DeepSeek」になると断言しています。

「技術的突破」から「エコシステムの開放」へ、中国の大規模モデルの道はますます確かなものになっています。
結局のところ、TechFlowの今回の2モデルオープンソース化は、2025年のAI競争の一つの注釈に過ぎないかもしれません。
しかしより深い意味では、中国のオープンソース勢力の技術的自信を示し、一つのシグナルを発しています:
将来のAI大規模モデルの世界において、中国の存在は決して欠けず、決して遅れを取らない。
TechFlow公式コミュニティへようこそ
Telegram購読グループ:https://t.me/TechFlowDaily
Twitter公式アカウント:https://x.com/TechFlowPost
Twitter英語アカウント:https://x.com/BlockFlow_News












