
DeepSeekが投じた2つ目のオープンソース王手とは一体何か?
TechFlow厳選深潮セレクト

DeepSeekが投じた2つ目のオープンソース王手とは一体何か?
DeepSeekが今回オープンソース化した全スタック通信ライブラリDeepEPは、GPU間の情報伝送効率を最適化することで、従業者が抱える計算能力への不安を大きく緩和する。
筆者:梁思琦

画像出典:無界AI生成
2月25日、オープンソースで話題のDeepSeekが王手をかけた。MoEモデル向け世界初のフルスタック通信ライブラリ「DeepEP」をオープンソース化したのだ。AIの計算能力不足という課題を直接解決するため、GitHubでは瞬く間にスター数が1500に達し、業界全体が震撼した。その重要性は計り知れない。

多くの人が気になるのは、DeepEPが一体何を意味するのかということだ。想像してほしい。11月11日のショッピングフェスティバル(独身の日)の物流センターで、2048人の配達員(GPU)が200の倉庫(サーバー)の間を駆け巡り、荷物(AIデータ)を運ぶ光景を。従来の輸送システムは自転車便のようなものだが、DeepEPは全員に「磁気浮上+量子テレポーテーション」の装備を配るようなもので、情報伝達を安定かつ効率的に行える。
特徴1:輸送ルールそのものを変える
2024年8月29日のNVIDIA電話会議で、黄仁勲(ジェンスン・フアン)はNVLink(GPU同士を直接接続するNVIDIAの技術、双方向通信速度最大1.8TB/s)が低遅延・高スループットおよび大規模言語モデルにとって極めて重要だと強調し、大規模モデル発展の鍵技術の一つであると述べた。
しかし、この称賛され続けたNVLink技術を、中国のチームが新たな次元へと引き上げた。DeepEPの巧妙な点は、まさにこのNVLinkの最適化にある。つまり、同じ倉庫内の配達員同士が磁気浮上列車で荷物を運び、秒速158コンテナ(GB/s)というスピードを実現。北京から上海までの距離を、水を一口飲む時間にまで短縮してしまう。
もう一つの黒科技(ブラックテクノロジー)は、RDMA技術に基づく超低遅延カーネルだ。異なる都市の倉庫間では、貨物がまるで「量子テレポーテーション」のように瞬時に移動する。各飛行機(ネットワークカード)の運搬能力は秒速47コンテナに達し、さらに積み込み中でも飛行を続けられる。計算と通信が完全にオーバーラップし、待機停止とは無縁になる。
特徴2:スマート仕分けの黒科技:AI版「最強の頭脳」
荷物を異なる専門家(MoEモデルのサブネットワーク)に分配する際、従来の仕分け係は箱を開けて一つずつ確認しなければならない。一方、DeepEPの「スケジューリング-コンビネーション」システムはあたかも予知能力を持っているかのようだ。トレーニングのプリフィルモードでは、4096のデータパケットが同時にスマートコンベアで運ばれ、都市内か都市間かを自動判別。推論のプリフィルモードでは、128の急ぎ便がVIPチャネルを通り、163マイクロ秒で到着。これは人間のまばたきより5倍も速い。さらに動的レーン切替技術により、トラフィックのピーク時には即座に伝送モードを切り替え、さまざまなシナリオに完璧に対応する。
特徴3:FP8「縮骨法」
通常の貨物は標準サイズの箱(FP32/FP16フォーマット)で運ばれるが、DeepEPはそれを微小カプセル(FP8フォーマット)に圧縮できる。同じトラックで3倍の貨物を積めるのだ。さらに驚くべきは、これらのカプセルが目的地に到着すると自動的に元のサイズに戻ること。送料も時間も節約できる。
このシステムはすでにDeepSeekの自社倉庫(H800 GPUクラスタ)で実証済みだ。都市内輸送速度は3倍に向上し、都市間の遅延は人間が感知できないレベルまで低下。最も革新的なのは、「無感覚伝送」を真に実現したことだ。まるで配達員が自転車をこぎながら宅配ボックスに荷物を入れ続けるように、一連のプロセスが途切れなく流れる。
今やDeepSeekはこの切り札をオープンソース化した。これはまるでSFエクスプレスが無人仕分けシステムの設計図を公開するようなものだ。もともと2000台のGPUを必要とする重たいタスクも、今や数百台で余裕をもって処理可能になる。
それ以前にも、DeepSeekは「オープンソースウィーク」の第一弾としてFlashMLA(高速マルチヘッド潜在アテンション機構)のコードを公開している。これもまた、大規模モデルの訓練コストを削減するキーテクノロジーの一つだ。サプライチェーン全体のコスト不安を和らげるため、DeepSeekは惜しみなく技術を公開している。
これより前、潞晨科技の創設者である尤洋はSNSで「短期的には、中国のMaaSモデルは最も劣るビジネスモデルかもしれない」と投稿した。彼の単純な試算によると、1日に1000億トークンを出力する場合、DeepSeekのサービスでは月間マシンコストが4.5億元、赤字4億元となる。AMDチップを使えば月収4500万元だが、月間マシンコストは2.7億元で、それでも赤字は2億元以上に達する。
TechFlow公式コミュニティへようこそ
Telegram購読グループ:https://t.me/TechFlowDaily
Twitter公式アカウント:https://x.com/TechFlowPost
Twitter英語アカウント:https://x.com/BlockFlow_News














