
Viên bài chủ thứ hai về mã nguồn mở mà DeepSeek tung ra rốt cuộc là gì?
Tuyển chọn TechFlowTuyển chọn TechFlow

Viên bài chủ thứ hai về mã nguồn mở mà DeepSeek tung ra rốt cuộc là gì?
Thư viện truyền thông toàn diện DeepEP mà DeepSeek lần này mở nguồn, thông qua việc tối ưu hóa hiệu suất truyền thông tin giữa các GPU, đã giảm bớt đáng kể nỗi lo về năng lực tính toán của những người làm trong ngành.
Tác giả: Lương Tư Kỳ

Hình ảnh: Được tạo bởi AI Vô Giới
Ngày 25 tháng 2, DeepSeek - công ty nổi tiếng với các đóng góp mã nguồn mở - đã tung ra một quân át chủ bài: DeepEP, thư viện truyền thông toàn hệ thống đầu tiên trên thế giới dành cho mô hình MoE (Mixture of Experts) dưới dạng mã nguồn mở. Vì giải quyết trực tiếp nỗi lo về năng lực tính toán AI, GitHub lập tức đạt 1.500 sao (lượt lưu), cả cộng đồng dậy sóng, cho thấy tầm quan trọng vượt bậc của nó.

Nhiều người thắc mắc DeepEP nghĩa là gì? Hãy tưởng tượng bưu cục trong mùa lễ hội Độc thân: 2.048 nhân viên giao hàng (GPU) vận chuyển cuộn cuộn kiện hàng (dữ liệu AI) giữa 200 kho hàng (máy chủ). Hệ thống vận chuyển truyền thống giống như việc nhân viên đạp xe ba bánh giao hàng, còn DeepEP lại trang bị ngay bộ đôi "tàu đệm từ + truyền tải lượng tử" cho toàn đội, giúp truyền tải thông tin ổn định và hiệu quả cao.
Tính năng 1: Thay đổi trực tiếp quy tắc vận chuyển
Tại cuộc họp điện thoại của NVIDIA ngày 29 tháng 8 năm 2024, ông Huang Renxun từng nhấn mạnh riêng về NVLink (công nghệ do NVIDIA phát triển, cho phép GPU kết nối trực tiếp với nhau, tốc độ truyền hai chiều có thể đạt 1,8TB/s) đối với độ trễ thấp, đầu ra cao và các mô hình ngôn ngữ lớn, cho rằng đây là một trong những công nghệ then chốt thúc đẩy sự phát triển của mô hình lớn.
Tuy nhiên, công nghệ NVLink được thổi phồng này lần này đã được đội ngũ Trung Quốc nâng lên một tầm cao mới. Điểm tinh tế của DeepEP nằm ở việc tối ưu hóa NVLink, điều đó có nghĩa là giữa các nhân viên giao hàng trong cùng một kho, hàng hóa được vận chuyển bằng đường ray đệm từ với tốc độ lên đến 158 container mỗi giây (GB/s), tương đương rút ngắn khoảng cách từ Bắc Kinh đến Thượng Hải chỉ còn bằng thời gian uống một ngụm nước.
Công nghệ kỳ diệu thứ hai là nhân kernel RDMA với độ trễ cực thấp mà nó mang lại. Hãy tưởng tượng, giữa các kho ở thành phố khác nhau, hàng hóa được "truyền tải lượng tử" trực tiếp; mỗi máy bay (card mạng) có sức chở tới 47 container mỗi giây, đồng thời có thể vừa xếp hàng vừa bay – tính toán và truyền thông chồng lấn hoàn toàn, chấm dứt hẳn tình trạng chờ đợi dừng máy.
Tính năng 2: Công nghệ phân loại thông minh: "Bộ não siêu việt" phiên bản AI
Khi hàng hóa cần phân phối đến các chuyên gia khác nhau (các mạng con trong mô hình MoE), nhân viên phân loại truyền thống phải mở từng thùng để kiểm tra, trong khi hệ thống "phân bổ - kết hợp" của DeepEP tựa như có khả năng tiên tri: ở chế độ huấn luyện tiền điền đầy, 4.096 gói dữ liệu cùng lúc đi qua băng chuyền thông minh, tự động nhận diện đơn nội tỉnh hay liên tỉnh; ở chế độ suy luận tiền điền đầy, 128 kiện hàng khẩn cấp đi theo làn VIP, giao hàng trong 163 micro giây – nhanh hơn chớp mắt người tới 5 lần. Đồng thời áp dụng công nghệ thay đổi tuyến động, khi gặp đỉnh cao lưu lượng sẽ lập tức chuyển chế độ truyền, hoàn hảo thích ứng mọi nhu cầu tình huống.
Tính năng 3: "Kỹ thuật co xương" FP8
Hàng hóa thông thường dùng thùng tiêu chuẩn (định dạng FP32/FP16) để vận chuyển, còn DeepEP có thể nén hàng hóa thành viên nang nhỏ (định dạng FP8), cùng một xe tải chở được gấp 3 lần hàng hóa. Thần kỳ hơn nữa, những viên nang này khi đến nơi sẽ tự động phục hồi hình dạng ban đầu, vừa tiết kiệm cước phí vừa tiết kiệm thời gian.
Hệ thống này đã được thử nghiệm thực tế tại chính kho hàng của DeepSeek (cụm GPU H800): tốc độ vận chuyển nội tỉnh tăng gấp 3 lần, độ trễ liên tỉnh giảm xuống mức con người khó cảm nhận, còn điểm đột phá nhất là nó đạt được truyền tải "vô cảm" thực sự – giống như nhân viên giao hàng vừa đạp xe vừa nhét kiện vào tủ快递, cả quá trình mượt mà như mây trôi.
Giờ đây DeepSeek công bố mã nguồn của lá bài chủ này, tương đương việc công khai bản vẽ hệ thống phân loại không người của SF Express, một nhiệm vụ nặng trước kia cần 2.000 GPU, nay chỉ vài trăm chiếc cũng dễ dàng xử lý.
Trước đó không lâu, DeepSeek đã công bố thành quả đầu tiên trong "Tuần lễ mã nguồn mở" của mình: mã nguồn FlashMLA (dịch sát nghĩa là Cơ chế Chú ý Đa đầu Nhanh), cũng là một công nghệ then chốt giảm chi phí trong quá trình huấn luyện mô hình lớn. Để giảm nhẹ áp lực chi phí cho toàn bộ chuỗi ngành, DeepSeek đang tận tình chia sẻ tất cả.
Trước đó, ông You Yang - người sáng lập công ty Lucheng Tech - từng đăng trên mạng xã hội rằng, “ngắn hạn, mô hình MaaS của Trung Quốc có thể là mô hình kinh doanh tệ nhất”, ước tính sơ bộ, nếu mỗi ngày xuất ra 100 tỷ token, dịch vụ dựa trên DeepSeek sẽ có chi phí máy móc hàng tháng là 450 triệu NDT, lỗ 400 triệu; dùng chip AMD thì doanh thu hàng tháng 45 triệu, chi phí máy móc 270 triệu, nghĩa là vẫn lỗ hơn 200 triệu mỗi tháng.
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News














