
Mô hình video mã nguồn mở lớn nhất thế giới, giờ đây cũng được tạo ra tại Trung Quốc, do Jieyue sản xuất
Tuyển chọn TechFlowTuyển chọn TechFlow

Mô hình video mã nguồn mở lớn nhất thế giới, giờ đây cũng được tạo ra tại Trung Quốc, do Jieyue sản xuất
Trong thế giới các mô hình AI lớn trong tương lai, sức mạnh Trung Quốc chắc chắn không vắng mặt và cũng không hề đi sau.
Tác giả: Hành Vũ, xuất phát từ Ao Fei Si

Hình ảnh: Được tạo bởi Wujie AI
Vừa mới đây, Jieyue Stars đã hợp tác với Tập đoàn ô tô Geely, công bố mã nguồn hai mô hình đa phương thức lớn!
Hai mô hình mới gồm:
-
Mô hình tạo video mở rộng tham số lớn nhất thế giới Step-Video-T2V
-
Mô hình tương tác giọng nói lớn mở đầu tiên trong ngành đạt tiêu chuẩn sản phẩm Step-Audio
Nhà vô địch đa phương thức bắt đầu công bố mã nguồn mô hình đa phương thức, trong đó Step-Video-T2V sử dụng giao thức mã nguồn mở MIT cực kỳ cởi mở và linh hoạt, có thể chỉnh sửa tự do và ứng dụng thương mại.
(Theo thông lệ cũ, GitHub, Baobao Lian, ModelScope có liên kết trực tiếp ở cuối bài viết)
Trong quá trình nghiên cứu và phát triển hai mô hình lớn này, cả hai bên đã bổ sung lẫn nhau về năng lực tính toán, thuật toán và huấn luyện theo ngữ cảnh, "đáng kể nâng cao hiệu suất của mô hình lớn đa phương thức".
Theo báo cáo kỹ thuật được công bố chính thức, hai mô hình được công bố mã nguồn lần này thể hiện xuất sắc trong Benchmark, hiệu suất vượt qua các mô hình mã nguồn mở cùng loại trong và ngoài nước.
Baobao Lian cũng chia sẻ đánh giá cao từ người phụ trách khu vực Trung Quốc.
Điểm nhấn, “The next DeepSeek”, “HUGE SoTA”.

Ồ, vậy à?
Quantum Bit sẽ phân tích kỹ báo cáo kỹ thuật cộng thêm kiểm thử thực tế để xem liệu chúng có đúng như tên gọi hay không.

Quantum Bit xác nhận rằng hiện tại, cả hai mô hình mã nguồn mở mới này đã được tích hợp vào ứng dụng Yuewen, ai cũng có thể trải nghiệm.
Nhà vô địch đa phương thức lần đầu tiên công bố mã nguồn mô hình đa phương thức
Step-Video-T2V và Step-Audio là những mô hình đa phương thức đầu tiên do Jieyue Stars công bố mã nguồn.
Step-Video-T2V
Hãy cùng xem xét trước tiên mô hình tạo video Step-Video-T2V.
Model này có tới 30B tham số, là mô hình tạo video lớn mã nguồn mở có dung lượng tham số lớn nhất toàn cầu hiện nay, hỗ trợ gốc đầu vào tiếng Trung và tiếng Anh.

Theo giới thiệu chính thức, Step-Video-T2V có bốn đặc điểm kỹ thuật chính:
Thứ nhất, có thể trực tiếp tạo ra video dài tối đa 204 khung hình, độ phân giải 540P, đảm bảo nội dung video tạo ra có tính nhất quán và mật độ thông tin rất cao.
Thứ hai, thiết kế và huấn luyện Video-VAE có tỷ lệ nén cao dành riêng cho nhiệm vụ tạo video, dưới tiền đề đảm bảo chất lượng tái tạo video, có thể nén không gian video xuống 16×16 lần và thời gian xuống 8 lần.
Phần lớn các mô hình VAE trên thị trường hiện nay có tỷ lệ nén 8x8x4, với cùng số khung hình video, Video-VAE có thể nén thêm 8 lần, do đó hiệu quả huấn luyện và tạo video đều tăng 64 lần.
Thứ ba, tiến hành tối ưu hóa hệ thống sâu về siêu tham số, cấu trúc mô hình và hiệu quả huấn luyện của mô hình DiT, đảm bảo hiệu quả và ổn định trong suốt quá trình huấn luyện.
Thứ tư, giới thiệu chi tiết chiến lược huấn luyện đầy đủ bao gồm huấn luyện trước và sau huấn luyện, bao gồm nhiệm vụ huấn luyện, mục tiêu học tập, cách xây dựng và lọc dữ liệu ở từng giai đoạn.
Thêm nữa, Step-Video-T2V đưa vào Video-DPO (tối ưu hóa sở thích video) ở giai đoạn cuối huấn luyện—đây là một thuật toán tối ưu RL dành riêng cho tạo video, có thể cải thiện thêm chất lượng tạo video, tăng cường tính hợp lý và ổn định của video được tạo.
Kết quả cuối cùng là chuyển động trong video tạo ra mượt mà hơn, chi tiết phong phú hơn, tuân thủ lệnh chính xác hơn.

Để đánh giá toàn diện hiệu suất của mô hình tạo video mã nguồn mở, Jieyue lần này đồng thời phát hành bộ dữ liệu chuẩn mới dành riêng cho đánh giá chất lượng tạo video từ văn bản Step-Video-T2V-Eval.
Bộ dữ liệu này cũng được công bố mã nguồn~
Bộ dữ liệu chứa 128 câu hỏi đánh giá bằng tiếng Trung đến từ người dùng thực tế, nhằm đánh giá chất lượng video tạo ra trên 11 hạng mục nội dung, bao gồm chuyển động, phong cảnh, động vật, khái niệm kết hợp, siêu thực, v.v.
Kết quả đánh giá của Step-Video-T2V-Eval trên bộ dữ liệu này như hình dưới đây:

Có thể thấy, Step-Video-T2V vượt qua các mô hình tạo video mã nguồn mở tốt nhất trước đó về tuân thủ chỉ thị, sự mượt mà của chuyển động, tính hợp lý vật lý, mức độ thẩm mỹ, v.v.
Điều này có nghĩa là, toàn bộ lĩnh vực tạo video có thể dựa vào mô hình nền tảng mạnh mẽ mới này để nghiên cứu và đổi mới.
Về hiệu quả thực tế, theo giới thiệu chính thức từ Jieyue:
Về hiệu quả tạo, Step-Video-T2V có khả năng tạo mạnh mẽ trong các lĩnh vực như chuyển động phức tạp, con người đẹp, trí tưởng tượng thị giác, tạo văn bản cơ bản, đầu vào song ngữ Trung-Anh gốc và ngôn ngữ máy quay, đồng thời có khả năng hiểu ngữ nghĩa và tuân thủ lệnh nổi bật, có thể hiệu quả hỗ trợ nhà sáng tạo video hiện thực hóa ý tưởng sáng tạo chính xác.
Còn chờ gì nữa? Cùng kiểm thử ngay—
Theo thứ tự giới thiệu chính thức, thử thách đầu tiên là kiểm tra xem Step-Video-T2V có thể xử lý chuyển động phức tạp hay không.
Các mô hình tạo video trước đây khi tạo các đoạn chuyển động phức tạp như ballet/múa quốc tế/múa Trung Hoa, thể dục dụng cụ, karate, võ thuật, thường xuất hiện những hình ảnh kỳ lạ.
Ví dụ như đột nhiên xuất hiện chân thứ ba, cánh tay giao thoa, v.v., khá đáng sợ.
Đối với tình huống này, chúng tôi thực hiện kiểm thử định hướng, gửi cho Step-Video-T2V một đoạn prompt:
Sân cầu lông trong nhà, góc nhìn ngang tầm mắt, máy cố định ghi lại cảnh một nam giới chơi cầu lông. Một người đàn ông mặc áo ngắn tay đỏ, quần soóc đen, cầm vợt cầu lông đứng giữa sân màu xanh lá. Lưới cầu chia đôi sân thành hai phần. Người đàn ông vung vợt đánh cầu, đưa quả cầu sang phía đối diện. Ánh sáng rõ ràng và đều, hình ảnh rõ nét.
Khung cảnh, nhân vật, máy quay, ánh sáng, hành động, tất cả đều khớp.
Tạo hình ảnh chứa «con người đẹp», là thử thách thứ hai Quantum Bit đặt ra cho Step-Video-T2V.
Thật lòng mà nói, hiện nay cấp độ tạo ảnh từ văn bản khi tạo hình ảnh người thật, về mặt tĩnh và chi tiết cục bộ, hoàn toàn có thể giả thành thật.
Nhưng khi tạo video, một khi con người chuyển động, vẫn tồn tại lỗi vật lý hoặc logic có thể nhận diện được.
Còn biểu hiện của Step-Video-T2V thì—
Prompt: Một người đàn ông, mặc vest đen, cà vạt tối màu và áo sơ mi trắng, mặt có vết sẹo, biểu cảm nghiêm nghị. Góc cận cảnh.
“Không cảm giác AI gì cả.”
Đây là đánh giá nhất trí của các biên tập viên Quantum Bit sau khi xem qua video.
Là kiểu “không cảm giác AI” khi ngũ quan chỉnh tề, kết cấu da thật, vết sẹo trên mặt rõ ràng.
Cũng là kiểu “không cảm giác AI” chân thực nhưng nhân vật chính không xuất hiện ánh mắt trống rỗng, biểu cảm cứng nhắc.
Hai thử thách trên đều giữ cho Step-Video-T2V ở vị trí máy cố định.
Vậy còn việc đẩy kéo lắc di chuyển thì sao?
Thử thách thứ ba, kiểm tra khả năng điều khiển máy quay của Step-Video-T2V, ví dụ như đẩy kéo lắc di chuyển, xoay, theo dõi.
Bảo nó xoay, nó liền xoay:
Cũng khá ổn! Có thể mang vai gánh Steadicam đi trường quay làm đạo diễn hình ảnh rồi (đùa thôi).
Sau một loạt kiểm thử, hiệu quả tạo đã cho ra câu trả lời:
Step-Video-T2V đúng như kết quả đánh giá, nổi bật về khả năng hiểu ngữ nghĩa và tuân thủ lệnh.
Thậm chí tạo văn bản cơ bản cũng dễ dàng xử lý:
Step-Audio
Mô hình thứ hai được công bố mã nguồn đồng thời, Step-Audio, là mô hình tương tác giọng nói mã nguồn mở đầu tiên trong ngành đạt tiêu chuẩn sản phẩm.
Trên bộ đánh giá đa chiều do Jieyue tự xây dựng và công bố mã nguồn StepEval-Audio-360, Step-Audio đạt thành tích tốt nhất về suy luận logic, khả năng sáng tạo, kiểm soát lệnh, năng lực ngôn ngữ, nhập vai, trò chơi chữ, giá trị cảm xúc, v.v.

Trong 5 bộ kiểm thử công khai phổ biến hàng đầu như LlaMA Question, Web Questions, hiệu suất của Step-Audio đều vượt qua các mô hình mã nguồn mở cùng loại trong ngành, xếp thứ nhất.
Có thể thấy, biểu hiện của nó trong đánh giá HSK-6 (thi năng lực tiếng Trung cấp 6)尤为 nổi bật.
Kiểm thử thực tế như sau:
Đội ngũ Jieyue giới thiệu, Step-Audio có thể tạo ra biểu đạt về cảm xúc, phương ngữ, ngôn ngữ, giọng hát và phong cách cá nhân tùy theo nhu cầu từng ngữ cảnh khác nhau, có thể trò chuyện tự nhiên và chất lượng cao với người dùng.
Đồng thời, giọng nói do nó tạo ra không chỉ chân thực tự nhiên, EQ cao, mà còn có thể sao chép âm sắc chất lượng cao và nhập vai.
Tóm lại, nhu cầu ứng dụng trong các lĩnh vực như điện ảnh-giải trí, mạng xã hội, trò chơi, Step-Audio sẽ làm bạn hoàn toàn hài lòng.
Hệ sinh thái mã nguồn mở Jieyue đang lăn như quả cầu tuyết
Nói thế nào nhỉ, chỉ bằng một chữ: cạnh tranh.
Jieyue thực sự rất cạnh tranh, đặc biệt là trong lĩnh vực sở trường của mình là mô hình đa phương thức—
Các mô hình đa phương thức trong dòng Step của họ, kể từ khi ra đời, luôn là cái tên quen thuộc đứng đầu trong các bộ đánh giá uy tín lớn trong và ngoài nước, các đấu trường.
Chỉ xét ba tháng gần đây, đã nhiều lần giành ngôi đầu.
-
Ngày 22 tháng 11 năm ngoái, bảng xếp hạng mới nhất của Đấu trường Mô hình lớn, mô hình đa phương thức hiểu Step-1V上榜, tổng điểm ngang bằng Gemini-1.5-Flash-8B-Exp-0827, đứng đầu về mô hình lớn Trung Quốc trong lĩnh vực thị giác.
-
Tháng 1 năm nay, bảng xếp hạng thời gian thực đánh giá mô hình đa phương thức trên nền tảng đánh giá mô hình lớn trong nước “Sinan” (OpenCompass), mô hình mới Step-1o series giành vị trí đầu tiên.
-
Cùng ngày, bảng xếp hạng mới nhất của Đấu trường Mô hình lớn, mô hình đa phương thức Step-1o-vision giành vị trí đầu tiên về mô hình lớn lĩnh vực thị giác trong nước.

Thứ hai, các mô hình đa phương thức của Jieyue không chỉ hiệu suất tốt, chất lượng cao, mà tần suất nghiên cứu và cập nhật cũng rất nhanh—
Tính đến nay, Jieyue Stars đã lần lượt phát hành 11 mô hình lớn đa phương thức.
Tháng trước, 6 ngày liên tiếp phát hành 6 mô hình, bao phủ toàn bộ lĩnh vực ngôn ngữ, giọng nói, thị giác, suy luận, củng cố thêm danh hiệu nhà vô địch đa phương thức.
Tháng này lại công bố mã nguồn 2 mô hình đa phương thức.
Miễn là duy trì nhịp độ ổn định này, có thể tiếp tục và liên tục chứng minh vị thế «người chơi đa phương thức toàn diện» của mình.
Nhờ sức mạnh đa phương thức mạnh mẽ, từ năm 2024, thị trường và các nhà phát triển đã công nhận và tích hợp rộng rãi API Jieyue, hình thành nên cơ sở người dùng khổng lồ.
Sản phẩm tiêu dùng đại chúng, như Cha Baidu, đã tích hợp mô hình đa phương thức hiểu lớn Step-1V vào hàng ngàn cửa hàng trên toàn quốc, khám phá ứng dụng công nghệ mô hình lớn trong ngành trà uống, thực hiện kiểm tra thông minh, marketing AIGC.
Dữ liệu công khai cho thấy, trung bình mỗi ngày có hơn một triệu ly trà Cha Baidu được giao đến tay người tiêu dùng dưới sự bảo vệ của kiểm tra thông minh mô hình lớn.
Step-1V trung bình mỗi ngày giúp cán bộ giám sát Cha Baidu tiết kiệm 75% thời gian tự kiểm tra, cung cấp dịch vụ an tâm và chất lượng cao hơn cho người tiêu dùng trà.
Nhà phát triển độc lập, như ứng dụng AI nổi tiếng “Weizhi Shu”, ứng dụng trị liệu tâm lý AI “Lâm Gian Liao Yu Shi” sau khi thực hiện kiểm thử AB với hầu hết các mô hình trong nước, cuối cùng đều chọn API mô hình đa phương thức Jieyue.
(Thì thầm: vì dùng nó, tỷ lệ thanh toán cao nhất)
Dữ liệu cụ thể cho thấy, nửa cuối năm 2024, lượng truy cập API mô hình lớn đa phương thức Jieyue tăng hơn 45 lần.

Rồi nói đến, lần này công bố mã nguồn, chính là những mô hình đa phương thức giỏi nhất của Jieyue.
Chúng tôi nhận thấy, Jieyue đã tích lũy được danh tiếng thị trường và nhà phát triển cũng như số lượng người dùng, lần này công bố mã nguồn, đã cân nhắc cho việc tích hợp sâu hơn về sau từ phía mô hình.
Một mặt, Step-Video-T2V sử dụng giao thức mã nguồn mở MIT cởi mở và linh hoạt nhất, có thể chỉnh sửa tự do và ứng dụng thương mại.
Có thể nói, «hoàn toàn không giấu diếm».
Mặt khác, Jieyue cho biết “nỗ lực giảm thiểu rào cản tích hợp công nghiệp”.
Lấy Step-Audio làm ví dụ, khác với các giải pháp mã nguồn mở trên thị trường cần triển khai và phát triển lại, Step-Audio là một bộ giải pháp hội thoại thời gian thực hoàn chỉnh, chỉ cần triển khai đơn giản là có thể hội thoại trực tiếp.
Trải nghiệm end-to-end từ số 0.
Toàn bộ chuỗi hành động này, xung quanh Jieyue Stars và quân chủ bài mô hình đa phương thức trong tay họ, đã hình thành ban đầu hệ sinh thái công nghệ mã nguồn mở riêng biệt của Jieyue.
Trong hệ sinh thái này, công nghệ, sáng tạo và giá trị thương mại đan xen lẫn nhau, cùng thúc đẩy sự phát triển của công nghệ đa phương thức.
Và khi các mô hình Jieyue tiếp tục nghiên cứu, cập nhật, nhà phát triển tích hợp nhanh chóng và liên tục, sự hỗ trợ và hợp lực của các đối tác hệ sinh thái, hiệu ứng “quả cầu tuyết” của hệ sinh thái Jieyue đã xảy ra và đang ngày càng lớn mạnh.
Sức mạnh mã nguồn mở Trung Quốc đang song hành và nói lên bằng thực lực
Trước kia, khi nhắc đến những nhân vật xuất sắc trong lĩnh vực mã nguồn mở mô hình lớn, người ta nghĩ ngay đến LLaMA của Meta, Mamba của Albert Gu.
Hiện nay, không thể nghi ngờ, sức mạnh mã nguồn mở của giới mô hình lớn Trung Quốc đã tỏa sáng toàn cầu, dùng thực lực thay đổi «định kiến».
Ngày 20 tháng 1, trước Tết Nguyên đán năm Rắn, là một ngày các mô hình lớn trong và ngoài nước tranh tài quyết liệt.
Nổi bật nhất là, DeepSeek-R1 ra đời vào ngày này, hiệu suất suy luận ngang bằng OpenAI o1, nhưng chi phí chỉ bằng 1/3.
Tác động lớn đến mức, một đêm khiến NVIDIA bốc hơi 5890 tỷ USD (khoảng 4,24 nghìn tỷ NDT), lập kỷ lục giảm mạnh nhất trong một ngày trên thị trường chứng khoán Mỹ.
Quan trọng và rực rỡ hơn nữa, lý do R1 vươn tới độ hưng phấn của hàng trăm triệu người, ngoài suy luận xuất sắc và giá cả phải chăng, quan trọng hơn là thuộc tính mã nguồn mở của nó.
Một viên đá gây nghìn lớp sóng, ngay cả OpenAI vốn bị chế giễu lâu nay là «không còn open», CEO Altman cũng nhiều lần lên tiếng công khai.
Altman nói: “Về vấn đề công bố trọng số AI mã nguồn mở, (theo cá nhân tôi) chúng ta đứng sai phía lịch sử.”
Ông ấy còn nói: “Thế giới thực sự cần các mô hình mã nguồn mở, chúng có thể mang lại giá trị lớn cho mọi người. Tôi rất vui mừng khi thế giới đã có một số mô hình mã nguồn mở xuất sắc.”

Bây giờ, Jieyue cũng bắt đầu công bố mã nguồn quân chủ bài mới của mình.
Và mã nguồn mở là khởi nguyên.
Phía công ty cho biết, mục đích công bố mã nguồn Step-Video-T2V và Step-Audio là thúc đẩy chia sẻ và đổi mới công nghệ mô hình lớn, thúc đẩy phát triển phổ cập trí tuệ nhân tạo.
Mã nguồn mở vừa ra mắt đã phô diễn thực lực trên nhiều bộ đánh giá.

Bàn cờ mô hình lớn mã nguồn mở hiện nay, DeepSeek mạnh về suy luận, Step của Jieyue chú trọng đa phương thức, còn có nhiều vận động viên đang phát triển liên tục…
Thực lực của họ không chỉ nổi bật trong giới mã nguồn mở, mà nhìn rộng ra toàn bộ giới mô hình lớn, cũng rất đáng nể.
—Sức mạnh mã nguồn mở Trung Quốc, sau khi lộ diện, đang tiến xa hơn.

Lấy ví dụ công bố mã nguồn lần này của Jieyue, đột phá là về công nghệ lĩnh vực đa phương thức, thay đổi là logic lựa chọn của nhà phát triển toàn cầu.
Nhiều chuyên gia kỹ thuật nổi bật trong các cộng đồng mã nguồn mở như Eleuther AI, chủ động kiểm thử mô hình của Jieyue, “cảm ơn mã nguồn mở Trung Quốc”.


Wang Tiezhen, người phụ trách khu vực Trung Quốc của Baobao Lian, nói thẳng rằng Jieyue sẽ là “DeepSeek” tiếp theo.

Từ «đột phá công nghệ» đến «mở cửa hệ sinh thái», con đường của mô hình lớn Trung Quốc ngày càng vững chắc.
Nói lại, Jieyue công bố mã nguồn hai mô hình lần này, có lẽ chỉ là một chú thích cho cuộc đua AI năm 2025.
Sâu xa hơn, nó thể hiện sự tự tin về công nghệ của sức mạnh mã nguồn mở Trung Quốc, và truyền tải một tín hiệu:
Trong thế giới mô hình lớn AI tương lai, sức mạnh Trung Quốc tuyệt đối không vắng mặt, cũng không hề chậm trễ.
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News












