
Dương Trực Cần và Lương Văn Phong, bài báo khoa học trùng nhau
Tuyển chọn TechFlowTuyển chọn TechFlow

Dương Trực Cần và Lương Văn Phong, bài báo khoa học trùng nhau
Khi hai nhà sáng lập ghi tên mình vào bài báo khoa học.
Một
Cùng ngày Musk công bố Grok3 được huấn luyện bằng 200.000 card, hai bài báo nghiên cứu theo hướng "ngược lại" hoàn toàn với triết lý "dùng sức mạnh thô để tạo kỳ tích" của Musk cũng được đăng tải trên cộng đồng công nghệ.
Trong danh sách tác giả của hai bài báo này, đều xuất hiện một cái tên quen thuộc:
Lương Văn Phong, Dương Trực Lân.


Ngày 18 tháng 2, DeepSeek và Moonshot gần như đồng thời công bố các bài báo nghiên cứu mới nhất của mình, chủ đề trực tiếp "va chạm" nhau —— cả hai đều nhằm thách thức cơ chế chú ý (attention) cốt lõi nhất trong kiến trúc Transformer, giúp xử lý ngữ cảnh dài hiệu quả hơn. Điều thú vị hơn nữa là tên của các nhà sáng lập kỹ thuật nổi bật của hai công ty này đều xuất hiện trong các bài báo và báo cáo kỹ thuật tương ứng.
Bài báo do DeepSeek công bố có tiêu đề:《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》.
Theo bài báo, kiến trúc mới NSA (Chú ý thưa bản địa) do nó đề xuất trong các bài kiểm tra chuẩn, đạt độ chính xác bằng hoặc cao hơn so với cơ chế chú ý đầy đủ; khi xử lý chuỗi đánh dấu 64k, tốc độ có thể tăng lên tới 11,6 lần, quá trình huấn luyện cũng hiệu quả hơn và cần ít năng lực tính toán hơn; thể hiện xuất sắc trong các nhiệm vụ xử lý ngữ cảnh siêu dài (như tóm tắt sách, sinh mã, nhiệm vụ suy luận).

So với những đổi mới thuật toán trước đây từng được bàn tán sôi nổi, lần này DeepSeek đã tiến thẳng vào cải tiến cơ chế chú ý (attention) cốt lõi nhất.
Transformer là nền tảng cho mọi sự phát triển rực rỡ của các mô hình lớn ngày nay, nhưng thuật toán cốt lõi của nó - cơ chế chú ý - vẫn tồn tại vấn đề bẩm sinh: lấy việc đọc sách làm ví dụ, cơ chế "chú ý toàn phần" truyền thống để hiểu và tạo ra nội dung sẽ đọc từng từ trong văn bản và so sánh nó với tất cả các từ còn lại. Điều này khiến việc xử lý văn bản càng dài thì càng phức tạp, chậm chạp về mặt kỹ thuật, thậm chí dẫn đến sập hệ thống.
Trước đây giới học thuật luôn đưa ra nhiều cách giải quyết khác nhau, NSA thông qua tối ưu hóa kỹ thuật thực tế và thí nghiệm, lắp ráp thành một phương án kiến trúc gồm ba bước có thể sử dụng trong giai đoạn huấn luyện:
Bao gồm, 1) Nén ngữ nghĩa —— không còn xem xét từng từ riêng lẻ, mà chia thành từng nhóm, tức là "khối", rút ngắn độ dài chuỗi xuống còn 1/k trong khi vẫn giữ nguyên ngữ nghĩa toàn cục, đồng thời đưa vào mã hóa vị trí để giảm thiểu tổn thất thông tin, từ đó giảm độ phức tạp tính toán từ O(n²) xuống O(n²/k).
2) Lựa chọn động —— mô hình dùng một cơ chế điểm số nào đó để chọn ra những từ quan trọng nhất trong văn bản, sau đó thực hiện tính toán chi tiết trên chúng. Chiến lược lấy mẫu theo tầm quan trọng này vẫn giữ được 98% thông tin chi tiết dù giảm được 75% khối lượng tính toán.
3) Cửa sổ trượt —— nếu hai bước trước là tóm tắt và gạch chân điểm then chốt, thì cửa sổ trượt là xem xét thông tin ngữ cảnh gần nhất, giúp duy trì tính liên tục, đồng thời nhờ công nghệ tái sử dụng bộ nhớ cấp phần cứng mà giảm tần suất truy cập bộ nhớ tới 40%.
Từng ý tưởng này không phải do DeepSeek phát minh, nhưng bạn có thể hình dung đây giống như công việc kiểu ASML —— các yếu tố công nghệ này vốn đã tồn tại, rải rác khắp nơi, nhưng về mặt kỹ thuật, việc kết hợp chúng lại thành một phương án có thể mở rộng quy mô, một kiến trúc thuật toán mới, chưa ai từng làm. Giờ đây có người đã dùng năng lực kỹ thuật mạnh mẽ để chế tạo ra một chiếc "máy khắc quang", người khác có thể dùng nó để huấn luyện mô hình trong môi trường công nghiệp thực tế.

Và bài báo do Moonshot công bố cùng ngày, đề xuất một kiến trúc có tư tưởng cốt lõi rất giống nhau: MoBA. (MoBA: MIXTURE OF BLOCK ATTENTION FOR LONG-CONTEXT LLMS)
Từ cái tên của nó có thể thấy rõ, nó cũng sử dụng phương pháp biến "từ" thành "khối". Sau khi "cắt khối", trong MoBA có một mạng điều khiển như một "nhân viên lọc thông minh", chịu trách nhiệm chọn ra K khối liên quan nhất với một "khối" nhất định, chỉ tính toán chú ý trên những khối đã chọn này. Trong quá trình triển khai thực tế, MoBA còn kết hợp các kỹ thuật tối ưu hóa FlashAttention (giúp tính toán chú ý hiệu quả hơn) và MoE (mô hình hỗn hợp chuyên gia).

So với NSA, MoBA nhấn mạnh tính linh hoạt hơn, không hoàn toàn rời bỏ cơ chế chú ý toàn phần đang phổ biến nhất hiện nay, mà thiết kế một cách thức có thể tự do chuyển đổi, cho phép các mô hình này chuyển đổi giữa cơ chế chú ý toàn phần và cơ chế chú ý thưa, tạo thêm không gian thích nghi cho các mô hình chú ý toàn phần hiện có.
Theo bài báo, lợi thế của MoBA về độ phức tạp tính toán trở nên rõ rệt khi chiều dài ngữ cảnh tăng lên. Trong thử nghiệm 1M token, MoBA nhanh hơn cơ chế chú ý toàn phần 6,5 lần; ở mức 10M token, tốc độ tăng gấp 16 lần. Hơn nữa, nó đã được sử dụng trong sản phẩm Kimi để xử lý nhu cầu xử lý ngữ cảnh siêu dài từ người dùng hàng ngày.
Một lý do quan trọng khiến Dương Trực Lân thu hút sự chú ý khi ban đầu thành lập Moonshot là ảnh hưởng và số lượng trích dẫn của các bài báo khoa học của anh, tuy nhiên kể từ bài báo K1.5, nghiên cứu dạng bài báo cuối cùng của anh dừng lại vào tháng 1 năm 2024. Trong khi đó, mặc dù Lương Văn Phong xuất hiện với tư cách tác giả trong báo cáo kỹ thuật mô hình quan trọng nhất của DeepSeek, nhưng danh sách tác giả trong các báo cáo này gần như tương đương danh sách nhân viên DeepSeek, hầu như tất cả mọi người đều được liệt kê. Trong khi đó, bài báo về NSA chỉ có vài người tác giả. Từ đó có thể thấy mức độ quan trọng của hai công việc này đối với các nhà sáng lập của hai công ty, cũng như ý nghĩa trong việc hiểu rõ định hướng kỹ thuật của hai công ty này.
Một chi tiết khác minh chứng cho tầm quan trọng này là,有网友 phát hiện lịch sử nộp bài báo NSA trên arxiv cho thấy, nó được gửi vào ngày 16 tháng 2, và người nộp chính là Lương Văn Phong.

Hai
Đây không phải lần đầu tiên Moonshot và DeepSeek "va chạm" nhau. Khi R1 ra mắt, Kimi hiếm hoi cũng công bố báo cáo kỹ thuật K1.5, trước đó công ty này không ưu tiên việc phô diễn suy nghĩ kỹ thuật ra bên ngoài. Lúc đó, hai bài báo này cùng nhắm mục tiêu vào mô hình suy luận thúc đẩy bởi RL. Thực tế, nếu đọc kỹ hai báo cáo kỹ thuật này, trong bài báo K1.5, Moonshot chia sẻ chi tiết hơn về cách huấn luyện một mô hình suy luận, thậm chí xét riêng về độ thông tin và mức độ chi tiết, nó vượt trội hơn bài báo R1. Nhưng sau đó, làn sóng DeepSeek đã che khuất phần lớn thảo luận về chính bài báo này.
Một điểm xác nhận là, bài báo gần đây hiếm hoi do OpenAI công bố giải thích về khả năng suy luận của các mô hình dòng o, đồng thời nhắc tên DeepSeek R1 và Kimi k1.5. "DeepSeek-R1 và Kimi k1.5 thông qua nghiên cứu độc lập cho thấy, việc sử dụng phương pháp học theo chuỗi suy nghĩ (COT) có thể cải thiện đáng kể hiệu suất tổng hợp của mô hình trong việc giải toán và thách thức lập trình." Nghĩa là, đây là hai mô hình suy luận mà OpenAI tự chọn để so sánh.

"Điều kỳ diệu nhất của kiến trúc mô hình lớn theo tôi cảm nhận là dường như chính nó đã tự vạch ra con đường tiến lên, khiến những người khác từ các góc độ khác nhau đi đến cùng một định hướng."
Giáo sư Chương Minh Tinh của Đại học Thanh Hoa, người tham gia nghiên cứu cốt lõi MoBa, chia sẻ trên Zhihu.
Anh ấy còn đưa ra một so sánh rất thú vị.
"DeepSeek R1 và Kimi K1.5 đều hướng tới ORM based RL, tuy nhiên R1 bắt đầu từ Zero, 'thuần khiết' hơn hay nói là 'less structure' hơn một chút, ra mắt sớm hơn, đồng thời công bố mã nguồn mô hình.
Kimi MoBA và DeepSeek NSA một lần nữa đều hướng tới learned sparse attention có thể lan truyền ngược, lần này MoBA còn 'less structure' hơn, ra mắt sớm hơn, đồng thời công bố mã nguồn."
Sự va chạm liên tiếp của hai công ty này giúp mọi người so sánh và hiểu rõ hơn về sự phát triển của công nghệ học tăng cường, cũng như xu hướng tiến hóa của cơ chế chú ý hiệu quả hơn và xử lý văn bản dài hơn.
"Cũng giống như việc xem R1 và K1.5 cùng lúc sẽ giúp học tốt hơn cách huấn luyện Reasoning Model, việc xem MoBA và NSA cùng lúc sẽ giúp hiểu rõ hơn từ nhiều khía cạnh niềm tin của chúng ta rằng —— độ thưa (sparsity) trong Attention nên tồn tại và có thể đạt được thông qua huấn luyện end-to-end," Chương Minh Tinh viết.
Ba
Sau khi MoBA ra mắt, Hứa Tân Nhiên của Moonshot cũng đăng trên mạng xã hội rằng, đây là công việc kéo dài một năm rưỡi, giờ đây các nhà phát triển có thể sử dụng ngay.
Nhưng việc chọn công bố mã nguồn vào thời điểm này chắc chắn sẽ bị đặt trong "bóng đổ" của DeepSeek để thảo luận. Điều thú vị là, trong bối cảnh các bên tích cực tích hợp DeepSeek và công bố mã nguồn mô hình của mình, bên ngoài dường như luôn nghĩ đến Moonshot đầu tiên, các thảo luận về việc Kimi có tích hợp hay không, mô hình có công bố mã nguồn hay không không ngừng, Moonshot và Douyin dường như trở thành hai "ngoại lệ" còn sót lại.
Và nhìn lại hiện tại, ảnh hưởng của DeepSeek đối với Moonshot so với các đối thủ khác là sâu sắc và liên tục hơn, mang đến thách thức toàn diện từ định hướng kỹ thuật đến tranh giành người dùng: một mặt nó chứng minh rằng ngay cả khi bước vào cạnh tranh sản phẩm, năng lực mô hình nền tảng vẫn là yếu tố quan trọng nhất; mặt khác, một phản ứng dây chuyền ngày càng rõ ràng là, sự kết hợp tìm kiếm WeChat và Yuanbao của Tencent đang tận dụng đà của DeepSeek R1 để bù đắp một chiến dịch quảng cáo mà trước đây họ đã bỏ lỡ, cuối cùng cũng nhắm vào Kimi và Douyin.
Do đó, tư duy ứng phó của Moonshot trở nên đáng chú ý. Trong đó, việc công bố mã nguồn là bước phải làm. Và dường như lựa chọn của Moonshot là muốn thực sự bắt kịp tư duy công bố mã nguồn của DeepSeek —— phần lớn các công bố mã nguồn xuất hiện sau DeepSeek dường như chỉ là phản ứng tự vệ, họ vẫn dùng tư duy công bố mã nguồn thời Llama để theo sau. Thực tế, việc công bố mã nguồn của DeepSeek đã khác biệt so với trước đây, không còn là loại công bố mã nguồn kiểu phòng thủ gây rối đối thủ đóng mã như Llama, mà là một chiến lược cạnh tranh có thể mang lại lợi ích rõ ràng.
Gần đây truyền ra tin Moonshot nội bộ "đặt mục tiêu đạt kết quả SOTA (state-of-the-art)", dường như là chiến lược gần nhất với mô hình công bố mã nguồn mới này, sẽ công bố mô hình mạnh nhất, phương pháp kiến trúc mạnh nhất, từ đó ngược lại thu được ảnh hưởng mà họ luôn khao khát ở phía ứng dụng.
Theo hai bài báo của họ, MoBA đã được áp dụng trong mô hình và sản phẩm của Moonshot, NSA cũng vậy, thậm chí khiến bên ngoài có thể kỳ vọng rõ ràng hơn về mô hình tiếp theo của DeepSeek. Vì vậy điểm đáng chú ý tiếp theo là, liệu Moonshot và DeepSeek có tiếp tục va chạm một lần nữa khi dùng MoBA và NSA để huấn luyện mô hình thế hệ tiếp theo, và liệu có tiếp tục theo cách công bố mã nguồn —— đây có lẽ cũng là nút chờ đợi mà Moonshot đang hướng tới.
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News










