
IOSG | Từ năng lực tính toán đến trí tuệ: Bản đồ đầu tư AI phi tập trung do học tăng cường thúc đẩy
Tuyển chọn TechFlowTuyển chọn TechFlow

IOSG | Từ năng lực tính toán đến trí tuệ: Bản đồ đầu tư AI phi tập trung do học tăng cường thúc đẩy
Phân tích hệ thống mô hình huấn luyện AI và nguyên lý công nghệ học tăng cường, chứng minh lợi thế cấu trúc của học tăng cường × Web3.
Tác giả: Jacob Zhao @IOSG
Trí tuệ nhân tạo đang chuyển từ học thống kê chủ yếu dựa trên "phù hợp mô hình" sang hệ thống năng lực lấy trọng tâm là "suy luận cấu trúc", khiến tầm quan trọng của giai đoạn huấn luyện hậu kỳ (Post-training) tăng nhanh chóng. Sự xuất hiện của DeepSeek-R1 đánh dấu bước lật ngược mang tính khuôn mẫu của học tăng cường trong thời đại mô hình lớn, hình thành sự đồng thuận trong ngành: huấn luyện trước xây dựng nền tảng năng lực chung cho mô hình, còn học tăng cường không chỉ đơn thuần là công cụ căn chỉnh giá trị nữa mà đã được chứng minh có thể nâng cao hệ thống chất lượng chuỗi suy luận và khả năng ra quyết định phức tạp, dần phát triển thành con đường kỹ thuật liên tục cải thiện mức độ thông minh.
Đồng thời, Web3 đang tái cấu trúc mối quan hệ sản xuất AI thông qua mạng lưới sức mạnh tính toán phi tập trung và hệ thống khuyến khích mã hóa, trong khi nhu cầu cấu trúc của học tăng cường đối với việc lấy mẫu rollout, tín hiệu phần thưởng và huấn luyện xác minh được lại phù hợp tự nhiên với sự hợp tác tính toán, phân bổ khuyến khích và thực thi xác minh được của blockchain. Báo cáo nghiên cứu này sẽ phân tích chi tiết các khuôn mẫu huấn luyện AI và nguyên lý kỹ thuật học tăng cường, chứng minh lợi thế cấu trúc của học tăng cường × Web3, đồng thời phân tích các dự án như Prime Intellect, Gensyn, Nous Research, Gradient, Grail và Fraction AI.
Ba giai đoạn huấn luyện AI: Huấn luyện trước, tinh chỉnh lệnh và căn chỉnh sau huấn luyện
Toàn bộ vòng đời huấn luyện mô hình ngôn ngữ lớn hiện đại (LLM) thường được chia thành ba giai đoạn cốt lõi: huấn luyện trước (Pre-training), tinh chỉnh giám sát (SFT) và huấn luyện hậu kỳ (Post-training/RL). Ba giai đoạn này lần lượt đảm nhiệm chức năng “xây dựng mô hình thế giới – truyền năng lực nhiệm vụ – định hình suy luận và giá trị”, cấu trúc tính toán, yêu cầu dữ liệu và độ khó kiểm chứng của chúng quyết định mức độ phù hợp với việc phi tập trung hóa.
-
Huấn luyện trước (Pre-training) xây dựng cấu trúc thống kê ngôn ngữ và mô hình thế giới đa phương thức của mô hình thông qua học tự giám sát quy mô lớn (Self-supervised Learning), là nền tảng năng lực của LLM. Giai đoạn này cần được đào tạo theo cách đồng bộ toàn cục trên kho ngữ liệu hàng nghìn tỷ, phụ thuộc vào cụm máy đồng nhất gồm hàng ngàn đến hàng vạn GPU H100, chiếm tới 80–95% chi phí, cực kỳ nhạy cảm với băng thông và bản quyền dữ liệu, do đó phải hoàn thành trong môi trường cực kỳ tập trung.
-
Tinh chỉnh (Supervised Fine-tuning) dùng để truyền năng lực nhiệm vụ và định dạng lệnh, lượng dữ liệu nhỏ, chi phí chiếm khoảng 5–15%, có thể thực hiện huấn luyện toàn tham số hoặc sử dụng phương pháp tinh chỉnh hiệu quả tham số (PEFT), trong đó LoRA, Q-LoRA và Adapter là những phương pháp phổ biến trong công nghiệp. Tuy nhiên vẫn cần đồng bộ gradient, khiến tiềm năng phi tập trung hóa bị hạn chế.
-
Huấn luyện hậu kỳ (Post-training) bao gồm nhiều giai đoạn con lặp lại, quyết định khả năng suy luận, giá trị và ranh giới an toàn của mô hình, phương pháp bao gồm cả hệ thống học tăng cường (RLHF, RLAIF, GRPO) và các phương pháp tối ưu hóa sở thích không dùng RL (DPO), cũng như mô hình phần thưởng quá trình (PRM). Giai đoạn này có lượng dữ liệu và chi phí thấp (5–10%), tập trung chủ yếu vào Rollout và cập nhật chiến lược; hỗ trợ tự nhiên việc thực thi bất đồng bộ và phân tán, các nút không cần nắm giữ trọng số đầy đủ, kết hợp với tính toán xác minh được và khuyến khích trên chuỗi có thể hình thành mạng huấn luyện phi tập trung mở, là giai đoạn huấn luyện phù hợp nhất với Web3.

Toàn cảnh công nghệ học tăng cường: Kiến trúc, khung và ứng dụng
Kiến trúc hệ thống và các khâu cốt lõi của học tăng cường
Học tăng cường (Reinforcement Learning, RL) thúc đẩy mô hình tự cải thiện khả năng ra quyết định thông qua "tương tác môi trường – phản hồi phần thưởng – cập nhật chiến lược", cấu trúc cốt lõi có thể coi là một vòng kín phản hồi gồm trạng thái, hành động, phần thưởng và chiến lược. Một hệ thống RL hoàn chỉnh thường bao gồm ba loại thành phần: Policy (mạng chiến lược), Rollout (lấy mẫu kinh nghiệm) và Learner (bộ cập nhật chiến lược). Chiến lược tương tác với môi trường để tạo ra lộ trình, Learner cập nhật chiến lược dựa trên tín hiệu phần thưởng, từ đó hình thành quá trình học tập lặp lại liên tục, không ngừng tối ưu hóa:

-
Mạng chiến lược (Policy): Tạo ra hành động từ trạng thái môi trường, là trung tâm ra quyết định của hệ thống. Trong quá trình huấn luyện cần lan truyền ngược tập trung để duy trì tính nhất quán; trong quá trình suy luận có thể phân phối tới các nút khác nhau để chạy song song.
-
Lấy mẫu kinh nghiệm (Rollout): Các nút thực hiện tương tác môi trường theo chiến lược, tạo ra các lộ trình trạng thái – hành động – phần thưởng. Quá trình này rất song song, giao tiếp cực kỳ ít, không nhạy cảm với sự khác biệt phần cứng, là khâu dễ mở rộng nhất trong môi trường phi tập trung.
-
Bộ học (Learner): Tập hợp tất cả các lộ trình Rollout và thực hiện cập nhật gradient chiến lược, là mô-đun duy nhất yêu cầu cao về sức mạnh tính toán và băng thông, do đó thường được triển khai tập trung hoặc bán tập trung để đảm bảo sự ổn định hội tụ.
Các khung giai đoạn học tăng cường (RLHF → RLAIF → PRM → GRPO)
Học tăng cường thường được chia thành năm giai đoạn, quy trình tổng thể như sau:

#Giai đoạn tạo dữ liệu (Khám phá chiến lược)
Dưới điều kiện lời nhắc đầu vào nhất định, mô hình chiến lược πθ tạo ra nhiều chuỗi suy luận hoặc lộ trình hoàn chỉnh ứng viên, cung cấp cơ sở mẫu cho đánh giá sở thích và mô hình phần thưởng tiếp theo, quyết định độ rộng khám phá của chiến lược.
#Giai đoạn phản hồi sở thích (RLHF / RLAIF)
-
RLHF (Học tăng cường từ Phản hồi Con người) thông qua nhiều câu trả lời ứng viên, gán nhãn sở thích thủ công, huấn luyện mô hình phần thưởng (RM) và tối ưu hóa chiến lược bằng PPO, giúp đầu ra mô hình phù hợp hơn với giá trị con người, là bước then chốt từ GPT-3.5 → GPT-4.
-
RLAIF (Học tăng cường từ Phản hồi AI) thay thế việc gán nhãn thủ công bằng AI Judge hoặc quy tắc hiến pháp, tự động hóa việc thu thập sở thích, giảm đáng kể chi phí và có đặc tính mở rộng, đã trở thành khuôn mẫu căn chỉnh chính thống của Anthropic, OpenAI, DeepSeek, v.v.
#Giai đoạn mô hình phần thưởng (Reward Modeling)
Sở thích cặp đầu vào mô hình phần thưởng, học ánh xạ đầu ra thành phần thưởng. RM dạy mô hình "câu trả lời đúng là gì", PRM dạy mô hình "cách suy luận đúng".
-
RM (Mô hình Phần thưởng) dùng để đánh giá chất lượng câu trả lời cuối cùng, chỉ chấm điểm đầu ra:
-
Mô hình phần thưởng quá trình PRM (Process Reward Model): Không chỉ đánh giá câu trả lời cuối cùng, mà còn chấm điểm từng bước suy luận, mỗi token, mỗi đoạn logic, cũng là công nghệ then chốt của OpenAI o1 và DeepSeek-R1, về bản chất là "dạy mô hình cách suy nghĩ".
#Giai đoạn xác minh phần thưởng (RLVR / Reward Verifiability)
Giới thiệu "ràng buộc xác minh được" trong quá trình tạo và sử dụng tín hiệu phần thưởng, khiến phần thưởng càng đến từ các quy tắc, sự thật hoặc sự đồng thuận có thể tái tạo càng tốt, từ đó giảm rủi ro reward hacking và thiên lệch, đồng thời nâng cao tính kiểm toán và mở rộng trong môi trường mở.
#Giai đoạn tối ưu hóa chiến lược (Tối ưu hóa Chính sách)
Là cập nhật tham số chiến lược θ dưới hướng dẫn của tín hiệu mô hình phần thưởng, nhằm đạt được chiến lược πθ′ có khả năng suy luận mạnh hơn, an toàn cao hơn và mô hình hành vi ổn định hơn. Các phương pháp tối ưu hóa phổ biến bao gồm:
-
PPO (Proximal Policy Optimization): Bộ tối ưu hóa truyền thống của RLHF, nổi bật về độ ổn định, nhưng trong các nhiệm vụ suy luận phức tạp thường gặp giới hạn như hội tụ chậm, thiếu ổn định.
-
GRPO (Tối ưu hóa Chính sách Tương đối Nhóm): Là đổi mới cốt lõi của DeepSeek-R1, mô hình hóa phân bố lợi thế nội nhóm ứng viên để ước lượng giá trị kỳ vọng, chứ không chỉ xếp hạng đơn giản. Phương pháp này giữ lại thông tin biên độ phần thưởng, phù hợp hơn để tối ưu hóa chuỗi suy luận, quá trình huấn luyện ổn định hơn, được coi là khuôn khổ tối ưu hóa học tăng cường quan trọng tiếp theo dành cho các tình huống suy luận sâu sau PPO.
-
DPO (Direct Preference Optimization): Phương pháp huấn luyện hậu kỳ không phải học tăng cường: không tạo lộ trình, không xây mô hình phần thưởng, mà trực tiếp tối ưu hóa trên cặp sở thích, chi phí thấp, hiệu quả ổn định, do đó được sử dụng rộng rãi để căn chỉnh các mô hình mã nguồn mở như Llama, Gemma, tuy nhiên không nâng cao khả năng suy luận.
#Giai đoạn triển khai chiến lược mới (Triển khai Chính sách Mới)
Mô hình sau tối ưu hóa biểu hiện ở: khả năng tạo chuỗi suy luận mạnh hơn (Suy luận Hệ thống-2), hành vi phù hợp hơn với sở thích con người hoặc AI, tỷ lệ ảo giác thấp hơn, an toàn cao hơn. Mô hình liên tục học hỏi sở thích, tối ưu hóa quá trình, nâng cao chất lượng ra quyết định trong quá trình lặp lại, hình thành vòng khép kín.

Năm phân loại ứng dụng công nghiệp của học tăng cường
Học tăng cường (Reinforcement Learning) đã tiến hóa từ trí tuệ trò chơi ban đầu thành khung cốt lõi ra quyết định tự chủ xuyên ngành, các ứng dụng của nó theo độ trưởng thành kỹ thuật và mức độ triển khai công nghiệp có thể được khái quát thành năm loại, và thúc đẩy các đột phá then chốt trong từng lĩnh vực riêng biệt.
-
Trò chơi và hệ thống chiến lược (Game & Strategy): Là lĩnh vực RL được kiểm chứng sớm nhất, trong các môi trường "thông tin hoàn hảo + phần thưởng rõ ràng" như AlphaGo, AlphaZero, AlphaStar, OpenAI Five, RL thể hiện trí tuệ ra quyết định ngang bằng hoặc vượt chuyên gia con người, đặt nền móng cho các thuật toán RL hiện đại.
-
Robot và trí tuệ nhập thể (Embodied AI): RL thông qua điều khiển liên tục, mô hình động lực học và tương tác môi trường, giúp robot học thao tác, điều khiển chuyển động và nhiệm vụ đa phương thức (ví dụ RT-2, RT-X), đang nhanh chóng tiến tới công nghiệp hóa, là tuyến công nghệ then chốt để triển khai robot trong thế giới thực.
-
Suy luận kỹ thuật số (Digital Reasoning / LLM System-2): RL + PRM thúc đẩy mô hình lớn từ "bắt chước ngôn ngữ" sang "suy luận cấu trúc", các thành quả tiêu biểu bao gồm DeepSeek-R1, OpenAI o1/o3, Anthropic Claude và AlphaGeometry, bản chất là tối ưu hóa phần thưởng ở cấp độ chuỗi suy luận, chứ không chỉ đánh giá câu trả lời cuối cùng.
-
Tự động hóa phát hiện khoa học và tối ưu hóa toán học (Phát hiện Khoa học): RL tìm kiếm cấu trúc hoặc chiến lược tối ưu trong môi trường không nhãn, phần thưởng phức tạp và không gian tìm kiếm khổng lồ, đã đạt được các đột phá cơ bản như AlphaTensor, AlphaDev, Fusion RL, thể hiện khả năng khám phá vượt trực giác con người.
-
Quyết định kinh tế và hệ thống giao dịch (Ra quyết định Kinh tế & Giao dịch): RL được dùng để tối ưu hóa chiến lược, kiểm soát rủi ro chiều cao và tạo hệ thống giao dịch thích nghi, so với mô hình lượng hóa truyền thống có thể học liên tục hơn trong môi trường bất định, là thành phần quan trọng của tài chính thông minh.
Sự phù hợp tự nhiên giữa Học tăng cường và Web3
Sự ăn khớp cao giữa học tăng cường (RL) và Web3 bắt nguồn từ việc cả hai về bản chất đều là "hệ thống vận hành bởi khuyến khích". RL phụ thuộc tín hiệu phần thưởng để tối ưu hóa chiến lược, blockchain dựa vào khuyến khích kinh tế để điều phối hành vi người tham gia, khiến chúng về mặt cơ chế vốn dĩ nhất quán. Nhu cầu cốt lõi của RL —— lấy mẫu Rollout dị cấu quy mô lớn, phân bổ phần thưởng và xác minh tính chân thực —— chính là lợi thế cấu trúc của Web3.
#Tách rời suy luận và huấn luyện
Quá trình huấn luyện học tăng cường có thể được chia rõ thành hai giai đoạn:
-
Rollout (lấy mẫu khám phá): Mô hình tạo ra lượng lớn dữ liệu dựa trên chiến lược hiện tại, là nhiệm vụ đòi hỏi tính toán cao nhưng giao tiếp thưa thớt. Nó không yêu cầu giao tiếp thường xuyên giữa các nút, thích hợp để chạy song song trên GPU tiêu dùng phân bố toàn cầu.
-
Cập nhật (Update): Cập nhật trọng số mô hình dựa trên dữ liệu thu thập, cần nút tập trung băng thông cao để hoàn thành.
"Tách rời suy luận – huấn luyện" vốn dĩ phù hợp với cấu trúc sức mạnh tính toán dị cấu phi tập trung: Rollout có thể được thuê ngoài cho mạng mở, thanh toán theo đóng góp thông qua cơ chế token, trong khi cập nhật mô hình giữ tập trung để đảm bảo ổn định.
#Tính xác minh (Verifiability)
ZK và Proof-of-Learning cung cấp phương tiện xác minh nút có thực hiện suy luận chân thực hay không, giải quyết vấn đề trung thực trong mạng mở. Trong các nhiệm vụ xác định như mã hóa, suy luận toán học, người xác minh chỉ cần kiểm tra câu trả lời để xác nhận khối lượng công việc, nâng cao đáng kể độ tin cậy của hệ thống RL phi tập trung.
#Lớp khuyến khích, cơ chế tạo phản hồi dựa trên kinh tế token
Cơ chế token của Web3 có thể thưởng trực tiếp cho người đóng góp phản hồi sở thích RLHF/RLAIF, khiến việc tạo dữ liệu sở thích có cấu trúc khuyến khích minh bạch, có thể thanh toán, không cần cấp phép; đặt cược và cắt giảm (Staking/Slashing) thêm nữa ràng buộc chất lượng phản hồi, hình thành thị trường phản hồi hiệu quả và phù hợp hơn so với cộng tác truyền thống.
#Tiềm năng học tăng cường đa tác nhân (MARL)
Blockchain về bản chất là môi trường đa tác nhân công khai, minh bạch, tiến hóa liên tục, các tài khoản, hợp đồng và tác nhân không ngừng điều chỉnh chiến lược dưới động lực khuyến khích, khiến nó vốn dĩ có tiềm năng xây dựng sân chơi thí nghiệm MARL quy mô lớn. Dù vẫn còn ở giai đoạn sơ khai, nhưng tính chất trạng thái công khai, thực thi xác minh được, khuyến khích lập trình được của nó cung cấp lợi thế nguyên tắc cho sự phát triển MARL trong tương lai.
Phân tích các dự án điển hình Web3 + Học tăng cường
Dựa trên khung lý thuyết trên, chúng tôi sẽ phân tích ngắn gọn các dự án đại diện nhất hiện nay trong hệ sinh thái:
Prime Intellect: Khuôn mẫu học tăng cường bất đồng bộ prime-rl
Prime Intellect cam kết xây dựng thị trường sức mạnh tính toán mở toàn cầu, giảm门槛 đào tạo, thúc đẩy đào tạo hợp tác phi tập trung, và phát triển chồng công nghệ siêu trí tuệ mã nguồn mở hoàn chỉnh. Hệ thống của nó bao gồm: Prime Compute (môi trường điện toán đám mây/phân tán thống nhất), họ mô hình INTELLECT (10B–100B+), Trung tâm môi trường học tăng cường mở (Environments Hub), và động cơ dữ liệu tổng hợp quy mô lớn (SYNTHETIC-1/2).
Các thành phần hạ tầng cốt lõi của Prime Intellect, khung prime-rl, được thiết kế dành riêng cho môi trường phân tán bất đồng bộ và có liên quan cao đến học tăng cường, bên cạnh đó còn có giao thức truyền thông OpenDiLoCo phá vỡ giới hạn băng thông, cơ chế xác minh TopLoc đảm bảo tính toàn vẹn tính toán, v.v.
#Tổng quan các thành phần hạ tầng cốt lõi Prime Intellect

#Nền tảng kỹ thuật: Khung học tăng cường bất đồng bộ prime-rl
prime-rl là động cơ huấn luyện cốt lõi của Prime Intellect, được thiết kế dành riêng cho môi trường phân tán bất đồng bộ quy mô lớn, đạt được suy luận thông lượng cao và cập nhật ổn định thông qua việc tách hoàn toàn Actor–Learner. Người thực thi (Rollout Worker) và người học (Trainer) không còn chặn đồng bộ, các nút có thể tham gia hoặc rút lui bất cứ lúc nào, chỉ cần kéo chiến lược mới nhất và tải lên dữ liệu tạo ra:

-
Người thực thi Actor (Rollout Workers): Chịu trách nhiệm suy luận mô hình và tạo dữ liệu. Prime Intellect sáng tạo tích hợp động cơ suy luận vLLM vào phía Actor. Công nghệ PagedAttention và xử lý liên tục theo lô (Continuous Batching) của vLLM cho phép Actor tạo lộ trình suy luận với thông lượng cực cao.
-
Người học Learner (Trainer): Chịu trách nhiệm tối ưu hóa chiến lược. Learner kéo dữ liệu cập nhật gradient một cách bất đồng bộ từ bộ đệm kinh nghiệm chia sẻ (Experience Buffer), không cần chờ tất cả Actor hoàn thành lô hiện tại.
-
Bộ điều phối (Orchestrator): Chịu trách nhiệm điều phối trọng số mô hình và luồng dữ liệu.
#Các điểm đổi mới then chốt của prime-rl
-
Hoàn toàn bất đồng bộ (True Asynchrony): prime-rl từ bỏ khuôn mẫu đồng bộ truyền thống của PPO, không chờ nút chậm, không cần căn chỉnh lô, cho phép bất kỳ số lượng và hiệu suất GPU nào tham gia bất cứ lúc nào, đặt nền móng cho tính khả thi của RL phi tập trung.
-
Tích hợp sâu FSDP2 và MoE: Thông qua phân đoạn tham số FSDP2 và kích hoạt thưa MoE, prime-rl cho phép mô hình trăm tỷ tham số được huấn luyện hiệu quả trong môi trường phân tán, Actor chỉ chạy các chuyên gia hoạt động, giảm đáng kể bộ nhớ và chi phí suy luận.
-
GRPO+ (Tối ưu hóa Chính sách Tương đối Nhóm): GRPO loại bỏ mạng Critic, giảm đáng kể chi phí tính toán và bộ nhớ, vốn dĩ phù hợp với môi trường bất đồng bộ, GRPO+ của prime-rl còn đảm bảo hội tụ đáng tin cậy trong điều kiện độ trễ cao thông qua cơ chế ổn định hóa.
#Họ mô hình INTELLECT: Dấu hiệu trưởng thành công nghệ RL phi tập trung
-
INTELLECT-1 (10B, tháng 10 năm 2024) lần đầu tiên chứng minh OpenDiLoCo có thể huấn luyện hiệu quả trong mạng dị cấu trải rộng ba châu lục (tỷ lệ giao tiếp <2%, sử dụng sức mạnh tính toán 98%), phá vỡ nhận thức vật lý về huấn luyện xuyên địa lý;
-
INTELLECT-2 (32B, tháng 4 năm 2025) với tư cách là mô hình RL Permissionless đầu tiên, xác minh khả năng hội tụ ổn định của prime-rl và GRPO+ trong môi trường trễ nhiều bước và bất đồng bộ, thực hiện RL phi tập trung với sự tham gia của sức mạnh tính toán mở toàn cầu;
-
INTELLECT-3 (106B MoE, tháng 11 năm 2025) sử dụng kiến trúc thưa chỉ kích hoạt 12B tham số, được huấn luyện trên 512×H200 và đạt hiệu suất suy luận cấp flagship (AIME 90.8%, GPQA 74.4%, MMLU-Pro 81.9%, v.v.), hiệu suất tổng thể đã gần bằng hoặc thậm chí vượt các mô hình đóng cửa tập trung có quy mô lớn hơn nhiều.
Prime Intellect còn xây dựng vài hạ tầng hỗ trợ: OpenDiLoCo thông qua truyền thông thưa về thời gian và sai số trọng số định lượng, giảm lượng truyền thông huấn luyện xuyên địa lý hàng trăm lần, giúp INTELLECT-1 duy trì 98% hiệu suất trên mạng ba châu; TopLoc + Verifiers tạo thành lớp thực thi đáng tin cậy phi tập trung, đảm bảo tính chân thực của dữ liệu suy luận và phần thưởng bằng dấu vân tay kích hoạt và xác minh sandbox; động cơ dữ liệu SYNTHETIC tạo ra chuỗi suy luận chất lượng cao quy mô lớn, và cho phép mô hình 671B chạy hiệu quả trên cụm GPU tiêu dùng nhờ song song theo ống dẫn. Những thành phần này cung cấp nền tảng kỹ thuật then chốt cho việc tạo dữ liệu, xác minh và thông lượng suy luận của RL phi tập trung. Dòng INTELLECT chứng minh chồng công nghệ này có thể tạo ra các mô hình đẳng cấp thế giới trưởng thành, đánh dấu hệ thống đào tạo phi tập trung chuyển từ giai đoạn khái niệm sang giai đoạn thực tiễn.
Gensyn: RL Swarm và SAPO - Bộ xương cốt lõi học tăng cường
Mục tiêu của Gensyn là tập hợp sức mạnh tính toán nhàn rỗi toàn cầu thành một cơ sở hạ tầng huấn luyện AI mở, đáng tin cậy, có thể mở rộng vô hạn. Cốt lõi của nó bao gồm lớp thực thi chuẩn hóa xuyên thiết bị, mạng điều phối ngang hàng và hệ thống xác minh nhiệm vụ đáng tin cậy, đồng thời tự động phân bổ nhiệm vụ và phần thưởng thông qua hợp đồng thông minh. Theo đặc điểm học tăng cường, Gensyn giới thiệu các cơ chế cốt lõi như RL Swarm, SAPO và SkipPipe, tách rời ba khâu tạo ra, đánh giá, cập nhật, tận dụng "đàn ong" từ GPU dị cấu toàn cầu để đạt tiến hóa tập thể. Cuối cùng, sản phẩm họ cung cấp không phải là sức mạnh tính toán đơn thuần, mà là trí tuệ có thể xác minh (Verifiable Intelligence).
#Ứng dụng học tăng cường trong chồng Gensyn

#RL Swarm: Động cơ học tăng cường hợp tác phi tập trung
RL Swarm thể hiện một mô hình hợp tác hoàn toàn mới. Nó không còn là việc phân phối nhiệm vụ đơn giản, mà là một vòng lặp phi tập trung "tạo ra – đánh giá – cập nhật" mô phỏng quá trình học tập xã hội loài người, tương tự quá trình học tập hợp tác, lặp lại vô hạn:
-
Người giải (Solvers): Chịu trách nhiệm suy luận mô hình cục bộ và tạo Rollout, nút dị cấu không thành vấn đề. Gensyn tích hợp động cơ suy luận thông lượng cao cục bộ (ví dụ CodeZero), có thể xuất lộ trình đầy đủ chứ không chỉ câu trả lời.
-
Người đề xuất (Proposers): Tạo nhiệm vụ động (toán học, vấn đề mã hóa, v.v.), hỗ trợ đa dạng nhiệm vụ và độ khó thích nghi kiểu Curriculum Learning.
-
Người đánh giá (Evaluators): Sử dụng "mô hình trọng tài" đóng băng hoặc quy tắc để đánh giá Rollout cục bộ, tạo tín hiệu phần thưởng cục bộ. Quá trình đánh giá có thể được kiểm toán, giảm không gian gian lận.
Ba bên cùng tạo thành một cấu trúc tổ chức RL ngang hàng, có thể hoàn thành học tập hợp tác quy mô lớn mà không cần điều phối tập trung.

#SAPO: Thuật toán tối ưu hóa chiến lược được tái cấu trúc cho phi tập trung
SAPO (Swarm Sampling Policy Optimization) lấy trọng tâm là "chia sẻ Rollout và lọc mẫu không có tín hiệu gradient, chứ không chia sẻ gradient", thông qua lấy mẫu Rollout quy mô lớn phi tập trung, coi Rollout nhận được như được tạo cục bộ, từ đó duy trì hội tụ ổn định trong môi trường không có điều phối tập trung, độ trễ nút khác biệt rõ rệt. So với PPO phụ thuộc mạng Critic, chi phí tính toán cao, hoặc GRPO dựa trên ước lượng lợi thế nhóm, SAPO cho phép GPU tiêu dùng tham gia hiệu quả vào tối ưu hóa học tăng cường quy mô lớn với băng thông cực thấp.
Thông qua RL Swarm và SAPO, Gensyn chứng minh học tăng cường (đặc biệt là RLVR ở giai đoạn huấn luyện hậu kỳ) vốn dĩ phù hợp với kiến trúc phi tập trung —— vì nó phụ thuộc nhiều hơn vào khám phá quy mô lớn, đa dạng (Rollout), chứ không phải đồng bộ tham số tần suất cao. Kết hợp hệ thống xác minh PoL và Verde, Gensyn cung cấp một con đường thay thế để huấn luyện mô hình hàng nghìn tỷ tham số không còn phụ thuộc vào gã khổng lồ công nghệ đơn lẻ: một mạng siêu trí tuệ tự tiến hóa gồm hàng triệu GPU dị cấu toàn cầu.
Nous Research: Môi trường học tăng cường có thể xác minh Atropos
Nous Research đang xây dựng một cơ sở hạ tầng nhận thức phi tập trung, có thể tự tiến hóa. Các thành phần cốt lõi của nó —— Hermes, Atropos, DisTrO, Psyche và World Sim —— được tổ chức thành một hệ thống tiến hóa trí tuệ vòng khép kín liên tục. Khác với quy trình tuyến tính truyền thống "huấn luyện trước – huấn luyện hậu kỳ – suy luận", Nous sử dụng các công nghệ học tăng cường như DPO, GRPO, lấy mẫu từ chối, thống nhất việc tạo dữ liệu, xác minh, học tập và suy luận thành vòng phản hồi liên tục, tạo ra hệ sinh thái AI vòng kín tự cải thiện liên tục.
#Tổng quan thành phần Nous Research

#Lớp mô hình: Hermes và sự tiến hóa năng lực suy luận
Dòng Hermes là giao diện mô hình chính của Nous Research hướng tới người dùng, sự tiến hóa của nó rõ ràng thể hiện hành trình ngành từ căn chỉnh SFT/DPO truyền thống sang học tăng cường suy luận (Reasoning RL):
-
Hermes 1–3: Căn chỉnh lệnh và năng lực đại lý sơ kỳ: Hermes 1–3 hoàn thành căn chỉnh lệnh vững chắc nhờ DPO chi phí thấp, và ở Hermes 3 tận dụng dữ liệu tổng hợp và cơ chế xác minh Atropos lần đầu tiên được giới thiệu.
-
Hermes 4 / DeepHermes: Viết suy nghĩ chậm kiểu Hệ thống-2 vào trọng số thông qua chuỗi suy luận, nâng cao hiệu suất toán học và mã hóa bằng Test-Time Scaling, và dựa vào "lấy mẫu từ chối + xác minh Atropos" để xây dựng dữ liệu suy luận độ tinh khiết cao.
-
DeepHermes tiếp tục áp dụng GRPO thay thế PPO khó triển khai phân tán, cho phép RL suy luận chạy trên mạng GPU phi tập trung Psyche, đặt nền tảng kỹ thuật cho khả năng mở rộng RL suy luận mã nguồn mở.
#Atropos: Môi trường học tăng cường với phần thưởng có thể xác minh
Atropos là trung tâm thực sự của hệ thống RL Nous. Nó gói gọn lời nhắc, gọi công cụ, thực thi mã và tương tác nhiều lượt thành môi trường RL chuẩn hóa, có thể xác minh trực tiếp đầu ra có đúng hay không, từ đó cung cấp tín hiệu phần thưởng xác định, thay thế việc gán nhãn con người đắt đỏ và không thể mở rộng. Quan trọng hơn, trong mạng huấn luyện phi tập trung Psyche, Atropos đóng vai trò "trọng tài", dùng để xác minh nút có thực sự nâng cao chiến lược hay không, hỗ trợ Proof-of-Learning có thể kiểm toán, giải quyết triệt để vấn đề độ tin cậy phần thưởng trong RL phân tán.

#DisTrO và Psyche: Lớp tối ưu hóa RL phi tập trung
Việc huấn luyện RLF (RLHF/RLAIF) truyền thống phụ thuộc vào cụm băng thông cao tập trung, đây là rào cản then chốt không thể sao chép của mã nguồn mở. DisTrO thông qua tách động lượng và nén gradient, giảm chi phí truyền thông RL xuống vài bậc độ lớn, cho phép huấn luyện chạy trên băng thông internet; Psyche triển khai cơ chế huấn luyện này trên mạng chuỗi, cho phép nút hoàn thành suy luận, xác minh, đánh giá phần thưởng và cập nhật trọng số cục bộ, hình thành vòng RL khép kín hoàn chỉnh.
Trong hệ thống Nous, Atropos xác minh chuỗi suy luận; DisTrO nén truyền thông huấn luyện; Psyche chạy vòng RL; World Sim cung cấp môi trường phức tạp; Forge thu thập suy luận thực tế; Hermes viết tất cả học tập vào trọng số. Học tăng cường không chỉ là một giai đoạn huấn luyện, mà là giao thức cốt lõi nối dữ liệu, môi trường, mô hình và hạ tầng trong kiến trúc Nous, khiến Hermes trở thành một hệ thống sống có thể tự cải thiện liên tục trên mạng sức mạnh tính toán mã nguồn mở.
Gradient Network: Kiến trúc học tăng cường Echo
Tầm nhìn cốt lõi của Gradient Network là tái cấu trúc khuôn mẫu tính toán AI thông qua "chồng giao thức trí tuệ mở" (Open Intelligence Stack). Chồng công nghệ Gradient gồm một nhóm giao thức cốt lõi có thể tiến hóa độc lập nhưng hợp tác dị cấu. Hệ thống của nó từ底层 truyền thông đến hợp tác trí tuệ trên đỉnh bao gồm: Parallax (suy luận phân tán), Echo (huấn luyện RL phi tập trung), Lattica (mạng P2P), SEDM / Massgen / Symphony / CUAHarm (bộ nhớ, hợp tác, an toàn), VeriLLM (xác minh đáng tin cậy), Mirage (mô phỏng độ trung thực cao), cùng tạo thành hạ tầng trí tuệ phi tập trung tiến hóa liên tục.

Echo — Kiến trúc huấn luyện học tăng cường
Echo là khung học tăng cường của Gradient, triết lý thiết kế cốt lõi nằm ở việc tách rời các đường huấn luyện, suy luận và dữ liệu (phần thưởng) trong học tăng cường, cho phép tạo Rollout, tối ưu hóa chiến lược và đánh giá phần thưởng mở rộng và điều phối độc lập trong môi trường dị cấu. Chạy hợp tác trong mạng dị cấu gồm các nút phía suy luận và phía huấn luyện, duy trì ổn định huấn luyện trong môi trường dị cấu phạm vi rộng bằng cơ chế đồng bộ nhẹ, hiệu quả giảm thiểu thất bại SPMD và tắc nghẽn hiệu suất GPU do suy luận và huấn luyện chạy chung trong DeepSpeed RLHF / VERL truyền thống.

Echo áp dụng kiến trúc "hai nhóm suy luận – huấn luyện" để tối đa hóa sử dụng sức mạnh tính toán, hai nhóm chạy độc lập, không cản trở lẫn nhau:
-
Tối đa hóa thông lượng lấy mẫu: Nhóm suy luận Inference Swarm gồm GPU tiêu dùng và thiết bị biên, xây dựng bộ lấy mẫu thông lượng cao theo pipeline-parallel qua Parallax, chuyên về tạo lộ trình;
-
Tối đa hóa sức mạnh tính toán gradient: Nhóm huấn luyện Training Swarm gồm mạng GPU tiêu dùng có thể chạy trên cụm tập trung hoặc nhiều nơi trên toàn cầu, chịu trách nhiệm cập nhật gradient, đồng bộ tham số và tinh chỉnh LoRA, chuyên về quá trình học.
Để duy trì tính nhất quán chiến lược và dữ liệu, Echo cung cấp hai loại giao thức đồng bộ nhẹ: tuần tự (Sequential) và bất đồng bộ (Asynchronous), quản lý nhất quán hai chiều trọng số chiến lược và lộ trình:
-
Chế độ kéo (Pull) tuần tự | Ưu tiên độ chính xác: Phía huấn luyện buộc nút suy luận cập nhật phiên bản mô hình trước khi kéo lộ trình mới, đảm bảo độ tươi của lộ trình, phù hợp với nhiệm vụ nhạy cảm cao với chiến lược cũ;
-
Chế độ đẩy-kéo (Push–Pull) bất đồng bộ | Ưu tiên hiệu suất: Phía suy luận liên tục tạo lộ trình gắn thẻ phiên bản, phía huấn luyện tiêu thụ theo nhịp độ riêng, bộ điều phối giám sát độ lệch phiên bản và kích hoạt làm mới trọng số, tối đa hóa hiệu suất thiết bị.
Ở tầng dưới, Echo được xây dựng trên Parallax (suy luận dị cấu trong môi trường băng thông thấp) và các thành phần huấn luyện phân tán nhẹ (ví dụ VERL), dựa vào LoRA để giảm chi phí đồng bộ xuyên nút, cho phép học tăng cường chạy ổn định trên mạng dị cấu toàn cầu.
Grail: Học tăng cường trong hệ sinh thái Bittensor
Bittensor thông qua cơ chế đồng thuận Yuma độc đáo của mình, xây dựng một mạng lưới hàm phần thưởng khổng lồ, thưa thớt, không ổn định.
Covenant AI trong hệ sinh thái Bittensor xây dựng dây chuyền tích hợp dọc từ huấn luyện trước đến huấn luyện hậu kỳ RL thông qua SN3 Templar, SN39 Basilica và SN81 Grail. Trong đó, SN3 Templar chịu trách nhiệm huấn luyện trước mô hình cơ sở, SN39 Basilica cung cấp thị trường sức mạnh tính toán phân tán, SN81 Grail đóng vai trò là "lớp suy luận có thể xác minh" hướng tới huấn luyện hậu kỳ RL, đảm nhiệm quy trình cốt lõi RLHF / RLAIF, hoàn thành tối ưu hóa vòng khép kín từ mô hình cơ sở đến chiến lược căn chỉnh.

Mục tiêu GRAIL là chứng minh bằng mật mã tính chân thực của mỗi rollout học tăng cường và liên kết danh tính mô hình, đảm bảo RLHF có thể được thực hiện an toàn trong môi trường không cần tin tưởng. Giao thức xây dựng chuỗi đáng tin cậy qua ba cơ chế:
-
Tạo thử thách xác định: Sử dụng drand beacon ngẫu nhiên và băm khối để tạo nhiệm vụ thử thách không thể đoán trước nhưng có thể tái tạo (ví dụ SAT, GSM8K), ngăn chặn gian lận tính toán trước;
-
Thông qua lấy mẫu chỉ mục PRF và cam kết sketch, cho phép người xác minh kiểm tra logprob token-level và chuỗi suy luận với chi phí cực thấp, xác nhận rollout thực sự do mô hình được tuyên bố tạo ra;
-
Liên kết danh tính mô hình: Liên kết quá trình suy luận với dấu vân tay trọng số mô hình và chữ ký cấu trúc phân bố token, đảm bảo thay thế mô hình hoặc phát lại kết quả sẽ bị nhận diện ngay lập tức. Từ đó, cung cấp nền tảng chân thực cho lộ trình suy luận (rollout) trong RL.
Trên cơ chế này, mạng con Grail thực hiện quy trình huấn luyện hậu kỳ có thể xác minh kiểu GRPO: thợ mỏ tạo nhiều đường suy luận cho cùng một bài toán, người xác minh chấm điểm dựa trên tính đúng đắn, chất lượng chuỗi suy luận và mức độ thỏa mãn SAT, và ghi kết quả chuẩn hóa lên chuỗi làm trọng số TAO. Thí nghiệm công khai cho thấy khung này đã nâng độ chính xác MATH của Qwen2.5-1.5B từ 12.7% lên 47.6%, chứng minh nó vừa chống gian lận vừa tăng đáng kể năng lực mô hình. Trong chồng huấn luyện Covenant AI, Grail là nền tảng tin cậy và thực thi RLVR/RLAIF phi tập trung, hiện chưa chính thức ra mắt mainnet.
Fraction AI: Học tăng cường dựa trên cạnh tranh RLFC
Kiến trúc Fraction AI rõ ràng xoay quanh học tăng cường cạnh tranh (Reinforcement Learning from Competition, RLFC) và gán nhãn dữ liệu theo kiểu trò chơi, thay thế phần thưởng tĩnh và gán nhãn thủ công của RLHF truyền thống bằng môi trường cạnh tranh mở, động. Đại lý đối kháng trong các Spaces khác nhau, thứ hạng tương đối và điểm số của trọng tài AI cùng tạo thành phần thưởng thời gian thực, khiến quá trình căn chỉnh trở thành hệ thống trò chơi đa tác nhân trực tuyến liên tục.
Sự khác biệt cốt lõi giữa RLHF truyền thống và RLFC của Fraction AI:

Giá trị cốt lõi của RLFC nằm ở việc phần thưởng không còn đến từ một mô hình đơn lẻ, mà đến từ đối thủ và người đánh giá không ngừng tiến hóa, tránh việc mô hình phần thưởng bị lợi dụng, và ngăn hệ sinh thái sa vào cực tiểu cục bộ thông qua tính đa dạng chiến lược. Cấu trúc Spaces quyết định bản chất trò chơi (zero-sum hay positive-sum), thúc đẩy hành vi phức tạp nổi lên trong đối kháng và hợp tác.
Về kiến trúc hệ thống, Fraction AI tách quá trình huấn luyện thành bốn thành phần then chốt:
-
Tác nhân (Agents): Đơn vị chiến lược nhẹ dựa trên LLM mã nguồn mở, mở rộng bằng trọng số vi sai QLoRA, cập nhật chi phí thấp;
-
Spaces: Môi trường nhiệm vụ cách ly, đại lý trả phí để vào và nhận phần thưởng dựa trên thắng/thua;
-
Trọng tài AI: Tầng phần thưởng tức thì được xây dựng bằng RLAIF, cung cấp đánh giá mở rộng, phi tập trung;
-
Proof-of-Learning: Liên kết cập nhật chiến lược với kết quả cạnh tranh cụ thể, đảm bảo quá trình huấn luyện có thể xác minh, chống gian lận.
Bản chất Fraction AI là xây dựng một "động cơ tiến hóa cộng sinh người-máy". Người dùng với tư cách là "siêu tối ưu hóa" (Meta-optimizer) ở tầng chiến lược, dẫn hướng khám phá thông qua kỹ thuật gợi ý (Prompt Engineering) và cấu hình siêu tham số; trong khi các đại lý tự động tạo ra lượng lớn cặp dữ liệu sở thích chất lượng cao (Preference Pairs) ở cấp độ vi mô. Mô hình này cho phép gán nhãn dữ liệu đạt được vòng kín thương mại thông qua "tinh chỉnh không cần tin tưởng" (Trustless Fine-tuning).
So sánh kiến trúc dự án học tăng cường Web3

Tổng kết và triển vọng: Con đường và cơ hội của học tăng cường × Web3
Dựa trên phân tích giải mã các dự án tiên phong trên, chúng ta quan sát thấy: mặc dù các đội ngũ khởi điểm khác nhau (thuật toán, kỹ thuật hay thị trường), khi học tăng cường (RL) kết hợp với Web3, logic kiến trúc cơ bản của chúng đều hội tụ về một khuôn mẫu "tách rời – xác minh – khuyến khích" cực kỳ nhất quán. Đây không chỉ là sự trùng hợp kỹ thuật, mà là kết quả tất yếu khi mạng phi tập trung phù hợp với các thuộc tính độc đáo của học tăng cường.
Các đặc điểm kiến trúc phổ quát của học tăng cường: Giải quyết các giới hạn vật lý và vấn đề tin cậy cốt lõi
-
Tách rời vật lý suy luận và huấn luyện (Decoupling of Rollouts & Learning) —— Tốp-đồ tính toán mặc định Triển khai Rollout thưa giao tiếp, có thể song song được thuê ngoài cho GPU tiêu dùng toàn cầu, cập nhật tham số băng thông cao tập trung ở một số ít nút huấn luyện, từ Prime Intellect với Actor–Learner bất đồng bộ đến kiến trúc hai nhóm của Gradient Echo đều như vậy.
-
Lớp tin cậy điều khiển bởi xác minh (Verification-Driven Trust) —— Cơ sở hạ tầng hóa Trong mạng không cần cấp phép, tính chân thực tính toán phải được đảm bảo ép buộc bằng toán học và thiết kế cơ chế, các hiện thực tiêu biểu bao gồm PoL của Gensyn, TOPLOC của Prime Intellect và xác minh mật mã của Grail.
-
Vòng khuyến khích hóa token (Tokenized Incentive Loop) —— Tự điều chỉnh thị trường Cung cấp sức mạnh tính toán, tạo dữ liệu, xác minh sắp xếp và phân bổ phần thưởng tạo thành vòng khép kín, khuyến khích tham gia bằng phần thưởng, kiềm chế gian lận bằng Slash, khiến mạng vẫn ổn định và tiến hóa liên tục trong môi trường mở.
Các con đường kỹ thuật khác biệt: Các "điểm đột phá" khác nhau dưới kiến trúc nhất quán
Dù kiến trúc hội tụ, các dự án chọn hào moat kỹ thuật khác nhau theo gen riêng:
-
Phái đột phá thuật toán (Nous Research): Cố gắng giải mâu thuẫn cơ bản của huấn luyện phân tán từ gốc toán học (giới hạn băng thông). Bộ tối ưu hóa DisTrO của họ nhằm nén lượng truyền thông gradient hàng nghìn lần, mục tiêu là cho phép băng thông gia đình chạy huấn luyện mô hình lớn, đây là "tấn công hạ chiều" đối với giới hạn vật lý.
-
Phái kỹ thuật hệ thống (Prime Intellect, Gensyn, Gradient): Tập trung xây dựng "hệ thống runtime AI" thế hệ tiếp theo. ShardCast của Prime Intellect và Parallax của Gradient đều nhằm nén hiệu suất cụm dị cấu cao nhất có thể bằng kỹ thuật cực đoan trong điều kiện mạng hiện tại.
-
Phái thị trường trò chơi (Bittensor, Fraction AI): Tập trung vào thiết kế hàm phần thưởng (Reward Function). Thiết kế cơ chế chấm điểm tinh vi để dẫn dắt thợ mỏ tự tìm chiến lược tối ưu, thúc đẩy trí tuệ nổi lên nhanh hơn.
Ưu điểm, thách thức và triển vọng cuối cùng
Dưới khuôn mẫu kết hợp học tăng cường và Web3, lợi thế cấp hệ thống trước tiên thể hiện ở việc viết lại cấu trúc chi phí và cấu trúc quản trị.
-
Thay đổi cấu trúc chi phí: Huấn luyện hậu kỳ RL (Post-training) có nhu cầu vô hạn về lấy mẫu (Rollout), Web3 có thể huy động sức mạnh tính toán đuôi dài toàn cầu với chi phí cực thấp, đây là lợi thế chi phí mà nhà cung cấp đám mây tập trung khó so sánh.
-
Căn chỉnh chủ quyền (Sovereign Alignment): Phá vỡ độc quyền của các gã khổng lồ về giá trị (Alignment) AI, cộng đồng có thể quyết định qua bỏ phiếu token "câu trả lời tốt là gì", thực hiện dân chủ hóa quản trị AI.
Đồng thời, hệ thống này cũng đối mặt với hai ràng buộc cấu trúc.
-
Tường băng thông (Bandwidth Wall): Dù có đổi mới như DisTrO, độ trễ vật lý vẫn giới hạn huấn luyện toàn bộ mô hình tham số siêu lớn (70B+), hiện tại AI Web3 chủ yếu giới hạn ở tinh chỉnh và suy luận.
-
Định luật Goodhart
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News












