
Zhipu, Moonshot, Xiaomi cùng tham gia bàn tròn: Mô hình ngôn ngữ lớn thực sự bắt đầu “làm việc”, nhưng năng lực tính toán vẫn là trở ngại lớn nhất
Tuyển chọn TechFlowTuyển chọn TechFlow

Zhipu, Moonshot, Xiaomi cùng tham gia bàn tròn: Mô hình ngôn ngữ lớn thực sự bắt đầu “làm việc”, nhưng năng lực tính toán vẫn là trở ngại lớn nhất
Dương Thực Lâm chủ trì, La Phúc Lệ và Trương Bằng chia sẻ những thông tin “nóng hổi” — buổi “tiệc tôm hùm” này đã làm rõ tương lai của AI.
Tác giả: Trần Tuấn Đạt
Zhixi Dongxi đưa tin ngày 27 tháng 3: Hôm nay, tại Diễn đàn Trung Quan Thôn, Zhang Peng – CEO của Zhipu AI, Yang Zhilin – CEO của Moonshot AI (đồng thời là người điều phối), Luo Fuli – Trưởng nhóm mô hình lớn MiMo của Xiaomi, Xia Lixue – CEO của InfraX và Huang Chao – Phó Giáo sư Đại học Hồng Kông hiếm hoi cùng xuất hiện trên sân khấu để tham gia một cuộc đối thoại chuyên sâu xoay quanh tương lai của các mô hình lớn mã nguồn mở và các tác tử thông minh (agent).
Cuộc đối thoại bắt đầu từ OpenClaw – sản phẩm đang “hot” nhất hiện nay. Các vị khách mời đều thống nhất quan điểm rằng các tác tử thông minh đã khiến các mô hình lớn thực sự bắt đầu “làm việc”. OpenClaw mở rộng giới hạn khả năng của các mô hình lớn, nhưng đồng thời cũng đặt ra yêu cầu cao hơn đối với chúng: Zhipu AI đang nghiên cứu các khả năng như lập kế hoạch dài hạn và tự gỡ lỗi; trong khi đội ngũ của Luo Fuli lại tập trung vào đổi mới kiến trúc nhằm giảm chi phí, tăng tốc độ xử lý, thậm chí đạt được khả năng tự tiến hóa của mô hình.
Cơ sở hạ tầng cũng cần bắt kịp nhịp độ phát triển của các tác tử thông minh. Theo Xia Lixue, hệ thống tính toán và kiến trúc phần mềm hiện nay vẫn được thiết kế cho con người sử dụng, chứ không phải cho các tác tử thông minh. Thực tế, chính năng lực thao tác của con người đang giới hạn không gian thể hiện của các tác tử. Do đó, chúng ta cần xây dựng “Agentic Infra” (cơ sở hạ tầng dành riêng cho tác tử).
Đối với nhiều vị khách mời, mã nguồn mở là một trong những động lực cốt lõi thúc đẩy sự phát triển của các mô hình lớn và các tác tử thông minh. Phó Giáo sư Hoàng Siêu của Đại học Hồng Kông cho rằng sự phồn vinh của hệ sinh thái mã nguồn mở là chìa khóa giúp các tác tử chuyển mình từ trò chơi giải trí thành “người lao động thực thụ”. Chỉ khi cộng đồng cùng nhau xây dựng, phần mềm, dữ liệu và công nghệ mới có thể chuyển hoàn toàn sang dạng “Agent-Native”, cuối cùng hình thành nên một hệ sinh thái AI toàn cầu bền vững.
Ngoài ra, các vị khách mời còn thảo luận về các chủ đề như giá mô hình lớn tăng, lượng token tiêu thụ bùng nổ và những từ khóa then chốt cho ngành AI trong 12 tháng tới. Dưới đây là những quan điểm trọng tâm từ buổi tọa đàm này:
1. Zhang Peng: Khi mô hình trở nên lớn hơn, chi phí suy luận cũng tăng tương ứng. Chiến lược tăng giá gần đây của Zhipu AI thực chất là sự trở về với giá trị thương mại bình thường; cạnh tranh giá thấp kéo dài sẽ gây bất lợi cho sự phát triển của toàn ngành.
2. Zhang Peng: Sự bùng nổ của các công nghệ mới như tác tử thông minh đã làm lượng token tiêu thụ tăng gấp 10 lần, nhưng nhu cầu thực tế có thể tăng tới 100 lần – vẫn còn rất nhiều nhu cầu chưa được đáp ứng. Do đó, năng lực tính toán vẫn là vấn đề then chốt trong 12 tháng tới.
3. Luo Fuli: Từ góc nhìn của nhà cung cấp mô hình nền tảng, OpenClaw đảm bảo “đáy” cho các mô hình nền tảng, đồng thời nâng cao “đỉnh” hiệu suất. Độ hoàn thành nhiệm vụ của các mô hình mã nguồn mở nội địa kết hợp với OpenClaw đã rất gần với mô hình Claude mới nhất.
4. Luo Fuli: DeepSeek đã mang lại dũng khí và niềm tin cho các nhà cung cấp mô hình lớn trong nước. Một số đổi mới kiến trúc mô hình – vốn ban đầu bị coi là “sự thỏa hiệp vì hiệu quả” – đã thực sự tạo ra bước ngoặt, giúp ngành công nghiệp khai thác tối đa mức độ thông minh trong giới hạn năng lực tính toán sẵn có.
5. Luo Fuli: Việc quan trọng nhất trong hành trình AGI trong năm tới là “tự tiến hóa”. Tự tiến hóa cho phép các mô hình lớn khám phá như những nhà khoa học hàng đầu – đây là nơi duy nhất có thể “tạo ra điều mới”. Xiaomi đã sử dụng Claude Code kết hợp với các mô hình đỉnh cao để nâng cao hiệu suất nghiên cứu lên 10 lần.
6. Xia Lixue: Khi kỷ nguyên AGI đến, bản thân cơ sở hạ tầng cũng phải là một tác tử thông minh – tự quản lý toàn bộ cơ sở hạ tầng, tự cập nhật cơ sở hạ tầng theo nhu cầu của khách hàng AI, và tự tiến hóa, tự lặp lại.
7. Xia Lixue: OpenClaw đã làm bùng nổ lượng token tiêu thụ. Tốc độ tiêu thụ token hiện nay giống như cảm giác khi dữ liệu di động 3G mới ra đời – mỗi tháng chỉ có hạn mức 100 MB.
8. Huang Chao: Trong tương lai, nhiều phần mềm sẽ không còn hướng tới con người nữa; phần mềm, dữ liệu và công nghệ sẽ dần chuyển sang dạng “Agent-Native”. Con người trong tương lai có thể chỉ cần sử dụng những giao diện người dùng đồ họa (GUI) khiến mình cảm thấy hạnh phúc.
Dưới đây là bản ghi đầy đủ của buổi tọa đàm này:
01. OpenClaw chính là “giàn giáo”, lượng token tiêu thụ của mô hình lớn vẫn đang ở thời kỳ 3G
Yang Zhilin: Rất vinh dự hôm nay được đón tiếp các vị khách quý – những nhân vật nổi bật đại diện cho các lớp mô hình, tính toán và tác tử. Từ khóa chủ đạo hôm nay là “mã nguồn mở” và “tác tử”.
Câu hỏi đầu tiên liên quan đến OpenClaw – sản phẩm phổ biến nhất hiện nay. Các vị thường xuyên sử dụng OpenClaw hoặc các sản phẩm tương tự có điểm nào khiến các vị thấy ấn tượng nhất hay giàu tính sáng tạo nhất? Về góc độ kỹ thuật, các vị nhìn nhận như thế nào về sự tiến hóa hiện nay của OpenClaw và các tác tử liên quan?

Zhang Peng: Tôi đã bắt đầu tự thử nghiệm OpenClaw từ rất sớm, lúc ấy nó còn có tên là Clawbot. Là một lập trình viên, tôi thích tự tay tìm hiểu và trải nghiệm các công nghệ này.
Theo tôi, đột phá lớn nhất – hay nói cách khác là yếu tố mới mẻ nhất – mà OpenClaw mang lại chính là nó không còn là “đặc quyền” của lập trình viên hay dân công nghệ nữa. Người bình thường cũng có thể dễ dàng khai thác khả năng của các mô hình đỉnh cao, đặc biệt trong lĩnh vực lập trình và tác tử thông minh.
Vì vậy, cho đến nay, trong mọi cuộc trao đổi, tôi luôn thích gọi OpenClaw là “giàn giáo”. Nó mở ra một khả năng mới: trên nền tảng các mô hình, OpenClaw dựng nên một “giàn giáo” vừa chắc chắn, tiện lợi, lại vừa linh hoạt – cho phép mọi người tùy ý sử dụng các tính năng mới mẻ do các mô hình nền tảng cung cấp.
Trước đây, ý tưởng của bạn có thể bị giới hạn bởi việc không biết viết mã hoặc thiếu các kỹ năng liên quan khác. Nhưng giờ đây, nhờ OpenClaw, bạn chỉ cần trao đổi đơn giản là có thể biến ý tưởng thành hiện thực.
OpenClaw đã gây cho tôi một cú “sốc” mạnh mẽ – hay nói đúng hơn là giúp tôi nhìn nhận lại vấn đề này một cách toàn diện hơn.

Xia Lixue: Thực ra lúc đầu tôi khá khó thích nghi với OpenClaw, vì tôi quen với cách giao tiếp “trò chuyện” với mô hình lớn. Sau khi sử dụng, tôi cảm thấy OpenClaw phản hồi khá chậm.
Nhưng sau đó tôi nhận ra một vấn đề: OpenClaw khác biệt căn bản với các chatbot trước đây ở chỗ nó bản chất là một “con người” có thể giúp tôi hoàn thành các nhiệm vụ quy mô lớn. Khi tôi bắt đầu giao cho nó những nhiệm vụ phức tạp hơn, tôi phát hiện ra rằng nó thực sự làm rất tốt.
Điều này khiến tôi xúc động sâu sắc. Mô hình từng chỉ “trò chuyện” theo token, nay đã trở thành một tác tử – một “con tôm hùm” – có thể giúp bạn hoàn thành nhiệm vụ. Điều này mở rộng đáng kể không gian tưởng tượng đối với toàn ngành AI.
Đồng thời, nó cũng đặt ra yêu cầu rất cao đối với toàn bộ hệ thống. Đó là lý do vì sao lúc đầu tôi cảm thấy OpenClaw hơi “giật lag”. Là một nhà cung cấp cơ sở hạ tầng, tôi nhận thấy OpenClaw mang lại cả cơ hội lẫn thách thức to lớn cho hệ sinh thái và các hệ thống AI phía sau.
Toàn bộ tài nguyên hiện có của chúng ta đều không đủ để hỗ trợ một thời đại tăng trưởng nhanh chóng như vậy. Ví dụ, công ty chúng tôi từ cuối tháng Một đến nay, lượng token tiêu thụ cứ hai tuần lại tăng gấp đôi – tổng cộng đã tăng khoảng 10 lần.
Lần cuối tôi chứng kiến tốc độ tăng trưởng như vậy là thời kỳ điện thoại 3G mới ra đời, khi lượng dữ liệu di động mỗi tháng chỉ có 100 MB.Tôi có cảm giác rằng lượng token tiêu thụ hiện nay cũng giống như thời kỳ đó.
Trong tình huống này, tất cả tài nguyên của chúng ta đều cần được tối ưu hóa và tích hợp tốt hơn – để mỗi cá nhân, không chỉ trong lĩnh vực AI mà trong toàn xã hội, đều có thể khai thác được năng lực AI của OpenClaw.
Là một “người chơi” trong lĩnh vực cơ sở hạ tầng, tôi vô cùng phấn khích và cảm nhận sâu sắc về thời đại này. Tôi cũng tin rằng vẫn còn rất nhiều không gian tối ưu hóa mà chúng ta cần tiếp tục khám phá và thử nghiệm.
02. OpenClaw nâng cao “đỉnh” cho các mô hình nội địa, đột phá về mô thức tương tác mang ý nghĩa quan trọng
Luo Fuli: Cá nhân tôi xem OpenClaw như một sự kiện cách mạng và mang tính đột phá trong quá trình tiến hóa của các framework tác tử.
Thực tế, tất cả những người xung quanh tôi đang làm coding chuyên sâu đều chọn Claude Code làm lựa chọn đầu tiên. Tuy nhiên, tôi tin rằng những người dùng OpenClaw sẽ cảm nhận được rằng thiết kế framework của nó trong lĩnh vực tác tử thực sự đi trước Claude Code. Gần đây, nhiều cập nhật của Claude Code thực chất đều đang “bắt kịp” OpenClaw.
Cảm nhận của tôi khi sử dụng OpenClaw là framework này giúp tôi mở rộng khả năng tưởng tượng một cách tức thì và linh hoạt. Claude Code ban đầu chỉ có thể mở rộng sáng tạo của tôi trên bàn làm việc, còn OpenClaw có thể làm điều đó mọi lúc, mọi nơi.
Giá trị cốt lõi mà OpenClaw mang lại có hai điểm. Thứ nhất là tính mã nguồn mở. Đây là yếu tố rất thuận lợi để toàn bộ cộng đồng tham gia sâu vào quá trình phát triển và thúc đẩy framework này – một điều kiện tiên quyết rất quan trọng.
Theo tôi, một giá trị lớn của các framework AI như OpenClaw nằm ở chỗ nó nâng “đỉnh” hiệu suất của các mô hình nội địa – vốn đã gần bằng các mô hình đóng nhưng chưa hoàn toàn đuổi kịp – lên mức rất cao.
Ở hầu hết các tình huống, bạn sẽ nhận thấy độ hoàn thành nhiệm vụ của các mô hình mã nguồn mở nội địa kết hợp với OpenClaw đã rất gần với mô hình mới nhất của Claude. Đồng thời, nó cũng đảm bảo rất tốt “đáy”: thông qua một hệ thống Harness hoặc nhờ vào hệ thống Skills và các thiết kế khác, nó đảm bảo độ đầy đủ và độ chính xác của nhiệm vụ.
Tóm lại, từ góc nhìn của các nhà phát triển mô hình nền tảng, OpenClaw vừa đảm bảo “đáy”, vừa nâng cao “đỉnh”.

Ngoài ra, tôi cho rằng giá trị khác mà nó mang lại cho cộng đồng là nó đánh thức nhận thức của mọi người, giúp họ nhận ra rằng ngoài mô hình lớn, lớp tác tử thực sự tiềm ẩn một không gian tưởng tượng rất lớn.
Gần đây tôi cũng quan sát thấy, bên cạnh các nhà nghiên cứu, ngày càng nhiều người bắt đầu tham gia vào cuộc cách mạng AGI, và ngày càng nhiều người tiếp cận các framework tác tử mạnh mẽ hơn như Harness, Scaffold… Những người này phần nào đang sử dụng các công cụ này để thay thế một phần công việc của chính mình, đồng thời giải phóng thời gian để tập trung vào những việc giàu tính sáng tạo hơn.
Huang Chao: Theo tôi, trước hết về mô thức tương tác, lý do đầu tiên khiến OpenClaw “hot” là vì nó mang lại trải nghiệm “có hồn người” hơn. Thực tế, chúng tôi đã làm về tác tử được một hai năm, nhưng các tác tử như Cursor hay Claude Code trước đây lại mang cảm giác nhiều hơn như một “công cụ”. Còn OpenClaw lần đầu tiên được tích hợp dưới dạng phần mềm nhắn tin tức thì, giúp người dùng cảm thấy gần hơn với hình ảnh “Jarvis cá nhân” trong tâm trí. Tôi cho rằng đây chính là một đột phá về mô thức tương tác.
Một điểm khác là nó truyền cảm hứng cho cả cộng đồng: Khung Agent Loop – đơn giản nhưng hiệu quả – một lần nữa được chứng minh là khả thi. Đồng thời, nó cũng khiến chúng ta suy ngẫm lại một câu hỏi: Chúng ta thực sự cần một tác tử siêu thông minh, có thể làm mọi việc, hay cần một “người trợ lý nhỏ” tốt hơn – giống như một hệ điều hành nhẹ hoặc một giàn giáo?
Tư duy mà OpenClaw mang lại là: Thông qua một “hệ thống nhỏ” hay “hệ điều hành tôm hùm” cùng hệ sinh thái của nó, mọi người thực sự có thể “chơi đùa” với nó – từ đó kích hoạt toàn bộ các công cụ trong hệ sinh thái.
Khi các khả năng như Skills, Harness xuất hiện, ngày càng nhiều người có thể thiết kế các ứng dụng hướng tới các hệ thống như OpenClaw để trao quyền cho mọi ngành nghề. Theo tôi, điểm này vốn đã gắn kết rất chặt chẽ với toàn bộ hệ sinh thái mã nguồn mở. Đây là hai bài học lớn nhất mà chúng ta rút ra được.
03. Mô hình GLM mới được thiết kế đặc biệt để “làm việc”, tăng giá là sự trở về với giá trị thương mại bình thường
Yang Zhilin: Xin hỏi anh Zhang Peng. Gần đây chúng tôi thấy Zhipu AI ra mắt mô hình GLM-5 Turbo mới. Tôi hiểu rằng mô hình này đã được tăng cường mạnh mẽ về khả năng tác tử. Anh có thể giới thiệu cho mọi người điểm khác biệt giữa mô hình mới này với các mô hình khác? Ngoài ra, chúng tôi cũng quan sát thấy chiến lược tăng giá – điều này phản ánh tín hiệu thị trường nào?
Zhang Peng: Đây là một câu hỏi rất hay. Hai ngày trước, chúng tôi thực sự đã cập nhật khẩn cấp một phiên bản – đây thực chất là một mốc trong lộ trình phát triển tổng thể của chúng tôi, chỉ là được đưa ra sớm hơn một chút.
Mục đích chủ yếu là chuyển từ “đối thoại đơn giản” sang “thực sự làm việc” – đây cũng là điều mà gần đây mọi người đều cảm nhận rõ: mô hình lớn không còn chỉ là công cụ trò chuyện, mà thực sự có thể giúp con người làm việc.
Tuy nhiên, “làm việc” hàm chứa yêu cầu năng lực rất cao. Mô hình cần tự lập kế hoạch nhiệm vụ dài hạn, tự thử sai, nén ngữ cảnh, tự gỡ lỗi, và thậm chí xử lý thông tin đa phương thức. Vì vậy, yêu cầu về năng lực của mô hình này khác biệt đáng kể so với các mô hình chung hướng tới đối thoại truyền thống. GLM-5 Turbo đã được tăng cường đặc biệt ở những khía cạnh này, đặc biệt là như bạn đề cập – để nó “làm việc”, chạy liên tục 72 tiếng, làm sao để vòng lặp (loop) không ngừng nghỉ – chúng tôi đã đầu tư rất nhiều công sức vào việc này.
Ngoài ra, mọi người cũng rất quan tâm đến vấn đề tiêu thụ token. Để một mô hình thông minh thực hiện nhiệm vụ phức tạp, lượng token tiêu thụ là rất lớn. Người dùng thông thường có thể chưa cảm nhận rõ, nhưng khi xem hóa đơn thì sẽ thấy tiền “rơi” rất nhanh. Vì vậy, chúng tôi cũng đã tối ưu hóa ở khía cạnh này: Với các nhiệm vụ phức tạp, mô hình có thể hoàn thành với hiệu suất token cao hơn. Về tổng thể, kiến trúc mô hình vẫn là kiến trúc chung đa nhiệm, chỉ là được tăng cường định hướng ở một số khả năng cụ thể.
Việc tăng giá cũng rất dễ giải thích. Như vừa nói, giờ đây không còn đơn thuần là hỏi một câu rồi nhận một câu trả lời – chuỗi suy luận phía sau rất dài. Nhiều nhiệm vụ đòi hỏi viết mã và tương tác trực tiếp với cơ sở hạ tầng nền tảng, đồng thời liên tục debug và sửa lỗi – lượng tiêu thụ cực kỳ lớn. Số token cần để hoàn thành một nhiệm vụ phức tạp có thể gấp 10 hoặc thậm chí 100 lần so với việc trả lời một câu hỏi đơn giản.
Do đó, giá cả cần được điều chỉnh phù hợp. Mô hình cũng lớn hơn, chi phí suy luận tăng theo. Chúng tôi đưa giá về mức giá trị thương mại bình thường, bởi vì cạnh tranh giá thấp kéo dài sẽ gây bất lợi cho toàn ngành. Đây cũng là cách để chúng tôi hình thành một vòng khép kín thương mại lành mạnh, liên tục tối ưu hóa năng lực mô hình và cung cấp dịch vụ tốt hơn cho mọi người.
04. Xây dựng “nhà máy token” hiệu quả hơn, bản thân cơ sở hạ tầng cũng phải là tác tử
Yang Zhilin: Hiện nay các mô hình mã nguồn mở ngày càng nhiều, dần hình thành hệ sinh thái, và các mô hình khác nhau có thể mang lại nhiều giá trị hơn cho người dùng trên các nền tảng tính toán khác nhau. Cùng với sự bùng nổ lượng token tiêu thụ, mô hình lớn đang chuyển từ thời đại huấn luyện sang thời đại suy luận. Xin hỏi chị Lixue, từ góc độ cơ sở hạ tầng, thời đại suy luận mang ý nghĩa gì đối với InfraX?
Xia Lixue: Chúng tôi là một nhà cung cấp cơ sở hạ tầng ra đời trong kỷ nguyên AI, hiện đang hỗ trợ Zhipu AI, Kimi, MiMo… giúp mọi người sử dụng “nhà máy token” hiệu quả hơn. Đồng thời, chúng tôi cũng hợp tác với nhiều trường đại học và viện nghiên cứu.
Vì vậy, chúng tôi luôn suy ngẫm một vấn đề: Kỷ nguyên AGI cần loại cơ sở hạ tầng nào? Và chúng ta nên từng bước hiện thực hóa và diễn giải nó như thế nào? Chúng tôi đã chuẩn bị đầy đủ cho các vấn đề cần giải quyết ở ngắn hạn, trung hạn và dài hạn.
Hiện nay, vấn đề trực tiếp nhất chính là điều mà mọi người vừa thảo luận – lượng token tăng vọt do xu hướng “mở”, đòi hỏi tối ưu hóa hiệu suất hệ thống ở mức cao hơn. Việc điều chỉnh giá cả thực chất cũng là một biện pháp ứng phó với yêu cầu này.
Chúng tôi luôn tiếp cận theo cách tích hợp phần mềm – phần cứng. Ví dụ, chúng tôi đã tích hợp với hầu hết các loại chip tính toán, kết nối统 nhất hơn chục loại chip nội địa và hàng chục cụm tính toán khác nhau. Cách này giúp giải quyết vấn đề thiếu hụt tài nguyên tính toán trong hệ thống AI: Khi tài nguyên không đủ, giải pháp tốt nhất là tận dụng tất cả các tài nguyên có thể, đồng thời đảm bảo mỗi đơn vị tính toán đều được sử dụng đúng chỗ, phát huy hiệu suất chuyển đổi cao nhất.
Vì vậy, ở giai đoạn này, mục tiêu của chúng ta là xây dựng một “nhà máy token” hiệu quả hơn. Chúng tôi đã thực hiện nhiều tối ưu hóa, ví dụ như tối ưu hóa sự phù hợp giữa mô hình và bộ nhớ đồ họa (VRAM) trên phần cứng, đồng thời cũng đang nghiên cứu xem cấu trúc mô hình mới nhất và cấu trúc phần cứng có thể tạo ra “phản ứng hóa học” sâu sắc hơn hay không. Tuy nhiên, việc giải quyết vấn đề hiệu suất hiện tại mới chỉ giúp chúng ta xây dựng một “nhà máy token” tiêu chuẩn hóa.

Hướng tới kỷ nguyên tác tử, chúng tôi cho rằng điều này là chưa đủ. Bởi vì tác tử giống như một con người – bạn có thể giao cho nó một nhiệm vụ. Tôi kiên định tin rằng nhiều cơ sở hạ tầng thời đại điện toán đám mây hiện nay được thiết kế để phục vụ một chương trình hoặc các kỹ sư con người, chứ không phải để phục vụ AI. Điều này giống như chúng ta xây dựng một cơ sở hạ tầng, trên đó là giao diện dành cho con người, rồi thêm một lớp bao phủ để kết nối tác tử – cách làm này thực chất đang dùng năng lực thao tác của con người để giới hạn không gian thể hiện của tác tử.
Ví dụ, tác tử có thể suy nghĩ và khởi tạo nhiệm vụ ở mức độ mili giây, nhưng các khả năng nền tảng như Kubernetes (K8s) thực tế chưa chuẩn bị cho điều này, bởi vì con người khởi tạo nhiệm vụ thường ở mức độ phút. Vì vậy, chúng ta cần khả năng nâng cao hơn – chúng tôi gọi nó là “Agentic Infra” (cơ sở hạ tầng dành riêng cho tác tử), tức là “nhà máy token thông minh” – đây chính là điều InfraX đang làm.
Nhìn xa hơn, khi kỷ nguyên AGI thực sự đến, chúng tôi cho rằng bản thân cơ sở hạ tầng cũng phải là một tác tử. Nhà máy mà chúng tôi xây dựng cũng phải có khả năng tự tiến hóa, tự lặp lại, và hình thành một tổ chức tự chủ. Nó giống như có một giám đốc điều hành (CEO), và CEO này bản thân cũng là một tác tử – có thể là OpenClaw – để quản lý toàn bộ cơ sở hạ tầng, tự đưa ra yêu cầu và lặp lại cơ sở hạ tầng dựa trên nhu cầu của khách hàng AI. Chỉ như vậy, AI mới có thể kết hợp với AI một cách hiệu quả hơn. Chúng tôi cũng đang khám phá một số hướng như cải thiện khả năng giao tiếp giữa các tác tử, hoặc khả năng “Cache to Cache”.
Vì vậy, chúng tôi luôn suy ngẫm rằng sự phát triển của cơ sở hạ tầng và AI không nên tồn tại ở trạng thái tách biệt – tôi nhận yêu cầu rồi thực hiện – mà phải tạo ra những “phản ứng hóa học” phong phú. Đây mới thực sự là sự phối hợp phần mềm – phần cứng, phối hợp thuật toán – cơ sở hạ tầng, cũng chính là sứ mệnh mà InfraX luôn muốn hiện thực hóa. Cảm ơn!
05. Các đổi mới “hy sinh vì hiệu quả” cũng có ý nghĩa, DeepSeek mang lại dũng khí và niềm tin cho các nhóm trong nước
Yang Zhilin: Tiếp theo, xin hỏi chị Fuli. Gần đây Xiaomi đã góp phần lớn cho cộng đồng thông qua việc ra mắt các mô hình mới và mã nguồn mở các công nghệ nền tảng. Xin hỏi, theo chị, Xiaomi có ưu thế gì đặc biệt trong lĩnh vực mô hình lớn?
Luo Fuli: Tôi nghĩ chúng ta có thể tạm gác câu hỏi về ưu thế đặc biệt của Xiaomi, mà hãy bàn về ưu thế tổng thể của các nhóm làm mô hình lớn tại Trung Quốc. Chủ đề này có giá trị phổ quát hơn.
Khoảng hai năm trước, các nhóm phát triển mô hình nền tảng tại Trung Quốc đã đạt được những bước đột phá rất tốt – trong điều kiện năng lực tính toán hạn chế, đặc biệt là băng thông liên kết NVLink bị giới hạn, làm thế nào để vượt qua những hạn chế của năng lực tính toán thấp để thực hiện những đổi mới kiến trúc mô hình “dường như là hy sinh vì hiệu quả”, như loạt DeepSeek V2, V3, MoE, MLA…
Nhưng sau đó chúng ta nhận thấy, những đổi mới này đã tạo ra một cuộc cách mạng: Làm thế nào để phát huy mức độ thông minh cao nhất trong giới hạn năng lực tính toán cố định? Đây chính là dũng khí và niềm tin mà DeepSeek mang lại cho tất cả các nhóm phát triển mô hình nền tảng trong nước. Dù hiện nay chip nội địa – đặc biệt là chip suy luận và chip huấn luyện – đã không còn chịu những hạn chế này, nhưng chính trong những ràng buộc đó, chúng ta đã thúc đẩy những khám phá mới về cấu trúc mô hình nhằm nâng cao hiệu suất huấn luyện và giảm chi phí suy luận.
Như các cấu trúc mới xuất hiện gần đây như Hybrid Sparse, Linear Attention – ví dụ NSA của DeepSeek, KSA của Kimi, hay HySparse của Xiaomi hướng tới thế hệ cấu trúc tiếp theo – tất cả đều là những đổi mới kiến trúc mô hình hướng tới kỷ nguyên tác tử, khác biệt với cấu trúc MoE của thế hệ trước.
Tại sao tôi cho rằng đổi mới kiến trúc lại quan trọng đến vậy? Thực tế, nếu bạn thực sự sử dụng OpenClaw, bạn sẽ nhận thấy nó càng dùng càng tiện lợi, càng dùng càng thông minh. Một tiền đề quan trọng ở đây là độ dài ngữ cảnh (context length) trong suy luận. Dài ngữ cảnh là chủ đề chúng ta đã bàn luận rất lâu, nhưng hiện nay thật sự có mô hình nào biểu hiện tốt, hiệu suất mạnh mẽ và chi phí suy luận thấp trong điều kiện ngữ cảnh dài không?
Thực tế, nhiều mô hình không phải không thể đạt 1M hay 10M ngữ cảnh, mà là chi phí suy luận 1M, 10M quá đắt đỏ và tốc độ quá chậm. Chỉ khi giảm được chi phí và tăng được tốc độ, chúng ta mới có thể giao những nhiệm vụ có giá trị sản xuất cao cho mô hình, mới có thể hoàn thành những nhiệm vụ phức tạp hơn trong ngữ cảnh dài, thậm chí đạt được tự lặp lại của mô hình.
“Tự lặp lại của mô hình” nghĩa là nó có thể tự tiến hóa trong môi trường phức tạp nhờ vào ngữ cảnh siêu dài. Sự tiến hóa này có thể là tiến hóa của chính framework tác tử, hoặc là tiến hóa của tham số mô hình – bởi vì tôi cho rằng ngữ cảnh bản thân chính là một dạng tiến hóa của tham số. Vì vậy, làm thế nào để xây dựng một kiến trúc ngữ cảnh dài, và làm thế nào để đạt được suy luận hiệu quả trong ngữ cảnh dài – đây là một cuộc cạnh tranh toàn diện.
Ngoài việc xây dựng kiến trúc “long-context-efficient” trong giai đoạn tiền huấn luyện – đây là vấn đề chúng tôi đã bắt đầu khám phá cách đây khoảng một năm. Hiện nay, để đạt được độ ổn định và hiệu suất “đỉnh” trong các nhiệm vụ dài hạn, chúng tôi đang lặp lại các mẫu đổi mới trong giai đoạn hậu huấn luyện.
Chúng tôi đang suy ngẫm làm thế nào để xây dựng các thuật toán học hiệu quả hơn, làm thế nào để thu thập văn bản thực tế có mối quan hệ phụ thuộc dài hạn thực sự trong ngữ cảnh 1M, 10M, 100M, cũng như dữ liệu quỹ đạo phát sinh từ môi trường phức tạp. Đây là những việc chúng tôi đang làm trong giai đoạn hậu huấn luyện.
Nhưng nhìn xa hơn, do sự tiến bộ vượt bậc của mô hình lớn cùng với sự hỗ trợ của framework tác tử, như chị Lixue vừa nói, nhu cầu suy luận trong thời gian qua đã tăng gần 10 lần. Vậy toàn bộ lượng token tiêu thụ trong năm nay có thể tăng tới 100 lần không?
Điều này lại mở ra một chiều cạnh cạnh tranh mới – năng lực tính toán, hay nói cụ thể hơn là chip suy luận, thậm chí là năng lượng. Vì vậy, nếu mọi người cùng suy ngẫm vấn đề này, tôi có thể học hỏi được nhiều hơn từ mọi người. Cảm ơn!
06. Tác tử có ba mô-đun then chốt, sự bùng nổ của nhiều tác tử sẽ tạo ra tác động mạnh
Yang Zhilin: Những chia sẻ rất sâu sắc. Tiếp theo, xin hỏi anh Huang Chao – người đã phát triển các dự án tác tử có ảnh hưởng lớn như Nanobot và có rất nhiều người hâm mộ trong cộng đồng. Từ góc độ framework tác tử (Harness) hoặc ứng dụng, anh thấy những hướng kỹ thuật nào sắp tới là quan trọng và đáng chú ý?
Huang Chao: Theo tôi, nếu khái quát hóa công nghệ tác tử, các mô-đun then chốt chính là Planning (Lập kế hoạch), Memory (Bộ nhớ) và Tool Use (Sử dụng công cụ).

Trước hết là Planning. Vấn đề hiện nay chủ yếu nằm ở các nhiệm vụ dài hạn hoặc ngữ cảnh rất phức tạp – ví dụ 500 bước hoặc hơn – nhiều mô hình không thể lập kế hoạch tốt. Tôi cho rằng bản chất là mô hình có thể thiếu kiến thức ngầm loại này, đặc biệt trong các lĩnh vực chuyên sâu phức tạp. Vì vậy, trong tương lai có thể cần “cố định” kiến thức về các nhiệm vụ phức tạp vào mô hình – đây có thể là một hướng đi.
Tất nhiên, Skill và Harness ở một mức độ nào đó cũng đang làm dịu các lỗi do Planning gây ra, bởi vì chúng cung cấp các Skill chất lượng cao – bản chất là hướng dẫn mô hình hoàn thành các nhiệm vụ khó.
Tiếp theo là Memory. Bộ nhớ thường khiến người dùng cảm thấy thông tin bị nén không chính xác, hoặc truy xuất không chính xác. Đặc biệt trong các nhiệm vụ dài hạn và tình huống phức tạp, áp lực lên bộ nhớ tăng vọt. Hiện nay, các dự án như OpenClaw thực tế đều sử dụng bộ nhớ dạng hệ thống tệp đơn giản nhất – định dạng Markdown – thông qua việc chia sẻ tệp. Trong tương lai, bộ nhớ có thể hướng tới thiết kế phân cấp, và cũng cần trở nên phổ quát hơn.
Thành thật mà nói, cơ chế bộ nhớ hiện tại rất khó đạt được tính phổ quát – bởi vì các tình huống lập trình, nghiên cứu chuyên sâu, đa phương thức có dạng dữ liệu rất khác nhau. Làm thế nào để truy xuất và lập chỉ mục bộ nhớ hiệu quả trong các tình huống này, đồng thời vẫn đảm bảo hiệu suất – đây luôn là một sự đánh đổi.
Ngoài ra, sau khi OpenClaw làm giảm đáng kể rào cản tạo tác tử, trong tương lai có thể sẽ không chỉ có một “con tôm hùm”. Tôi thấy Kimi cũng đã ra mắt cơ chế “Đàn tác tử” (Agent Swarm), và trong tương lai mỗi người có thể sở hữu “một đàn tôm hùm”.
So với một con tôm hùm, sự gia tăng ngữ cảnh do “một đàn tôm hùm” mang lại là điều có thể tưởng tượng được, và áp lực lên bộ nhớ sẽ rất lớn. Hiện nay thực tế chưa có cơ chế nào tốt để quản lý ngữ cảnh do “một đàn tôm hùm” tạo ra – đặc biệt trong các tình huống như lập trình phức tạp, khám phá khoa học – cả mô hình lẫn toàn bộ kiến trúc tác tử đều chịu áp lực rất lớn.
Cuối cùng là Tool Use – hay nói cách khác là Skill. Vấn đề hiện nay của Skill thực chất tương tự vấn đề của MCP trước đây – chất lượng không đảm bảo, rủi ro an ninh… Hiện nay Skill cũng vậy: trông thì có rất nhiều, nhưng Skill chất lượng cao rất ít, còn các Skill chất lượng thấp sẽ ảnh hưởng đến độ chính xác khi tác tử hoàn thành nhiệm vụ. Ngoài ra còn có vấn đề tiêm mã độc. Vì vậy, từ góc độ Tool Use, có thể cần dựa vào cộng đồng để xây dựng hệ sinh thái Skill tốt hơn, thậm chí để Skill có thể tự tiến hóa ra các Skill mới trong quá trình thực thi.
Tóm lại, từ Planning, Memory đến Tool Use – đây là những điểm đau hiện tại của tác tử, đồng thời cũng là những hướng đi tiềm năng trong tương lai.
07. Từ khóa cho 12 tháng tới: Hệ sinh thái, Token bền vững, Tự tiến hóa và Năng lực tính toán
Yang Zhilin: Có thể thấy hai vị khách mời đã thảo luận một vấn đề chung từ những góc nhìn khác nhau – khi độ phức tạp nhiệm vụ tăng lên, ngữ cảnh sẽ bùng nổ. Từ góc độ mô hình, có thể nâng cao độ dài ngữ cảnh gốc; từ góc độ framework tác tử như Planning, Memory, Multi-Agent, có thể hỗ trợ các nhiệm vụ phức tạp hơn trong giới hạn năng lực mô hình nhất định. Tôi cho rằng hai hướng này sẽ tạo ra nhiều “phản ứng hóa học” hơn trong tương lai, từ đó nâng cao khả năng hoàn thành nhiệm vụ.
Cuối cùng, chúng ta cùng đưa ra một viễn cảnh mở. Xin các vị dùng một từ để miêu tả xu hướng phát triển của mô hình lớn trong 12 tháng tới và kỳ vọng của các vị. Xin bắt đầu từ anh Huang Chao.
Huang Chao: 12 tháng trong lĩnh vực AI nghe có vẻ rất xa, tôi thậm chí còn không biết 12 tháng nữa sẽ phát triển đến đâu.
Yang Zhilin: Ban đầu tôi viết là năm năm, nhưng tôi đã sửa lại.
Huang Chao: Đúng vậy, ha ha. Từ tôi nghĩ đến là “hệ sinh thái”. Hiện nay OpenClaw khiến mọi người rất sôi nổi, nhưng trong tương lai, tác tử thực sự cần trở thành “người lao động”, chứ không chỉ là món đồ chơi giải trí hay để thỏa mãn cảm giác mới lạ. Trong tương lai, nó cần thực sự lắng đọng, trở thành công cụ lao động chân chính, trở thành đồng nghiệp thực sự.
Điều này cần sự nỗ lực của toàn bộ hệ sinh thái, đặc biệt là mã nguồn mở. Sau khi công bố mã nguồn các công nghệ khám phá và công nghệ mô hình, toàn bộ cộng đồng cần cùng nhau xây dựng – dù là lặp lại mô hình, lặp lại nền tảng Skill, hay các công cụ khác – đều cần hướng tới việc xây dựng hệ sinh thái cho “tôm hùm” một cách tốt hơn.
Một xu hướng rõ ràng là: Phần mềm trong tương lai còn dành cho con người không? Tôi tin rằng trong tương lai, rất nhiều phần mềm có thể sẽ không còn hướng tới con người nữa – bởi vì con người cần GUI, còn tương lai có thể là hướng tới việc sử dụng “Agent-Native”. Điều thú vị là con người có thể chỉ dùng những GUI khiến mình cảm thấy hạnh phúc. Còn hiện nay, toàn bộ hệ sinh thái lại đang chuyển từ GUI, MCP sang mô thức CLI. Điều này đòi hỏi hệ sinh thái phải biến hệ thống phần mềm, dữ liệu và các công nghệ khác thành dạng “Agent-Native”, để sự phát triển mới thực sự phong phú hơn.
Luo Fuli: Thu nhỏ phạm vi câu hỏi xuống một năm là rất có ý nghĩa. Nếu đặt trong khung năm năm, từ góc nhìn định nghĩa AGI trong tâm trí tôi, tôi cho rằng nó đã được hiện thực hóa. Vì vậy, nếu dùng một câu để mô tả điều quan trọng nhất trong hành trình AGI trong năm tới, tôi cho rằng đó là “tự tiến hóa”.
Từ này nghe có vẻ thần bí, và trong năm qua mọi người cũng đã nhắc đến nhiều lần. Nhưng gần đây tôi có cảm nhận sâu sắc hơn về nó, hoặc nói cách khác là đã có những giải pháp thực tế và khả thi hơn về “tự tiến hóa”. Lý do là, với các mô hình mạnh mẽ, chúng ta thực tế chưa khai thác hết giới hạn của mô hình tiền huấn luyện trong khuôn khổ Chat, còn framework tác tử đã kích hoạt giới hạn đó. Khi chúng ta để mô hình thực hiện các nhiệm vụ dài hơn, chúng ta phát hiện ra nó có thể tự học và tự tiến hóa.
Một thử nghiệm đơn giản là: Trong framework tác tử hiện có, thêm một ràng buộc điều kiện có thể kiểm chứng, sau đó thiết lập một vòng lặp (loop), để mô hình liên tục lặp lại và tối ưu hóa mục tiêu – bạn sẽ phát hiện ra nó có thể liên tục đưa ra các giải pháp tốt hơn. Hiện nay, kiểu “tự tiến hóa” này thực tế đã có thể chạy trong một hai ngày, dĩ nhiên phụ thuộc vào độ khó của nhiệm vụ.
Ví dụ trong một số nghiên cứu khoa học như khám phá cấu trúc mô hình tốt hơn – vì cấu trúc mô hình có tiêu chuẩn đánh giá, ví dụ PPL thấp hơn – trong các nhiệm vụ xác định như vậy, chúng ta phát hiện ra nó đã có thể tự tối ưu hóa và thực thi trong hai ba ngày.
Vì vậy, từ góc nhìn của tôi, “tự tiến hóa” là nơi duy nhất có thể “tạo ra điều mới”. Nó không thay thế năng suất lao động hiện có của con người, mà giống như các nhà khoa học hàng đầu, khám phá những điều chưa từng tồn tại trên thế giới. Một năm trước, tôi nghĩ thời điểm này cần kéo dài từ ba đến năm năm, nhưng gần đây tôi thực sự cảm thấy nên rút ngắn xuống còn một đến hai năm. Rất có thể trong tương lai gần, chúng ta sẽ có thể sử dụng mô hình lớn kết hợp với một framework tác tử mạnh mẽ có khả năng tự tiến hóa để ít nhất tăng tốc nghiên cứu khoa học theo cấp số mũ.
Gần đây tôi đã phát hiện ra rằng quy trình làm việc (workflow) của các bạn đồng nghiệp nghiên cứu mô hình lớn trong nhóm tôi là rất không chắc chắn và giàu tính sáng tạo, nhưng nhờ Claude Code kết hợp với các mô hình đỉnh cao, hiệu suất nghiên cứu của chúng tôi đã tăng gần 10 lần. Tôi rất mong đợi mô hình này lan tỏa tới nhiều ngành và lĩnh vực rộng hơn, vì vậy tôi cho rằng “tự tiến hóa” vô cùng quan trọng.
Xia Lixue: Từ khóa của tôi là “token bền vững”. Tôi thấy sự phát triển của AI vẫn đang trong một quá trình dài hạn và liên tục, và chúng tôi cũng hy vọng nó có sức sống lâu dài. Từ góc độ cơ sở hạ tầng, một vấn đề lớn là tài nguyên cuối cùng là hữu hạn.
Giống như khi nói về phát triển bền vững trước đây, với tư cách là một “nhà máy token”, chúng ta có thể cung cấp token một cách bền vững, ổn định và quy mô lớn để các mô hình đỉnh cao thực sự phục vụ nhiều ứng dụng phía sau hơn – đây là một vấn đề rất quan trọng mà chúng tôi nhận thấy.
Chúng ta cần mở rộng tầm nhìn ra toàn bộ hệ sinh thái – từ năng lượng, năng lực tính toán, token, đến ứng dụng – để hình thành một chu kỳ lặp lại kinh tế bền vững. Chúng ta không chỉ cần tận dụng các năng lực tính toán trong nước, mà còn cần xuất khẩu các năng lực này ra nước ngoài, để tích hợp và kết nối tài nguyên toàn cầu.
Tôi cũng cho rằng “bền vững” thực chất là việc xây dựng nền kinh tế token đặc sắc của Trung Quốc. Trước đây chúng ta nói “Made in China”, biến năng lực sản xuất giá rẻ của Trung Quốc thành hàng hóa tốt xuất khẩu ra toàn cầu.
Giờ đây, chúng ta cần làm “AI Made in China” – tận dụng lợi thế của Trung Quốc trong lĩnh vực năng lượng và các lĩnh vực khác, thông qua “nhà máy token” bền vững để chuyển đổi thành token chất lượng cao, xuất khẩu ra toàn cầu, trở thành “nhà máy token của thế giới”. Đây là giá trị mà tôi hy vọng Trung Quốc sẽ mang lại cho trí tuệ nhân tạo toàn cầu trong năm nay.
Zhang Peng: Tôi xin nói ngắn gọn. Mọi người đều đang ngưỡng vọng những vì sao, còn tôi thì đi thực tế hơn một chút. Từ khóa của tôi là “năng lực tính toán”.
Như vừa nói, tất cả các công nghệ và framework tác tử đều giúp tăng cường khả năng sáng tạo và hiệu suất lên 10 lần, nhưng điều kiện tiên quyết là mọi người thực sự có thể sử dụng được chúng. Bạn không thể đặt ra một câu hỏi rồi để nó suy nghĩ mãi mà không đưa ra câu trả lời – điều đó chắc chắn là không chấp nhận được. Cũng vì lý do này, nhiều tiến triển nghiên cứu và nhiều việc muốn làm đều sẽ bị cản trở.
Hai năm trước, tôi nhớ có một vị viện sĩ từng nói tại Diễn đàn Trung Quan Thôn: “Không có card thì không có cảm xúc, nói đến card thì tổn thương cảm xúc.” Tôi cảm thấy hiện nay chúng ta lại bước vào giai đoạn đó, nhưng tình hình đã khác. Giờ đây chúng ta đã bước vào giai đoạn suy luận, nhu cầu thực sự đang bùng nổ – tăng gấp 10, gấp 100 lần. Như vừa nói, lượng tiêu thụ đã tăng 10 lần, nhưng thực tế nhu cầu có thể là 100 lần? Còn rất nhiều nhu cầu chưa được đáp ứng – chúng ta phải cùng nhau tìm giải pháp.
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News











