
Hiểu rõ mô hình kinh tế học token mới chỉ trong một bài viết
Tuyển chọn TechFlowTuyển chọn TechFlow

Hiểu rõ mô hình kinh tế học token mới chỉ trong một bài viết
Một lớp trung gian phân phối token đang nổi lên, kết nối các nhà cung cấp mô hình lớn với các nhà phát triển; lợi nhuận thực sự nằm ở việc tăng tốc suy luận, tích hợp doanh nghiệp và triển khai trong các tình huống thực tế.
Tác giả: Triệu Dĩnh
Nguồn: Wall Street Insights
Thương mại hóa các ứng dụng AI đang mở rộng từ việc bán phần mềm và bán gói thành viên sang việc bán khả năng gọi Token. Ở đây, “Token” là đơn vị thông tin nhỏ nhất mà mô hình ngôn ngữ lớn (LLM) xử lý, đồng thời cũng là cơ sở để tính phí, thanh toán và tiêu thụ qua API của mô hình. Khi khối lượng gọi tăng mạnh, bản thân Token bắt đầu được mua sắm, định tuyến, chia nhỏ và tái bán như một loại “hàng tồn kho”.
Trong báo cáo chuyên đề gần đây về ngành truyền thông, nhà phân tích Trần Lương Đống thuộc Công ty Chứng khoán Hoa Nguyên đã khái quát sự thay đổi cốt lõi như sau: “Việc vận hành Token đang hình thành một thị trường trung gian mới – tức là khám phá mô hình phân phối Token nhằm kết nối các nhà cung cấp LLM ở đầu chuỗi với các nhà phát triển, doanh nghiệp và cá nhân ở cuối chuỗi; về bản chất, đây là cơ sở hạ tầng thanh khoản cho mạng lưới phân phối toàn cầu từ buôn sỉ đến bán lẻ Token.”
Bối cảnh ra đời mô hình kinh doanh này khá rõ ràng: Một mặt, khối lượng gọi Token tại Trung Quốc tăng nhanh chóng – vào đầu năm 2024 đạt trung bình 100 tỷ Token/ngày, tăng lên 100 triệu tỷ Token vào cuối năm 2025 và vượt mốc 140 triệu tỷ Token vào tháng 3/2026; mặt khác, năng lực của các LLM nội địa đã tiến lên một bậc mới, và trên một số bảng xếp hạng cũng như khối lượng gọi thực tế, các mô hình này đã gia nhập hàng ngũ dẫn đầu toàn cầu. Nhu cầu tăng cao, số lượng mô hình tăng lên, nhưng chính các khâu thanh toán, mạng lưới, giao diện, tuân thủ quy định, kênh phân phối và hiện thực hóa trong các tình huống cụ thể lại trở thành những nút thắt khiến giao dịch bị chậm trễ.
Tuy nhiên, việc phân phối Token không đơn thuần là “đầu cơ mua đi bán lại hạn mức API”. Phần lợi nhuận mỏng nhất đến từ chênh lệch giá khi tái bán, trong khi phần lợi nhuận dày hơn lại đến từ các yếu tố như tăng tốc suy luận, chuẩn hóa giao diện API, kỹ thuật Prompt Engineering dành riêng cho doanh nghiệp, lập trình Agent, lựa chọn mô hình phù hợp và tích hợp với hệ thống nghiệp vụ. Cũng chính vì rào cản gia nhập không quá cao nên rủi ro trong thị trường này cũng rất rõ ràng: cạnh tranh ngày càng gay gắt, áp lực ứng trước vốn và nợ xấu, cũng như những thay đổi chính sách từ các nhà cung cấp LLM đầu chuỗi đều có thể làm thu hẹp biên lợi nhuận của lớp trung gian.
Token giờ đã có “nhà buôn sỉ” và “nhà buôn lẻ”
Chuỗi phân phối Token cơ bản gồm ba nhóm vai trò.
Đầu chuỗi là các nhà cung cấp mô hình, bao gồm loạt mô hình Seedance của ByteDance, loạt Qwen của Alibaba, loạt GLM của Zhipu, loạt Kimi của Moonshot, loạt DeepSeek… – đây là nguồn cung cấp Token gốc.
Lớp trung gian là các nền tảng đại lý, chịu trách nhiệm tiếp nhận nguồn lực mô hình từ đầu chuỗi rồi phân phối tới người dùng cuối. Công việc của họ không chỉ dừng lại ở việc bán lại hạn mức, mà còn phải chuyển đổi giao thức API từ nhiều mô hình khác nhau sang một định dạng API thống nhất, giúp phía người dùng cuối chỉ cần sử dụng duy nhất một khóa API để gọi đa dạng các mô hình.
Cuối chuỗi là những người thực sự tiêu thụ Token, bao gồm người dùng cá nhân, nhà phát triển, khách hàng doanh nghiệp, hoặc thậm chí cả các nhà phân phối cấp dưới.
Giá trị cốt lõi của lớp trung gian này tập trung vào một số điểm: kết nối trực tiếp trong nước giúp giảm rào cản mạng lưới; một bộ mã nguồn có thể tương thích với nhiều mô hình; hỗ trợ cả thanh toán cá nhân lẫn thanh toán doanh nghiệp; mua số lượng lớn có thể hưởng mức giá thấp hơn; và một nền tảng duy nhất tích hợp nhiều mô hình như GPT, Claude, DeepSeek, Kimi… giúp giảm đáng kể chi phí tích hợp lặp lại của các nhà phát triển.
Do đó, phân phối Token trông có vẻ nhẹ tài sản – không cần tự huấn luyện LLM, cũng không cần xây dựng cụm máy chủ quy mô lớn. Tài sản cốt lõi giờ đây chính là hệ thống điều phối trung gian API, nguồn lực mô hình đầu chuỗi, kênh phân phối khách hàng và năng lực phục vụ.
Khối lượng gọi tăng vọt – nhiên liệu trực tiếp nhất cho mô hình kinh doanh này
Mô hình vận hành Token chỉ có thể thành công nếu có đủ lượng tiêu thụ lớn.
Khối lượng gọi Token trung bình mỗi ngày tại Trung Quốc đã tăng từ 100 tỷ lên hơn 140 triệu tỷ trong vòng hai năm – tăng hơn 1.000 lần. Sự mở rộng này đến từ việc triển khai hàng loạt Agent chuyên biệt theo từng lĩnh vực, cũng như từ việc các doanh nghiệp tích hợp trí tuệ nhân tạo sinh tổng hợp (Generative AI) sâu hơn vào nhiều quy trình nghiệp vụ.
Dữ liệu từ IDC còn đưa ra một kịch bản tăng trưởng mạnh mẽ hơn: số lượng Agent thông minh đang hoạt động tại các doanh nghiệp Trung Quốc dự kiến sẽ vượt 350 triệu vào năm 2031, với tốc độ tăng trưởng kép hàng năm (CAGR) trên 135%; đồng thời, khi mật độ và độ phức tạp của các tác vụ Agent tăng lên, mức tăng trung bình hàng năm về lượng Token tiêu thụ bởi Agent cũng có thể vượt 30 lần.
Sự thay đổi này đã rõ ràng ở các Agent thực thi. Khối lượng Token tiêu thụ hàng tuần của OpenClaw trên nền tảng OpenRouter đã tăng từ 0,81 nghìn tỷ (T) trong giai đoạn từ ngày 2/2 đến 16/3/2026 lên 4,97 nghìn tỷ (T), chiếm tỷ trọng từ 8,31% lên 24,36%.
Khi Token trở thành mặt hàng tiêu thụ quy mô lớn, thì việc mua sắm, định giá, định tuyến và thanh toán xung quanh nó sẽ tự nhiên phân tầng. Các nhà cung cấp mô hình không nhất thiết phải phục vụ từng khách hàng một cách trực tiếp, trong khi khách hàng cuối cũng không sẵn sàng tích hợp từng mô hình riêng lẻ – từ đó, lớp trung gian có được không gian phát triển.
Tỷ lệ chi phí – hiệu năng vượt trội của các LLM nội địa mở ra cửa ngõ cho Token xuất khẩu
Năng lực nâng cao của các LLM nội địa là yếu tố then chốt giúp phân phối Token chuyển từ thị trường nội địa sang thị trường xuyên biên giới.
Theo dữ liệu từ SuperCLUE, các LLM nội địa như DouBao của ByteDance và loạt mô hình DeepSeek đã đạt điểm tổng hợp trên 70, thu hẹp khoảng cách với các mô hình hàng đầu quốc tế như GPT-5.4 và Gemini; trong khi các mô hình như Qwen, Kimi và GLM của Zhipu cũng đã hình thành các nhóm thứ bậc rõ ràng.
Trên OpenRouter, trong tuần tính đến ngày 10/5/2026, mô hình Hy3 preview (miễn phí) của Tencent đứng đầu về khối lượng gọi; trong top 5, top 10 và top 20, lần lượt có 2, 6 và 9 mô hình nội địa.
Một bước ngoặt mang tính biểu tượng hơn nữa xảy ra trong quý I/2026. Từ ngày 9–15/2, khối lượng gọi Token của các mô hình Trung Quốc trên OpenRouter đạt 4,12 nghìn tỷ Token, lần đầu tiên vượt mức 2,94 nghìn tỷ Token của các mô hình Mỹ trong cùng kỳ. Từ ngày 16–22/2, khối lượng gọi tuần của các mô hình Trung Quốc tiếp tục tăng lên 5,16 nghìn tỷ Token; trong top 5 mô hình có khối lượng gọi cao nhất nền tảng, bốn mô hình đến từ Trung Quốc – MiniMax M2.5, Kimi K2.5, GLM-5 của Zhipu và DeepSeek V3.2 – đóng góp tổng cộng 85,7% khối lượng gọi của top 5.
Ưu thế về giá cũng rất nổi bật. Giá đầu vào cho MiniMax M2.5 và GLM-5 đều là 0,3 USD/một triệu Token, trong khi Claude Opus 4.6 là 5 USD; về giá đầu ra, MiniMax M2.5 là 1,1 USD, GLM-5 là 2,55 USD, còn Claude Opus 4.6 là 25 USD. Sự chênh lệch về chi phí – hiệu năng của các LLM nội địa sẽ ngày càng được khuếch đại trong các tình huống tiêu thụ Token cao như xây dựng Agent AI hay phát triển mã nguồn.
Nguồn lực AI toàn cầu phân bổ không đều – các nền tảng định tuyến trở thành “trạm trung chuyển”
Phân phối Token không chỉ giải quyết vấn đề giá cả, mà còn khắc phục tình trạng mất cân bằng nguồn lực.
Các LLM hàng đầu quốc tế thường chịu hạn chế về vùng miền truy cập, quy định tuân thủ và rào cản thanh toán, nên không thể tiếp cận trực tiếp một số nhóm người dùng – ví dụ như các nhà phát triển tại Trung Quốc đại lục. Ngược lại, các LLM nội địa chất lượng cao khi hướng ra thị trường quốc tế cũng gặp khó khăn trong việc thích nghi địa phương, xây dựng kênh phân phối và thu hút người dùng.
Chính sự mất cân bằng này đã thúc đẩy nhu cầu luồng chuyển xuyên biên giới, định tuyến tập trung và phân phối phân tầng.
OpenRouter đã trở thành một điển hình tiêu biểu. Khối lượng Token nền tảng xử lý tăng từ 5–7 nghìn tỷ mỗi tuần trong năm 2025 lên hơn 20 nghìn tỷ mỗi tuần vào tháng 4/2026; doanh thu hàng năm ước tính vượt 50 triệu USD vào năm 2026, tăng khoảng năm lần so với mức hơn 10 triệu USD được công bố vào tháng 10/2025.
Tại Trung Quốc cũng xuất hiện các nền tảng tương tự. SiliconFlow là một nền tảng điện toán đám mây LLM toàn diện, sử dụng động cơ suy luận tự phát triển để tăng tốc hiệu quả, đồng thời cung cấp dịch vụ LLM cấp doanh nghiệp. Đến tháng 12/2025, nền tảng đã có hơn 9 triệu người dùng đăng ký, hơn 10.000 khách hàng doanh nghiệp và hơn 150 mô hình được triển khai.
Ngay cả các nhà đầu tư liên quan đến chính trị Mỹ cũng đã bước chân vào lĩnh vực này. Ngày 5/5/2026, công ty tiền mã hóa WLFI – có mối liên hệ chặt chẽ với ông Donald Trump và gia đình ông – đã hợp tác cùng WorldClaw ra mắt WorldRouter, tích hợp hơn 300 mô hình bao gồm Claude, GPT và Gemini, thanh toán bằng USD1, với mức giá thấp hơn khoảng 30% so với giá niêm yết chính thức.
Lợi nhuận thực sự chưa chắc nằm ở “chênh lệch giá mua – bán”
Phân phối Token có ba cách tạo lợi nhuận.
Thứ nhất là chênh lệch giá khi tái bán. Nền tảng mua sỉ hạn mức API từ các nhà cung cấp mô hình đầu chuỗi rồi bán lại cho khách hàng cuối với mức giá cao hơn. Việc OpenRouter áp dụng mức phụ thu khoảng 5,5% trên chi phí nhà cung cấp là ví dụ tiêu biểu cho mô hình này.
Thứ hai là lợi nhuận từ giá trị công nghệ. Nền tảng sử dụng động cơ tăng tốc suy luận tự phát triển để giảm chi phí vận hành mỗi Token, từ đó vẫn đảm bảo lợi nhuận gộp ngay cả khi giá bán gần hoặc thấp hơn giá niêm yết chính thức – nhờ chênh lệch hiệu suất tính toán. Công nghệ SiliconLLM và OneDiff của SiliconFlow giúp tốc độ suy luận mô hình ngôn ngữ tăng gấp 10 lần, hiệu suất tạo ảnh từ văn bản tăng gấp 3 lần, khiến chi phí gọi API LLM chỉ bằng 1/10 mức trung bình ngành.
Thứ ba là các dịch vụ giá trị gia tăng dành riêng cho doanh nghiệp. Chi phí triển khai AI của doanh nghiệp không chỉ nằm ở giá mỗi Token, mà còn bao gồm kỹ thuật Prompt Engineering, lựa chọn mô hình đa dạng, tích hợp với hệ thống nghiệp vụ, lập trình quy trình làm việc (workflow orchestration), vận hành điều phối và đào tạo nâng cao năng lực AI cho nhân viên. Khi giá cơ bản của Token giảm xuống, những chi phí tiềm ẩn này lại càng dễ trở thành điểm thanh toán.
Nền tảng MaaS cấp doanh nghiệp của SiliconFlow là ví dụ điển hình cho hướng đi này: cung cấp cho khách hàng doanh nghiệp ba lớp năng lực – huấn luyện và tinh chỉnh mô hình, triển khai và suy luận, hỗ trợ phát triển ứng dụng – bao phủ toàn bộ quy trình xử lý dữ liệu, tinh chỉnh mô hình, kỹ thuật Prompt Engineering và RAG, cuối cùng được cung cấp dưới dạng API chuẩn hóa cho các ngành như năng lượng, tài chính và chính phủ.
Tiếp thị, phim ngắn, trò chơi và thương mại điện tử – những lĩnh vực tiêu thụ Token dễ dàng hơn
Để phân phối Token thực sự sinh lời, cuối cùng phải gắn với các tình huống ứng dụng thực tế.
Các ứng dụng trí tuệ nhân tạo sinh tổng hợp đang thâm nhập vào các ngành như y tế – sức khỏe, giao thông vận tải, sản xuất công nghiệp, đồng thời cũng bắt đầu tham gia vào các quy trình cốt lõi như hỗ trợ ra quyết định và quản trị chiến lược cho doanh nghiệp. Tuy nhiên, nhiều doanh nghiệp vẫn còn thiếu nền tảng chuyển đổi số, chưa tích lũy đầy đủ tài sản dữ liệu và đầu tư hạn chế vào hạ tầng tính toán, nên việc triển khai trực tiếp các năng lực AI vẫn rất khó khăn.
Ngược lại, các công ty quảng cáo và tiếp thị đã sở hữu sẵn khách hàng và các tình huống ứng dụng cụ thể – đặc biệt trong các lĩnh vực như phim ngắn, truyện tranh chuyển thể, trò chơi và thương mại điện tử – nên nhu cầu tiêu thụ Token của họ vừa trực tiếp vừa bền vững. Với những công ty này, cơ hội không chỉ nằm ở việc tái bán năng lực mô hình, mà còn ở việc tích hợp Token vào các quy trình sản xuất nội dung, chạy quảng cáo, tạo vật liệu truyền thông và chuyển đổi video cho khách hàng.
Các tín hiệu đầu tư cũng phát triển theo hai chủ tuyến chính:
Một là các công ty sở hữu năng lực mô hình chất lượng cao, bao gồm Alibaba, Tencent Holdings, Kuaishou, Kunlun Tech, Zhipu và MiniMax.
Hai là các công ty có khả năng khai thác Token hiệu quả trong các tình huống thực tế và sở hữu cơ sở khách hàng chất lượng – đặc biệt là những doanh nghiệp có nguồn khách hàng quốc tế và kinh nghiệm trong các lĩnh vực tiếp thị và sản xuất video dựa trên AI, ví dụ như Yidian Tianxia và BlueFocus.
Rủi ro cũng rất rõ ràng: rào cản thấp, phải ứng trước vốn, và đầu chuỗi nắm quyền quyết định
Mô hình kinh doanh phân phối Token tuy nhẹ tài sản, nhưng không tự nhiên tạo được “hào thành” vững chắc.
Cạnh tranh đồng ngành là rủi ro đầu tiên. Do rào cản kỹ thuật trong phân phối khá thấp, nên một khi các đại lý đầu ngành đã thâm nhập thị trường nhờ lợi thế về vốn, khách hàng và kênh phân phối, họ có thể nhanh chóng sao chép mô hình và thu hẹp biên lợi nhuận.
Ứng trước vốn và nợ xấu là rủi ro thứ hai. Các nhà phân phối thường áp dụng chính sách thanh toán theo tháng hoặc quý với khách hàng cuối, nhưng lại phải ứng trước vốn khi mua hạn mức API từ đầu chuỗi. Khối lượng tiêu thụ Token càng lớn thì áp lực ứng vốn càng cao; một khi khách hàng chậm thanh toán, rủi ro nợ xấu cũng sẽ tăng đồng thời.
Thay đổi chính sách từ các nhà cung cấp LLM đầu chuỗi là rủi ro thứ ba. Các nhà cung cấp LLM kiểm soát hoàn toàn giá API và quy tắc kết nối, có thể điều chỉnh giá hoặc siết chặt chính sách tiếp cận bên thứ ba. Đây là yếu tố khó kiểm soát nhất đối với lớp trung gian.
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News














