
Đợt động đất tiếp theo của AI: Vì sao mối đe dọa thực sự không phải là “kẻ hủy diệt SaaS”, mà là cuộc cách mạng về năng lực tính toán?
Tuyển chọn TechFlowTuyển chọn TechFlow

Đợt động đất tiếp theo của AI: Vì sao mối đe dọa thực sự không phải là “kẻ hủy diệt SaaS”, mà là cuộc cách mạng về năng lực tính toán?
Cuộc cách mạng này có thể khiến buổi tiệc hoành tráng do những “người bán xẻng” cho AI tổ chức kết thúc sớm hơn nhiều so với dự kiến của tất cả mọi người.
Tác giả: Bruce
Gần đây, cả giới công nghệ và giới đầu tư đều đang tập trung chú ý vào cùng một vấn đề: các ứng dụng AI đang “giết chết” các phần mềm SaaS truyền thống như thế nào. Kể từ khi Claude Cowork của @AnthropicAI trình diễn khả năng soạn email, tạo bài thuyết trình PowerPoint hay phân tích bảng tính Excel một cách dễ dàng, nỗi hoảng loạn mang tên “phần mềm đã chết” bắt đầu lan rộng. Điều này thực sự rất đáng sợ — nhưng nếu bạn chỉ dừng lại ở mức độ đó, thì có lẽ bạn đã bỏ lỡ cơn địa chấn thực sự.
Điều này giống như tất cả chúng ta đều ngước nhìn những cuộc không chiến giữa các máy bay không người trên bầu trời, trong khi chẳng ai để ý rằng toàn bộ mảng lục địa dưới chân mình đang âm thầm dịch chuyển. Cơn bão thực sự đang ẩn sâu dưới mặt nước, tại một góc khuất mà đa số người không thể thấy: nền tảng sức mạnh tính toán — trụ cột hỗ trợ toàn bộ thế giới AI — đang trải qua một “cuộc cách mạng lặng lẽ”.
Và cuộc cách mạng này có thể khiến buổi tiệc hoành tráng do NVIDIA @nvidia — “người bán xẻng” cho ngành AI — tổ chức kết thúc sớm hơn rất nhiều so với dự đoán của tất cả mọi người.
Hai con đường cách mạng đang hội tụ
Cuộc cách mạng này không phải là một sự kiện đơn lẻ, mà là kết quả của hai hướng phát triển công nghệ dường như độc lập nhưng đang đan xen chặt chẽ với nhau. Chúng giống như hai đạo quân đang tiến sát từ hai phía, tạo thành thế “kẹp nghẹt” đối với quyền bá chủ GPU của NVIDIA.
Con đường thứ nhất là cuộc cách mạng “giảm cân” dành cho thuật toán.
Bạn đã bao giờ tự hỏi: Khi một bộ não siêu việt suy nghĩ về một vấn đề, liệu nó thực sự cần huy động toàn bộ các tế bào thần kinh? Rõ ràng là không. DeepSeek đã nhận ra điều này và phát triển kiến trúc MoE (Mixture of Experts – Hỗn hợp các chuyên gia).
Bạn có thể hình dung MoE như một công ty sở hữu hàng trăm chuyên gia thuộc nhiều lĩnh vực khác nhau. Nhưng mỗi lần họp để giải quyết một vấn đề cụ thể, bạn chỉ cần mời hai hoặc ba người liên quan nhất — chứ không bắt tất cả cùng tham gia “động não”. Đây chính là điểm thông minh của MoE: Nó cho phép một mô hình khổng lồ chỉ kích hoạt một phần nhỏ các “chuyên gia” trong mỗi lần tính toán, nhờ đó tiết kiệm đáng kể tài nguyên tính toán.
Kết quả sẽ ra sao? Mô hình DeepSeek-V2 về danh nghĩa có tới 236 tỷ “chuyên gia” (tham số), nhưng mỗi lần xử lý tác vụ, chỉ cần kích hoạt khoảng 21 tỷ — chưa đến 9% tổng số. Thế mà hiệu năng của nó vẫn sánh ngang với GPT-4, vốn phải vận hành toàn tải 100%. Điều này hàm ý điều gì? Khả năng của AI và lượng sức mạnh tính toán tiêu thụ đã “rời xa” nhau!
Trước đây, chúng ta luôn mặc định: AI càng mạnh thì càng “đốt” nhiều card đồ họa hơn. Giờ đây, DeepSeek cho chúng ta biết rằng bằng những thuật toán thông minh, ta hoàn toàn có thể đạt được hiệu quả tương đương với chỉ một phần mười chi phí. Như vậy, tính “bắt buộc phải dùng” GPU của NVIDIA đã bị đặt một dấu hỏi lớn.
Con đường thứ hai là cuộc cách mạng “đổi làn” trong phần cứng.
Việc AI xử lý công việc gồm hai giai đoạn: huấn luyện (training) và suy luận (inference). Huấn luyện giống như đi học — cần đọc hàng vạn cuốn sách, lúc này GPU — loại card tính toán song song có khả năng “sức mạnh tạo nên kỳ tích” — quả thật rất hiệu quả. Còn suy luận giống như việc chúng ta sử dụng AI trong đời sống thường nhật, nơi tốc độ phản hồi mới là yếu tố then chốt.
GPU lại có một nhược điểm bẩm sinh khi thực hiện suy luận: bộ nhớ (HBM) của nó được gắn rời bên ngoài, dẫn đến độ trễ khi dữ liệu di chuyển qua lại. Điều này giống như một đầu bếp: nguyên liệu đều được cất trong tủ lạnh ở phòng bên cạnh, mỗi lần nấu ăn đều phải chạy sang lấy — dù nhanh đến đâu cũng khó vượt qua giới hạn đó. Trong khi đó, các công ty như Cerebras và Groq lại chọn con đường riêng, thiết kế các chip suy luận chuyên dụng, tích hợp trực tiếp bộ nhớ (SRAM) lên bề mặt chip — nguyên liệu luôn sẵn sàng ngay trước tay, giúp đạt được khả năng truy cập “không độ trễ”.
Thị trường đã bỏ phiếu bằng tiền thật. OpenAI vừa phàn nàn rằng GPU của NVIDIA kém hiệu quả trong suy luận, vừa lập tức ký hợp đồng trị giá 10 tỷ USD với Cerebras để thuê dịch vụ suy luận của họ. Ngay cả NVIDIA cũng hoảng hốt, nhanh chóng chi 20 tỷ USD để mua lại Groq nhằm không bị tụt hậu trên “đường đua mới” này.
Khi hai con đường hội tụ: Chi phí sụp đổ như tuyết lở
Giờ đây, hãy cùng ghép hai yếu tố này lại: chạy một mô hình DeepSeek đã “giảm cân” về mặt thuật toán trên một chip Cerebras đạt “truy cập không độ trễ” về mặt phần cứng.
Điều gì sẽ xảy ra?
Một trận “lở tuyết chi phí”.
Thứ nhất, mô hình đã “giảm cân” nên kích thước nhỏ gọn, có thể tải toàn bộ vào bộ nhớ tích hợp sẵn trên chip. Thứ hai, không còn “nút cổ chai” từ bộ nhớ ngoại vi, tốc độ phản hồi của AI sẽ nhanh đến kinh ngạc. Kết quả cuối cùng là: chi phí huấn luyện giảm 90% nhờ kiến trúc MoE; chi phí suy luận lại tiếp tục giảm thêm một cấp độ nhờ phần cứng chuyên dụng và tính toán thưa (sparse computing). Tổng chi phí sở hữu và vận hành một mô hình AI tầm cỡ thế giới có thể chỉ còn 10–15% so với phương án GPU truyền thống.
Đây không còn là cải tiến — mà là một sự chuyển đổi mô hình (paradigm shift).
Ngai vàng của NVIDIA đang bị âm thầm rút tấm thảm
Giờ đây bạn hẳn đã hiểu vì sao điều này còn nguy hiểm hơn cả “nỗi hoảng loạn Cowork”.
Giá trị thị trường hàng nghìn tỷ đô la của NVIDIA ngày nay được xây dựng trên một câu chuyện đơn giản: AI là tương lai, và tương lai của AI chắc chắn phải dựa vào GPU của tôi. Nhưng hiện tại, nền tảng của câu chuyện ấy đang bị rung chuyển.
Ở thị trường huấn luyện, ngay cả khi NVIDIA vẫn duy trì vị thế độc quyền, nếu khách hàng chỉ cần một phần mười số card để hoàn thành công việc, thì quy mô tổng thể của thị trường này cũng có thể thu hẹp đáng kể.
Ở thị trường suy luận — vốn lớn hơn thị trường huấn luyện tới mười lần — NVIDIA không những không chiếm ưu thế tuyệt đối, mà còn đối mặt với cuộc tấn công từ nhiều phía của Google, Cerebras và vô số “thần tiên” khác. Ngay cả khách hàng lớn nhất của họ — OpenAI — cũng đang “đào ngũ”.
Một khi phố Wall nhận ra rằng “chiếc xẻng” của NVIDIA không còn là lựa chọn duy nhất, thậm chí cũng không còn là lựa chọn tốt nhất, thì mức định giá được xây dựng trên kỳ vọng về “độc quyền vĩnh viễn” sẽ ra sao? Tôi tin rằng tất cả chúng ta đều rõ điều đó.
Do đó, “thiên nga đen” lớn nhất trong nửa năm tới có thể không phải là một ứng dụng AI nào đó lại “giết chết” một đối thủ nào đó, mà là một tin tức kỹ thuật tưởng chừng rất bình thường: ví dụ như một bài báo mới về hiệu suất vượt trội của thuật toán MoE, hoặc một báo cáo cho thấy thị phần của các chip suy luận chuyên dụng tăng mạnh — âm thầm báo hiệu cuộc chiến về sức mạnh tính toán đã bước sang một giai đoạn mới.
Khi “chiếc xẻng” của “người bán xẻng” không còn là lựa chọn duy nhất, thì thời đại hoàng kim của anh ta có lẽ cũng đã khép lại.
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News













