
Một bài báo khoa học đã làm giảm giá cổ phiếu lĩnh vực lưu trữ
Tuyển chọn TechFlowTuyển chọn TechFlow

Một bài báo khoa học đã làm giảm giá cổ phiếu lĩnh vực lưu trữ
Chiến trường chính của cuộc chạy đua vũ trang AI đang chuyển dịch từ “chồng chất năng lực tính toán” sang “hiệu suất tối đa”.
Tác giả: TechFlow
Ngày 25 tháng 3, cổ phiếu công nghệ trên thị trường chứng khoán Mỹ tăng mạnh chung, chỉ số Nasdaq 100 đỏ rực; tuy nhiên, một nhóm cổ phiếu lại lao dốc ngược chiều:
SanDisk giảm 3,50%, Micron giảm 3,4%, Seagate giảm 2,59%, Western Digital giảm 1,63%. Toàn bộ ngành lưu trữ như bị cắt điện đột ngột giữa một buổi tiệc.
Thủ phạm là một bài báo khoa học — hoặc nói chính xác hơn, là việc Google Research chính thức quảng bá một bài báo khoa học.
Bài báo này thực sự đã làm gì?
Để hiểu rõ vấn đề này, trước tiên cần nắm vững một khái niệm trong hạ tầng AI ít được chú ý bên ngoài: KV Cache.
Khi bạn trò chuyện với một mô hình ngôn ngữ lớn (LLM), mô hình không phải lúc nào cũng bắt đầu từ đầu để hiểu câu hỏi của bạn. Thay vào đó, nó lưu toàn bộ ngữ cảnh cuộc hội thoại dưới dạng các cặp “khóa-giá trị” (Key-Value Pair) trong bộ nhớ — đây chính là KV Cache, hay còn gọi là “bộ nhớ làm việc ngắn hạn” của mô hình.
Vấn đề nằm ở chỗ kích thước của KV Cache tăng tỷ lệ thuận với độ dài cửa sổ ngữ cảnh. Khi cửa sổ ngữ cảnh đạt tới cấp triệu token, dung lượng bộ nhớ GPU tiêu tốn bởi KV Cache thậm chí có thể vượt quá trọng số (weights) của chính mô hình. Đối với một cụm suy luận (inference cluster) phục vụ hàng loạt người dùng đồng thời, đây là một điểm nghẽn hạ tầng thực tế và gây tốn kém hàng ngày.
Bản gốc của bài báo này lần đầu xuất hiện trên arXiv vào tháng 4 năm 2025 và sẽ được công bố chính thức tại hội nghị ICLR 2026. Google Research đặt tên cho phương pháp này là TurboQuant — một thuật toán lượng tử hóa không mất dữ liệu, nén KV Cache xuống chỉ còn 3 bit và giảm thiểu dung lượng bộ nhớ ít nhất 6 lần, không yêu cầu huấn luyện hay tinh chỉnh thêm, sử dụng ngay lập tức.
Đường đi kỹ thuật cụ thể gồm hai bước:
Bước một: PolarQuant. Phương pháp này không sử dụng hệ tọa độ Descartes chuẩn để biểu diễn vector, mà chuyển vector sang hệ tọa độ cực — gồm một “bán kính” và một tập hợp các “góc” — từ đó đơn giản hóa cơ bản độ phức tạp hình học trong không gian chiều cao, giúp quá trình lượng tử hóa tiếp theo đạt được độ méo thấp hơn.
Bước hai: QJL (Quantized Johnson-Lindenstrauss). Sau khi PolarQuant hoàn tất nén chủ yếu, TurboQuant áp dụng phép biến đổi QJL chỉ với 1 bit để hiệu chỉnh sai số dư một cách không thiên lệch, đảm bảo độ chính xác trong ước tính tích vô hướng — yếu tố then chốt để cơ chế chú ý (attention) trong kiến trúc Transformer vận hành đúng.
Kết quả: Trên bộ đánh giá LongBench bao quát các tác vụ hỏi-đáp, sinh mã và tóm tắt, TurboQuant đạt hoặc thậm chí vượt qua hiệu năng của phương pháp nền tảng tốt nhất hiện hành — KIVI; trong nhiệm vụ truy xuất “tìm kim trong biển” (“needle-in-a-haystack”), đạt tỷ lệ truy xuất hoàn hảo (perfect recall); trên GPU NVIDIA H100, TurboQuant ở mức 4 bit tăng tốc phép toán logic chú ý lên đến 8 lần.
Một “tội lỗi nguyên thủy” của các phương pháp lượng tử hóa truyền thống là: mỗi khi nén một khối dữ liệu, đều cần lưu thêm “hằng số lượng tử hóa” để ghi lại cách giải nén — chi phí siêu dữ liệu (metadata) này thường dao động từ 1–2 bit cho mỗi giá trị. Dù nghe có vẻ không nhiều, nhưng với cửa sổ ngữ cảnh lên tới triệu token, những bit này sẽ tích lũy với tốc độ khiến người ta kinh hoàng. TurboQuant loại bỏ hoàn toàn chi phí phụ này nhờ phép xoay hình học của PolarQuant và hiệu chỉnh sai số dư chỉ bằng 1 bit của QJL.
Tại sao thị trường hoảng loạn?
Kết luận trực diện khiến người ta khó lòng phớt lờ: Một mô hình cần tới 8 GPU H100 để xử lý cửa sổ ngữ cảnh triệu token giờ đây về mặt lý thuyết chỉ cần 2 GPU. Các nhà cung cấp dịch vụ suy luận có thể dùng cùng phần cứng để xử lý đồng thời số lượng yêu cầu có cửa sổ ngữ cảnh dài tăng gấp hơn 6 lần.
Đây là một đòn chí mạng giáng thẳng vào luận điểm cốt lõi của toàn ngành lưu trữ.
Hai năm qua, Seagate, Western Digital và Micron được làn sóng đầu tư AI nâng lên “đền thờ” vì một lý do duy nhất: các mô hình lớn ngày càng “nhớ” được nhiều hơn; nhu cầu bộ nhớ cho cửa sổ ngữ cảnh dài là vô hạn, dẫn đến nhu cầu lưu trữ sẽ tăng trưởng bùng nổ liên tục. Cổ phiếu Seagate tăng hơn 210% trong năm 2025, và toàn bộ công suất sản xuất của công ty năm 2026 đã được đặt hàng hết.
Sự xuất hiện của TurboQuant trực tiếp thách thức tiền đề của luận điểm này.
Andrew Rocha, nhà phân tích công nghệ tại Ngân hàng Wells Fargo, nhận xét trực diện nhất: “Khi cửa sổ ngữ cảnh ngày càng mở rộng, dữ liệu lưu trong KV Cache tăng trưởng bùng nổ, kéo theo nhu cầu bộ nhớ leo thang. TurboQuant đang tấn công trực diện đường cong chi phí này… Nếu phương pháp này được áp dụng rộng rãi, nó sẽ làm rung chuyển căn bản quan niệm về dung lượng bộ nhớ thực sự cần thiết.”
Tuy nhiên, Rocha cũng nhấn mạnh một điều kiện tiên quyết mang tính then chốt: NẾU.
Phần thực sự đáng tranh luận
Phản ứng của thị trường có quá mức hay không? Câu trả lời khả năng cao là: hơi vậy.
Thứ nhất, vấn đề giật tít “tăng tốc 8 lần”. Nhiều nhà phân tích chỉ ra rằng con số “tăng tốc 8 lần” được so sánh với hệ thống cũ chưa lượng tử hóa 32 bit, chứ không phải so với các hệ thống đã được tối ưu hóa phổ biến trong triển khai thực tế hiện nay. Cải thiện là có thật, nhưng không kịch tính như tiêu đề gợi ý.
Thứ hai, bài báo chỉ kiểm thử trên các mô hình nhỏ. Tất cả đánh giá về TurboQuant đều sử dụng các mô hình có quy mô tham số tối đa khoảng 8 tỷ. Điều khiến các nhà cung cấp lưu trữ lo lắng đêm ngày lại là các siêu mô hình có 70 tỷ hoặc thậm chí 4000 tỷ tham số — nơi KV Cache mới thực sự đạt mức khổng lồ phi thường. Hiệu năng của TurboQuant ở những quy mô này hiện vẫn chưa được kiểm chứng.
Thứ ba, Google chưa phát hành bất kỳ mã nguồn chính thức nào. Tính đến thời điểm hiện tại, TurboQuant chưa được tích hợp vào bất kỳ framework suy luận phổ biến nào như vLLM, llama.cpp hay Ollama. Các phiên bản sơ khai hiện có đều do cộng đồng nhà phát triển tự tái hiện dựa trên suy luận toán học trong bài báo; một người tái hiện sớm từng khẳng định rõ ràng rằng nếu module hiệu chỉnh sai số QJL được triển khai sai, đầu ra sẽ trở thành ký tự vô nghĩa.
Nhưng điều đó không có nghĩa là mối lo ngại của thị trường là vô căn cứ.
Đây là phản xạ “ký ức cơ bắp tập thể” được hình thành từ sự kiện DeepSeek năm 2025. Sự kiện ấy đã dạy cho toàn thị trường một bài học tàn nhẫn: một bước đột phá hiệu quả ở tầng thuật toán có thể khiến toàn bộ luận điểm về phần cứng đắt đỏ sụp đổ chỉ trong một đêm. Từ đó, bất kỳ đột phá hiệu quả nào đến từ các phòng thí nghiệm AI hàng đầu đều sẽ kích hoạt phản xạ có điều kiện ở toàn bộ phân khúc phần cứng.
Hơn nữa, tín hiệu lần này đến từ Google Research — không phải một phòng thí nghiệm đại học vô danh — mà là một công ty sở hữu năng lực kỹ thuật đủ mạnh để biến bài báo thành công cụ sản xuất thực tế, đồng thời cũng là một trong những người tiêu thụ dịch vụ suy luận AI lớn nhất toàn cầu. Một khi TurboQuant được triển khai nội bộ, chiến lược mua máy chủ của Waymo, Gemini và Google Search sẽ âm thầm thay đổi.
Kịch bản cổ điển luôn lặp lại
Ở đây tồn tại một cuộc tranh luận kinh điển, đáng để nghiêm túc cân nhắc: Hiện tượng Jevons.
Nhà kinh tế học thế kỷ XIX William Stanley Jevons phát hiện rằng việc cải thiện hiệu suất động cơ hơi nước không những không làm giảm tiêu thụ than tại Anh, mà còn khiến tiêu thụ tăng mạnh — bởi hiệu suất cao hơn làm giảm chi phí sử dụng, từ đó thúc đẩy mở rộng quy mô ứng dụng.
Lập luận của những người ủng hộ là: Nếu Google giúp một mô hình chạy được trên GPU có bộ nhớ VRAM chỉ 16GB, các nhà phát triển sẽ không dừng lại ở đó — họ sẽ dùng phần tài nguyên tiết kiệm được để chạy các mô hình phức tạp hơn gấp 6 lần, xử lý dữ liệu đa phương thức lớn hơn, hoặc hỗ trợ cửa sổ ngữ cảnh dài hơn. Cuối cùng, hiệu quả phần mềm sẽ mở khóa những lớp nhu cầu vốn trước đây quá tốn kém nên không thể chạm tới.
Tuy nhiên, phản bác này có một điều kiện tiên quyết: thị trường cần thời gian để hấp thụ và mở rộng lại. Trong khoảng thời gian từ khi TurboQuant chuyển từ bài báo thành công cụ sản xuất, rồi từ công cụ sản xuất trở thành tiêu chuẩn ngành, liệu nhu cầu phần cứng có thể mở rộng đủ nhanh để bù đắp “khoảng trống” do hiệu quả tạo ra?
Không ai biết câu trả lời. Thị trường hiện đang định giá cho sự bất định này.
Ý nghĩa thực sự của sự việc đối với ngành AI
Đáng chú ý hơn cả việc cổ phiếu lưu trữ lên xuống là xu hướng sâu xa hơn mà TurboQuant tiết lộ.
Chiến trường chính của cuộc đua vũ trang AI đang dần chuyển từ “chồng chất sức mạnh tính toán” sang “tối ưu hóa tuyệt đối về hiệu suất”.
Nếu TurboQuant chứng minh được cam kết hiệu năng của mình trên các mô hình quy mô lớn, nó sẽ mang lại một bước chuyển căn bản: suy luận cửa sổ ngữ cảnh dài sẽ không còn là “thứ xa xỉ chỉ giới phòng thí nghiệm hàng đầu mới đủ khả năng chi trả”, mà trở thành tiêu chuẩn mặc định của toàn ngành.
Và đích đến của cuộc đua hiệu suất này lại chính là lĩnh vực Google giỏi nhất: các thuật toán nén gần như tối ưu về mặt toán học, nền tảng là cuộc truy tìm giới hạn lý thuyết thông tin Shannon — chứ không phải sự tích lũy thô bạo về kỹ thuật. Sai số lý thuyết của TurboQuant chỉ cao hơn giới hạn lý thuyết thông tin khoảng một hệ số hằng số là 2,7 lần.
Điều này hàm ý rằng những đột phá tương tự sẽ không chỉ xuất hiện một lần. Nó đại diện cho cả một hướng nghiên cứu đang tiến tới giai đoạn trưởng thành.
Với ngành lưu trữ, câu hỏi tỉnh táo hơn không phải là “lần này có ảnh hưởng đến nhu cầu hay không”, mà là: khi đường cong chi phí suy luận AI liên tục bị phần mềm nén xuống, “hào thành” của phần cứng còn rộng đến mức nào?
Câu trả lời hiện tại là: Vẫn còn rất rộng, nhưng chưa rộng đến mức có thể phớt lờ hoàn toàn những tín hiệu như thế này.
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News














