
55 TB thành 28 TB? Những tin đồn và nỗi hoảng loạn đằng sau việc Rubin cắt giảm một nửa bộ nhớ
Tuyển chọn TechFlowTuyển chọn TechFlow

55 TB thành 28 TB? Những tin đồn và nỗi hoảng loạn đằng sau việc Rubin cắt giảm một nửa bộ nhớ
Nỗi hoảng loạn là có thật, vấn đề nằm ở chỗ: hướng đi của nỗi hoảng loạn ấy có đúng hay không?
Bài viết: Nghiên cứu TechFlow
Rạng sáng ngày 4 tháng 6, SemiAnalysis – tổ chức nghiên cứu độc lập có ảnh hưởng nhất trong ngành bán dẫn – đã phát hành một bản tin buổi sáng.
Thông tin cốt lõi chỉ gồm một câu duy nhất: Dung lượng DRAM SOCAMM trên mỗi kệ máy của siêu máy tính AI thế hệ tiếp theo Vera Rubin NVL72 của NVIDIA có thể giảm từ mức dự kiến trước đây khoảng 55 TB xuống còn khoảng 28 TB. Phần lớn các hệ thống Rubin sẽ sử dụng mô-đun SOCAMM 96 GB thay vì mô-đun 192 GB vốn được thị trường rộng rãi kỳ vọng trước đây.
Khi tin tức lan truyền, phản ứng của thị trường rất đơn giản và mạnh mẽ: nhu cầu bộ nhớ bị cắt giảm một nửa → tiêu cực đối với Micron. Cổ phiếu MU trong phiên giao dịch đã sụt giảm hơn 10%, từ mức cao kỷ lục mới thiết lập ngày hôm trước là 1.089 USD lao dốc nhanh xuống còn 971 USD, khiến giá trị vốn hóa thị trường bốc hơi hơn 100 tỷ USD chỉ trong một ngày.
Sự hoảng loạn là có thật, nhưng vấn đề đặt ra là: liệu hướng hoảng loạn này có đúng?
Hãy làm rõ phép tính trước
Vera Rubin NVL72 là kệ máy siêu máy tính AI hàng đầu thế hệ tiếp theo của NVIDIA. Mỗi kệ máy tích hợp 72 GPU Rubin và 36 CPU Vera. Về phía GPU, hệ thống sử dụng HBM4, mỗi chip dung lượng 288 GB, tổng cộng toàn kệ đạt khoảng 20,7 TB – phần này không thay đổi. Điều thay đổi nằm ở phía CPU.
Mỗi CPU Vera được trang bị 8 khe cắm SOCAMM, và mỗi khe có thể lắp đặt các mô-đun có dung lượng khác nhau. Thông số kỹ thuật chính thức do NVIDIA công bố tại CES 2026 là “mỗi CPU Vera hỗ trợ tối đa 1,5 TB LPDDR5X”, tương ứng với cấu hình cắm đầy đủ 8 mô-đun 192 GB. Với 36 CPU, tổng dung lượng đạt 54 TB.
Báo cáo lần này của SemiAnalysis nêu rõ: cấu hình thực tế khi xuất xưởng có khả năng cao sẽ không cắm đầy. Phần lớn hệ thống sẽ sử dụng mô-đun 96 GB; như vậy mỗi CPU đạt 8 × 96 GB = 768 GB, và 36 CPU sẽ cho tổng dung lượng khoảng 28 TB.
Từ 55 TB giảm xuống còn 28 TB, dung lượng gần như bị cắt giảm một nửa — tiêu đề giật tít dễ dàng trở thành “nhu cầu bộ nhớ giảm một nửa”.
Tuy nhiên, phép tính này của thị trường đã bỏ sót một biến số then chốt.
Lỗ hổng trong lập luận gây hoảng loạn
Thứ nhất, SOCAMM sử dụng thiết kế dạng khe cắm, chứ không hàn cố định.
Đây là chi tiết kỹ thuật dễ bị bỏ qua nhất trong toàn bộ câu chuyện. Khác với LPDDR được hàn chết trực tiếp lên bo mạch chủ trên nền tảng GB300 Blackwell Ultra, nền tảng Vera Rubin áp dụng chuẩn SOCAMM2 do JEDEC ban hành, mang tính mô-đun, có thể tháo lắp, thay thế nóng và nâng cấp sau này. Hôm nay cắm mô-đun 96 GB, ngày mai nếu khách hàng có nhu cầu, chỉ cần rút ra và thay bằng mô-đun 192 GB hoặc thậm chí 256 GB — đơn giản như việc thay thanh RAM thông thường.
NVIDIA đặc biệt nhấn mạnh thiết kế này tại CES 2026: thời gian lắp ráp toàn bộ khay tính toán đã được rút ngắn từ 2 giờ xuống còn chỉ 5 phút. Tính mô-đun, khả năng bảo trì và nâng cấp là một trong những bước tiến kiến trúc quan trọng nhất của Vera Rubin so với Blackwell.
Việc hạ thấp cấu hình xuất xưởng ban đầu không đồng nghĩa với việc nhu cầu vĩnh viễn biến mất. Đây thực chất là một chiến lược “lên xe trước, mua vé sau”.
Thứ hai, nguyên nhân giảm dung lượng không phải do “không cần”, mà là “không đủ dùng”.
Dylan Patel – người sáng lập SemiAnalysis – đã đăng một dòng tweet đầy hàm ý: “Điều tôi thích nhất là những người chia sẻ báo cáo của chúng tôi thường bỏ sót phần lớn nội dung trong đó. Việc này xảy ra thường xuyên.”
Các bình luận của độc giả trên Digg về tin tức này cũng rất minh họa: 77,8% bình luận cho rằng việc lan truyền lại là kiểu tiêu đề giật tít, trích dẫn rời rạc.
Vậy điều gì đã bị bỏ sót? Chính là bối cảnh.
Năm 2026, nguồn cung toàn cầu LPDDR5X đang cực kỳ căng thẳng. Tại hội nghị Wolfe vào cuối tháng 5, Micron khẳng định rõ ràng rằng nhu cầu bộ nhớ vượt xa đáng kể khả năng cung ứng, tình trạng này dự kiến sẽ kéo dài sang năm 2026 trở đi. Toàn bộ công suất HBM của Micron trong cả năm tài chính 2026 đã được đặt hàng hết; giá trung bình DRAM tăng hơn 110% so với cùng kỳ năm ngoái, biên lợi nhuận gộp vọt lên 74%. Samsung và SK Hynix cũng đều hoạt động ở công suất tối đa và bán hết hàng.
Trong bối cảnh này, vấn đề NVIDIA gặp phải không phải là khách hàng không muốn nhiều bộ nhớ hơn, mà là “tôi không thể lấy đủ chip LPDDR5X để lắp đầy mọi khe cắm”.
Việc hạ thấp cấu hình SOCAMM mặc định trên mỗi kệ máy về bản chất là một biện pháp quản lý chuỗi cung ứng ở cấp độ kỹ thuật: thay vì để toàn bộ kệ máy bị chậm giao hàng do thiếu bộ nhớ, tốt hơn hết là xuất xưởng với cấu hình thấp hơn để đưa công suất tính toán vào vận hành càng sớm càng tốt.
Đây không phải là tín hiệu suy giảm nhu cầu, trái lại, đây chính là tín hiệu cho thấy nhu cầu đang áp đảo nguồn cung.
Thứ ba, ít bộ nhớ hơn ≠ ít kệ máy hơn.
Thị trường đã thực hiện một phép nhân đơn giản: mỗi kệ máy giảm một nửa dung lượng bộ nhớ → tổng nhu cầu giảm một nửa. Nhưng bài toán này còn một biến số khác: khối lượng xuất xưởng.
Nếu dung lượng SOCAMM trên mỗi kệ máy giảm từ 55 TB xuống còn 28 TB, thì dưới cùng một ràng buộc về nguồn cung LPDDR5X, NVIDIA lại có thể lắp ráp được nhiều kệ máy hơn. Trước đây, một lô chip bộ nhớ chỉ đủ lắp 100 kệ máy, thì nay đủ lắp gần 200 kệ.
Tổng lượng tiêu thụ LPDDR5X thực tế không giảm, mà chỉ được phân bổ sang nhiều kệ máy hơn. Đối với NVIDIA, đây là lựa chọn thực tế nhằm đẩy nhanh tốc độ thương mại hóa Rubin; còn đối với nhà sản xuất bộ nhớ, tổng đơn hàng chưa chắc đã giảm.
Hơn nữa, nhu cầu bộ nhớ ở phía CPU trong các tác vụ suy luận (inference) có độ đàn hồi rất cao. Không phải mọi tải công việc đều cần tới 1,5 TB LPDDR5X. Đào tạo mô hình ngôn ngữ lớn (LLM) quả thực tiêu tốn rất nhiều bộ nhớ, nhưng phần lớn tác vụ suy luận — đặc biệt là suy luận AI tác nhân (agentic AI) và suy luận với ngữ cảnh dài — cho phép bộ đệm KV (KV cache) linh hoạt phân bổ giữa HBM và LPDDR thông qua liên kết NVLink-C2C. Với nhiều khách hàng, dung lượng 768 GB ở phía CPU là hoàn toàn đủ dùng.
Vậy tại sao Micron vẫn giảm 10%?
Bởi vì báo cáo của SemiAnalysis chỉ là “cọng rơm thứ hai đè chết con lạc đà”.
Cọng rơm đầu tiên đến từ Broadcom. Trước giờ mở cửa thị trường chứng khoán Mỹ ngày 4 tháng 6, Broadcom công bố báo cáo tài chính quý II. Các con số không hề tồi: doanh thu đạt 22,19 tỷ USD, tăng 48% so với cùng kỳ; lợi nhuận trên mỗi cổ phiếu (Non-GAAP EPS) đạt 2,44 USD — vượt kỳ vọng. Thế nhưng, CEO Hock Tan lại không nâng dự báo doanh thu chip AI cả năm lên mức 100 tỷ USD, khiến thị trường cảm thấy “chưa đủ”. Cổ phiếu Broadcom lao dốc 15%, kéo theo toàn bộ ngành bán dẫn cùng sụt giảm.
Ngày hôm đó, Micron hoàn toàn không có bất kỳ thông tin tiêu cực nào ở cấp độ công ty. Nhiều phương tiện truyền thông như TipRanks, Motley Fool và 24/7 Wall St. đều khẳng định rõ ràng đây là một đợt giảm giá “vạ lây” (spillover effect). Là một trong những cổ phiếu cốt lõi trong chuỗi cung ứng bộ nhớ dành riêng cho AI, Micron gắn bó chặt chẽ với tâm lý chi tiêu vốn (capex) cho AI; việc Broadcom không nâng dự báo đã khiến thị trường tái đánh giá tốc độ tăng trưởng kỳ vọng cho toàn bộ chuỗi cung ứng chip AI.
Báo cáo của SemiAnalysis lan truyền ngay trong cùng ngày, cung cấp cho các nhà giao dịch – lúc ấy đang tìm kiếm lý do để chốt lời – một câu chuyện hoàn hảo: không chỉ tâm lý chung về AI suy yếu, mà ngay cả con số cụ thể về nhu cầu bộ nhớ cũng đang co lại.
Một cổ phiếu vốn hóa nghìn tỷ USD, tăng 900% trong vòng một năm, vừa lập đỉnh cao nhất mọi thời đại ngày hôm trước. Ở vị trí như vậy, bất kỳ tiêu đề tiêu cực nào cũng đều trở thành chất xúc tác để chốt lời. Sự hoảng loạn không cần phải đúng — chỉ cần một cái cớ là đủ.
Phân tích của TechFlow
Ba nhận định.
Thứ nhất, báo cáo của SemiAnalysis về bản thân nó là chính xác, nhưng cách thị trường diễn giải lại là sai lầm. Cấu hình mặc định SOCAMM trên Vera Rubin NVL72 có khả năng cao thực sự sẽ thấp hơn mức tối đa lý thuyết — đây là kết quả của cả thực tế chuỗi cung ứng lẫn độ đàn hồi nhu cầu khách hàng. Tuy nhiên, giữa “cấu hình mặc định giảm” và “nhu cầu bộ nhớ suy giảm” tồn tại một khoảng cách rất lớn: đó là kiến trúc mô-đun có thể tháo lắp và nâng cấp, cùng thực tế ngành công nghiệp là nhu cầu vượt xa nguồn cung.
Thứ hai, rủi ro cốt lõi hiện tại của Micron không nằm ở SOCAMM, mà ở HBM4. Ngay từ tháng 2 năm nay, SemiAnalysis đã báo cáo rằng trong đơn hàng HBM4 cho nền tảng Rubin của NVIDIA, Micron không chiếm bất kỳ thị phần nào; SK Hynix chiếm 70%, Samsung chiếm 30%. Mặc dù Micron tuyên bố bắt đầu sản xuất hàng loạt HBM4 từ tháng 3, thị phần dự kiến của hãng chỉ đạt 18%. Ngược lại, vị thế của Micron trong lĩnh vực SOCAMM rất vững chắc: Micron là nhà sản xuất đầu tiên tung ra mô-đun SOCAMM2 256 GB, đồng thời cũng là đối tác chiến lược cốt lõi trong suốt năm năm qua của NVIDIA trong giải pháp SOCAMM. Việc hạ thấp cấu hình SOCAMM sẽ gây ảnh hưởng thực tế lên Micron ít hơn nhiều so với việc bị loại khỏi thị phần HBM4.
Thứ ba, bản chất của đợt giảm giá lần này là việc chốt lời trên một cổ phiếu vốn hóa nghìn tỷ USD ngay sau khi vừa lập đỉnh cao nhất mọi thời đại, và bị khuếch đại bởi hai chất xúc tác độc lập. Broadcom cung cấp cú sốc về tâm lý, còn SemiAnalysis cung cấp “đạn dược” cho câu chuyện. Khi hai yếu tố này kết hợp, một cổ phiếu tăng 9 lần trong 12 tháng qua đã điều chỉnh 10%. Nhìn từ góc độ giao dịch, đây không gọi là “hoảng loạn”, mà gọi là “bình thường”.
Dòng tweet của Dylan Patel hoàn toàn đúng: đa số những người chia sẻ báo cáo của ông thực sự đã bỏ sót phần quan trọng nhất trong báo cáo.
Điều nguy hiểm nhất trong đầu tư bán dẫn không phải là nhìn sai hướng, mà là đọc đúng tiêu đề — nhưng lại tính sai công thức.
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News













