
NVIDIA bắt đầu bán phương pháp “đào vàng”
Tuyển chọn TechFlowTuyển chọn TechFlow

NVIDIA bắt đầu bán phương pháp “đào vàng”
Người mà bạn cần đánh bại đang cho bạn thuê toàn bộ công cụ cần thiết để đánh bại chính nó. Tiền thuê được thanh toán hàng năm, và hợp đồng tăng giá mỗi năm.
Tác giả: Ada, TechFlow
San Francisco, Trung tâm Hội nghị San Jose, hiện trường hội nghị GTC.
Bill Dally, nhà khoa học trưởng của NVIDIA, ngồi trên sân khấu, đối diện với Jeff Dean của Google. Khi cuộc trò chuyện đang diễn ra, Dally đưa ra một con số: “Trước đây, việc di chuyển một thư viện ô chuẩn gồm khoảng 2.500–3.000 ô tiêu chuẩn đòi hỏi một đội gồm 8 kỹ sư làm việc trong khoảng 10 tháng.”
Ông dừng lại một chút.
“Giờ đây, chỉ cần một chiếc GPU đơn và chạy qua một đêm.”
Dưới khán đài không có tiếng thán phục, bởi những người hiểu rõ câu nói này đều biết ý nghĩa thực sự của nó. Công việc của 8 kỹ sư trong suốt 10 tháng đã bị một chiếc GPU do chính NVIDIA sản xuất “nuốt chửng” chỉ trong một đêm. Hơn nữa, Dally còn bổ sung thêm: kết quả tạo ra không những đạt mà thậm chí còn vượt trội hơn thiết kế do con người thực hiện về ba chỉ số then chốt là diện tích, công suất tiêu thụ và độ trễ.
Ngày hôm sau, báo chí đã tóm lược sự việc thành tiêu đề “NVIDIA dùng AI để thiết kế GPU”.
Nhưng sự thật đằng sau câu chuyện này thú vị và đáng suy ngẫm hơn rất nhiều so với tiêu đề báo chí.
Bên trong NVIDIA đang chạy cái gì?
Công cụ đang được NVIDIA vận hành nội bộ không phải là một “hộp đen”, mà là một chuỗi các công cụ đã được mài giũa trong nhiều năm.
NB-Cell là một chương trình dựa trên học tăng cường (reinforcement learning), chuyên giải quyết công việc khó nhọc nhất: di chuyển thư viện ô chuẩn. Prefix RL nhằm giải quyết bài toán đặt vị trí giai đoạn “tiên đoán” trong mạch dây chuyền tiên đoán (carry-lookahead chain)—một vấn đề nghiên cứu kéo dài từ lâu. Theo Dally, bố trí do hệ thống này tạo ra “là điều con người hoàn toàn không thể nghĩ ra”, và các chỉ số then chốt cải thiện khoảng 20–30% so với thiết kế thủ công.
Hai mô hình ngôn ngữ lớn (LLM) nội bộ khác là Chip Nemo và Bug Nemo. NVIDIA đã đưa toàn bộ mã RTL, tài liệu kiến trúc và đặc tả thiết kế của mọi GPU từng được sản xuất vào hai mô hình lớn này. Như cách Dally mô tả, điều này tương đương với việc “chưng cất” toàn bộ ký ức kinh nghiệm dày dặn hai mươi năm—từ dòng GPU G80 cho đến Blackwell—thành một mô hình nội bộ; bất kỳ kỹ sư mới nào bước vào cũng sẽ ngay lập tức được tiếp cận với trình độ chuyên môn của một kỹ sư giàu kinh nghiệm hai mươi năm.
Vậy “AI có thể thiết kế GPU chưa?”
Ngược lại hoàn toàn. Câu nói nguyên văn của Dally là: “Tôi rất mong một ngày nào đó có thể nói thẳng ‘Hãy thiết kế cho tôi một GPU mới’, nhưng chúng ta vẫn còn rất xa mới đạt tới bước đó.”
NVIDIA chưa hề dùng AI để thiết kế GPU. Nhưng điều mà họ làm—lại khiến cả ngành công nghiệp sau này không thể vận hành nếu thiếu NVIDIA.
Mua vào vùng lõi EDA với giá 2 tỷ USD
Ngày 1 tháng 12 năm 2025, NVIDIA rót 2 tỷ USD để đầu tư vào Synopsys—một trong ba “đại gia” hàng đầu thế giới về phần mềm thiết kế vi mạch (EDA). Hai bên ký thỏa thuận phát triển chung nhằm tích hợp toàn bộ nền tảng tính toán tăng tốc của NVIDIA vào toàn bộ quy trình làm việc EDA của Synopsys; GPU Blackwell và thế hệ GPU kế tiếp Rubin sẽ được tích hợp sâu với Synopsys.ai.
Vị thế của Synopsys cần được làm rõ: mọi chip tiên tiến trên toàn cầu—từ loạt chip M của Apple, loạt MI của AMD, đến TPU của Google—gần như đều được thiết kế bằng các công cụ của Synopsys hoặc Cadence. Cùng với Siemens EDA, cả ba công ty này độc quyền tuyệt đối đối với các công cụ nền tảng trong thiết kế chip. Bạn có thể không dùng chip của Qualcomm, có thể không sử dụng dây chuyền sản xuất của TSMC, nhưng bạn không thể tách rời phần mềm của ba công ty này.
Chỉ ba tháng sau khi đầu tư vào Synopsys, NVIDIA lần lượt kéo Cadence, Siemens và Dassault vào vòng liên minh, thông báo rằng tất cả đều đang phát triển các công cụ thiết kế chip do AI thúc đẩy dựa trên GPU của NVIDIA.
Dữ liệu kiểm tra hiệu năng do NVIDIA công bố khá gây ấn tượng: Synopsys PrimeSim chạy nhanh hơn 30 lần trên nền tảng Blackwell; Proteus nhanh hơn 20 lần; Sentaurus trên B200 tăng tốc 12 lần so với CPU. MediaTek sử dụng H100 để tăng tốc Cadence Spectre lên 6 lần. Astera Labs kết hợp Synopsys và NVIDIA để đẩy nhanh quá trình xác minh chip lên 3,5 lần.
Một chi tiết đáng chú ý riêng biệt: nền tảng Millennium M2000 của Cadence được ghi rõ là “được thiết kế riêng cho thị trường EDA, độc quyền chạy trên nền tảng NVIDIA Blackwell”.
Hai chữ “độc quyền” ở đây mới thực sự đáng suy ngẫm. Điều đó có nghĩa là trước đây các công cụ EDA chạy trên CPU—Intel hay AMD đều có thể sử dụng. Nhưng từ nay trở đi, nếu muốn sử dụng công cụ EDA nhanh nhất, bạn chỉ có thể mua GPU của NVIDIA.
Hình dạng thực sự của bánh xe quay (flywheel)
Chiếc bánh xe quay của NVIDIA thường được đại đa số người hiểu theo phiên bản sau: bán GPU cho các công ty AI → các công ty AI huấn luyện mô hình lớn → mô hình lớn chứng minh GPU là không thể thay thế → càng nhiều người mua GPU hơn.
Chiếc bánh xe này đã đủ đáng sợ rồi. Nhưng bên dưới nó còn tồn tại một tầng sâu hơn.
NVIDIA dùng chính công cụ của mình để thiết kế thế hệ GPU tiếp theo, nhờ đó mở ra khoảng cách thế hệ về hiệu suất thiết kế; đồng thời, họ buộc toàn bộ chuỗi công cụ EDA của cả ngành vào phần cứng nội tại của mình. Các đối thủ muốn đuổi kịp, nhưng ngay cả công cụ để đuổi cũng phải “thuê” từ hệ sinh thái của NVIDIA.
Đằng sau báo cáo tài chính khiến cổ phiếu AMD sụt giảm mạnh là nỗi lo âu sâu sắc này. Dù NVIDIA và Synopsys tuyên bố công khai rằng “khoản đầu tư này không kèm nghĩa vụ mua phần cứng NVIDIA”, thị trường đều hiểu rõ: các chức năng EDA tăng tốc luôn ra mắt đầu tiên trên phần cứng NVIDIA; AMD và Intel chỉ còn một con đường duy nhất là “tối ưu hóa trên nền tảng của đối thủ mạnh nhất”.
Hãy tưởng tượng kỹ sư AMD trong tương lai muốn thiết kế một con chip cạnh tranh trực tiếp với Blackwell: anh ta mở công cụ của Synopsys—công cụ này chạy nhanh nhất trên GPU của NVIDIA. Vậy anh ta hoặc phải chấp nhận chu kỳ thiết kế chậm hơn gấp đôi, hoặc phải mua hàng loạt GPU của NVIDIA để thiết kế một con chip nhằm đánh bại chính NVIDIA.
Cái xẻng vẫn đang được bán. Nhưng cách bán đã thay đổi.
Thực trạng của GPU nội địa Trung Quốc
Đến đây, cần đưa ra một loạt con số tỉnh táo.
Cùng năm NVIDIA đạt lợi nhuận ròng vượt 70 tỷ USD trong niên độ tài chính 2025, bốn “con rồng nhỏ” GPU nội địa Trung Quốc—Moore Threads, MetaX, Bitmain (Wallace) và Enflame—đang xếp hàng chờ IPO.
Bản cáo bạch của Moore Threads cho thấy: từ năm 2022 đến 2024, tổng lỗ ròng trong ba năm là 5 tỷ nhân dân tệ; riêng nửa đầu năm 2025 lại lỗ thêm 271 triệu nhân dân tệ; tính đến ngày 30 tháng 6, tổng lỗ chưa bù đắp đạt 1,478 tỷ nhân dân tệ. Ban lãnh đạo công ty tự dự báo sớm nhất phải đến năm 2027 mới có thể đạt lợi nhuận trên báo cáo hợp nhất. MetaX tình hình khả quan hơn một chút, nhưng tổng lỗ ba năm vẫn vượt 3 tỷ nhân dân tệ. Thảm hại nhất là Wallace: lỗ hơn 6,3 tỷ nhân dân tệ trong ba năm rưỡi; doanh thu nửa đầu năm 2025 chỉ đạt 58,9 triệu nhân dân tệ—chưa bằng một phần mười doanh thu cùng kỳ của Moore Threads (702 triệu nhân dân tệ).
Xét mức độ đầu tư nghiên cứu & phát triển (R&D): chi phí R&D của Moore Threads chiếm tới 2.422,51% doanh thu năm 2022, và vẫn ở mức cao 309,88% vào năm 2024. Số tiền chi cho R&D trong một năm còn cao gấp ba lần doanh thu. Đây không còn là hoạt động kinh doanh bình thường, mà giống như truyền dịch để duy trì sự sống—liên tục được “truyền máu” từ thị trường vốn tư nhân và gần đây là cửa sổ IPO trên Sở Giao dịch Chứng khoán Khoa học và Công nghệ (STAR Market).
Mặt công cụ còn bị bóp nghẹt hơn. Bản cáo bạch IPO năm 2022 của Huada Zhongke (Empyrean) cho biết công cụ của họ mới chỉ hỗ trợ một phần quy trình chế tạo tiên tiến 5nm. Gonglun Electronics có thể phủ sóng các nút 7nm/5nm/3nm, nhưng chỉ tập trung vào một vài công cụ riêng lẻ, chưa thể gọi là giải pháp toàn chuỗi.
Lưu Vĩ Bình, nhà sáng lập Huada Zhongke, phát biểu rất thẳng thắn: “Khả năng hỗ trợ quy trình tiên tiến của EDA nội địa vẫn còn rõ ràng hạn chế, đặc biệt là các quy trình 7nm, 5nm và 3nm hiện nay. Hiện nay, EDA nội địa mới chỉ đáp ứng được mức 14nm; dù đã nắm giữ công nghệ 7nm, nhưng việc tích hợp sâu 7nm vào ứng dụng thực tế vẫn cần sự phối hợp đồng bộ của toàn bộ chuỗi cung ứng.”
Nói cách khác, giải pháp EDA toàn chuỗi cho quy trình tiên tiến thì EDA nội địa cơ bản không thể sử dụng được. Các công ty GPU nội địa vẫn phải dựa vào Synopsys và Cadence để thiết kế chip. Năm 2025, Trump từng tuyên bố áp dụng kiểm soát xuất khẩu đối với mọi phần mềm then chốt—dù chưa thực thi, nhưng các công cụ EDA cho quy trình tiên tiến dưới 7nm đến nay vẫn nằm trong danh sách kiểm soát nghiêm ngặt. Việc cấp phép bị cắt khi nào, quyền quyết định nằm hoàn toàn trong tay người khác.
Phản ứng của thị trường vốn mang màu sắc kỳ lạ đến mức phi thực. Ngày đầu niêm yết, cổ phiếu MetaX đóng cửa ở mức 829,9 nhân dân tệ, tăng 692,95% trong một ngày. Sau khi niêm yết, cổ phiếu Moore Threads từng vươn lên vị trí thứ ba trên sàn A-share, chỉ sau Kweichow Moutai và Cambricon, với mức định giá vốn hóa thị trường khoảng 359,5 tỷ nhân dân tệ theo giá cổ phiếu lúc bấy giờ.
Đằng sau những con số ngoạn mục ấy là thực tế phũ phàng: một nhóm công ty vẫn đang đốt tiền, vẫn đang chịu lỗ, vẫn phụ thuộc hoàn toàn vào chuỗi công cụ nước ngoài đang bị kiểm soát để tiếp tục thiết kế chip—nhưng lại được thị trường thứ cấp định giá như những “người kế vị NVIDIA nội địa”.
Mà chính bộ công cụ mà các công ty này dùng để thiết kế chip, đang dần trở thành một phần trong hệ sinh thái của NVIDIA. Khoản đầu tư 2 tỷ USD giữa NVIDIA và Synopsys, nhãn mác “độc quyền chạy trên NVIDIA Blackwell” gắn với nền tảng Millennium M2000 của Cadence—đều biến việc “đuổi kịp” thành một nghịch lý.
Một chuỗi đầy đủ từ thiết kế đến sản xuất
Quay lại buổi đối thoại tại GTC.
Toàn bộ màn trình bày của Dally rất khiêm tốn. Câu nói “AI còn rất xa mới tự thiết kế được chip” đã được NVIDIA lặp lại suốt bốn đến năm năm qua. Nhưng cách diễn đạt mỗi năm lại thay đổi. Bốn năm trước là “AI có thể hỗ trợ thiết kế”; ba năm trước là “AI có thể tự động hóa một số khâu”; năm nay là “một đêm làm xong khối lượng công việc của 8 người trong 10 tháng”. Mỗi năm tiến một bước, mỗi năm lại để lại một câu “vẫn còn rất xa mới tới đích cuối cùng”. Ba năm sau nhìn lại, cái “rất xa” của năm trước đã thành hiện thực; còn cái “rất xa” mới được định nghĩa ở vị trí mà tất cả đối thủ còn chưa thể chạm tới.
Thực tế, trong 12 tháng vừa qua, NVIDIA chỉ làm một việc duy nhất: áp dụng AI vào những khâu giá trị cao nhất và có moat bảo vệ sâu nhất trong chuỗi sản xuất chip—rồi từng bước bán những công cụ này cho toàn ngành.
Ở giai đoạn đầu thiết kế chip, vai trò được giao cho LLM nội bộ như Chip Nemo; ở giai đoạn giữa—di chuyển thư viện ô chuẩn, tối ưu bố trí mặt nạ (layout)—được đảm nhiệm bởi NB-Cell và Prefix RL; toàn bộ chuỗi công cụ EDA được buộc chặt vào GPU nội tại thông qua khoản đầu tư 2 tỷ USD vào Synopsys và nhãn “độc quyền chạy trên Blackwell” của Cadence Millennium M2000; còn ở khâu sản xuất—tính toán quang khắc—được xử lý bởi cuLitho, và TSMC đã bắt đầu áp dụng.
Từ thiết kế đến sản xuất, từng khâu một NVIDIA đều tái cấu trúc bằng AI. Và mỗi khâu cuối cùng đều dẫn đến cùng một đích: muốn dùng công cụ nhanh nhất, bạn buộc phải mua GPU của NVIDIA.
Với mọi đối thủ muốn thiết kế một con chip có thể đánh bại Blackwell, điều xấu hổ nhất giờ đây đã xảy ra: công cụ EDA dùng để thiết kế con chip đó chạy nhanh nhất trên GPU của NVIDIA; thuật toán tính toán quang khắc dùng trong sản xuất con chip đó do NVIDIA cung cấp; và cả nguồn lực tính toán để huấn luyện AI thiết kế chip cũng vẫn là GPU của NVIDIA.
Người mà bạn muốn đánh bại—đang cho bạn thuê toàn bộ công cụ cần thiết để đánh bại chính anh ta. Tiền thuê trả theo năm, và hợp đồng tăng giá mỗi năm.
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News














