
Phỏng vấn mới nhất của Jensen Huang: Ép DeepSeek và Huawei phải liên kết sâu sắc — điều này quá đáng sợ đối với Mỹ
Tuyển chọn TechFlowTuyển chọn TechFlow

Phỏng vấn mới nhất của Jensen Huang: Ép DeepSeek và Huawei phải liên kết sâu sắc — điều này quá đáng sợ đối với Mỹ
Về xuất khẩu sang Trung Quốc, ông chỉ trích chính sách kiểm soát xuất khẩu cực đoan là hết sức ngây thơ.
Biên tập: Tiểu Tiểu, NetEase Smart
Gần đây, ông Jensen Huang – Giám đốc điều hành (CEO) của NVIDIA – đã tham gia phỏng vấn với Dwarkesh Patel, người dẫn chương trình podcast công nghệ nổi tiếng của Mỹ, để toàn diện phản hồi các vấn đề then chốt như “hào thành” bảo vệ lợi thế cạnh tranh của công ty, cạnh tranh với TPU của Google và xuất khẩu chip sang Trung Quốc.
Ông nhấn mạnh rằng “hào thành” của NVIDIA đã mở rộng sâu vào chuỗi cung ứng, thông qua cam kết mua hàng trị giá hàng trăm tỷ USD với TSMC và các nhà cung cấp bộ nhớ nhằm thiết lập mối liên kết chặt chẽ.
Về cạnh tranh với TPU, ông Huang chỉ ra rằng Anthropic chỉ là một trường hợp đặc biệt, không phải xu hướng chung đối với sự tăng trưởng của ASIC. Khả năng tính toán tăng tốc của NVIDIA bao phủ một thị trường rộng lớn vượt xa AI – từ động lực học phân tử, xử lý dữ liệu đến cơ học chất lỏng; đồng thời khả năng lập trình cao của CUDA cho phép hiệu năng tăng từ 10 đến 50 lần mỗi năm.
Ông cũng giải thích lý do NVIDIA không tự mình trở thành nhà cung cấp dịch vụ điện toán đám mây quy mô siêu lớn. Dù có dòng tiền dồi dào, NVIDIA vẫn tuân thủ nguyên tắc “chỉ làm những việc cần thiết và càng ít càng tốt”, lựa chọn đầu tư vào các công ty như CoreWeave, OpenAI và Anthropic nhằm hỗ trợ hệ sinh thái, thay vì trực tiếp cạnh tranh với khách hàng để giành lợi nhuận. Ông thừa nhận việc chưa đầu tư quy mô lớn vào Anthropic sớm hơn là một sai lầm của bản thân. Ngoài ra, ông khẳng định ngay cả khi cuộc cách mạng AI chưa từng xảy ra, NVIDIA vẫn sẽ là một công ty khổng lồ nhờ vào tính toán tăng tốc trong các lĩnh vực vật lý, hóa học và xử lý dữ liệu.
Về xuất khẩu sang Trung Quốc, ông phê bình chính sách kiểm soát xuất khẩu cực đoan là “thiếu chín chắn”. Ông Huang nêu rõ sức mạnh tính toán AI là sự kết hợp giữa chip và năng lượng; dù bị hạn chế bởi máy quang khắc EUV, Trung Quốc vẫn sở hữu năng lực sản xuất chip 7nm quy mô lớn. Xét thực tế các mô hình ngôn ngữ lớn (LLM) chủ đạo hiện nay phần lớn vẫn được huấn luyện trên kiến trúc thế hệ Hopper, Trung Quốc hoàn toàn có thể bù đắp khoảng cách hiệu năng trên mỗi chip bằng nguồn điện dồi dào và mở rộng quy mô cụm chip.
Hơn nữa, đội ngũ nghiên cứu AI hùng hậu của Trung Quốc đang nâng cao hiệu năng mô hình thông qua khoa học máy tính hiệu quả hơn. Ông Huang lấy ví dụ DeepSeek để cảnh báo đây tuyệt đối không phải tiến bộ tầm thường. Nếu những mô hình nguồn mở xuất sắc như vậy buộc phải tối ưu sâu đặc biệt cho phần cứng nội địa như Huawei và hoạt động tốt nhất trên nền tảng đó, thì về mặt khách quan, điều này sẽ trực tiếp làm suy yếu lợi thế toàn cầu của ngăn xếp công nghệ Mỹ. Ông cho rằng việc chủ động từ bỏ thị trường lớn thứ hai thế giới sẽ thúc đẩy Trung Quốc xây dựng một kiến trúc tính toán nền tảng độc lập với Mỹ. Khi những công nghệ dựa trên tiêu chuẩn nguồn mở này dần lan tỏa sang các nước phương Nam, Mỹ rất có thể rơi vào thế bị động trong cuộc cạnh tranh dài hạn về tiêu chuẩn sinh thái AI.
Dưới đây là toàn văn cuộc phỏng vấn ông Huang:
Kiểm soát chuỗi cung ứng là “hào thành” lớn nhất của NVIDIA?
Patel: Nhiều công ty phần mềm đang sụt giảm định giá vì mọi người cho rằng AI sẽ biến phần mềm thành hàng hóa đại trà. Một quan điểm cho rằng NVIDIA chỉ gửi tài liệu thiết kế cho TSMC, còn TSMC sản xuất chip logic và các cổng chuyển mạch; sau đó sử dụng HBM từ SK Hynix, Micron và Samsung để đóng gói, rồi gửi tới các nhà tích hợp thiết bị gốc (ODM) ở Đài Loan lắp ráp thành tủ máy chủ. Về bản chất, NVIDIA chỉ làm phần mềm, còn phần cứng do người khác sản xuất. Nếu phần mềm bị hàng hóa hóa, thì NVIDIA có bị hàng hóa hóa theo không?
Huang: Cuối cùng, luôn phải có người nào đó chuyển đổi electron thành token. Quá trình chuyển đổi này rất khó bị hàng hóa hóa hoàn toàn. Việc khiến một token có giá trị hơn token khác giống như khiến một phân tử có giá trị hơn phân tử khác — đều đòi hỏi lượng lớn công nghệ, kỹ thuật, khoa học và sáng chế. Những công việc này còn xa mới được hiểu hết và cũng chưa hề kết thúc. Tôi không tin tình trạng hàng hóa hóa này sẽ xảy ra.
Tuy nhiên, chúng ta sẽ làm cho quá trình này hiệu quả hơn. Cách bạn đặt câu hỏi chính là mô hình tư duy tôi áp dụng cho công ty: đầu vào là electron, đầu ra là token, và NVIDIA nằm ở giữa. Nguyên tắc của chúng tôi là chỉ làm những việc cần thiết nhưng càng ít càng tốt. “Càng ít càng tốt” nghĩa là bất cứ việc gì tôi không cần tự làm thì sẽ tìm đối tác hợp tác, biến nó thành một phần trong hệ sinh thái của tôi.
Ngày nay, NVIDIA có thể là công ty sở hữu hệ sinh thái đối tác lớn nhất thế giới, bao gồm cả chuỗi cung ứng đầu vào và đầu ra, tất cả các công ty máy tính, nhà phát triển ứng dụng và nhà sản xuất mô hình. AI giống như một chiếc bánh năm tầng; ở mỗi tầng, chúng tôi đều có hệ sinh thái riêng. Chúng tôi cố gắng làm ít nhất có thể, nhưng phần việc bắt buộc phải làm lại cực kỳ khó khăn — và tôi không tin phần đó sẽ bị hàng hóa hóa.
Ngoài ra, tôi cũng không nghĩ phần mềm doanh nghiệp sẽ bị hàng hóa hóa. Hiện nay, phần lớn công ty phần mềm là nhà cung cấp công cụ — như Excel, PowerPoint, Cadence, Synopsys. Quan điểm của tôi trái ngược với nhiều người: số lượng agent AI sẽ tăng theo cấp số mũ, và số lượng người dùng công cụ cũng sẽ tăng theo cấp số mũ. Số lượng phiên bản công cụ có thể tăng vọt.
Ví dụ, bộ biên dịch thiết kế của Synopsys sẽ được sử dụng bởi vô số agent để thực hiện bố trí mạch, kiểm tra quy tắc thiết kế… Hiện nay, điều giới hạn chúng ta là số lượng kỹ sư; nhưng ngày mai, đằng sau mỗi kỹ sư sẽ là cả một nhóm agent. Chúng ta có thể khám phá không gian thiết kế theo cách chưa từng có, chỉ bằng các công cụ hiện tại. Việc sử dụng công cụ với tần suất cao sẽ giúp các công ty phần mềm phát triển nhanh chóng. Hiện nay điều này chưa xảy ra vì các agent vẫn chưa đủ giỏi để sử dụng công cụ. Hoặc các công ty phần mềm tự tạo agent, hoặc các agent sẽ trở nên đủ tốt để thuần thục sử dụng các công cụ — tôi tin cả hai khả năng đều sẽ xảy ra.
Patel: Trong tài liệu mới nhất của ông, tôi thấy NVIDIA cam kết mua gần 100 tỷ USD từ các nhà máy sản xuất, nhà cung cấp bộ nhớ và đơn vị đóng gói. Tổ chức nghiên cứu bán dẫn SemiAnalysis cho rằng con số này có thể lên tới 250 tỷ USD. Một cách diễn giải là “hào thành” của NVIDIA nằm ở việc khóa chặt nguồn linh kiện khan hiếm trong nhiều năm tới. Người khác có thể có bộ tăng tốc, nhưng lại không thể tiếp cận bộ nhớ và chip logic. Đây có phải là “hào thành” chủ yếu của các năm tới?
Huang: Đây là một trong những việc chúng tôi có thể làm mà người khác rất khó làm được. Chúng tôi đã đưa ra cam kết khổng lồ với các nhà cung cấp đầu vào — một số cam kết mang tính minh bạch như ông vừa nêu, một số khác mang tính ngầm: ví dụ, tôi nói chuyện với các CEO của họ, giải thích quy mô ngành và lý do vì sao quy mô đó sẽ đạt được, trình bày lập luận chi tiết để họ thấy được viễn cảnh tương lai, rồi họ mới quyết định đầu tư.
Vì sao họ sẵn sàng đầu tư cho tôi chứ không cho người khác? Bởi họ biết tôi có khả năng mua toàn bộ sản phẩm của họ và bán lại thông qua chuỗi cung ứng đầu ra của tôi. Nhu cầu đầu ra và chuỗi cung ứng đầu ra của NVIDIA quá lớn, nên họ sẵn sàng đầu tư ở đầu vào.
Bạn hãy xem hội nghị GTC — mọi người đều kinh ngạc trước quy mô và sức hút của sự kiện. Đó là cả cộng đồng AI tụ họp lại, bởi họ cần trao đổi lẫn nhau và được nhìn thấy. Tôi tổ chức sự kiện này để kết nối đầu ra với đầu vào, để đầu vào thấy được đầu ra và đầu ra thấy được đầu vào, để tất cả đều chứng kiến tiến bộ của AI. Họ còn gặp được toàn bộ thế hệ AI bản địa và tất cả các công ty khởi nghiệp. Nhờ đó, họ có thể tự mình xác minh những điều tôi đã nói. Tôi dành rất nhiều thời gian — trực tiếp hoặc gián tiếp — để giúp chuỗi cung ứng, đối tác và hệ sinh thái hiểu rõ cơ hội đang hiện hữu.
Có người nói bài phát biểu chính của tôi giống như một buổi giảng dạy và hơi “tra tấn”. Thực ra đó đúng là ý đồ của tôi. Tôi phải giúp toàn bộ chuỗi cung ứng, cả đầu vào và đầu ra, cùng toàn bộ hệ sinh thái hiểu rõ điều gì sẽ xảy ra, vì sao xảy ra, khi nào xảy ra và quy mô lớn đến mức nào — đồng thời có thể suy nghĩ hệ thống như tôi.
Về “hào thành”, thực chất chúng tôi đang định vị cho tương lai. Nếu vài năm tới, quy mô doanh thu của chúng tôi thực sự đạt mức nghìn tỷ USD, lúc đó chúng tôi đương nhiên có khả năng xây dựng chuỗi cung ứng tương xứng. Nhưng điều kiện tiên quyết là phải có quy mô kinh doanh và ảnh hưởng như hiện nay, cùng tốc độ luân chuyển nhanh — giống như dòng tiền, chuỗi cung ứng cũng có tốc độ luân chuyển riêng. Nếu tốc độ luân chuyển chậm, chẳng ai muốn xây dựng chuỗi cung ứng cho một “cái khung rỗng”. Nguyên nhân căn bản khiến chúng tôi duy trì được quy mô hiện tại là nhu cầu đầu ra cực kỳ mạnh mẽ. Khi họ tận mắt chứng kiến, lắng nghe và nhận thức rõ ràng rằng mọi thứ đang thật sự diễn ra, điều đó mới giúp chúng tôi thực hiện được những việc như hiện nay ở quy mô hiện tại.
Patel: Tôi muốn đi sâu hơn vào khả năng đáp ứng của đầu vào. Doanh thu của quý vị tăng gấp đôi liên tục nhiều năm, và năng lực tính toán cung cấp cho thế giới mỗi năm tăng hơn gấp ba lần.
Huang: Việc tăng gấp đôi ở quy mô như vậy quả thực đáng kinh ngạc.
Patel: Nhưng hãy xem xét chip logic. Quý vị là khách hàng lớn nhất của TSMC ở nút N3 và cũng là một trong những khách hàng lớn nhất ở nút N2. SemiAnalysis phát hiện AI sẽ chiếm 60% công suất N3 trong năm nay và tăng lên 86% vào năm sau. Nếu quý vị đã chiếm phần lớn công suất rồi, thì làm sao có thể tăng gấp đôi? Làm sao có thể tăng gấp đôi mỗi năm? Liệu chúng ta đã bước vào giai đoạn tốc độ tăng năng lực tính toán AI phải chậm lại do giới hạn từ đầu vào? Ông có thấy giải pháp nào không? Về cốt lõi, làm sao chúng ta có thể tăng gấp đôi công suất nhà máy bán dẫn mỗi năm?
Huang: Ở bất kỳ thời điểm nào, nhu cầu tức thời đều có thể vượt tổng cung toàn cầu ở cả đầu vào và đầu ra. Thậm chí có thể bị giới hạn bởi số lượng thợ ống nước — điều này thực tế đã từng xảy ra.
Patel: Thợ ống nước nên được mời tham dự GTC năm sau.
Huang: Ý hay đấy. Nhưng thực ra đây là một dấu hiệu tốt. Bạn mong muốn nhu cầu tức thời của một ngành vượt tổng cung — ngược lại mới là điều không tốt. Nếu thiếu hụt một linh kiện nào đó quá lớn, cả ngành sẽ đổ xô giải quyết. Bạn thấy giờ đây người ta đã ít bàn về CoWoS hơn. Vì hai năm qua, chúng tôi đã dồn lực giải quyết vấn đề này và tình hình hiện đã khá ổn. TSMC giờ đây hiểu rõ rằng công suất CoWoS phải theo kịp nhu cầu về chip logic và bộ nhớ. Họ đang mở rộng CoWoS và các công nghệ đóng gói tương lai với tốc độ tương đương với việc mở rộng chip logic. Điều này rất tốt, bởi CoWoS và bộ nhớ HBM trước đây khá “kén khách”, nay đã trở thành công nghệ tính toán chủ lưu.
Hiện nay, chúng tôi có thể tác động đến chuỗi cung ứng rộng hơn. Ngay từ khi cuộc cách mạng AI mới bắt đầu, tôi đã nói những điều này — và đã nói cách đây năm năm. Một số người tin tưởng và đầu tư, ví dụ như ông Sanjay Mehrotra – CEO của Micron – cùng đội ngũ của ông ấy. Tôi còn nhớ rõ cuộc họp đó, tôi đã nêu chính xác điều gì sẽ xảy ra, vì sao xảy ra và tình hình hôm nay. Họ thực sự đã tăng gấp đôi đầu tư. Chúng tôi hợp tác trên bộ nhớ LPDDR và HBM, họ đầu tư mạnh và đạt thành công lớn. Một số người đến muộn hơn, nhưng giờ đây tất cả đều đã có mặt.
Mỗi điểm nghẽn đều nhận được sự chú ý lớn. Hiện nay, chúng tôi bắt đầu dự báo các điểm nghẽn từ nhiều năm trước. Ví dụ, các khoản đầu tư vào Lumentum, Coherent và hệ sinh thái quang tích hợp silicon trong vài năm qua đã tái cấu trúc chuỗi cung ứng. Chúng tôi xây dựng toàn bộ chuỗi cung ứng xung quanh TSMC và hợp tác với họ phát triển nền tảng tích hợp quang silicon COUPE, phát minh nhiều công nghệ và cấp phép bằng sáng chế cho chuỗi cung ứng nhằm giữ cho nó mở.
Chúng tôi tăng cường chuỗi cung ứng bằng cách phát minh công nghệ mới, quy trình mới, thiết bị kiểm tra mới như kiểm tra hai mặt, đầu tư vào các công ty giúp họ mở rộng sản xuất. Chúng tôi đang nỗ lực định hình hệ sinh thái để chuỗi cung ứng có thể đáp ứng quy mô này.
Patel: Một số điểm nghẽn dường như dễ giải quyết hơn những điểm khác, ví dụ như mở rộng công suất CoWoS.
Huang: Chúng tôi đảm nhận việc vượt qua điểm nghẽn khó nhất.
Patel: Điểm nào?
Huang: Thợ ống nước và thợ điện. Đây là nơi tôi lo ngại về những người hoài nghi. Họ nói việc làm sẽ biến mất, vị trí việc làm sẽ tiêu tan. Nếu chúng ta ngăn cản người ta trở thành kỹ sư phần mềm, thì chúng ta sẽ cạn kiệt kỹ sư phần mềm. Mười năm trước đã có lời tiên tri tương tự. Một số người hoài nghi nói “đừng làm bác sĩ chẩn đoán hình ảnh dưới mọi hình thức”, giờ bạn vẫn có thể tìm thấy video trên mạng nói rằng chẩn đoán hình ảnh sẽ là nghề đầu tiên biến mất, thế giới sẽ không còn cần bác sĩ chẩn đoán hình ảnh nữa. Hãy đoán xem hiện nay chúng ta đang thiếu gì? Chính là bác sĩ chẩn đoán hình ảnh.
Patel: Một số thứ có thể mở rộng quy mô, một số thì không. Mỗi năm ông làm ra gấp đôi chip logic như thế nào? Cuối cùng, cả bộ nhớ và chip logic đều bị giới hạn bởi máy quang khắc EUV. Làm sao ông có thể có gấp đôi máy EUV mỗi năm?
Huang: Các công suất này đều có thể mở rộng nhanh chóng, chỉ trong hai đến ba năm. Bạn chỉ cần gửi tín hiệu nhu cầu đến chuỗi cung ứng. Có thể sản xuất một cái thì có thể sản xuất mười cái, có thể sản xuất mười cái thì có thể sản xuất một triệu cái. Những thứ này không khó sao chép.
Patel: Ông sẽ đi sâu vào chuỗi cung ứng đến đâu? Liệu ông sẽ trực tiếp gặp ASML và nói “ba năm nữa, NVIDIA sẽ đạt doanh thu hai nghìn tỷ USD, vì vậy chúng tôi cần nhiều máy EUV hơn rất nhiều”?
Huang: Một số việc cần nói trực tiếp, một số cần nói gián tiếp. Nếu thuyết phục được TSMC, thì ASML cũng sẽ bị thuyết phục. Chúng ta cần xác định các điểm nghẽn then chốt. Nhưng nếu TSMC đã bị thuyết phục, thì trong vài năm tới bạn sẽ có đủ máy EUV.
Quan điểm của tôi là không có điểm nghẽn nào kéo dài quá hai đến ba năm. Đồng thời, chúng tôi còn nâng cao hiệu suất tính toán lên 10 lần, 20 lần; từ Hopper lên Blackwell là 30–50 lần. Vì CUDA rất linh hoạt, chúng tôi liên tục phát minh thuật toán mới, công nghệ mới, tăng dung lượng đồng thời nâng cao hiệu suất. Những điều này không khiến tôi lo lắng. Điều khiến tôi lo là những yếu tố đầu ra của chúng tôi. Chính sách năng lượng ngăn cản mở rộng năng lượng, mà không có năng lượng thì bạn không thể xây dựng ngành công nghiệp mới. Không có năng lượng, bạn không thể phát triển một ngành sản xuất mới.
Chúng ta cần tái công nghiệp hóa nước Mỹ. Chúng ta cần đưa sản xuất chip, sản xuất máy tính và đóng gói về lại Mỹ. Chúng ta cần sản xuất ô tô điện, robot. Chúng ta cần xây dựng các “nhà máy AI”. Không có năng lượng, tất cả những điều này đều không thể xây dựng được, mà năng lượng lại cần rất nhiều thời gian. Công suất sản xuất chip là vấn đề có thể giải quyết trong hai đến ba năm. Công suất CoWoS cũng là vấn đề có thể giải quyết trong hai đến ba năm.
TPU có phá vỡ sự kiểm soát của NVIDIA đối với năng lực tính toán AI?
Patel: Trong ba mô hình xếp hạng cao nhất thế giới, hai mô hình — Claude và Gemini — đều được huấn luyện trên TPU của Google. Điều này có ý nghĩa gì đối với NVIDIA?
Huang: Những gì chúng tôi làm rất khác biệt. NVIDIA làm tính toán tăng tốc, không chỉ là một đơn vị xử lý tensor (TPU). Tính toán tăng tốc có thể áp dụng ở nhiều nơi: động lực học phân tử, động lực học sắc ký lượng tử, xử lý dữ liệu, dữ liệu có cấu trúc, dữ liệu phi cấu trúc, cơ học chất lỏng, vật lý hạt… và ngoài ra còn là AI.
Tính toán tăng tốc còn rộng hơn nhiều. Dù AI là chủ đề nóng hiện nay và rõ ràng rất quan trọng, ảnh hưởng sâu rộng, nhưng tính toán còn rộng hơn thế nhiều. NVIDIA đã tái định hình cách tính toán — từ tính toán chung sang tính toán tăng tốc. Thị trường của chúng tôi rộng hơn bất kỳ TPU hay ASIC nào, và chúng tôi là công ty duy nhất có thể tăng tốc mọi ứng dụng. Chúng tôi có hệ sinh thái khổng lồ, mọi framework và thuật toán đều chạy được trên nền tảng NVIDIA.
Vì máy tính của chúng tôi được thiết kế để người khác có thể vận hành, nên bất kỳ nhà điều hành nào cũng có thể mua hệ thống của chúng tôi. Trong khi phần lớn hệ thống tự xây dựng yêu cầu bạn tự vận hành, vì tính linh hoạt không đủ nên người khác không thể vận hành được. Vì bất kỳ ai cũng có thể xây dựng và vận hành hệ thống của chúng tôi, nên chúng tôi hiện diện trong mọi nền tảng điện toán đám mây — bao gồm Google, Amazon, Azure và Oracle.
Nếu bạn muốn cho thuê, thì bạn nên có một nhóm khách hàng khổng lồ từ nhiều ngành để đảm bảo nhu cầu. Nếu bạn muốn tự dùng, chúng tôi tất nhiên cũng có thể giúp bạn vận hành, như chúng tôi đã làm với xAI của Elon Musk. Hơn nữa, chúng tôi có thể giúp bất kỳ công ty, bất kỳ ngành nào trở thành nhà điều hành chuyên nghiệp — bạn có thể xây dựng một siêu máy tính cho Lilly để nghiên cứu khoa học và khám phá thuốc, và chúng tôi sẽ giúp họ vận hành cho toàn bộ lĩnh vực khám phá thuốc và khoa học sinh học.
Có rất nhiều ứng dụng mà TPU không thể làm được. CUDA của NVIDIA cũng là một TPU tuyệt vời, nhưng nó còn xử lý mọi khâu trong xử lý dữ liệu, tính toán, AI… Cơ hội thị trường của chúng tôi lớn hơn rất nhiều, phạm vi bao quát rộng hơn rất nhiều. Vì chúng tôi hỗ trợ mọi ứng dụng hiện có trên thế giới, bạn có thể xây dựng hệ thống NVIDIA ở bất kỳ đâu và biết chắc sẽ có khách hàng. Đây là một tình thế rất khác biệt.
Patel: Doanh thu của quý vị rất ấn tượng, nhưng không đến từ dược phẩm hay tính toán lượng tử, mà chủ yếu đến từ AI. Bởi AI là công nghệ chưa từng có, đang tăng trưởng với tốc độ chưa từng có. Vậy câu hỏi đặt ra là: điều gì thực sự tốt nhất cho chính AI? Về bản chất, TPU là một mảng xung nhịp khổng lồ, đặc biệt giỏi trong phép nhân ma trận. GPU thì linh hoạt hơn và phù hợp với các tác vụ có nhiều rẽ nhánh hoặc truy cập bộ nhớ không đều. Nhưng vấn đề là AI thực sự đang làm gì? Nói thẳng ra, AI chỉ là lặp đi lặp lại các phép nhân ma trận rất dễ dự đoán. Vậy tại sao ông còn dành diện tích trên chip cho bộ lập lịch luồng (thread scheduler) hay chuyển đổi giữa luồng và ngân hàng bộ nhớ — những chức năng chung chung này? Diện tích đó hoàn toàn có thể dành hết cho phép nhân ma trận. Trong khi TPU lại được thiết kế chuyên biệt cho phần tải tính toán đang bùng nổ hiện nay. Ông nghĩ sao?
Huang: Phép nhân ma trận là một phần quan trọng của AI, nhưng không phải tất cả. Nếu bạn nghĩ ra một cơ chế chú ý mới, thay đổi cách phân rã, hay phát minh một kiến trúc hoàn toàn mới như mô hình không gian trạng thái hỗn hợp (SSM), bạn cần một kiến trúc có thể lập trình phổ quát. Nếu bạn muốn xây dựng một mô hình kết hợp mô hình khuếch tán (diffusion) và mô hình tự hồi quy (autoregressive), bạn cũng cần một kiến trúc có thể lập trình phổ quát. Chúng tôi có thể chạy bất kỳ thứ gì bạn nghĩ ra. Đó chính là lợi thế. Vì nó có thể lập trình, nên việc phát minh thuật toán mới dễ dàng hơn rất nhiều.
Khả năng phát minh thuật toán mới mới là lý do khiến AI tiến bộ nhanh như vậy. TPU và các thứ khác đều chịu ảnh hưởng của định luật Moore, tiến bộ khoảng 25% mỗi năm. Để đạt bước nhảy 10 lần hoặc 100 lần mỗi năm, cách duy nhất là thay đổi cơ bản thuật toán và cách tính toán mỗi năm.
Đây chính là lợi thế cốt lõi của NVIDIA. Hiệu năng năng lượng của Blackwell cao hơn Hopper 50 lần. Lần đầu tôi nói 35 lần, không ai tin. Sau đó có người viết bài nói tôi “giữ bí mật” và thực tế là 50 lần. Chỉ định luật Moore thì không thể làm được, chúng tôi đạt được nhờ các mô hình mới như mô hình hỗn hợp chuyên gia (MoE), được song song hóa, phân chia và phân phối khắp toàn bộ hệ thống tính toán. Nếu không có CUDA và không có khả năng viết nhân mới sâu sắc, điều này rất khó thực hiện.
Đây là sự kết hợp giữa kiến trúc có thể lập trình và khả năng thiết kế đồng bộ cực kỳ mạnh mẽ của NVIDIA. Chúng tôi thậm chí có thể dời một số tính toán sang chính cấu trúc mạng như NVLink, hoặc Spectrum-X trong mạng. Chúng tôi có thể thay đổi đồng thời bộ xử lý, hệ thống, cấu trúc mạng, thư viện và thuật toán. Không có CUDA, tôi hoàn toàn không biết bắt đầu từ đâu.
Patel: Điều này dẫn đến một câu hỏi thú vị về khách hàng của NVIDIA. 60% doanh thu của quý vị đến từ năm nhà cung cấp điện toán đám mây quy mô siêu lớn. Ở một thời đại khác, khách hàng là các giáo sư làm thí nghiệm — họ cần CUDA và không thể dùng bộ tăng tốc nào khác; họ chỉ cần chạy PyTorch trên CUDA và mọi thứ đều đã được tối ưu hóa. Nhưng những nhà cung cấp điện toán đám mây quy mô siêu lớn này có khả năng tự viết nhân. Thực tế, để khai thác tối đa 5% hiệu năng cuối cùng từ kiến trúc cụ thể, họ bắt buộc phải làm vậy. Anthropic và Google chủ yếu chạy trên bộ tăng tốc riêng — TPU và Trainium. Ngay cả OpenAI dùng GPU cũng có Triton vì họ cần nhân riêng. Họ không dùng cuBLAS và NCCL, mà có ngăn xếp phần mềm riêng và có thể biên dịch sang các bộ tăng tốc khác. Nếu phần lớn khách hàng của quý vị có thể và đang tạo ra các giải pháp thay thế cho CUDA, thì CUDA còn là yếu tố then chốt đến đâu trong việc chạy AI tiên tiến trên nền tảng NVIDIA?
Huang: CUDA là một hệ sinh thái phong phú. Nếu bạn muốn phát triển trên bất kỳ máy tính nào, chọn CUDA là một quyết định rất sáng suốt. Vì hệ sinh thái quá phong phú, chúng tôi hỗ trợ mọi framework. Nếu bạn muốn viết nhân tùy chỉnh, chúng tôi đóng góp rất lớn cho Triton, và nền tảng phía sau Triton chứa rất nhiều công nghệ của NVIDIA.
Chúng tôi rất sẵn lòng giúp mọi framework trở nên tốt hơn. Có rất nhiều framework như Triton, vLLM, SGLang. Giờ đây lại xuất hiện một loạt framework học tăng cường như verl và NeMo RL. Hậu huấn luyện và học tăng cường đang bùng nổ. Vì vậy, nếu bạn muốn phát triển trên một kiến trúc nào đó, chọn CUDA là hợp lý nhất, bởi bạn biết hệ sinh thái của nó rất tốt.
Bạn biết rằng nếu có vấn đề, khả năng cao lỗi nằm ở mã của bạn chứ không phải ở hàng núi hệ thống nền tảng bên dưới. Đừng quên quy mô mã bạn đang đối mặt là khổng lồ đến mức nào. Khi hệ thống không hoạt động, bạn phải tự hỏi: “Lỗi là do tôi hay do máy tính?” Bạn đương nhiên luôn hy vọng phát hiện ra lỗi là do mình, vì chỉ như vậy bạn mới luôn tin tưởng vào máy tính. Rõ ràng, hệ thống của chúng tôi vẫn còn rất nhiều lỗi. Nhưng điều then chốt là hệ thống của chúng tôi đã được kiểm nghiệm vô số lần, nên bạn có thể yên tâm xây dựng trên đó. Đây là điểm thứ nhất tôi muốn nói: sự phong phú, khả năng lập trình và năng lực của hệ sinh thái.
Điểm thứ hai: nếu bạn là nhà phát triển, điều bạn mong muốn nhất là cơ sở cài đặt (install base). Bạn muốn phần mềm của mình chạy được trên nhiều máy tính khác nhau. Bạn không chỉ viết phần mềm cho riêng mình, mà viết cho cụm máy của bạn hoặc cụm máy của người khác — bởi bạn là nhà phát triển framework. Hệ sinh thái CUDA của NVIDIA cuối cùng chính là tài sản lớn nhất của nó.
Hiện nay, chúng tôi có hàng trăm triệu GPU đang lưu hành, ở mọi nền tảng điện toán đám mây. Từ A10, A100, H100, H200 đến các dòng L, P và nhiều kích thước, hình dạng khác nhau. Nếu bạn là một công ty robot, bạn muốn ngăn xếp CUDA đó chạy trực tiếp bên trong robot. Chúng tôi gần như hiện diện ở mọi nơi. Cơ sở cài đặt này nghĩa là một khi bạn phát triển phần mềm hoặc mô hình, nó có thể chạy ở bất kỳ đâu. Giá trị này là vô giá.
Cuối cùng, chúng tôi hiện diện trong mọi nền tảng điện toán đám mây, điều này khiến chúng tôi thực sự độc nhất. Nếu bạn là một công ty AI hoặc nhà phát triển, bạn chưa chắc sẽ hợp tác với nhà cung cấp điện toán đám mây nào và chưa biết sẽ chạy tải ở đâu. Không sao cả, chúng tôi hiện diện ở mọi nơi — kể cả trong phòng máy của bạn. Sự phong phú của hệ sinh thái, sự rộng lớn của cơ sở cài đặt và sự đa dạng về vị trí hiện diện — tất cả những điều này cộng lại khiến CUDA trở nên vô giá.
Patel: Đúng vậy. Nhưng tôi muốn hỏi: những lợi thế này thực sự quan trọng đến đâu đối với khách hàng lớn nhất của ông? Với nhiều người, CUDA có thể rất có giá trị. Nhưng phần lớn doanh thu của ông thực tế đến từ những khách hàng lớn có khả năng tự xây dựng ngăn xếp phần mềm. Đặc biệt, nếu trong tương lai AI bước vào những lĩnh vực có thể kiểm chứng nghiêm ngặt bằng học tăng cường, thì vấn đề sẽ trở thành: ai có thể viết nhân nhân ma trận và nhân chú ý chạy nhanh nhất trên cụm máy quy mô lớn? Đây là một bài toán tối ưu hóa rất dễ kiểm chứng.
Những nhà cung cấp điện toán đám mây quy mô siêu lớn hoàn toàn có khả năng tự viết những nhân tùy chỉnh này. Tất nhiên, hiệu năng trên chi phí của NVIDIA có thể vẫn tốt hơn, nên họ vẫn có thể chọn NVIDIA. Nhưng như vậy, vấn đề lại trở thành: cuối cùng chỉ còn so xem ai có thông số phần cứng tốt hơn và ai có nhiều năng lực tính toán và băng thông hơn trên mỗi đô la?
Lịch sử cho thấy NVIDIA dựa vào “hào thành” CUDA để duy trì lợi nhuận trên 70% cả trong phần cứng và phần mềm AI. Nhưng hiện nay, câu hỏi đặt ra là: nếu khách hàng lớn nhất của ông thực sự có khả năng vượt qua “hào thành” này, ông còn có thể duy trì mức lợi nhuận cao như vậy không?
Huang: Số lượng kỹ sư chúng tôi phân bổ cho các phòng thí nghiệm AI này là đáng kinh ngạc, và chúng tôi làm việc cùng họ để tối ưu hóa ngăn xếp phần mềm của họ. Lý do là không ai hiểu kiến trúc của chúng tôi sâu hơn chính chúng tôi. Những kiến trúc này không phổ quát như CPU. CPU giống như một chiếc Cadillac — dễ lái và không cần phóng nhanh, ai cũng có thể lái khá tốt và có kiểm soát hành trình, mọi thứ đều rất đơn giản. Còn GPU và bộ tăng tốc của NVIDIA giống như xe đua F1. Tôi có thể tưởng tượng ai cũng có thể lái đến 160 km/h, nhưng để đẩy đến giới hạn thì cần rất nhiều kiến thức chuyên môn. Chúng tôi dùng lượng lớn AI để viết nhân.
Tôi hoàn toàn tin rằng trong một thời gian dài, chúng tôi vẫn sẽ được cần đến. Kiến thức chuyên môn của chúng tôi thường giúp các đối tác phòng thí nghiệm AI dễ dàng tăng hiệu năng thêm 2 lần. Sau khi tối ưu hóa một nhân hoặc toàn bộ ngăn xếp phần mềm, tốc độ mô hình tăng 50%, 2 lần hoặc 3 lần — điều này rất phổ biến. Xét quy mô cụm Hopper và Blackwell mà họ sở hữu, đây là một con số khổng lồ. Tăng gấp đôi hiệu năng trực tiếp bằng với tăng gấp đôi doanh thu.
Ngăn xếp tính toán của NVIDIA có chi phí sở hữu tổng thể (TCO) tốt nhất thế giới, không ai sánh bằng. Không có nền tảng nào có thể trình bày hiệu năng trên TCO tốt hơn chúng tôi. Bài kiểm tra chuẩn InferenceMAX của Dylan đã sẵn sàng, bất kỳ ai cũng có thể dùng. Nhưng TPU không đến kiểm tra, Trainium cũng không đến kiểm tra. Tôi rất khuyến khích họ dùng InferenceMAX để chứng minh “chi phí suy luận siêu thấp” mà họ tuyên bố. Nhưng điều đó rất khó vì chẳng ai muốn đến.
Còn có MLPerf, tôi cũng rất muốn Trainium trình bày ưu thế 40% mà họ luôn tuyên bố. Tôi cũng rất muốn nghe họ trình bày ưu thế chi phí của TPU. Nhưng theo tôi, từ nguyên lý đầu tiên, những ưu thế mà họ nói hoàn toàn không hợp lý. Vì vậy, tôi cho rằng lý do thành công của chúng tôi rất đơn giản: TCO của chúng tôi quá tốt.
Thứ hai, ông nói 60% khách hàng của chúng tôi là năm nhà cung cấp điện toán đám mây lớn nhất, nhưng phần lớn doanh nghiệp này là hướng tới bên ngoài. Ví dụ, phần lớn chip NVIDIA được dùng trong AWS là dành cho khách hàng bên ngoài chứ không phải dùng nội bộ. Khách hàng trong Azure rõ ràng cũng đều là bên ngoài, tương tự với Oracle. Họ ưa chuộng chúng tôi vì ảnh hưởng lớn của chúng tôi — chúng tôi có thể mang đến cho họ những khách hàng xuất sắc nhất thế giới, và những khách hàng này đều xây dựng trên nền tảng NVIDIA. Còn những công ty này xây dựng trên NVIDIA vì ảnh hưởng và tính đa năng quá mạnh của chúng tôi.
Vì vậy, tôi cho rằng vòng xoáy này gồm: cơ sở cài đặt, khả năng lập trình của kiến trúc và sự phong phú của hệ sinh thái, cộng với hàng ngàn công ty AI trên toàn thế giới. Nếu bạn là một công ty khởi nghiệp AI, bạn sẽ chọn kiến trúc nào? Bạn sẽ chọn kiến trúc phong phú nhất — và chúng tôi chính là kiến trúc phong phú nhất; bạn sẽ chọn kiến trúc có cơ sở cài đặt lớn nhất — và chúng tôi chính là lớn nhất; bạn sẽ chọn hệ sinh thái hoàn chỉnh nhất. Đó chính là vòng xoáy.
Kết hợp tất cả những điểm trên, hiệu năng trên mỗi đô la của chúng tôi là tốt nhất, và chi phí token của khách hàng là thấp nhất. Hiệu năng trên mỗi watt của chúng tôi là cao nhất thế giới, nên nếu một đối tác xây dựng một trung tâm dữ liệu 1 gigawatt, trung tâm đó nên tạo ra lượng doanh thu và token lớn nhất có thể — điều này trực tiếp bằng doanh thu. Bạn muốn nó tạo ra càng nhiều token càng tốt để tối đa hóa doanh thu, và chúng tôi là kiến trúc có số token trên mỗi watt cao nhất thế giới. Ngoài ra, nếu mục tiêu của bạn là cho thuê hạ tầng, chúng tôi có nhiều khách hàng nhất thế giới. Đó là lý do vòng xoáy vận hành.
Patel: Thú vị đấy. Tôi nghĩ vấn đề cuối cùng là cấu trúc thị trường thực tế rốt cuộc như thế nào? Bởi ngay cả khi có các công ty khác tồn tại, có thể có một thế giới trong đó hàng ngàn công ty AI mỗi nhà chiếm phần năng lực tính toán gần bằng nhau. Nhưng thực tế là, ngay cả thông qua năm nhà cung cấp điện toán đám mây lớn này, những người thực sự dùng năng lực tính toán trên Amazon chủ yếu là Anthropic, OpenAI và các phòng thí nghiệm nền tảng lớn. Những “người chơi lớn” này tự có khả năng và nguồn lực để vận hành các bộ tăng tốc khác nhau.
Nếu những điều ông nói về hiệu năng trên chi phí, hiệu năng trên mỗi watt… đều đúng, thì tại sao công ty như Anthropic vài ngày trước lại vừa công bố thỏa thuận TPU hàng gigawatt với Broadcom và Google, đặt phần lớn năng lực tính toán của họ lên đó? Đối với Google, TPU cũng chiếm phần lớn năng lực tính toán của họ. Vì vậy, nếu tôi nhìn vào các công ty AI lớn, dường như năng lực tính toán của họ từng hoàn toàn là NVIDIA, nhưng nay thì không còn nữa. Tôi rất tò mò: nếu những lợi thế trên giấy đều đúng, tại sao họ lại chọn bộ tăng tốc khác?
Huang: Anthropic chỉ là một ngoại lệ, không phải xu hướng lớn. Bạn hãy suy nghĩ xem: nếu không có Anthropic, TPU sẽ tăng trưởng từ đâu? 100% là nhờ Anthropic. Tương tự, nếu không có Anthropic, Trainium sẽ tăng trưởng từ đâu? Cũng 100% là nhờ Anthropic. Đây cơ bản là một “bí mật công khai”. Không phải cơ hội ASIC đang tăng lên rất nhiều, mà chỉ có một Anthropic mà thôi.
Patel: Nhưng OpenAI có thỏa thuận với AMD và họ cũng đang tự chế tạo bộ tăng tốc Titan.
Huang: Đúng vậy, nhưng tôi nghĩ ai cũng thừa nhận phần lớn năng lực tính toán của họ vẫn chạy trên nền tảng NVIDIA. Chúng tôi vẫn sẽ cùng nhau làm rất nhiều việc. Tôi không ngại người khác dùng thứ khác, thử thứ khác. Nếu họ không thử thì làm sao biết của chúng tôi tốt đến đâu? Đôi khi bạn cần được nhắc nhở. Chúng tôi phải liên tục giành lại vị trí hiện tại của mình.
Luôn có người khoác lác. Bạn hãy xem có bao nhiêu dự án ASIC bị hủy bỏ. Chỉ vì bạn muốn chế tạo một ASIC, bạn còn phải chế tạo thứ tốt hơn NVIDIA — điều này không dễ dàng. Thực tế, điều này là phi lý trừ khi NVIDIA chắc chắn có khiếm khuyết nào đó. Nhưng quy mô và tốc độ của chúng tôi đã rõ ràng — chúng tôi là công ty duy nhất trên thế giới mỗi năm đều ra mắt sản phẩm mới và mỗi năm đều đạt bước nhảy khổng lồ.
Patel: Tôi đoán lập luận của họ là nó không cần tốt hơn NVIDIA, chỉ cần không tệ hơn 70% là được, bởi vì họ trả cho ông 70% lợi nhuận.
Huang: Không, đừng quên lợi nhuận của ASIC cũng rất cao. Giả sử lợi nhuận của NVIDIA là 70% và lợi nhuận của ASIC là 65%. Vậy rốt cuộc bạn tiết kiệm được gì?
Patel: Ông nói như Broadcom ấy à?
Huang: Đúng vậy. Bạn phải trả tiền cho người khác. Theo tôi biết, lợi nhuận của ASIC rất cao, họ tự hào về điều đó và cho rằng lợi nhuận ASIC của họ đáng kinh ngạc.
Vì vậy, bạn hỏi tại sao. Từ lâu rồi, chúng tôi đơn giản là không có khả năng làm điều đó. Lúc đó, tôi chưa nhận thức sâu sắc việc xây dựng một phòng thí nghiệm AI nền tảng như OpenAI hay Anthropic khó đến mức nào, và họ cần nhà cung cấp đầu tư số tiền khổng lồ. Lúc đó, chúng tôi không có khả năng đầu tư hàng chục tỷ USD vào Anthropic để đổi lấy việc họ dùng năng lực tính toán của chúng tôi. Nhưng Google và AWS có khả năng. Họ đầu tư từ ban đầu và đổi lại, Anthropic dùng năng lực tính toán của họ. Còn chúng tôi lúc đó đơn giản là không có khả năng.
Sai lầm của tôi là tôi chưa nhận thức sâu sắc rằng họ thực sự không còn lựa chọn nào khác — không có quỹ đầu tư mạo hiểm nào sẵn sàng đầu tư 5–10 tỷ USD vào một phòng thí nghiệm AI với kỳ vọng biến nó thành Anthropic. Đó là sai lầm của tôi. Nhưng ngay cả khi tôi hiểu điều đó lúc đó, tôi cũng không nghĩ chúng tôi có khả năng làm như vậy. Tuy nhiên, tôi sẽ không lặp lại sai lầm đó nữa.
Tôi rất sẵn lòng đầu tư vào OpenAI và rất sẵn lòng giúp họ mở rộng — tôi tin điều này là cần thiết. Sau đó, khi tôi có khả năng, Anthropic đến tìm chúng tôi, tôi rất sẵn lòng trở thành nhà đầu tư và rất sẵn lòng giúp họ mở rộng. Nhưng lúc đó, chúng tôi đơn giản là không làm được. Nếu tôi có thể làm lại mọi thứ, nếu NVIDIA lúc đó đã lớn như hiện nay, tôi sẽ rất sẵn lòng làm điều đó.
Tại sao NVIDIA không trở thành nhà cung cấp điện toán đám mây quy mô siêu lớn?
Patel: Trong nhiều năm, NVIDIA luôn là công ty kiếm tiền và kiếm rất nhiều tiền trong lĩnh vực AI. Hiện nay, quý vị đang đầu tư — ví dụ như theo báo cáo, quý vị đã đầu tư 30 tỷ USD vào OpenAI và 10 tỷ USD vào Anthropic. Hiện nay, định giá của họ tăng lên và tôi tin rằng sẽ còn tiếp tục tăng. Vì vậy, nếu trong những năm qua quý vị luôn cung cấp năng lực tính toán cho họ và quý vị nhìn thấy hướng phát triển của họ, trong khi giá trị của họ cách đây một hoặc hai năm chỉ bằng một phần mười hiện nay — thậm chí cách đây một năm còn thấp hơn — và quý vị lại có rất nhiều tiền mặt, thì hoặc là NVIDIA tự trở thành một phòng thí nghiệm nền tảng và đầu tư số tiền khổng lồ, hoặc là thực hiện các giao dịch này sớm hơn ở mức định giá hiện nay. Và quý vị có tiền mặt. Vậy tại sao không làm sớm hơn?
Huang: Chúng tôi đã làm càng sớm càng tốt trong phạm vi khả năng, và ngay khi có khả năng thì làm ngay. Nếu tôi có thể, tôi sẽ làm sớm hơn. Khi Anthropic cần chúng tôi làm điều đó, chúng tôi đơn giản là không có khả năng — lúc đó điều này không nằm trong tầm cân nhắc của chúng tôi.
Patel: Tại sao vậy? Là vấn đề tiền à?
Huang: Đúng vậy — quy mô đầu tư. Lúc đó, chúng tôi chưa từng thực hiện đầu tư bên ngoài công ty, huống chi là khoản tiền khổng lồ như vậy. Chúng tôi chưa nhận thức được rằng mình cần làm điều này. Tôi luôn nghĩ họ có thể đi gọi vốn từ các quỹ đầu tư mạo hiểm như mọi công ty khác. Nhưng điều họ muốn làm thì các quỹ đầu tư mạo hiểm không thể làm được. Điều OpenAI muốn làm thì các quỹ đầu tư mạo hiểm cũng không thể làm được. Bây giờ tôi đã nhận thức được, nhưng lúc đó tôi chưa biết.
Nhưng đây chính là thiên tài của họ — họ thông minh ở chỗ này. Họ đã nhận ra từ đầu rằng phải làm điều đó. Tôi rất vui vì họ đã làm được. Ngay cả khi điều này khiến Anthropic tìm đến người khác, tôi vẫn rất vui vì điều đó xảy ra. Sự tồn tại của Anthropic là điều tốt cho thế giới, và tôi rất vui về điều đó.
Patel: Tôi nghĩ quý vị vẫn đang kiếm rất nhiều tiền và mỗi quý còn kiếm nhiều hơn. Vì quý vị có nhiều tiền như vậy, NVIDIA nên dùng nó vào việc gì? Một câu trả lời là đã xuất hiện cả một hệ sinh thái trung gian, biến chi phí đầu tư thành chi phí vận hành cho các phòng thí nghiệm để họ có thể thuê năng lực tính toán. Bởi chip rất đắt, nhưng trong suốt vòng đời, chúng có thể kiếm được rất nhiều tiền vì mô hình AI ngày càng tốt hơn. Giá trị token mà chúng tạo ra đang tăng lên, nhưng chi phí triển khai lại cao. NVIDIA có tiền để chi cho đầu tư. Thực tế, theo báo cáo, quý vị đang hỗ trợ CoreWeave với số tiền lên tới 6,3 tỷ USD và đã đầu tư 2 tỷ USD. Vậy tại sao NVIDIA không tự mình trở thành nhà cung cấp dịch vụ điện toán đám mây? Tại sao không tự mình trở thành nhà cung cấp điện toán đám mây quy mô siêu lớn và tự cho thuê năng lực tính toán?
Huang: Đây là triết lý của công ty chúng tôi và tôi cho rằng đó là một triết lý sáng suốt. Chúng tôi nên làm những việc cần thiết nhưng càng ít càng tốt. Nghĩa là trong công việc xây dựng nền tảng tính toán, nếu chúng tôi không làm, tôi thực sự tin rằng sẽ chẳng ai làm. Nếu chúng tôi không mạo hiểm như những gì chúng tôi đã làm, nếu chúng tôi không xây dựng NVLink theo cách của mình và không xây dựng toàn bộ ngăn xếp phần mềm, nếu chúng tôi không tạo dựng hệ sinh thái theo cách của mình và không đầu tư 20 năm vào CUDA — trong phần lớn thời gian còn lỗ — thì nếu chúng tôi không làm, sẽ chẳng ai làm.
Nếu chúng tôi không tạo ra tất cả các thư viện CUDA-X để hướng tới các lĩnh vực cụ thể, thì 15 năm trước chúng tôi đã bắt đầu làm các thư viện chuyên biệt, bởi vì chúng tôi nhận ra rằng nếu không tạo ra những thư viện này — cho quang tuyến, tạo ảnh, công việc AI sơ kỳ, các mô hình này, hoặc xử lý dữ liệu, xử lý dữ liệu có cấu trúc, xử lý dữ liệu vector — thì sẽ chẳng ai làm. Tôi hoàn toàn tin vào điều này. Chúng tôi đã tạo một thư viện cho quang khắc tính toán tên là cuLitho, và nếu chúng tôi không làm, sẽ chẳng ai làm. Vì vậy, tiến bộ của tính toán tăng tốc ngày nay là nhờ những việc chúng tôi đã làm.
Vì vậy, chúng tôi nên làm việc đó và nên tập trung toàn lực vào nó. Tuy nhiên, trên thế giới có rất nhiều nền tảng điện toán đám mây, nếu tôi không làm thì sẽ có người khác làm. Vì vậy, chúng tôi tuân thủ triết lý “làm những việc cần thiết nhưng càng ít càng tốt”, và triết lý này hiện diện trong mỗi ngày hoạt động của công ty. Mọi việc tôi làm đều được nhìn qua lăng kính này.
Về điện toán đám mây, nếu chúng tôi không hỗ trợ sự tồn tại của CoreWeave, thì những nền tảng điện toán đám mây mới này — những nền tảng điện toán đám mây AI — sẽ không tồn tại. Nếu chúng tôi không giúp CoreWeave, họ sẽ không tồn tại. Nếu chúng tôi không hỗ trợ Nscale, họ sẽ không đạt được thành tựu như ngày nay. Nếu không hỗ trợ Nebius, họ cũng sẽ không trở thành như hiện tại. Hiện nay, họ đang làm rất tốt.
Đây là một mô hình kinh doanh. Chúng tôi nên làm những việc cần thiết và càng ít càng tốt. Vì vậy, chúng tôi đầu tư vào hệ sinh thái của mình vì tôi muốn hệ sinh thái của mình phát triển mạnh mẽ. Tôi muốn kiến trúc này, AI, kết nối càng nhiều ngành, càng nhiều quốc gia càng tốt, để toàn bộ hành tinh được xây dựng trên nền tảng AI và trên nền tảng công nghệ Mỹ. Đó chính là tầm nhìn mà chúng tôi đang theo đuổi.
Còn một điều nữa: có rất nhiều công ty mô hình nền tảng xuất sắc và chúng tôi cố gắng đầu tư vào tất cả. Đây là việc khác mà chúng tôi làm. Chúng tôi không chọn “người chiến thắng”, và chúng tôi cần hỗ trợ tất cả. Đây là điều chúng tôi nên làm và cũng là niềm vui của chúng tôi. Điều này rất quan trọng đối với hoạt động kinh doanh của chúng tôi. Nhưng chúng tôi cũng không tiếc công tránh việc chọn “người chiến thắng”, nên nếu tôi đầu tư vào một công ty, tôi sẽ đầu tư vào tất cả.
Patel: Tại sao ông đặc biệt tránh việc chọn “người chiến thắng”?
Huang: Thứ nhất, đó không phải công việc của chúng tôi. Thứ hai, khi NVIDIA mới khởi nghiệp, có 60 công ty đồ họa 3D, và chúng tôi là công ty duy nhất sống sót. Nếu bạn đoán từ 60 công ty này ai sẽ thành công, NVIDIA sẽ đứng đầu danh sách những công ty ít có khả năng thành công nhất.
Đó là chuyện từ rất lâu rồi. Kiến trúc đồ họa của NVIDIA lúc đó hoàn toàn sai — không chỉ sai một chút. Chúng tôi tạo ra một kiến trúc hoàn toàn sai, các nhà phát triển không thể hỗ trợ nó và nó sẽ không bao giờ thành công. Chúng tôi dựa trên lập luận nguyên lý đầu tiên tốt, nhưng cuối cùng lại đưa ra giải pháp sai. Mọi người đều loại chúng tôi ra, nhưng chúng tôi vẫn sống sót.
Vì vậy, tôi có đủ sự khiêm tốn để nhận ra điều này: đừng chọn “người chiến thắng”. Hoặc để họ tự chăm sóc mình, hoặc chăm sóc tất cả.
Patel: Có một điểm tôi chưa hiểu: ông nói chúng tôi không ưu tiên hỗ trợ họ chỉ vì họ là những nền tảng điện toán đám mây mới, nhưng ông cũng liệt kê một loạt nền tảng điện toán đám mây mới và nói rằng nếu không có NVIDIA, họ sẽ không tồn tại. Hai điều này làm sao dung hòa được?
Huang: Trước hết, họ phải tự muốn tồn tại và đến xin chúng tôi giúp. Khi họ muốn tồn tại và có kế hoạch kinh doanh, chuyên môn và nhiệt huyết, rõ ràng họ cảm thấy mình có một số năng lực. Nhưng nếu cuối cùng họ cần một số đầu tư để khởi động, chúng tôi sẽ hỗ trợ họ. Tuy nhiên, họ khởi động vòng xoáy càng sớm càng tốt.
Câu hỏi của ông là: chúng tôi có muốn làm kinh doanh tài chính không? Câu trả lời là không. Có người đang làm kinh doanh tài chính, chúng tôi thà hợp tác với họ còn hơn tự làm nhà tài trợ. Mục tiêu của chúng tôi là tập trung vào việc mình làm, giữ mô hình kinh doanh càng đơn giản càng tốt và hỗ trợ hệ sinh thái của mình.
Khi một tổ chức như OpenAI cần khoản đầu tư quy mô 30 tỷ USD vì họ chưa IPO, và chúng tôi tin chắc họ sẽ trở thành một công ty tuyệt vời, thế giới cần họ tồn tại và thế giới mong muốn họ tồn tại, tôi hy vọng họ tồn tại và phát triển thuận lợi, vì vậy chúng tôi sẽ hỗ trợ họ và giúp họ mở rộng. Chúng tôi sẽ thực hiện những khoản đầu tư này vì họ cần chúng tôi. Nhưng chúng tôi không muốn làm càng nhiều càng tốt, mà muốn làm càng ít càng tốt.
Patel: Đây có thể là một câu hỏi hiển nhiên, nhưng chúng ta đã trải qua nhiều năm thiếu hụt GPU, và hiện nay tình trạng thiếu hụt còn trầm trọng hơn do mô hình ngày càng tốt hơn.
Huang: Chúng tôi thực sự thiếu GPU.
Patel: Đúng vậy. NVIDIA nổi tiếng với việc phân bổ hạn ngạch khan hiếm — không chỉ dựa trên người trả giá cao nhất, mà còn đảm bảo những nền tảng điện toán đám mây mới này tồn tại, ví dụ như phân một phần cho CoreWeave, một phần cho Crusoe, một phần cho Lambda. Điều này mang lại lợi ích gì cho NVIDIA? Trước tiên, ông có đồng ý với mô tả về việc phân chia thị trường này không?
Huang: Tôi không đồng ý. Tiền đề của ông hoàn toàn sai. Chúng tôi rất thận trọng và cẩn trọng trong những việc này. Thứ nhất, nếu bạn không đặt đơn hàng mua, thì chỉ nói suông là vô ích. Trước khi nhận được đơn hàng, chúng tôi có thể làm gì? Vì vậy, việc đầu tiên là chúng tôi làm việc chăm chỉ với mọi người để hoàn thành dự báo, bởi vì những thứ này mất rất nhiều thời gian để sản xuất và trung tâm dữ liệu cũng mất rất nhiều thời gian. Chúng tôi phối hợp cung-cầu thông qua dự báo và các phương pháp khác — đây là nhiệm vụ hàng đầu.
Thứ hai, chúng tôi cố gắng dự báo với càng nhiều người càng tốt, nhưng cuối cùng bạn vẫn phải đặt đơn hàng. Có thể vì bất kỳ lý do nào bạn không đặt đơn hàng, vậy tôi có thể làm gì? Ở một thời điểm nào đó, quy tắc là “ai đến trước được phục vụ trước”. Ngoài ra, nếu trung tâm dữ liệu của bạn chưa sẵn sàng, hoặc một số linh kiện chưa sẵn sàng để bạn kích hoạt trung tâm dữ liệu, chúng tôi có thể phục vụ khách hàng khác trước. Điều này chỉ nhằm tối đa hóa thông lượng của nhà máy chúng tôi và chúng tôi có thể thực hiện một số điều chỉnh.
Ngoài ra, thứ tự ưu tiên là “ai đến trước được phục vụ trước”. Bạn phải đặt đơn hàng mua. Tất nhiên có một số câu chuyện. Ví dụ, tất cả bắt đầu từ một bài báo về việc Larry Page và Elon Musk ăn tối với tôi để xin GPU —
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News














