
Bài phát biểu toàn văn của Jensen Huang tại hội nghị GTC: Kỷ nguyên suy luận đã đến, doanh thu năm 2027 ít nhất đạt một nghìn tỷ USD, “tôm hùm” chính là hệ điều hành mới
Tuyển chọn TechFlowTuyển chọn TechFlow

Bài phát biểu toàn văn của Jensen Huang tại hội nghị GTC: Kỷ nguyên suy luận đã đến, doanh thu năm 2027 ít nhất đạt một nghìn tỷ USD, “tôm hùm” chính là hệ điều hành mới
NVIDIA đang phát triển máy tính trung tâm dữ liệu đặt trên không gian mang tên “Vera Rubin Space-1”, mở ra hoàn toàn khả năng tưởng tượng về việc mở rộng sức mạnh xử lý AI ra ngoài Trái Đất.
Nguồn: Wall Street Insights
Ngày 16 tháng 3 năm 2026, hội nghị GTC 2026 của NVIDIA chính thức khai mạc, và ông Jensen Huang – nhà sáng lập kiêm CEO của NVIDIA – đã có bài phát biểu chủ đề.
Tại sự kiện được xem là “lễ hành hương thường niên của ngành AI”, ông Huang đã trình bày về quá trình chuyển mình của NVIDIA từ một “công ty bán chip” thành một “công ty cơ sở hạ tầng và nhà máy AI”. Trước những lo ngại hàng đầu của thị trường về tính bền vững và tiềm năng tăng trưởng trong tương lai, ông Huang đã phân tích chi tiết nền tảng logic kinh doanh đằng sau tăng trưởng sắp tới – “Kinh tế học Nhà máy Token”.

Dự báo hiệu suất cực kỳ lạc quan: “CẦN ÍT NHẤT 1.000 TỶ USD NĂM 2027”
Trong hai năm qua, nhu cầu toàn cầu về tính toán AI đã bùng nổ theo cấp số mũ. Khi các mô hình ngôn ngữ lớn (LLM) tiến hóa từ “nhận thức” và “tạo sinh” sang “suy luận” và “hành động (thực hiện nhiệm vụ)”, mức tiêu thụ công suất tính toán tăng vọt. Trước câu hỏi nóng nhất của thị trường về trần đơn đặt hàng và doanh thu, ông Huang đưa ra dự báo vô cùng mạnh mẽ.
Ông Huang khẳng định trong bài phát biểu:
“Vào thời điểm này năm ngoái, tôi từng nói rằng chúng ta đã thấy nhu cầu có độ tin cậy cao lên tới 500 tỷ USD, đủ để bao phủ toàn bộ dòng chip Blackwell và Rubin cho đến năm 2026. Giờ đây, ngay tại thời điểm này, tôi nhìn thấy nhu cầu ít nhất 1.000 tỷ USD (at least $1 trillion) cho đến năm 2027.”

Dự báo “một nghìn tỷ USD” của ông Huang từng khiến cổ phiếu NVIDIA tăng hơn 4,3%.

Không chỉ dừng lại ở đó, ông còn bổ sung thêm:
“Điều này có hợp lý không? Đó chính là điều tôi sẽ trình bày tiếp theo. Thực tế, chúng ta thậm chí sẽ không thể đáp ứng nổi nhu cầu. Tôi chắc chắn rằng nhu cầu tính toán thực tế sẽ cao hơn con số này rất nhiều.”
Ông Huang chỉ ra rằng hệ thống NVIDIA ngày nay đã chứng minh được khả năng trở thành “cơ sở hạ tầng có chi phí thấp nhất thế giới”. Nhờ khả năng chạy hầu hết mọi mô hình AI trên mọi lĩnh vực, tính phổ quát này giúp khách hàng tận dụng tối đa khoản đầu tư 1.000 tỷ USD và duy trì vòng đời sử dụng lâu dài.
Hiện tại, 60% doanh thu của NVIDIA đến từ năm nhà cung cấp dịch vụ điện toán đám mây khổng lồ hàng đầu thế giới, trong khi 40% còn lại phân bố rộng khắp các lĩnh vực như đám mây chủ quyền, doanh nghiệp, công nghiệp, robot và điện toán biên.
Kinh tế học Nhà máy Token: Hiệu suất mỗi watt quyết định vận mệnh thương mại
Để giải thích tính hợp lý của con số 1.000 tỷ USD, ông Huang đã trình bày với các CEO toàn cầu một tư duy kinh doanh hoàn toàn mới. Ông nhấn mạnh rằng trung tâm dữ liệu trong tương lai sẽ không còn là kho lưu trữ tập tin, mà là một “nhà máy sản xuất Token” – đơn vị cơ bản do AI tạo ra.

Ông Huang nhấn mạnh:
“Mỗi trung tâm dữ liệu, mỗi nhà máy – xét về bản chất – đều bị giới hạn bởi nguồn điện. Một nhà máy 1 GW (gigawatt) sẽ không bao giờ trở thành nhà máy 2 GW; đây là quy luật vật lý và nguyên tử. Với công suất cố định, ai đạt tốc độ xử lý Token trên mỗi watt cao nhất, người đó sẽ có chi phí sản xuất thấp nhất.”
Ông Huang chia các dịch vụ AI trong tương lai thành bốn cấp độ thương mại:
- Cấp miễn phí (thông lượng cao, tốc độ thấp)
- Cấp trung bình (~3 USD/một triệu token)
- Cấp cao (~6 USD/một triệu token)
- Cấp tốc độ cao (~45 USD/một triệu token)
- Cấp siêu tốc độ cao (~150 USD/một triệu token)
Ông chỉ ra rằng khi mô hình ngày càng lớn và ngữ cảnh (context) ngày càng dài, AI sẽ thông minh hơn nhưng tốc độ tạo token sẽ giảm. Ông Huang khẳng định:
“Trong nhà máy Token này, thông lượng và tốc độ tạo token của bạn sẽ trực tiếp chuyển hóa thành doanh thu chính xác của bạn vào năm tới.”
Ông Huang nhấn mạnh kiến trúc NVIDIA cho phép khách hàng đạt thông lượng cực cao ở cấp miễn phí, đồng thời nâng cao hiệu năng ở cấp suy luận – nơi mang lại giá trị cao nhất – lên tới 35 lần.

Vera Rubin đạt tốc độ tăng 350 lần trong hai năm; Groq lấp đầy khoảng trống suy luận siêu tốc
Dưới ràng buộc của giới hạn vật lý này, NVIDIA giới thiệu hệ thống tính toán AI phức tạp nhất từ trước đến nay: Vera Rubin. Ông Huang phát biểu:
“Khi nhắc đến Hopper, tôi thường giơ lên một con chip – trông khá đáng yêu. Nhưng khi nói về Vera Rubin, mọi người nghĩ ngay đến cả một hệ thống hoàn chỉnh. Trong hệ thống làm mát hoàn toàn bằng chất lỏng 100%, loại bỏ hoàn toàn cáp truyền thống này, việc lắp đặt một cụm máy chủ vốn mất hai ngày nay chỉ cần hai giờ.”
Ông Huang chỉ ra rằng nhờ thiết kế phần cứng – phần mềm đồng bộ từ đầu đến cuối, Vera Rubin đã tạo nên bước nhảy vọt đáng kinh ngạc trong cùng một trung tâm dữ liệu 1 GW:
“Chỉ trong vòng hai năm, chúng ta đã nâng tốc độ tạo token từ 22 triệu lên 700 triệu, tăng 350 lần. Trong cùng giai đoạn, Định luật Moore chỉ mang lại mức tăng khoảng 1,5 lần.”
Để giải quyết nghẽn băng thông trong điều kiện suy luận siêu tốc (ví dụ: 1.000 token/giây), NVIDIA đưa ra giải pháp cuối cùng sau khi sáp nhập công ty Groq: suy luận phân tách bất đối xứng. Ông Huang giải thích:
“Hai vi xử lý này có đặc điểm hoàn toàn khác biệt. Chip Groq sở hữu 500 MB SRAM, trong khi một chip Rubin có tới 288 GB bộ nhớ.”

Ông Huang cho biết NVIDIA sử dụng hệ thống phần mềm Dynamo để giao giai đoạn “điền trước (Pre-fill)” – đòi hỏi khối lượng tính toán và bộ nhớ đồ họa khổng lồ – cho Vera Rubin, còn giao giai đoạn “giải mã (Decode)”, vốn cực kỳ nhạy cảm với độ trễ, cho Groq. Ông cũng đưa ra lời khuyên về cấu hình công suất tính toán cho doanh nghiệp:
“Nếu công việc của bạn chủ yếu yêu cầu thông lượng cao, hãy sử dụng 100% Vera Rubin. Nếu bạn có nhu cầu tạo token có giá trị cao (ví dụ: lập trình), hãy dành 25% quy mô trung tâm dữ liệu cho Groq.”
Theo thông tin tiết lộ, chip Groq LP30 do Samsung sản xuất đã bắt đầu sản xuất hàng loạt và dự kiến xuất xưởng vào quý III; đồng thời, cụm máy chủ Vera Rubin đầu tiên đã đi vào hoạt động trên nền tảng đám mây Microsoft Azure.
Ngoài ra, về công nghệ liên kết quang, ông Huang trình diễn Bộ chuyển mạch Spectrum X – bộ chuyển mạch quang tích hợp (CPO) đầu tiên trên thế giới được sản xuất hàng loạt – và dập tắt cuộc tranh luận thị trường về xu hướng “đồng thoái – quang tiến”:
“Chúng ta cần mở rộng năng lực sản xuất cáp đồng, chip quang và CPO.”
Agent chấm dứt SaaS truyền thống; “Lương năm + Token” trở thành chuẩn mực tại Thung lũng Silicon
Bên cạnh rào cản phần cứng, ông Huang dành phần lớn thời gian nói về cuộc cách mạng phần mềm và hệ sinh thái AI, đặc biệt là sự bùng nổ của Agent (trí tuệ nhân tạo tác nhân).
Ông gọi dự án mã nguồn mở OpenClaw là “dự án mã nguồn mở phổ biến nhất trong lịch sử nhân loại”, khẳng định nó chỉ mất vài tuần để vượt qua thành tựu mà Linux đạt được trong suốt 30 năm qua. Ông Huang khẳng định rõ ràng rằng OpenClaw về bản chất chính là “hệ điều hành” cho máy tính Agent.
Ông Huang khẳng định:
“Mọi công ty SaaS (phần mềm như một dịch vụ) đều sẽ trở thành công ty AaaS (Agent như một dịch vụ). Không thể nghi ngờ rằng, để đảm bảo an toàn cho các Agent có khả năng truy cập dữ liệu nhạy cảm và thực thi mã, NVIDIA đã ra mắt thiết kế tham khảo NeMo Claw dành riêng cho doanh nghiệp, tích hợp động cơ chính sách và bộ định tuyến bảo mật.”
Đối với người lao động bình thường, cuộc cách mạng này cũng đang cận kề. Ông Huang phác họa hình thái mới của nơi làm việc trong tương lai:
“Trong tương lai, mỗi kỹ sư trong công ty chúng ta sẽ được cấp ngân sách Token hàng năm. Lương cơ bản của họ có thể là vài trăm nghìn đô la Mỹ, và tôi sẽ cấp thêm một khoản tương đương khoảng một nửa mức lương đó dưới dạng Token để giúp họ tăng hiệu suất lên 10 lần. Đây đã trở thành lợi thế tuyển dụng mới tại Thung lũng Silicon: ‘Mức Token đi kèm trong gói offer của bạn là bao nhiêu?’”
Ở phần cuối bài phát biểu, ông Huang còn “tiết lộ trước” kiến trúc tính toán thế hệ tiếp theo mang tên Feynman – lần đầu tiên đạt khả năng mở rộng ngang bằng cả dây đồng và CPO. Điều khiến người ta càng háo hức hơn là NVIDIA đang nghiên cứu và phát triển máy tính trung tâm dữ liệu “Vera Rubin Space-1” đặt trên vũ trụ, mở ra không gian tưởng tượng chưa từng có về việc mở rộng công suất AI ra ngoài Trái Đất.
Toàn văn bài phát biểu của ông Huang tại GTC 2026 (được dịch toàn bộ bằng công cụ AI):
MC: Xin kính mời nhà sáng lập kiêm Giám đốc điều hành (CEO) của NVIDIA – ông Jensen Huang – lên sân khấu.
Jensen Huang – Nhà sáng lập kiêm CEO:
Xin chào mừng đến với GTC. Tôi muốn nhắc quý vị rằng đây là một hội nghị công nghệ. Thật vui khi thấy rất nhiều người xếp hàng từ sáng sớm để vào hội trường, và thật vui khi được gặp mặt tất cả quý vị tại đây.
Tại GTC, chúng ta sẽ tập trung vào ba chủ đề chính: Công nghệ, Nền tảng và Hệ sinh thái. Hiện tại, NVIDIA sở hữu ba nền tảng: nền tảng CUDA-X, nền tảng hệ thống và nền tảng Nhà máy AI mới ra mắt.
Trước khi bắt đầu chính thức, tôi xin cảm ơn các diễn giả dẫn dắt phần khởi động – bà Sarah Guo của Conviction, ông Alfred Lin của Sequoia Capital (nhà đầu tư mạo hiểm đầu tiên của NVIDIA), và ông Gavin Baker – nhà đầu tư tổ chức đầu tiên của NVIDIA. Ba vị này đều có tầm nhìn sâu sắc về công nghệ và ảnh hưởng rộng lớn trong toàn bộ hệ sinh thái công nghệ. Tất nhiên, tôi cũng xin chân thành cảm ơn tất cả các khách quý mà tôi tự tay mời đến hôm nay. Cảm ơn đội ngũ ngôi sao tuyệt vời này.
Tôi cũng xin cảm ơn tất cả các doanh nghiệp có mặt tại đây hôm nay. NVIDIA là một công ty nền tảng, sở hữu công nghệ, nền tảng và hệ sinh thái phong phú. Các doanh nghiệp hiện diện đại diện cho gần như toàn bộ các bên tham gia trong một ngành công nghiệp trị giá 100.000 tỷ USD, với tổng cộng 450 công ty tài trợ cho sự kiện lần này – xin chân thành cảm ơn.
Hội nghị lần này bao gồm 1.000 hội thảo kỹ thuật và 2.000 diễn giả, bao quát từng lớp trong “bánh kem năm tầng” của trí tuệ nhân tạo – từ cơ sở hạ tầng như đất đai, điện năng và phòng máy chủ, đến chip, nền tảng, mô hình và cuối cùng là các ứng dụng thúc đẩy toàn ngành bay lên.
CUDA: Hai mươi năm tích lũy công nghệ
Mọi thứ bắt đầu từ đây. Năm nay đánh dấu kỷ niệm 20 năm ngày ra đời CUDA.
Trong hai thập kỷ qua, chúng ta luôn dành toàn bộ tâm huyết để phát triển kiến trúc này. CUDA là một phát minh cách mạng – công nghệ SIMT (Single Instruction, Multiple Threads) cho phép các nhà phát triển viết chương trình bằng mã vô hướng và mở rộng nó thành ứng dụng đa luồng, dễ lập trình hơn nhiều so với kiến trúc SIMD trước đây. Gần đây, chúng ta còn bổ sung thêm tính năng Tiles nhằm hỗ trợ lập trình dễ dàng hơn cho các nhân tensor (Tensor Core) và các cấu trúc toán học mà AI hiện đại phụ thuộc vào. Hiện tại, CUDA đã sở hữu hàng nghìn công cụ, trình biên dịch, framework và thư viện; cộng đồng mã nguồn mở có hàng trăm nghìn dự án công khai; và CUDA đã được tích hợp sâu vào mọi hệ sinh thái công nghệ.
Biểu đồ này tiết lộ toàn bộ chiến lược của NVIDIA – tôi đã trình bày slide này từ những ngày đầu. Yếu tố khó thực hiện nhất, đồng thời cũng là cốt lõi nhất, nằm ở đáy biểu đồ: “Lượng thiết bị đã triển khai (Installed Base)”. Sau hai mươi năm, chúng ta đã tích lũy được hàng trăm triệu GPU và hệ thống tính toán chạy CUDA trên toàn cầu.
GPU của chúng ta có mặt trên mọi nền tảng đám mây, phục vụ hầu hết mọi nhà sản xuất máy tính và ngành công nghiệp. Lượng thiết bị đã triển khai khổng lồ của CUDA chính là nguyên nhân căn bản khiến bánh xe tăng trưởng không ngừng quay nhanh hơn. Lượng thiết bị lớn thu hút nhà phát triển; nhà phát triển tạo ra các thuật toán mới và đột phá; đột phá mở ra thị trường mới; thị trường mới hình thành hệ sinh thái mới và thu hút thêm doanh nghiệp tham gia; từ đó mở rộng lượng thiết bị đã triển khai – bánh xe này đang quay ngày càng nhanh.
Lượng tải xuống thư viện NVIDIA đang tăng trưởng với tốc độ đáng kinh ngạc, vừa quy mô lớn vừa tốc độ tăng liên tục. Bánh xe này giúp nền tảng tính toán của chúng ta hỗ trợ được vô số ứng dụng và các đột phá mới không ngừng xuất hiện.
Quan trọng hơn, nó còn trao cho cơ sở hạ tầng này tuổi thọ cực kỳ dài. Lý do rất rõ ràng: Có vô số ứng dụng chạy trên NVIDIA CUDA, bao quát mọi giai đoạn trong vòng đời AI, mọi nền tảng xử lý dữ liệu và mọi bộ giải phương trình khoa học. Do đó, một khi đã lắp đặt GPU NVIDIA, giá trị sử dụng thực tế của nó rất cao. Đây cũng là lý do vì sao GPU kiến trúc Ampere do chúng ta ra mắt cách đây sáu năm lại đang tăng giá trên nền tảng đám mây.
Nguyên nhân cốt lõi của tất cả những điều trên là: lượng thiết bị đã triển khai khổng lồ, bánh xe tăng trưởng mạnh mẽ và hệ sinh thái nhà phát triển rộng lớn. Khi những yếu tố này kết hợp với nhau, cộng thêm việc chúng ta liên tục cập nhật phần mềm, chi phí tính toán sẽ không ngừng giảm. Tính toán tăng tốc không chỉ nâng cao hiệu năng ứng dụng một cách mạnh mẽ, mà còn nhờ việc duy trì và cải tiến phần mềm dài hạn, người dùng không chỉ đạt được bước nhảy vọt về hiệu năng ban đầu, mà còn liên tục được hưởng lợi từ việc chi phí tính toán giảm dần. Chúng ta sẵn sàng hỗ trợ lâu dài cho từng GPU trên toàn cầu, bởi vì chúng hoàn toàn tương thích về kiến trúc.
Chúng ta sẵn sàng làm điều này vì lượng thiết bị đã triển khai quá lớn – mỗi lần tung ra một tối ưu hóa mới, hàng triệu người dùng sẽ được hưởng lợi. Sự kết hợp linh hoạt này khiến kiến trúc NVIDIA không ngừng mở rộng phạm vi bao phủ, tăng tốc độ tăng trưởng của chính mình và đồng thời liên tục kéo giảm chi phí tính toán, cuối cùng kích thích tăng trưởng mới. CUDA chính là trung tâm của mọi điều này.
Từ GeForce đến CUDA: Hành trình hai mươi lăm năm
Thực ra, hành trình của chúng ta với CUDA đã bắt đầu từ hai mươi lăm năm trước.
GeForce – tôi tin rằng rất nhiều người trong quý vị đã lớn lên cùng GeForce. GeForce là dự án tiếp thị thành công nhất của NVIDIA. Chúng ta bắt đầu nuôi dưỡng khách hàng tương lai từ thời điểm quý vị còn chưa đủ khả năng mua sản phẩm – cha mẹ quý vị đã trở thành những khách hàng đầu tiên của NVIDIA, năm này qua năm khác mua sản phẩm của chúng ta, cho đến một ngày nào đó, quý vị trưởng thành thành những nhà khoa học máy tính xuất sắc, trở thành khách hàng và nhà phát triển thực sự.
Đây là nền tảng mà GeForce đã xây dựng cách đây hai mươi lăm năm. Hai mươi lăm năm trước, chúng ta đã phát minh ra bộ xử lý shader có thể lập trình – một phát minh hiển nhiên nhưng mang ý nghĩa sâu xa, tạo nên bộ tăng tốc đầu tiên trên thế giới có thể lập trình được, tức là bộ xử lý pixel shader. Năm năm sau, chúng ta tạo ra CUDA – một trong những khoản đầu tư quan trọng nhất trong lịch sử công ty. Lúc đó công ty còn eo hẹp tài chính, nhưng chúng ta đã đầu tư phần lớn lợi nhuận vào dự án này, với mục tiêu mở rộng CUDA từ GeForce tới mọi chiếc máy tính. Chúng ta kiên định đến vậy vì tin tưởng sâu sắc vào tiềm năng của nó. Dù trải qua nhiều khó khăn ban đầu, công ty vẫn kiên trì theo đuổi niềm tin này trong suốt 13 thế hệ – trọn vẹn hai mươi năm – và giờ đây CUDA đã hiện diện ở khắp mọi nơi.
Chính bộ xử lý pixel shader đã thúc đẩy cuộc cách mạng GeForce. Và khoảng tám năm trước, chúng ta ra mắt RTX – một cuộc đổi mới toàn diện về kiến trúc dành riêng cho kỷ nguyên đồ họa máy tính hiện đại. GeForce đã mang CUDA đến toàn thế giới, và chính nhờ điều đó, các học giả như Alex Krizhevsky, Ilya Sutskever, Geoffrey Hinton và Andrew Ng đã nhận ra rằng GPU có thể trở thành công cụ tăng tốc học sâu, từ đó khơi mào “vụ nổ AI” cách đây mười năm.
Mười năm trước, chúng ta quyết định kết hợp khả năng xử lý shader có thể lập trình với hai ý tưởng mới: thứ nhất là kỹ thuật theo dõi tia (Ray Tracing) – một thách thức kỹ thuật rất lớn; thứ hai là một ý tưởng mang tính tiên phong vào thời điểm đó – cách đây khoảng mười năm, chúng ta đã dự đoán rằng AI sẽ hoàn toàn thay đổi cách thức thực hiện đồ họa máy tính. Cũng như GeForce đã mang AI đến toàn thế giới, thì giờ đây AI cũng sẽ ngược lại, tái định hình toàn bộ cách thực hiện đồ họa máy tính.
Hôm nay, tôi xin trình bày về tương lai. Đây là công nghệ đồ họa thế hệ tiếp theo của chúng ta, gọi là Render thần kinh (Neural Rendering) – sự hòa trộn sâu sắc giữa đồ họa 3D và trí tuệ nhân tạo. Đây chính là DLSS 5, xin quý vị xem.
Render thần kinh: Sự hòa trộn giữa dữ liệu có cấu trúc và AI tạo sinh
Điều này có khiến quý vị kinh ngạc không? Đồ họa máy tính vừa được hồi sinh.
Chúng ta đã làm gì? Chúng ta kết hợp đồ họa 3D có thể kiểm soát (nền tảng thực tế của thế giới ảo) với dữ liệu có cấu trúc của nó, rồi tích hợp thêm AI tạo sinh và tính toán xác suất. Một bên hoàn toàn xác định, bên kia mang tính xác suất nhưng lại cực kỳ chân thực – chúng ta kết hợp hai quan điểm này lại với nhau, sử dụng dữ liệu có cấu trúc để đạt được độ kiểm soát chính xác, đồng thời thực hiện tạo sinh theo thời gian thực. Kết quả cuối cùng là nội dung vừa đẹp mắt, ấn tượng, vừa hoàn toàn có thể kiểm soát.
Ý tưởng hòa trộn dữ liệu có cấu trúc và AI tạo sinh sẽ lặp lại trong từng ngành công nghiệp. Dữ liệu có cấu trúc là nền tảng của AI đáng tin cậy.
Nền tảng tăng tốc cho dữ liệu có cấu trúc và phi cấu trúc
Giờ đây tôi xin mời quý vị xem một sơ đồ kiến trúc công nghệ.
Dữ liệu có cấu trúc – các nền tảng quen thuộc như SQL, Spark, Pandas, Velox, Snowflake, Databricks, Amazon EMR, Azure Fabric và Google BigQuery – đều xử lý khung dữ liệu (Data Frame). Những khung dữ liệu này giống như bảng tính khổng lồ, chứa đựng toàn bộ thông tin của thế giới kinh doanh, là “sự thật nền tảng” (Ground Truth) cho tính toán doanh nghiệp.
Trong kỷ nguyên AI, chúng ta cần để AI sử dụng dữ liệu có cấu trúc và tăng tốc tối đa việc xử lý nó. Trước đây, tăng tốc xử lý dữ liệu có cấu trúc nhằm giúp doanh nghiệp vận hành hiệu quả hơn. Còn trong tương lai, AI sẽ sử dụng các cấu trúc dữ liệu này nhanh hơn con người rất nhiều, và các Agent AI cũng sẽ truy vấn cơ sở dữ liệu có cấu trúc một cách ồ ạt.
Về dữ liệu phi cấu trúc, cơ sở dữ liệu vector, PDF, video, âm thanh… tạo nên phần lớn dữ liệu trên thế giới – khoảng 90% dữ liệu được tạo ra mỗi năm là dữ liệu phi cấu trúc. Trước đây, những dữ liệu này gần như hoàn toàn không thể khai thác: chúng ta chỉ đọc chúng, lưu vào hệ thống tệp và thế thôi. Chúng ta không thể truy vấn hay tìm kiếm hiệu quả, bởi dữ liệu phi cấu trúc thiếu cơ chế lập chỉ mục đơn giản, và phải hiểu được ý nghĩa và ngữ cảnh của nó. Giờ đây, AI có thể làm được điều đó – nhờ công nghệ cảm nhận và hiểu đa phương thức, AI có thể đọc tài liệu PDF, hiểu được ý nghĩa của nó và nhúng nó vào một cấu trúc lớn hơn để có thể truy vấn được.
Để đáp ứng nhu cầu này, NVIDIA đã xây dựng hai thư viện nền tảng:
- cuDF: tăng tốc xử lý khung dữ liệu và dữ liệu có cấu trúc
- cuVS: xử lý kho lưu trữ vector, dữ liệu ngữ nghĩa và dữ liệu AI phi cấu trúc
Hai nền tảng này sẽ trở thành một trong những nền tảng quan trọng nhất trong tương lai.
Hôm nay, chúng ta công bố hợp tác với nhiều doanh nghiệp. IBM – nhà phát minh ngôn ngữ SQL – sẽ sử dụng cuDF để tăng tốc nền tảng WatsonX Data của mình. Dell và NVIDIA cùng hợp tác xây dựng nền tảng dữ liệu AI Dell, tích hợp cuDF và cuVS, và đã đạt được cải thiện hiệu năng đáng kể trong các dự án thực tế với NTT Data. Về Google Cloud, hiện nay chúng ta không chỉ tăng tốc Vertex AI mà còn tăng tốc BigQuery, đồng thời hợp tác với Snapchat để giảm chi phí tính toán gần 80%.
Lợi ích từ tính toán tăng tốc là ba yếu tố: tốc độ, quy mô và chi phí. Điều này phù hợp với logic của Định luật Moore – đạt được bước nhảy vọt về hiệu năng thông qua tính toán tăng tốc, đồng thời liên tục tối ưu hóa thuật toán để mọi người đều được hưởng lợi từ việc chi phí tính toán liên tục giảm.
NVIDIA xây dựng nền tảng tính toán tăng tốc, trên đó tập trung rất nhiều thư viện: RTX, cuDF, cuVS… Những thư viện này được tích hợp vào hệ sinh thái điện toán đám mây toàn cầu và các nhà sản xuất thiết bị gốc (OEM), cùng nhau tiếp cận người dùng toàn cầu.
Hợp tác sâu rộng với các nhà cung cấp dịch vụ đám mây
Hợp tác với các nhà cung cấp dịch vụ đám mây hàng đầu
Google Cloud: Chúng ta tăng tốc Vertex AI và BigQuery, tích hợp sâu với JAX/XLA, đồng thời thể hiện xuất sắc trên PyTorch – NVIDIA là nhà tăng tốc duy nhất trên thế giới thể hiện xuất sắc trên cả hai nền tảng PyTorch và JAX/XLA. Chúng ta đã đưa các khách hàng như Base10, CrowdStrike, Puma và Salesforce vào hệ sinh thái Google Cloud.
AWS: Chúng ta tăng tốc EMR, SageMaker và Bedrock, tích hợp sâu với AWS. Điều khiến tôi đặc biệt phấn khích trong năm nay là việc đưa OpenAI vào AWS – điều này sẽ thúc đẩy mạnh mẽ mức tiêu thụ điện toán đám mây của AWS, đồng thời giúp OpenAI mở rộng triển khai khu vực và quy mô tính toán.
Microsoft Azure: Siêu máy tính 100 PFLOPS của NVIDIA là siêu máy tính đầu tiên do chúng ta xây dựng và cũng là siêu máy tính đầu tiên được triển khai trên Azure – điều này tạo nền tảng quan trọng cho hợp tác với OpenAI. Chúng ta tăng tốc dịch vụ đám mây Azure và AI Foundry, hợp tác đẩy mạnh mở rộng khu vực Azure và hợp tác sâu rộng với công cụ tìm kiếm Bing. Đặc biệt, khả năng **tính toán bảo mật (Confidential Computing)** của chúng ta – đảm bảo ngay cả nhà điều hành cũng không thể xem dữ liệu và mô hình của người dùng – GPU NVIDIA là những GPU đầu tiên trên thế giới hỗ trợ tính toán bảo mật, cho phép triển khai bảo mật các mô hình OpenAI và Anthropic trên các môi trường đám mây toàn cầu. Ví dụ như Synopsys, chúng ta tăng tốc toàn bộ quy trình làm việc EDA và CAD của họ và triển khai trên Microsoft Azure.
Oracle: Chúng ta là khách hàng AI đầu tiên của Oracle, và tôi rất tự hào vì đã có cơ hội giải thích khái niệm “đám mây AI” cho Oracle lần đầu tiên. Sau đó, họ phát triển rất nhanh, và chúng ta cũng đã giới thiệu cho họ nhiều đối tác như Cohere, Fireworks và OpenAI.
CoreWeave: Là nhà cung cấp đám mây AI bản địa đầu tiên trên thế giới, được thiết kế đặc biệt cho việc lưu trữ GPU và dịch vụ đám mây AI, sở hữu danh sách khách hàng ấn tượng và tốc độ tăng trưởng mạnh mẽ.
Palantir + Dell: Ba bên hợp tác xây dựng nền tảng AI hoàn toàn mới, dựa trên nền tảng Ontology và nền tảng AI của Palantir, có thể triển khai AI hoàn toàn cục bộ – từ xử lý dữ liệu (vector hóa hoặc có cấu trúc) đến toàn bộ ngăn xếp tính toán tăng tốc AI – tại bất kỳ quốc gia nào, trong mọi môi trường bị cô lập hoàn toàn (air-gapped environment).
NVIDIA đã thiết lập mối quan hệ hợp tác đặc biệt với các nhà cung cấp dịch vụ đám mây toàn cầu – chúng ta đưa khách hàng vào đám mây, đây là một hệ sinh thái đôi bên cùng có lợi.
Tích hợp dọc – Mở rộng ngang: Chiến lược cốt lõi của NVIDIA
NVIDIA là công ty đầu tiên trên thế giới áp dụng mô hình “tích hợp dọc – mở rộng ngang”.
Tính cần thiết của mô hình này rất đơn giản: tính toán tăng tốc không phải là vấn đề của chip, cũng không phải vấn đề của hệ thống; nó phải được mô tả đầy đủ là “tăng tốc ứng dụng”. CPU có thể giúp máy tính chạy nhanh hơn tổng thể, nhưng con đường này đã đến giới hạn. Trong tương lai, chỉ có tăng tốc theo ứng dụng hoặc theo lĩnh vực cụ thể mới có thể tiếp tục mang lại bước nhảy vọt về hiệu năng và giảm chi phí.
Đây chính là lý do NVIDIA phải đi sâu vào từng thư viện, từng lĩnh vực, từng ngành công nghiệp chuyên biệt. Chúng ta là một công ty tính toán tích hợp dọc, và không có lựa chọn nào khác. Chúng ta phải hiểu ứng dụng, hiểu lĩnh vực, hiểu sâu sắc thuật toán, và có thể triển khai nó ở bất kỳ đâu – trung tâm dữ liệu, đám mây, cục bộ, biên hay hệ thống robot.
Đồng thời, NVIDIA giữ vững nguyên tắc mở rộng ngang, sẵn sàng tích hợp công nghệ của mình vào nền tảng của bất kỳ đối tác nào, để toàn thế giới đều được hưởng lợi từ tính toán tăng tốc.
Cấu trúc người tham dự GTC năm nay thể hiện rõ điều này. Trong số người tham dự, ngành tài chính – ngân hàng chiếm tỷ lệ cao nhất – hy vọng những người đến đây là các nhà phát triển chứ không phải các nhà giao dịch. Hệ sinh thái của chúng ta bao quát cả chuỗi cung ứng đầu vào và đầu ra. Dù là doanh nghiệp thành lập cách đây 50, 70 hay 150 năm, năm ngoái đều là năm tốt nhất trong lịch sử của họ. Chúng ta đang đứng ở điểm khởi đầu của một điều gì đó rất, rất lớn.
CUDA-X: Động cơ tăng tốc tính toán cho mọi ngành
NVIDIA đã thâm nhập sâu vào từng ngành chuyên biệt:
- Tự lái: Phạm vi bao phủ rộng, ảnh hưởng sâu rộng
- Tài chính: Đầu tư định lượng đang chuyển từ kỹ thuật đặc trưng thủ công sang học sâu do siêu máy tính điều khiển, bước vào “khoảnh khắc Transformer” của riêng mình
- Y tế: Đang bước vào “khoảnh khắc ChatGPT” của riêng mình, bao gồm khám phá thuốc hỗ trợ AI, Agent AI hỗ trợ chẩn đoán và chăm sóc khách hàng y tế
- Công nghiệp: Đang diễn ra làn sóng xây dựng quy mô lớn nhất thế giới, với các nhà máy AI, nhà máy chip và nhà máy trung tâm dữ liệu lần lượt ra đời
- Giải trí và trò chơi: Nền tảng AI thời gian thực hỗ trợ dịch thuật, phát trực tiếp, tương tác trò chơi và đại lý mua sắm thông minh
- Robot: Nghiên cứu sâu trong hơn một thập kỷ, sở hữu đầy đủ ba kiến trúc máy tính (máy tính huấn luyện, máy tính mô phỏng, máy tính tích hợp trên robot), và tại triển lãm lần này có tổng cộng 110 mẫu robot được trưng bày
- Viễn thông: Ngành công nghiệp trị giá khoảng 2.000 tỷ USD, trạm gốc sẽ tiến hóa từ chức năng truyền thông đơn thuần thành nền tảng cơ sở hạ tầng AI, nền tảng này có tên là Aerial, và chúng ta đang hợp tác sâu rộng với Nokia, T-Mobile và các doanh nghiệp khác
Cốt lõi của tất cả các lĩnh vực trên chính là thư viện CUDA-X của chúng ta – đây là bản chất của NVIDIA như một công ty chuyên về thuật toán. Những thư viện này là tài sản cốt lõi của công ty, giúp nền tảng tính toán phát huy giá trị thực tiễn trong mọi ngành.
Một trong những thư viện quan trọng nhất là cuDNN (Thư viện mạng thần kinh CUDA), đã cách mạng hóa hoàn toàn trí tuệ nhân tạo và khơi mào “vụ nổ AI” hiện đại.
(Phát video trình diễn CUDA-X)
Tất cả những gì quý vị vừa xem đều là mô phỏng – bao gồm các bộ giải dựa trên nguyên lý vật lý, mô hình Agent AI mô phỏng vật lý và mô hình robot AI vật lý. Tất cả đều là mô phỏng, không có hoạt ảnh thủ công hay gắn xương (rigging). Đây chính là năng lực cốt lõi của NVIDIA: kết hợp sâu sắc sự hiểu biết về thuật toán với nền tảng tính toán để mở khóa những cơ hội này.
Doanh nghiệp bản địa AI và kỷ nguyên tính toán mới
Quý vị vừa thấy các tập đoàn khổng lồ định hình xã hội hiện đại như Walmart, L’Oréal, JPMorgan Chase, Roche và Toyota, cũng như một loạt công ty mà quý vị chưa từng nghe đến – chúng ta gọi chúng là “doanh nghiệp bản địa AI”. Danh sách này rất dài, bao gồm OpenAI, Anthropic và nhiều công ty mới nổi phục vụ các ngành chuyên biệt khác nhau.
Trong hai năm qua, ngành này đã bùng nổ một cách đáng kinh ngạc. Vốn đầu tư mạo hiểm đổ vào các công ty khởi nghiệp đạt 150 tỷ USD – mức cao nhất trong lịch sử nhân loại. Quan trọng hơn, quy mô đầu tư từng khoản lần đầu tiên tăng từ vài triệu USD lên vài trăm triệu, thậm chí hàng tỷ USD. Lý do duy nhất là: Đây là lần đầu tiên trong lịch sử, mỗi công ty như vậy đều cần một lượng lớn tài nguyên tính toán và một lượng lớn token. Ngành này đang tạo ra, sinh ra token, hoặc gia tăng giá trị cho token đến từ các tổ chức như Anthropic và OpenAI.
Cũng như cách Cách mạng PC, Cách mạng Internet và Cách mạng điện toán đám mây di động từng nuôi dưỡng một loạt doanh nghiệp mang tính bước ngoặt, cuộc đổi mới nền tảng tính toán lần này cũng sẽ sinh ra một loạt công ty có ảnh hưởng sâu rộng, trở thành lực lượng quan trọng trong thế giới tương lai.
Ba đột phá lịch sử thúc đẩy mọi điều này
Hai năm qua thực sự đã xảy ra điều gì? Ba sự kiện lớn.
Thứ nhất: ChatGPT, mở màn kỷ nguyên AI tạo sinh (cuối năm 2022 – năm 2023)
Nó không chỉ có khả năng nhận thức và hiểu, mà còn tạo ra nội dung độc đáo. Tôi đã trình bày sự hòa trộn giữa AI tạo sinh và đồ họa máy tính. AI tạo sinh đã thay đổi căn bản cách thức tính toán – từ kiểu tra cứu sang kiểu tạo sinh, điều này ảnh hưởng sâu sắc đến kiến trúc máy tính, cách triển khai và toàn bộ ý nghĩa của tính toán.
Thứ hai: AI suy luận (Reasoning AI), tiêu biểu là o1
Khả năng suy luận giúp AI tự phản tư, lập kế hoạch và phân rã vấn đề – chia nhỏ những vấn đề mà nó không thể hiểu trực tiếp thành các bước có thể xử lý. o1 khiến AI tạo sinh trở nên đáng tin cậy, có thể suy luận dựa trên thông tin thực tế. Để làm được điều này, số lượng token trong ngữ cảnh (context) đầu vào và số lượng token đầu ra dùng cho suy luận tăng mạnh, kéo theo mức tăng đáng kể về khối lượng tính toán.
Thứ ba: Claude Code – mô hình Agent đầu tiên
Nó có thể đọc tệp, viết mã, biên dịch, kiểm thử, đánh giá và lặp lại. Claude Code đã cách mạng hóa hoàn toàn kỹ thuật phần mềm – 100% kỹ sư của NVIDIA đều đang sử dụng một hoặc nhiều trong số Claude Code, Codex và Cursor; không một kỹ sư phần mềm nào không sử dụng trợ giúp AI.
Đây là một bước ngoặt hoàn toàn mới – bạn không còn hỏi AI “cái gì, ở đâu, làm thế nào”, mà là bảo nó “tạo ra, thực hiện, xây dựng”, để nó chủ động sử dụng công cụ, đọc tệp, phân rã vấn đề và hành động. AI đã tiến hóa từ nhận thức, đến tạo sinh, đến suy luận, và giờ đây thực sự có thể hoàn thành công việc.
Trong hai năm qua, khối lượng tính toán cho suy luận đã tăng khoảng 10.000 lần, và mức sử dụng tăng khoảng 100 lần. Tôi luôn cho rằng nhu cầu tính toán trong hai năm qua đã tăng 1.000.000 lần – đây là cảm nhận chung của tất cả mọi người, của OpenAI, của Anthropic. Nếu có thêm công suất tính toán, bạn sẽ tạo ra nhiều token hơn, doanh thu sẽ tăng lên, và AI sẽ trở nên thông minh hơn. Bước ngoặt suy luận đã thực sự đến.
Kỷ nguyên cơ sở hạ tầng AI trị giá nghìn tỷ USD
Vào thời điểm này năm ngoái, tôi đã tuyên bố tại đây rằng chúng ta có độ tin cậy cao đối với nhu cầu và đơn đặt hàng cho Blackwell và Rubin cho đến năm 2026, với quy mô khoảng 500 tỷ USD. Hôm nay, một năm sau GTC, tôi đứng đây để thông báo: Nhìn về năm 2027, con số tôi thấy ít nhất là 1.000 tỷ USD. Và tôi chắc chắn rằng nhu cầu tính toán thực tế sẽ còn vượt xa con số này.
2025: Năm suy luận của NVIDIA
Năm 2025 là “Năm suy luận” của NVIDIA. Chúng ta mong muốn đảm bảo rằng, ngoài huấn luyện và huấn luyện lại, chúng ta cũng duy trì sự xuất sắc ở mọi giai đoạn trong vòng đời AI, để cơ sở hạ tầng đã đầu tư có thể vận hành hiệu quả liên tục, và tuổi thọ sử dụng càng dài thì chi phí đơn vị càng thấp.
Đồng thời, Anthropic và Meta chính thức gia nhập nền tảng NVIDIA, đại diện cho một phần ba nhu cầu công suất tính toán AI toàn cầu. Các mô hình mã nguồn mở đã tiến gần đến mức tiên tiến nhất và hiện diện ở khắp mọi nơi.
NVIDIA hiện là nền tảng duy nhất trên thế giới có thể chạy mọi mô hình AI – ngôn ngữ, sinh học, đồ họa máy tính, thị giác máy tính, giọng nói, protein & hóa học, robot… – bất kể ở biên hay trên đám mây, bất kể ngôn ngữ nào. Kiến trúc NVIDIA mang tính phổ quát cho mọi tình huống này, giúp chúng ta trở thành nền tảng có chi phí thấp nhất và độ tin cậy cao nhất.
Hiện tại, 60% doanh thu của NVIDIA đến từ năm nhà cung cấp dịch vụ đám mây quy mô siêu lớn hàng đầu toàn cầu, còn 40% còn lại phân bố rộng khắp các lĩnh vực như đám mây khu vực, đám mây chủ quyền, doanh nghiệp, công nghiệp, robot và điện toán biên. Độ bao phủ rộng của AI chính là sức mạnh chống chịu của nó – đây rõ ràng là một cuộc đổi mới nền tảng tính toán hoàn toàn mới.
Grace Blackwell và NVLink 72: Cách mạng kiến trúc táo bạo
Khi kiến trúc Hopper vẫn đang ở đỉnh cao, chúng ta đã quyết định tái kiến trúc toàn bộ hệ thống, mở rộng NVLink từ 8 kênh lên NVLink 72, đồng thời phân tích và tái thiết toàn bộ hệ thống tính toán. Grace Blackwell NVLink 72 là một cuộc đặt cược công nghệ khổng lồ, không dễ dàng với bất kỳ đối tác nào – xin chân thành cảm ơn tất cả mọi người.
Đồng thời, chúng ta ra mắt NVFP4 – không chỉ là FP4 thông thường, mà là một loại nhân tensor và đơn vị tính toán hoàn toàn mới. Chúng ta đã chứng minh rằng NVFP4 có thể thực hiện suy luận mà không mất độ chính xác, đồng thời mang lại hiệu năng và hiệu suất năng lượng vượt trội, và cũng áp dụng hiệu quả cho huấn luyện. Ngoài ra, một loạt thuật toán mới như Dynamo và TensorRT-LLM lần lượt ra đời, và chúng ta thậm chí đã đầu tư hàng tỷ đô la để xây dựng một siêu máy tính chuyên tối ưu hóa nhân – tên gọi là DGX Cloud.
Kết quả cho thấy hiệu năng suy luận của chúng ta rất ấn tượng. Dữ liệu từ Semi Analysis – đây là bài đánh giá hiệu năng suy luận AI toàn diện nhất cho đến nay – cho thấy NVIDIA dẫn đầu vượt trội trên cả hai chiều đo: số token trên mỗi watt và chi phí mỗi token. Trong khi Định luật Moore có thể mang lại mức tăng hiệu năng khoảng 1,5 lần cho H200, thì chúng ta đã đạt được 35 lần. Dylan Patel của Semi Analysis thậm chí còn nhận định: “Ông Huang đã nói khiêm tốn – thực tế là 50 lần.” Ông ấy nói đúng.
Tôi xin trích dẫn lời ông ấy: “Jensen sandbagged.”
Chi phí mỗi token của NVIDIA là thấp nhất thế giới, hiện chưa có đối thủ nào sánh kịp. Nguyên nhân nằm ở thiết kế đồng bộ cực độ (Extreme Co-design).
Ví dụ như Fireworks: trước khi NVIDIA cập nhật toàn bộ phần mềm và thuật toán, tốc độ token trung bình của họ khoảng 700 token/giây; sau khi cập nhật, con số này gần đạt 5.000 token/giây, tăng khoảng 7 lần. Đây chính là sức mạnh của thiết kế đồng bộ cực độ.
Nhà máy AI: Từ trung tâm dữ liệu đến nhà máy token
Trung tâm dữ liệu trước đây là nơi lưu trữ tập tin, giờ đây nó là nhà máy sản xuất token. Mỗi nhà cung cấp dịch vụ đám mây, mỗi công ty AI trong tương lai sẽ lấy “hiệu suất nhà máy token” làm chỉ số kinh doanh cốt lõi.
Đây là luận điểm cốt lõi của tôi:
- Trục dọc: Thông lượng (Throughput) – số token được tạo ra mỗi giây với công suất cố định
- Trục ngang: Tốc độ tương tác (Token Speed) – tốc độ phản hồi cho mỗi lần suy luận; tốc độ càng cao, mô hình có thể sử dụng càng lớn, ngữ cảnh càng dài, AI càng thông minh
Token là mặt hàng cơ bản mới; khi chín muồi, nó sẽ được định giá theo từng cấp độ:
- Cấp miễn phí (thông lượng cao, tốc độ thấp)
- Cấp trung bình (~3 USD/một triệu token)
- Cấp cao (~6 USD/một triệu token)
- Cấp tốc độ cao (~45 USD/một triệu token)
- Cấp siêu tốc độ cao (~150 USD/một triệu token)
So với Hopper, Grace Blackwell nâng thông lượng ở cấp giá trị cao nhất lên 35 lần và giới thiệu thêm một cấp độ mới. Với ước tính đơn giản, nếu phân bổ 25% công suất cho từng cấp độ, Grace Blackwell có thể tạo ra doanh thu cao gấp 5 lần so với Hopper.
Vera Rubin: Hệ thống tính toán AI thế hệ tiếp theo
(Phát video giới thiệu hệ thống Vera Rubin)
Vera Rubin là một hệ thống hoàn chỉnh, được tối ưu hóa từ đầu đến cuối, được thiết kế đặc biệt cho khối lượng công việc Agent (Agentic):
- Lõi tính toán mô hình ngôn ngữ lớn: cụm GPU NVLink 72, xử lý giai đoạn “điền trước (Prefill)” và bộ nhớ đệm KV (KV Cache)
- CPU Vera hoàn toàn mới: được thiết kế đặc biệt cho hiệu năng đơn luồng cực cao, sử dụng bộ nhớ LPDDR5, vừa hiệu quả về năng lượng vừa phù hợp với việc gọi công cụ của Agent AI – đây là CPU trung tâm dữ liệu duy nhất trên thế giới sử dụng LPDDR5
- Hệ thống lưu trữ: BlueField 4 + CX 9, nền tảng lưu trữ mới dành riêng cho kỷ nguyên AI, toàn bộ ngành công nghiệp lưu trữ toàn cầu đã 100% tham gia
- Bộ chuyển mạch CPO Spectrum X: bộ chuyển mạch Ethernet quang tích hợp (CPO) đầu tiên trên thế giới, đã sản xuất hàng loạt
- Giá đỡ Kyber: hệ thống giá đỡ hoàn toàn mới, hỗ trợ 144 GPU tạo thành một miền NVLink duy nhất, với tính toán phía trước và hoán đổi NVLink phía sau, hình thành một siêu máy tính khổng lồ
- Rubin Ultra: nút siêu máy tính thế hệ tiếp theo, thiết kế cắm thẳng đứng, kết hợp với giá đỡ Kyber để hỗ trợ liên kết NVLink quy mô lớn hơn
Vera Rubin được làm mát hoàn toàn bằng chất lỏng, thời gian lắp đặt giảm từ hai ngày xuống còn hai giờ, sử dụng nước làm mát ở nhiệt độ 45°C để giảm đáng kể áp lực làm mát cho trung tâm dữ liệu. Lần này, ông Satya (Nadella) đã đăng bài xác nhận rằng cụm máy chủ Vera Rubin đầu tiên đã đi vào hoạt động trên Microsoft Azure – tôi vô cùng phấn khích về điều này.
Tích hợp Groq: Mở rộng cực hạn hiệu năng suy luận
Chúng ta đã mua lại đội ngũ Groq và được cấp giấy phép công nghệ của họ. Groq là một bộ xử lý luồng dữ liệu xác định (Deterministic Dataflow Processor), sử dụng biên dịch tĩnh và lập lịch trình biên dịch, sở hữu lượng lớn SRAM, được tối ưu hóa đặc biệt cho một tác vụ suy luận duy nhất, với độ trễ cực thấp và tốc độ tạo token cực cao.
Tuy nhiên, dung lượng bộ nhớ của Groq có hạn (500 MB SRAM trên chip), không thể độc lập chứa tham số mô hình lớn và bộ nhớ đệm KV, nên bị giới hạn trong các ứng dụng quy mô lớn.
Giải pháp chính là Dynamo – một phần mềm lập lịch suy luận. Chúng ta sử dụng Dynamo để phân tách đường ống suy luận (Disaggregate):
- **Giai đoạn “điền trước (Prefill)” và giải mã cơ chế chú ý (Decode Attention)** được thực hiện trên Vera Rubin (yêu cầu khối lượng tính toán lớn và dung lượng lưu trữ KV Cache)
- **Giai đoạn giải mã mạng feed-forward (Feed-Forward Network Decode)** – tức là phần tạo token – được thực hiện trên Groq (yêu cầu băng thông cực cao và độ trễ cực thấp)
Hai thành phần này được ghép nối chặt chẽ thông qua Ethernet, và nhờ chế độ đặc biệt, độ trễ được giảm khoảng một nửa. Dưới sự lập lịch thống nhất của Dynamo – “hệ điều hành của Nhà máy AI” – hiệu năng tổng thể tăng 35 lần và mở ra một cấp độ hiệu năng suy luận hoàn toàn mới mà NVLink 72 trước đây không thể chạm tới.
Gợi ý kết hợp Groq và Vera Rubin:
- Nếu khối lượng công việc chủ yếu yêu cầu thông lượng cao, hãy sử dụng 100% Vera Rubin
- Nếu khối lượng công việc lớn là tạo token có giá trị cao (ví dụ: tạo mã), hãy đưa Groq vào, với tỷ lệ đề xuất khoảng 25% Groq + 75% Vera Rubin
Chip Groq LP30 do Samsung sản xuất, hiện đã bắt đầu sản xuất hàng loạt và dự kiến xuất xưởng vào quý III. Cảm ơn Samsung vì sự phối hợp toàn lực.
Bước nhảy vọt lịch sử về hiệu năng suy luận
Định lượng tiến bộ công nghệ trước đây: Trong vòng hai năm, tốc độ tạo token của một nhà máy AI 1 gigawatt sẽ tăng từ 22 triệu token/giây lên 700 triệu token/giây – tăng 350 lần. Đây chính là sức mạnh của thiết kế đồng bộ cực độ.
Lộ trình công nghệ
- Blackwell: Đang sản xuất, hệ thống giá đỡ chuẩn Oberon, mở rộng bằng cáp đồng lên NVLink 72, tùy chọn mở rộng quang học lên NVLink 576
- Vera Rubin (hiện tại): Giá đỡ Kyber, NVLink 144 (cáp đồng); giá đỡ Oberon, NVLink 72 + quang học, mở rộng lên NVLink 576; Spectrum 6 – bộ chuyển mạch CPO đầu tiên trên thế giới
- Vera Rubin Ultra (sắp ra mắt): GPU Rubin Ultra thế hệ mới, chip LP35 (lần đầu tích hợp NVFP4), nâng cao hiệu năng thêm nhiều lần
- Feynman (thế hệ tiếp theo): GPU hoàn toàn mới, chip LP40 (do NVIDIA và đội ngũ Groq cùng phát triển, tích hợp NVFP4); CPU hoàn toàn mới – Rosa (Rosalyn); BlueField 5; CX 10; giá đỡ Kyber hỗ trợ cả hai phương thức mở rộng: cáp đồng và CPO
Lộ trình rõ ràng: Ba hướng mở rộng song song – mở rộng bằng cáp đồng, mở rộng quang học (Scale-Up), mở rộng quang học (Scale-Out) – và chúng ta cần tất cả các đối tác tiếp tục mở rộng năng lực sản xuất cáp đồng, sợi quang và CPO.
NVIDIA DSX: Nền tảng song sinh số cho Nhà máy AI
Nhà máy AI ngày càng phức tạp, nhưng các nhà cung cấp công nghệ tạo nên nó trước đây chưa từng hợp tác với nhau trong giai đoạn thiết kế – họ chỉ “gặp nhau” tại trung tâm dữ liệu – điều này rõ ràng là chưa đủ.
Vì vậy, chúng ta đã xây dựng Omniverse và nền tảng NVIDIA DSX dựa trên nó – một nền tảng cho phép tất cả các đối tác cùng thiết kế và vận hành nhà máy AI quy mô gigawatt trong thế giới ảo. DSX cung cấp:
- Hệ thống mô phỏng cơ khí, nhiệt học, điện và mạng ở cấp độ giá đỡ
- Kết nối với lưới điện để thực hiện điều phối tiết kiệm năng lượng phối hợp
- Tối ưu hóa động công suất và làm mát dựa trên Max-Q trong trung tâm dữ liệu
Ước tính thận trọng, hệ thống này có thể nâng cao hiệu suất sử dụng năng lượng khoảng 2 lần – một mức lợi ích rất đáng kể ở quy mô mà chúng ta đang nói đến. Omniverse bắt đầu từ “Trái Đất số”, sẽ hỗ trợ các bản sao số ở mọi quy mô, và chúng ta đang cùng các đối tác toàn cầu xây dựng siêu máy tính lớn nhất trong lịch sử nhân loại.
Ngoài ra, NVIDIA đang tiến vào không gian. Chip Thor đã được chứng nhận chịu bức xạ và hiện đang vận hành trên vệ tinh. Chúng ta đang hợp tác với các đối tác để phát triển Vera Rubin Space-1, nhằm xây dựng trung tâm dữ liệu trên vũ trụ. Trên không gian, chỉ có thể tản nhiệt bằng bức xạ, và quản lý nhiệt là thách thức cốt lõi – chúng ta đang tập hợp các kỹ sư hàng đầu để giải quyết vấn đề này.
OpenClaw: Hệ điều hành cho kỷ nguyên Agent
Peter Steinberger đã phát triển một phần mềm có tên OpenClaw. Đây là dự án mã nguồn mở phổ biến nhất trong lịch sử nhân loại, vượt qua thành tựu mà Linux đạt được trong 30 năm chỉ trong vài tuần.
OpenClaw về bản chất là một hệ thống Agent, có khả năng:
- Quản lý tài nguyên, truy cập công cụ, hệ thống tệp và mô hình ngôn ngữ lớn
- Thực hiện lập lịch và nhiệm vụ định kỳ
- Phân rã vấn đề từng bước và gọi các Agent con
- Hỗ trợ đầu vào/đầu ra ở mọi dạng (giọng nói, video, văn bản, email…)
Nếu mô tả bằng cú pháp hệ điều hành, thì nó thực sự là một hệ điều hành – hệ điều hành cho máy tính Agent. Windows đã làm cho máy tính cá nhân trở nên khả thi, thì OpenClaw sẽ làm cho Agent cá nhân trở nên khả thi.
Mọi doanh nghiệp đều cần xây dựng chiến lược OpenClaw riêng, giống như chúng ta đều cần chiến lược Linux, chiến lược HTML, chiến lược Kubernetes.
Tái cấu trúc toàn diện CNTT doanh nghiệp
CNTT doanh nghiệp trước OpenClaw: dữ liệu và tập tin đi vào hệ thống, chảy qua các công cụ và quy trình làm việc, cuối cùng trở thành công cụ phục vụ con người. Các công ty phần mềm tạo ra công cụ, các nhà tích hợp hệ thống (GSI) và công ty tư vấn giúp doanh nghiệp sử dụng các công cụ này.
CNTT doanh nghiệp sau OpenClaw: Mọi công ty SaaS đều sẽ trở thành công ty AaaS (Agentic as a Service – Agent như một dịch vụ) – không chỉ cung cấp công cụ, mà còn cung cấp các Agent AI chuyên sâu trong lĩnh vực cụ thể.
Tuy nhiên, ở đây tồn tại một thách thức then chốt: Agent nội bộ của doanh nghiệp có thể truy cập dữ liệu nhạy cảm, thực thi mã và giao tiếp với bên ngoài. Điều này bắt buộc phải được kiểm soát nghiêm ngặt trong môi trường doanh nghiệp.
Vì vậy, chúng ta đã hợp tác với Peter để tích hợp tính bảo mật vào phiên bản doanh nghiệp, và ra mắt:
- NeMo Claw (thiết kế tham khảo): khung tham khảo doanh nghiệp dựa trên OpenClaw, tích hợp đầy đủ bộ công cụ AI Agent của NVIDIA
- Open Shield (lớp bảo mật): đã được tích hợp vào OpenClaw, cung cấp động cơ chính sách, hàng rào mạng và bộ định tuyến bảo mật để đảm bảo an toàn dữ liệu doanh nghiệp
- NeMo Cloud: có thể tải về và tích hợp với động cơ chính
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News













