
Phỏng vấn sâu với Jensen Huang: “Kinh tế token” bùng nổ, mức định giá 10 nghìn tỷ USD của NVIDIA là điều tất yếu
Tuyển chọn TechFlowTuyển chọn TechFlow

Phỏng vấn sâu với Jensen Huang: “Kinh tế token” bùng nổ, mức định giá 10 nghìn tỷ USD của NVIDIA là điều tất yếu
Máy tính đã được nâng cấp từ một «kho lưu trữ» không sinh lời thành một nhà máy tạo thu nhập sản xuất ra các «sản phẩm Token».
Tác giả: Long Duyệt
Nguồn: Wall Street Insights
Gần đây, ông Jen-Hsun Huang – CEO của NVIDIA – đã xuất hiện trong podcast công nghệ nổi tiếng Lex Fridman Podcast để thảo luận sâu hơn trong hơn hai giờ đồng hồ về các chủ đề trọng tâm như định luật mở rộng AI (Scaling Laws), giới hạn về năng lực tính toán và điện năng, nhà máy AI, triển vọng tương lai của công ty cũng như tác động của AI đối với xã hội loài người.
Token đã trở thành hàng hóa mới: Tỷ trọng chi tiêu toàn cầu cho tính toán sẽ tăng gấp 100 lần
Một quan điểm cốt lõi của ông Huang là bản chất của tính toán đã trải qua một bước nhảy vọt mang tính cách mạng — từ hệ thống «lưu trữ» trước đây, nơi con người ghi âm sẵn nội dung và máy tính chỉ đảm nhiệm chức năng truy xuất, chuyển sang hệ thống «tạo sinh» có khả năng nhận thức ngữ cảnh.
Quan trọng hơn, vai trò của máy tính trong nền kinh tế thực tế đã thay đổi. Máy tính trước đây là hệ thống truy xuất, chủ yếu phục vụ lưu trữ tài liệu. Ông Huang ví von nó như một «kho hàng», trong khi bản thân kho hàng lại không trực tiếp tạo ra lợi nhuận cao.
Còn ngày nay, máy tính AI đã trở thành một «nhà máy», gắn liền trực tiếp với việc tạo ra doanh thu cho doanh nghiệp. Ông cho rằng các «nhà máy gia công AI» đang sản xuất một loại hàng hóa mang tên «Token», và loại hàng hóa này đã được phân chia chi tiết và định giá rõ ràng.
«Chúng ta không chỉ chứng kiến những nhà máy gia công này sản xuất ra các mặt hàng mà người tiêu dùng mong muốn, mà còn thấy Token do họ tạo ra mang giá trị rất lớn đối với nhiều nhóm đối tượng khác nhau, thậm chí bắt đầu xuất hiện phân cấp giống như iPhone: bạn có Token miễn phí, Token cao cấp và cả các mức trung gian khác», ông Huang nói. «Có người sẵn sàng trả 1.000 USD cho mỗi triệu Token — ý tưởng này sẽ sớm trở thành hiện thực, vấn đề không phải là «liệu nó có xảy ra hay không», mà là «khi nào nó sẽ xảy ra»».
Dựa trên mô hình «nhà máy Token» này, thiết bị tính toán đã hoàn tất bước chuyển mình từ trung tâm chi phí sang trung tâm lợi nhuận.
Ông Huang khẳng định chắc chắn xu hướng vĩ mô này: «Nếu năng suất tăng mạnh, GDP toàn cầu sẽ tăng trưởng nhanh hơn. Tôi hoàn toàn tin tưởng rằng tỷ trọng chi tiêu toàn cầu cho tính toán sẽ tăng lên gấp 100 lần so với hiện tại».
Liệu NVIDIA có đạt vốn hóa 10 nghìn tỷ USD? Ông Huang: Tăng trưởng là điều tất yếu
Dựa trên lý thuyết kinh tế học về «Token», ông Huang đã trả lời câu hỏi về khả năng NVIDIA tiến tới đỉnh cao vốn hóa mới – 10 nghìn tỷ USD.
Ông nói: «Con số 10 nghìn tỷ chỉ là một con số». Tuy nhiên, ông khẳng định rõ ràng: «Sự tăng trưởng của NVIDIA gần như chắc chắn sẽ xảy ra – theo tôi, đó là điều tất yếu». Việc đạt doanh thu 3 nghìn tỷ USD trong tương lai hoàn toàn không phải là chuyện bất khả thi.
Giải pháp cho giới hạn điện năng: «Tận dụng điện dư thừa» và xây dựng trung tâm dữ liệu có khả năng «giảm tải uyển chuyển»
Về giới hạn trong quá trình mở rộng AI, ông Huang thẳng thắn: «Điện năng là một mối lo ngại, nhưng không phải là mối lo duy nhất». Ông đưa ra hai hướng tiếp cận song song: thứ nhất là tiếp tục nâng cao hiệu suất sử dụng năng lượng; thứ hai là tìm cách gia tăng nguồn cung điện.
Về hiệu suất năng lượng, ông nhấn mạnh chỉ số then chốt là «số lượng Token mỗi giây trên mỗi watt», đồng thời cho biết khả năng này được cải thiện nhờ «thiết kế đồng bộ tối ưu»: «Giá máy tính của chúng tôi đang tăng, nhưng hiệu suất tạo Token tăng nhanh hơn, nên chi phí mỗi Token đang giảm… giảm một bậc số học mỗi năm».
Về «cách gia tăng nguồn điện», ông đưa ra một giải pháp cụ thể hơn: lưới điện được thiết kế theo mức đỉnh cực đoan, trong đa số thời gian đều có điện dư thừa. Ông Huang cho biết hiện nay lưới điện được thiết kế dựa trên mức tiêu thụ cao nhất trong điều kiện thời tiết khắc nghiệt nhất (cộng thêm một khoảng an toàn). «99% thời gian, lưới điện của chúng ta không đạt đến mức xấu nhất». Phần lớn thời gian, lưới điện chỉ vận hành ở mức khoảng 60% công suất đỉnh.
Để tận dụng phần điện dư thừa này, ông cho rằng cần thay đổi hợp đồng cung cấp điện nghiêm ngặt giữa các nhà cung cấp dịch vụ đám mây và công ty điện lực, từ bỏ sự theo đuổi mù quáng mức độ khả dụng tuyệt đối «sáu chín» (99,9999%).
«Chúng ta cần xây dựng các trung tâm dữ liệu có khả năng «giảm tải uyển chuyển» (gracefully degrade)», ông Huang giải thích. «Khi lưới điện thông báo «chúng tôi cần giảm công suất cung cấp cho quý vị xuống 80%», trung tâm dữ liệu có thể chuyển tải công việc trọng yếu sang nơi khác hoặc giảm tốc độ xử lý. Chất lượng dịch vụ tính toán sẽ suy giảm nhẹ, nhưng lượng năng lượng tiêu thụ sẽ giảm đáng kể».
Chuỗi cung ứng và bộ nhớ: Hợp tác với 200 nhà cung cấp, triển khai HBM từ ba năm trước
Trước những lo ngại của thị trường về khả năng ASML gặp khó khăn với máy in thạch bản EUV, TSMC với công nghệ đóng gói tiên tiến CoWoS và các nhà sản xuất bộ nhớ như SK Hynix trong việc đáp ứng nhu cầu sản xuất AI, ông Huang cho biết ông hoàn toàn không lo lắng. Ông nói: «Tôi nói rõ với họ tôi cần gì, họ trả lời tôi họ sẽ làm gì, và tôi tin tưởng họ».
Về kỹ thuật hệ thống, NVIDIA đang thay đổi sâu sắc mô hình sản xuất cơ sở hạ tầng. Ông Huang tiết lộ, chỉ riêng một tủ rack Vera Rubin đã chứa từ 1,3 đến 1,5 triệu linh kiện, tập hợp công nghệ từ 200 nhà cung cấp khác nhau.
Để đáp ứng mật độ kết nối cực cao (ví dụ như NVLink-72), phương thức lắp ráp từng linh kiện rời rạc tại trung tâm dữ liệu – vốn phổ biến trước đây – đã hoàn toàn lỗi thời. NVIDIA đã đẩy quy trình «lắp ráp siêu máy tính» tại trung tâm dữ liệu lên thành «sản xuất siêu máy tính» ngay trong chuỗi cung ứng. Hiện nay, các tủ rack phải được lắp ráp hoàn chỉnh trong chuỗi cung ứng và xuất xưởng nguyên khối với trọng lượng từ hai đến ba tấn mỗi lần. Điều này nghĩa là ngay trong giai đoạn kiểm tra trước khi xuất xưởng, chuỗi cung ứng phải tự sở hữu nguồn dự trữ điện khổng lồ ở mức gigawatt (GW).
Với lĩnh vực bộ nhớ – nơi dễ bị «nghẽn cổ chai» nhất, ông Huang tiết lộ rằng khoảng ba năm trước, việc sử dụng HBM (Bộ nhớ băng thông cao) gần như rất thấp, chỉ xuất hiện ở một vài siêu máy tính. Tuy nhiên, lúc đó ông đã thuyết phục thành công các CEO của nhiều hãng sản xuất bộ nhớ lớn, khiến họ tin tưởng HBM sẽ trở thành bộ nhớ chủ đạo trong các trung tâm dữ liệu tương lai và thúc đẩy chuỗi cung ứng đầu tư mở rộng sản xuất.
Ngoài ra, ông còn phá vỡ quy chuẩn truyền thống, thúc đẩy các nhà cung cấp cải tiến bộ nhớ tiêu thụ điện thấp dành riêng cho điện thoại di động (LPDDR) để áp dụng vào lĩnh vực siêu máy tính.
«Suy luận là tư duy»: Từ huấn luyện và kiểm thử mở rộng sang «mở rộng theo tác nhân»
Về định luật mở rộng AI (Scaling Laws), ông Huang chia quá trình mở rộng AI thành bốn «luật mở rộng»: tiền huấn luyện (pre-training), hậu huấn luyện (post-training), mở rộng thời điểm kiểm thử (test-time scaling) và mở rộng theo tác nhân (agentic scaling).
Ông nhìn lại mối lo «khan hiếm dữ liệu» bằng nhận định: «Chúng ta sẽ tiếp tục mở rộng dữ liệu huấn luyện… phần lớn sẽ là dữ liệu tổng hợp». Đồng thời ông khẳng định: «Huấn luyện giờ đây không còn bị giới hạn bởi dữ liệu, mà dữ liệu sẽ bị giới hạn bởi năng lực tính toán».
Về cường độ tính toán cho suy luận, ông nói trực tiếp hơn: «Suy luận chính là tư duy, và tôi cho rằng tư duy rất khó… Làm sao có thể là việc nhẹ về mặt tính toán được?». Theo ông, mở rộng thời điểm kiểm thử bao gồm «suy luận, lập kế hoạch, tìm kiếm», từ đó thúc đẩy nhu cầu về năng lực tính toán cho suy luận tăng lên.
Hào lũy bảo vệ sâu nhất, bài toán điện năng trong không gian và đánh giá Elon Musk
Khi được hỏi về hào lũy bảo vệ lớn nhất của NVIDIA, ông Huang xác định rõ ràng đó là lượng cài đặt khổng lồ và hệ sinh thái niềm tin vững chắc xung quanh CUDA.
«CUDA không phải là thành quả của ba người, mà là kết quả do 43.000 nhân viên cùng thúc đẩy», ông Huang nhấn mạnh. Hào lũy này được xây dựng trên nền tảng niềm tin bền bỉ của hàng triệu nhà phát triển vào việc NVIDIA liên tục tối ưu hóa phần mềm nền tảng, cộng thêm việc tích hợp ngang dọc sâu rộng vào mọi nhà cung cấp dịch vụ đám mây, OEM và thiết bị biên trên toàn cầu.
Trong việc khám phá cơ sở hạ tầng tính toán tiên phong, liên quan đến đề xuất đưa trung tâm dữ liệu lên không gian nhằm giải quyết bài toán phân bổ năng lượng, ông Huang xác nhận GPU của NVIDIA đã có mặt trong không gian, nhưng hiện chủ yếu được sử dụng để lọc ảnh độ phân giải cao từ vệ tinh ngay tại đầu cuối.
Về việc xây dựng trung tâm dữ liệu quy mô lớn trong không gian, ông Huang thẳng thắn chỉ ra điểm đau vật lý cốt lõi: «Trong không gian không có dẫn nhiệt, không có đối lưu, chỉ có thể tản nhiệt bằng bức xạ. Dù vùng cực có nguồn năng lượng mặt trời 24/7, nhưng chúng ta cần những bộ tản nhiệt khổng lồ». Vì vậy, giải pháp thực tế nhất hiện nay vẫn là khai thác triệt để lượng điện dư thừa trên Trái Đất.
Hơn nữa, mọi bản đồ tính toán đều đòi hỏi khả năng thực thi kỹ thuật vượt trội. Đối với việc xAI của Elon Musk chỉ mất bốn tháng để xây dựng trung tâm siêu máy tính Colossus với 100.000 GPU, ông Huang đã đưa ra đánh giá rất cao về mặt cơ sở hạ tầng thương mại.
Ông quy kết thành công của Elon Musk vào tư duy nguyên lý đầu tiên (first-principles thinking) và chủ nghĩa tối giản. «Ông ấy đặt câu hỏi với mọi thứ: Điều này có thực sự cần thiết không? Nhất thiết phải làm theo cách này sao? Có cần mất lâu đến thế không?»
Ông Huang nhận xét: «Elon có chuyên môn sâu sắc trong nhiều lĩnh vực khác nhau, đồng thời cũng là một nhà tư duy hệ thống xuất sắc». Ông tiếp tục đánh giá: «Ông ấy có khả năng đặt câu hỏi với mọi thứ cho đến khi rút gọn mọi thứ xuống mức tối thiểu không thể giảm thêm… Ông ấy đích thân xuất hiện ở tuyến đầu của mọi hành động. Khi bạn hành động với cảm giác khẩn trương mãnh liệt như vậy, bạn sẽ thúc đẩy tất cả những người khác cũng hành động với cảm giác khẩn trương tương tự».
Tương lai chỉ tuyển người biết dùng AI? «Số lượng lập trình viên toàn cầu sẽ tăng từ 30 triệu lên 1 tỷ»
Đối với nỗi lo âu của người lao động toàn cầu trước công nghệ AI, ông Huang đưa ra một tiêu chuẩn rất thực tế. Ông khẳng định thẳng thắn rằng nếu hôm nay phải chọn giữa hai cử nhân mới ra trường, ông chắc chắn sẽ tuyển người «chuyên gia AI», chứ không phải người hoàn toàn mù mờ về AI.
Ông Huang nhấn mạnh tiêu chuẩn này không chỉ áp dụng cho vị trí kỹ thuật, mà bao quát cả kế toán, luật sư, nhân viên bán hàng, quản lý chuỗi cung ứng, dược sĩ, thậm chí cả thợ điện và thợ mộc. Theo ông, không có ngoại lệ nào ở bất kỳ ngành nghề hay cấp bậc nào — người biết khai thác AI sẽ thể hiện giá trị giao hàng cao hơn.
Ông cũng làm rõ ranh giới «bị thay thế»: Nếu công việc của một người về bản chất chỉ là một loạt «nhiệm vụ» (Task), tức là bản thân nhiệm vụ chính là toàn bộ giá trị họ cống hiến, thì việc bị AI làm đảo lộn gần như là điều tất yếu. Nhưng nếu công việc của họ mang một «mục đích» (Purpose) sâu sắc hơn, họ hoàn toàn có thể sử dụng AI để tự động hóa những việc thường nhật, từ đó chuyển mình từ một «người thực thi» đơn thuần thành một «người đổi mới» trong lĩnh vực của mình.
Đối với những người chưa bắt đầu, ông Huang đưa ra lời khuyên «làm dịu» (disarming) nhất: «Nếu bạn chưa biết cách sử dụng AI, bạn hoàn toàn có thể hỏi AI: «Làm thế nào để tôi sử dụng bạn?». Nó sẽ hướng dẫn bạn từng bước một từ đầu». Ông tin rằng rào cản khởi đầu hiện nay đã giảm xuống mức bằng không, và trở ngại duy nhất chỉ nằm ở việc bạn có quyết định bắt đầu hay không. Bởi trong kỷ nguyên này, chi phí chờ đợi đang ngày càng gia tăng cùng với tốc độ tiến hóa của AI.
Với các lập trình viên, ông Huang đưa ra một quan điểm gây chấn động: «Số lượng kỹ sư phần mềm của NVIDIA sẽ tăng lên, chứ không giảm đi… Nếu định nghĩa lập trình là «mô tả đặc tả để máy tính xây dựng», thì số người có khả năng làm điều này vừa mới tăng từ 30 triệu lên có thể đạt 1 tỷ. Trong tương lai, mỗi người thợ mộc đều sẽ là một lập trình viên, mỗi người thợ ống nước sẽ vì thế mà phấn khích tột độ».
Khi bàn về thời biểu AGI (Trí tuệ nhân tạo tổng quát), nếu định nghĩa AGI là một hệ thống có khả năng tự phát triển ứng dụng và tạo ra lợi nhuận, ông Huang khẳng định: «Theo tôi, điều đó đã xảy ra ngay bây giờ. Chúng ta đã đạt được AGI». Ông hình dung một dịch vụ web hoặc ứng dụng ảnh hưởng số do AI tự tạo ra đột nhiên thu hút hàng tỷ người dùng và thu về lợi nhuận — điều này hiện nay đã hoàn toàn khả thi về mặt công nghệ.
Toàn văn cuộc phỏng vấn như sau:
Bản ghi cuộc phỏng vấn ông Jen-Hsun Huang – NVIDIA: Công ty trị giá 4 nghìn tỷ USD và cuộc Cách mạng AI | Podcast Lex Fridman số 494
Giới thiệu
Lex Fridman
(00:00:00) Tiếp theo là cuộc đối thoại với ông Jen-Hsun Huang – Giám đốc điều hành (CEO) của NVIDIA. NVIDIA là một trong những công ty quan trọng và có ảnh hưởng nhất trong lịch sử nền văn minh nhân loại, là động cơ thúc đẩy cuộc Cách mạng AI. Thành công vĩ đại của NVIDIA phần lớn có thể quy trực tiếp về sức mạnh ý chí thuần túy của ông Huang, cũng như những quyết định và lựa chọn chiến lược xuất sắc của ông với tư cách là một nhà lãnh đạo, kỹ sư và nhà đổi mới. Đây là podcast Lex Fridman. Thân ái chào mừng ông Jen-Hsun Huang!
Thiết kế đồng bộ tối ưu và kỹ thuật tủ rack
Lex Fridman
(00:00:33) Ông đã đưa NVIDIA bước vào kỷ nguyên AI mới, chuyển trọng tâm từ thiết kế ở cấp chip sang thiết kế ở cấp tủ rack.
Lex Fridman
(00:00:42) Ta có thể công bằng khi nói rằng, trong một thời gian dài, lợi thế cạnh tranh của NVIDIA nằm ở việc xây dựng GPU hoàn hảo nhất có thể. Các ông vẫn đang làm điều đó, nhưng giờ đây đã mở rộng sang thiết kế đồng bộ tối ưu cho GPU, CPU, bộ nhớ, mạng, lưu trữ, nguồn điện, làm mát, phần mềm, bản thân tủ rack, «tủ tính toán» (Pod) mà các ông vừa công bố, và thậm chí là toàn bộ trung tâm dữ liệu. Hãy cùng bàn về thiết kế đồng bộ tối ưu. Khó khăn nhất khi đồng bộ thiết kế một hệ thống có quá nhiều thành phần phức tạp và biến số thiết kế là gì?
Jen-Hsun Huang
(00:01:11) Cảm ơn câu hỏi của anh. Thiết kế đồng bộ tối ưu là điều bắt buộc vì hiện nay các vấn đề không còn có thể được chứa gọn trong một máy tính đơn lẻ và chỉ được tăng tốc bởi một GPU duy nhất. Bạn đang cố gắng giải quyết vấn đề sao cho tốc độ tính toán tăng nhanh hơn số lượng máy tính bạn tăng thêm. Giả sử bạn tăng thêm 10.000 máy tính, nhưng lại mong muốn tốc độ tăng lên một triệu lần. Ngay lập tức, bạn phải trích xuất thuật toán, phân chia và tái cấu trúc thuật toán, phân mảnh luồng xử lý, phân mảnh dữ liệu, phân mảnh mô hình. Khi bạn xử lý vấn đề theo cách phân tán như vậy, không chỉ là mở rộng quy mô vấn đề, mà là phân tán vấn đề, do đó mọi khâu đều trở thành điểm nghẽn.
Jen-Hsun Huang
(00:02:03) Đây chính là vấn đề của Định luật Amdahl: Mức độ tăng tốc của một tác vụ phụ thuộc vào tỷ lệ phần việc chiếm trong tổng khối lượng công việc. Nếu phần tính toán chiếm 50% vấn đề, thì ngay cả khi tôi tăng tốc độ tính toán vô hạn (ví dụ tăng một triệu lần), tốc độ xử lý tổng thể cũng chỉ tăng gấp đôi. Ngay lúc này, bạn không chỉ phải phân phối tác vụ tính toán, phân mảnh luồng xử lý theo một cách nào đó, mà còn phải giải quyết vấn đề mạng, bởi vì tất cả những máy tính này đều được kết nối với nhau. Với quy mô của chúng ta, việc tính toán phân tán đặt ra vấn đề với CPU, GPU, mạng và bộ chuyển mạch. Việc phân bổ tải công việc trên tất cả những máy tính này cũng là một vấn đề.
Jen-Hsun Huang
(00:02:57) Đây là một vấn đề khoa học máy tính cực kỳ phức tạp. Chúng ta phải phát huy tối đa sức mạnh của mọi công nghệ. Nếu không, chúng ta chỉ có thể mở rộng tuyến tính hoặc dựa vào khả năng của Định luật Moore, trong khi Định luật Dennard Scaling đã chậm lại đáng kể và Định luật Moore về cơ bản đã đình trệ.
Ông Jen-Hsun Huang quản lý NVIDIA như thế nào?
Lex Fridman
(00:03:16) Chắc chắn sẽ có những sự đánh đổi. Và các ông liên quan đến những lĩnh vực hoàn toàn khác nhau. Tôi chắc chắn các ông đều có chuyên gia hàng đầu trong các lĩnh vực này: bộ nhớ băng thông cao, mạng và NVLink, card mạng, kết nối quang và đồng, nguồn điện, làm mát, v.v. Đó đều là những chuyên gia đẳng cấp thế giới. Vậy ông làm cách nào để tập hợp họ trong một phòng họp để hiểu rõ —
Jen-Hsun Huang
(00:03:34) Đó chính là lý do đội ngũ quản lý của tôi lại đông đến thế.
Lex Fridman
(00:03:37) Quy trình hợp tác giữa các chuyên gia và các nhà tổng hợp là như thế nào? Khi ông rõ ràng biết phải nhét những thứ gì vào một tủ rack, các ông lắp ráp chúng như thế nào? Quy trình thiết kế tất cả chúng cùng nhau diễn ra ra sao?
Jen-Hsun Huang
(00:03:51) Trước hết, chúng ta phải hỏi: Thiết kế đồng bộ tối ưu là gì? Chúng ta đang tối ưu hóa toàn bộ ngăn xếp phần mềm – từ kiến trúc, chip, hệ thống, phần mềm hệ thống, cho đến thuật toán và ứng dụng. Đó là một khía cạnh. Khía cạnh thứ hai mà chúng ta vừa thảo luận vượt xa CPU, GPU, chip mạng, bộ chuyển mạch mở rộng (scale-up) và bộ chuyển mạch mở rộng ra ngoài (scale-out). Tất nhiên, bạn còn phải bao gồm cả nguồn điện và làm mát, bởi vì tất cả những máy tính này đều tiêu thụ điện năng cực kỳ lớn. Chúng thực hiện khối lượng công việc khổng lồ với hiệu suất năng lượng rất cao, nhưng nhìn chung vẫn tiêu thụ một lượng điện năng lớn. Vậy câu hỏi đầu tiên là: Nó là gì?
Jen-Hsun Huang
(00:04:34) Câu hỏi thứ hai là: Tại sao cần nó? Chúng ta vừa thảo luận lý do. Bạn muốn phân bổ tải công việc sao cho lợi ích vượt trội hơn mức tăng thuần túy từ việc tăng số lượng máy tính. Câu hỏi thứ ba là: Làm thế nào để thực hiện? Làm thế nào để làm được điều đó?
Jen-Hsun Huang
(00:04:51) Đây có thể được coi là kỳ tích của công ty. Khi bạn thiết kế một máy tính, bạn phải có một hệ điều hành máy tính. Khi bạn thiết kế một công ty, bạn nên nghĩ trước tiên về điều mà công ty đó sẽ tạo ra. Tôi đã thấy rất nhiều sơ đồ tổ chức của các công ty, và chúng đều trông giống nhau. Sơ đồ tổ chức dạng bánh hamburger, dạng phẳng, và sơ đồ tổ chức của các công ty ô tô, tất cả đều trông y hệt nhau. Điều này đối với tôi hoàn toàn vô nghĩa. Mục tiêu của một công ty là trở thành một chiếc máy, một cơ chế và một hệ thống để tạo ra sản phẩm. Việc thiết kế cấu trúc tổ chức của công ty phải phản ánh môi trường mà nó tồn tại.
Jen-Hsun Huang
(00:05:36) Điều này gần như trực tiếp quyết định cách bạn thiết lập cấu trúc tổ chức. Đội ngũ quản lý báo cáo trực tiếp với tôi gồm 60 người. Tôi sẽ không tổ chức các cuộc họp một-một với họ, bởi điều đó là bất khả thi. Nếu bạn muốn hoàn thành công việc, thì đội ngũ của bạn không thể có tới 60 người mà vẫn tổ chức họp một-một —
Lex Fridman
(00:05:51) Nhưng ông vẫn có 60 người báo cáo trực tiếp, và còn —
Jen-Hsun Huang
(00:05:53) Còn nhiều hơn nữa.
Lex Fridman
(00:05:54) Nhiều hơn nữa. Và phần lớn những nhân tài hàng đầu ít nhất đều tham gia vào lĩnh vực kỹ thuật.
Jen-Hsun Huang
(00:05:59) Gần như tất cả đều vậy. Có chuyên gia về bộ nhớ, chuyên gia về CPU, chuyên gia về quang học.
Lex Fridman
(00:06:06) Thật khó tin.
Jen-Hsun Huang
(00:06:06) Cũng có chuyên gia về GPU, kiến trúc, thuật toán, thiết kế, v.v.
Lex Fridman
(00:06:11) Vậy ông luôn theo dõi toàn bộ ngăn xếp công nghệ và phải tiến hành các cuộc thảo luận gay gắt về thiết kế toàn bộ ngăn xếp đó?
Jen-Hsun Huang
(00:06:18) Không bao giờ có cuộc đối thoại nào diễn ra một mình. Đó là lý do tôi không tổ chức các cuộc họp một-một. Chúng ta đặt ra một vấn đề, rồi cùng nhau giải quyết nó. Bởi vì chúng ta đang thực hiện thiết kế đồng bộ tối ưu. Nói một cách không khoa trương, công ty luôn thực hiện thiết kế đồng bộ tối ưu.
Lex Fridman
(00:06:33) Ngay cả khi các ông thảo luận về một thành phần cụ thể, ví dụ như làm mát, mạng, tất cả mọi người đều lắng nghe?
Jen-Hsun Huang
(00:06:40) Chính xác như vậy.
Lex Fridman
(00:06:41) Và họ có thể đưa ra ý kiến: «Cái này không phù hợp với phân phối điện. Cái này không phù hợp với —»
Jen-Hsun Huang
(00:06:45) Đúng vậy.
Lex Fridman
(00:06:45) «…cái này không phù hợp với bộ nhớ. Cái này không phù hợp với cái kia».
Jen-Hsun Huang
(00:06:49) Chính xác như vậy. Ai không muốn nghe thì có thể không nghe. Lý do là vì những người trong đội biết khi nào nên tập trung chú ý. Nếu họ có thể đóng góp nhưng lại không làm, tôi sẽ gọi tên và phê bình họ. Vì vậy, tôi sẽ nói: «Này, hãy đến đây, tham gia vào cuộc thảo luận».
Lex Fridman
(00:07:07) Như ông vừa nói, NVIDIA là một công ty thích nghi với môi trường. Ông cảm thấy ở thời điểm nào thì môi trường thay đổi và công ty bắt đầu lặng lẽ thích nghi? Từ GPU ban đầu dành riêng cho trò chơi, đến giai đoạn đầu của cuộc cách mạng học sâu, rồi đến hiện tại khi chúng ta bắt đầu xem nó như một «nhà máy AI»? NVIDIA thực sự làm gì? Nó sản xuất AI, hãy cùng xây dựng một nhà máy sản xuất AI.
Jen-Hsun Huang
(00:07:32) Tôi có thể suy luận có hệ thống quá trình này. Ban đầu, chúng tôi là một công ty chuyên về bộ tăng tốc. Nhưng vấn đề của bộ tăng tốc là phạm vi ứng dụng quá hẹp. Lợi thế của nó là được tối ưu hóa cực kỳ chuyên biệt cho một công việc cụ thể. Bất kỳ chuyên gia nào cũng có lợi thế này. Vấn đề của sự chuyên môn hóa cực độ là thị trường của bạn sẽ nhỏ hơn, nhưng điều đó cũng không sao. Vấn đề thực sự là quy mô thị trường cũng quyết định năng lực nghiên cứu và phát triển của bạn. Và năng lực R&D cuối cùng quyết định ảnh hưởng tiềm năng của bạn trong lĩnh vực tính toán. Khi chúng tôi bắt đầu với tư cách là một bộ tăng tốc rất cụ thể, chúng tôi luôn biết đó chỉ là bước đầu tiên.
Jen-Hsun Huang
(00:08:23) Chúng tôi phải tìm ra một cách để trở thành một công ty tính toán tăng tốc. Vấn đề là khi trở thành một công ty tính toán, mục tiêu trở nên quá chung chung, làm suy yếu tính chuyên môn của bạn. Tôi cố tình ghép hai từ vốn mâu thuẫn cơ bản này lại với nhau. Chúng tôi càng trở thành một công ty tính toán tốt hơn, thì chúng tôi lại càng kém chuyên môn hơn. Chúng tôi càng chuyên môn hóa, thì khả năng tính toán tổng thể lại càng yếu đi. Tôi cố tình ghép hai từ này lại với nhau, điều đó có nghĩa là công ty phải từng bước tìm ra con đường cực kỳ hẹp để vừa mở rộng phạm vi tính toán, vừa không từ bỏ năng lực chuyên môn quan trọng nhất mà chúng tôi đang có. Bước đầu tiên chúng tôi vượt ra ngoài bộ tăng tốc là phát minh ra bộ tạo bóng pixel có thể lập trình.
Jen-Hsun Huang
(00:09:13) Đây là bước đầu tiên hướng tới khả năng lập trình. Đây là chặng đầu tiên trong hành trình tiến vào thế giới tính toán của chúng tôi. Việc thứ hai chúng tôi làm là đưa số dấu phẩy động đơn chính xác (FP32) vào bộ tạo bóng. Việc hỗ trợ FP32 chuẩn IEEE là một bước tiến lớn về phía tính toán. Đó cũng là lý do vì sao tất cả những người làm việc với bộ xử lý dòng chảy và các loại bộ xử lý dữ liệu dòng chảy khác đã phát hiện ra chúng tôi. Họ nói: «Đột nhiên, có lẽ chúng ta có thể sử dụng GPU này, vốn có độ tập trung tính toán cực cao và tương thích chuẩn IEEE».
Jen-Hsun Huang
(00:09:55) Tôi có thể lấy phần mềm trước đây viết trên CPU và xem liệu nó có chạy được trên GPU hay không. Điều này thúc đẩy chúng tôi bổ sung các đặc tính của ngôn ngữ C vào FP32, mà chúng tôi gọi là Cg. Con đường phát triển của Cg cuối cùng đã dẫn chúng tôi đến CUDA. Từng bước một, chúng tôi đưa CUDA vào GeForce – đây là một quyết định chiến lược đầy thách thức, vì nó tiêu tốn một lượng lớn lợi nhuận của công ty, lúc đó chúng tôi hoàn toàn không đủ khả năng chi trả. Nhưng chúng tôi vẫn làm điều đó, bởi vì chúng tôi muốn trở thành một công ty tính toán. Một công ty tính toán phải có kiến trúc tính toán. Kiến trúc tính toán phải tương thích với tất cả các chip mà chúng tôi xây dựng.
Lex Fridman
(00:10:42) Xin ông giải thích chi tiết hơn về quyết định đó? Đưa CUDA vào GeForce, dù không đủ khả năng chi trả nhưng vẫn quyết tâm thực hiện? Ông có thể giải thích quyết định này không? Vì sao ông dám đưa ra lựa chọn như vậy?
Jen-Hsun Huang
(00:10:53) Đó là quyết định chiến lược đầu tiên gần như mang tính sống còn.
Lex Fridman
(00:11:06) Để tiết lộ trước với những người chưa biết lịch sử này, sau này chứng minh đây là một trong những quyết định sáng suốt và vĩ đại nhất trong lịch sử công ty. CUDA đã trở thành nền tảng tính toán đáng kinh ngạc trong thế giới cơ sở hạ tầng AI. Vì vậy, hãy đặt bối cảnh, quyết định này cuối cùng đã chứng minh là đúng đắn.
Jen-Hsun Huang
(00:11:27) Đúng vậy, sau này chứng minh đây là một quyết định đúng đắn. Chuyện là thế này. Chúng tôi phát minh ra thứ gọi là CUDA, nó mở rộng phạm vi các ứng dụng mà bộ tăng tốc của chúng tôi có thể tăng tốc. Vấn đề là, làm thế nào để thu hút các nhà phát triển sử dụng CUDA? Bởi vì nền tảng tính toán cốt lõi là các nhà phát triển. Các nhà phát triển sẽ không chạy đến một nền tảng chỉ vì nền tảng đó có thể thực hiện một số thao tác thú vị. Họ đến một nền tảng tính toán vì nền tảng đó có lượng cài đặt lớn. Bởi vì các nhà phát triển cũng như mọi người, đều muốn phát triển phần mềm có thể tiếp cận được lượng người dùng lớn nhất. Lượng cài đặt thực tế là phần quan trọng nhất của kiến trúc. Bản thân kiến trúc có thể chịu rất nhiều chỉ trích.
Jen-Hsun Huang
(00:12:18) Ví dụ, không có kiến trúc nào bị chỉ trích nhiều hơn x86, người ta cho rằng đây là một kiến trúc thiếu tinh tế, nhưng nó lại là kiến trúc định nghĩa hiện nay. Đây là một ví dụ. Thực tế, nhiều kiến trúc RISC cực kỳ tinh tế do những nhà khoa học máy tính thông minh nhất thế giới thiết kế đều thất bại phần lớn. Tôi đưa ra hai ví dụ này, một là tinh tế, một là tạm chấp nhận được, nhưng x86 vẫn tồn tại, lý do là —
Lex Fridman
(00:12:58) Lượng cài đặt là tất cả.
Jen-Hsun Huang
(00:12:59) Lượng cài đặt định nghĩa kiến trúc. Mọi thứ khác đều thứ yếu, hiểu chứ? Lúc đó còn có các kiến trúc khác, CUDA xuất hiện, OpenCL cũng vậy. Có vài kiến trúc cạnh tranh. Nhưng quyết định đúng đắn của chúng tôi là: «Nghe đây, cuối cùng thì đây vẫn là vấn đề về lượng cài đặt, cách tốt nhất để đưa kiến trúc tính toán mới ra thế giới là gì?». Lúc đó, GeForce đã thành công.
Jen-Hsun Huang
(00:13:29) Chúng tôi đã bán hàng triệu GPU GeForce mỗi năm. Chúng tôi nói: «Chúng ta nên đưa CUDA vào GeForce, đưa nó vào mọi PC, bất kể khách hàng có dùng hay không, và coi đó là điểm khởi đầu để xây dựng lượng cài đặt của chúng ta». Đồng thời, chúng tôi đi thu hút các nhà phát triển, viết sách, mở khóa học tại các trường đại học, đưa CUDA vào khắp mọi nơi. Dần dần, mọi người phát hiện ra nó. Lúc đó, PC là công cụ tính toán chính, chưa có điện toán đám mây, chúng ta có thể trao một siêu máy tính cho mỗi nhà nghiên cứu, mỗi nhà khoa học, mỗi sinh viên kỹ thuật và mỗi sinh viên trong trường đại học. Cuối cùng, điều kỳ diệu chắc chắn sẽ xảy ra.
Jen-Hsun Huang
(00:14:15) Vấn đề là, CUDA làm tăng đáng kể chi phí của GPU – một sản phẩm tiêu dùng, hoàn toàn nuốt chửng toàn bộ lợi nhuận gộp của công ty. Lúc đó, vốn hóa thị trường của công ty khoảng 8 tỷ USD? Hay sáu đến bảy tỷ USD? Khi chúng tôi ra mắt CUDA, tôi nhận ra nó sẽ làm tăng chi phí rất nhiều, nhưng đây là điều chúng tôi kiên quyết tin tưởng. Vốn hóa thị trường của chúng tôi từng giảm xuống khoảng 1,5 tỷ USD. Chúng tôi đã lặn ngụp ở đáy một thời gian, rồi từ từ phục hồi, nhưng chúng tôi vẫn kiên trì đưa CUDA vào GeForce. Tôi luôn nói NVIDIA là điện thờ được xây dựng bởi GeForce, bởi vì chính GeForce đã mang CUDA đến với tất cả mọi người.
Jen-Hsun Huang
(00:15:10) Các nhà nghiên cứu, các nhà khoa học, họ phát hiện ra CUDA trên GeForce vì trong số họ có rất nhiều game thủ. Rất nhiều người vốn dĩ cũng tự lắp ráp PC. Trong các phòng thí nghiệm đại học, rất nhiều người sử dụng các linh kiện PC để tự lắp ráp cụm máy. Chúng tôi khởi đầu như vậy.
Lex Fridman
(00:15:31) Sau đó, điều này trở thành nền tảng và cơ sở cho cuộc cách mạng học sâu.
Jen-Hsun Huang
(00:15:35) Đó cũng là một quan sát rất tuyệt vời.
Lex Fridman
(00:15:38) Ở thời điểm sống còn đó, ông còn nhớ những cuộc họp diễn ra như thế nào không? Là một công ty quyết định liều mạng tất cả, bầu không khí thảo luận ra sao?
Jen-Hsun Huang
(00:15:48) Tôi phải trình bày với Hội đồng Quản trị về điều chúng tôi muốn làm, và đội ngũ quản lý cũng biết biên lợi nhuận gộp của chúng tôi sẽ bị đè nén. Bạn có thể tưởng tượng một thế giới như thế này: GeForce phải gánh chi phí của CUDA, nhưng không có game thủ nào đánh giá cao điều đó, cũng không ai sẵn sàng trả tiền cho nó. Họ chỉ sẵn sàng trả một mức giá cụ thể, hoàn toàn không quan tâm chi phí của bạn là bao nhiêu. Chúng tôi tăng chi phí lên 50%, trong khi trước đó chúng tôi là một công ty có biên lợi nhuận gộp 35%. Vì vậy, đưa ra quyết định này rất khó khăn. Nhưng bạn có thể tưởng tượng, một ngày nào đó nó sẽ vào các trạm làm việc, vào siêu máy tính, trong những lĩnh vực đó, có lẽ chúng tôi sẽ thu được lợi nhuận cao hơn.
Jen-Hsun Huang
(00:16:36) Vì vậy, bạn có thể dùng suy luận hợp lý để thuyết phục bản thân rằng mình có thể chịu đựng được chi phí này, nhưng điều này vẫn mất tới mười năm.
Lex Fridman
(00:16:45) Vậy thì phần lớn là thuyết phục Hội đồng Quản trị, nhưng về mặt tâm lý, khi NVIDIA liên tục đưa ra những dự đoán táo bạo về tương lai và, ở một mức độ nào đó, đặc biệt là hiện nay, định nghĩa tương lai. Tôi xin phép hỏi ông một chút trí tuệ, về khả năng đưa ra những quyết định này và dẫn dắt công ty vượt qua những bước ngoặt?
Jen-Hsun Huang
(00:17:14) Trước hết, tôi có lòng tò mò rất mạnh mẽ. Ở một thời điểm nào đó, sẽ có một hệ thống suy luận rất rõ ràng khiến tôi chắc chắn kết quả này sẽ xảy ra. Điều này chắc chắn sẽ xảy ra. Vì vậy, trong đầu tôi, tôi hoàn toàn tin tưởng điều đó, và khi bạn tin tưởng sâu sắc trong lòng, bạn biết cảm giác đó như thế nào. Bạn hình dung một tương lai trong đầu, và tương lai đó thuyết phục đến mức nó không thể không xảy ra. Trong quá trình này sẽ có rất nhiều thử thách, nhưng bạn phải kiên định với niềm tin của mình.
Lex Fridman
(00:17:52) Vậy ông hình dung tương lai, về bản chất, từ góc độ kỹ thuật, ông biến nó thành hiện thực?
Jen-Hsun Huang
(00:17:59) Đúng vậy. Bạn phải suy luận cách để đạt được điều đó. Bạn phải suy luận lý do vì sao nó phải tồn tại. Chúng ta cùng suy luận ở đây. Đội ngũ quản lý sẽ suy luận. Tôi sẽ dành rất nhiều thời gian để suy luận. Phần tiếp theo có thể là một kỹ năng quản lý. Thông thường, trong giới lãnh đạo, người lãnh đạo giữ im lặng, hoặc họ nhận ra một điều gì đó, rồi đưa ra một tuyên bố: «Đây là một năm mới, đến cuối năm nay chúng ta sẽ có một kế hoạch mới». Sau đó cắt giảm nhân sự quy mô lớn ở chỗ này, điều chỉnh cấu trúc quy mô lớn ở chỗ kia, đưa ra tuyên bố sứ mệnh mới, thiết kế biểu tượng mới, v.v.
Jen-Hsun Huang
(00:18:43) Tôi chưa bao giờ làm như vậy. Khi tôi nhận ra một điều gì đó và nó bắt đầu ảnh hưởng đến suy nghĩ của tôi, tôi sẽ rõ ràng nói với mọi người xung quanh: «Điều này rất thú vị. Điều này sẽ mang lại sự thay đổi. Điều này sẽ ảnh hưởng đến điều kia». Tôi sẽ suy luận từng bước một. Trong nhiều trường hợp, tôi đã đưa ra quyết định, nhưng tôi sẽ nắm bắt mọi cơ hội có thể — thông tin bên ngoài, nhận thức mới, khám phá mới, sự khai sáng kỹ thuật mới, các mốc mới được thiết lập — tôi sẽ sử dụng những cơ hội này để định hình hệ thống niềm tin của những người khác. Tôi gần như làm điều này mỗi ngày. Tôi làm điều này với Hội đồng Quản trị, với đội ngũ quản lý, với nhân viên.
Jen-Hsun Huang
(00:19:33) Tôi cố gắng định hình hệ thống niềm tin của họ, để khi một ngày nào đó tôi nói «Này, chúng ta hãy mua lại Mellanox», tất cả mọi người đều cảm thấy điều đó là đương nhiên, chúng ta chắc chắn nên mua. Khi tôi nói «Các anh em, hãy dồn toàn lực vào học sâu» và giải thích lý do, thực tế tôi đã chuẩn bị nền tảng cho mọi tổ chức trong công ty. Mỗi tổ chức, mỗi người có thể đã nghe một số nội dung, phần lớn mọi người đã nghe một số phần trong đó. Khi tôi công bố vào ngày đó, mọi người đã chấp nhận nhiều phần trong số đó.
Jen-Hsun Huang
(00:20:19) Về nhiều phương diện, khi tôi công bố những điều này, tôi có thể tưởng tượng các nhân viên đều nói: «Jen-Hsun, sao ông đợi lâu thế?». Thực tế, tôi đã liên tục định hình hệ thống niềm tin của họ. Vì vậy, lãnh đạo đôi khi trông như bạn đang dẫn dắt từ phía sau, nhưng bạn liên tục định hình họ, đến khi tôi công bố vào ngày đó, mọi người đều đồng thuận 100%. Nhưng đây chính là điều bạn muốn đạt được. Bạn muốn dẫn dắt tất cả mọi người cùng tiến lên. Nếu không, nếu chúng ta đột ngột công bố kế hoạch học sâu, tất cả mọi người sẽ nói: «Ông đang nói gì vậy?». Nếu bạn công bố dồn toàn lực vào một việc gì đó, đội ngũ quản lý, Hội đồng Quản trị, nhân viên, khách hàng sẽ cảm thấy: «Điều này từ đâu ra vậy?»
Jen-Hsun Huang
(00:21:02) «Điều này thật điên rồ». Nếu bạn xem lại các hội nghị GTC trong quá khứ, xem các bài phát biểu chủ đề, thực tế tôi cũng đang định hình hệ thống niềm tin của các đối tác trong ngành, tôi sử dụng điều này để định hình hệ thống niềm tin của nhân viên mình. Vì vậy, khi tôi công bố một điều gì đó, ví dụ như chúng tôi vừa công bố Groq, thực tế tôi đã nói về các nền tảng liên quan trong hai năm rưỡi qua. Bạn xem lại sẽ thấy: «Trời ơi, họ đã nói về điều này trong hai năm rưỡi rồi». Tôi luôn từng bước xây dựng nền móng, nên khi thời cơ chín muồi để công bố, mọi người đều nói: «Sao ông mất lâu thế?»
Lex Fridman
(00:21:44) Nhưng điều này không chỉ diễn ra trong nội bộ công ty. Ông đang định hình cả ngành công nghiệp và cục diện đổi mới toàn cầu rộng lớn hơn. Việc đưa những ý tưởng này ra ngoài, thực sự giúp hiện thực hóa chúng.
Jen-Hsun Huang
(00:21:53) Chúng tôi không chế tạo máy tính. Thực tế, chúng tôi không xây dựng điện toán đám mây. Chúng tôi từng là một công ty nền tảng tính toán. Vì vậy, không ai có thể mua sản phẩm hoàn chỉnh trực tiếp từ chúng tôi. Điều này thật kỳ lạ. Chúng tôi thực hiện tích hợp dọc để hoàn thành thiết kế và tối ưu hóa, nhưng ở mỗi cấp độ, chúng tôi mở hoàn toàn toàn bộ nền tảng để tích hợp vào sản phẩm, dịch vụ, điện toán đám mây, siêu máy tính và máy tính OEM của các công ty khác. Vì vậy, điều đáng kinh ngạc là, nếu không thuyết phục được họ trước, tôi hoàn toàn không thể làm được điều tôi đang làm hiện nay. Phần lớn mục đích của GTC là thể hiện tương lai, để khi sản phẩm của chúng tôi sẵn sàng, họ sẽ nói: «Sao ông đưa ra chậm thế?»
Định luật mở rộng AI
Lex Fridman
(00:22:39) Đúng vậy. Trong một thời gian dài, ông luôn là người tin tưởng vào Định luật mở rộng (Scaling Laws) nói chung. Hiện nay, ông vẫn tin vào Định luật mở rộng không?
Jen-Hsun Huang
(00:22:49) Đúng vậy. Hiện nay, chúng ta có nhiều Định luật mở rộng hơn.
Lex Fridman
(00:22:51) Tôi nghĩ ông đã tóm tắt bốn giai đoạn của Định luật mở rộng: tiền huấn luyện, hậu huấn luyện, mở rộng thời điểm kiểm thử (suy luận) và mở rộng theo tác nhân (Agentic). Khi ông suy nghĩ về tương lai, cả tương lai xa và tương lai gần, điều gì khiến ông lo lắng nhất, khiến ông trằn trọc cả đêm, và phải vượt qua để tiếp tục mở rộng?
Jen-Hsun Huang
(00:23:12) Chúng ta có thể nhìn lại những yếu tố mà người ta từng cho là rào cản. Trong giai đoạn đầu tiên của Định luật mở rộng tiền huấn luyện. Người ta mặc định rằng lượng dữ liệu chất lượng cao mà chúng ta có sẽ giới hạn mức độ thông minh mà chúng ta có thể đạt được. Định luật mở rộng này rất quan trọng. Mô hình càng lớn, dữ liệu càng nhiều thì AI càng thông minh hơn. Đó chính là tiền huấn luyện. Ilya Sutskever từng nói: «Chúng ta đã hết dữ liệu» hoặc tương tự như vậy. «Tiền huấn luyện đã kết thúc». Toàn bộ ngành công nghiệp hoảng loạn, cho rằng đây là điểm kết thúc của AI. Nhưng điều này rõ ràng là không đúng.
Jen-Hsun Huang
(00:23:57) Chúng ta sẽ tiếp tục tăng lượng dữ liệu dùng để huấn luyện. Trong số đó, rất nhiều dữ liệu có thể là dữ liệu tổng hợp (Synthetic), điều này khiến nhiều người bối rối. Người ta không nhận ra, hoặc quên mất, phần lớn dữ liệu mà chúng ta dùng để dạy và thông báo cho nhau thực tế cũng là «tổng hợp». Nó là tổng hợp vì nó không mọc ra trực tiếp từ tự nhiên. Bạn tạo ra nó. Tôi tiêu thụ nó. Tôi sửa đổi nó, tăng cường nó, tôi tái tạo nó, người khác lại tiêu thụ nó. Hiện nay, chúng ta đã đạt đến mức độ mà AI có thể lấy được sự thật nền tảng (Ground Truth), tăng cường nó… và tạo ra lượng dữ liệu khổng lồ.
Jen-Hsun Huang
(00:24:47) Giai đoạn hậu huấn luyện tiếp tục mở rộng, do đó lượng dữ liệu do con người tạo ra mà chúng ta sử dụng để huấn luyện mô hình sẽ ngày càng giảm. Lượng dữ liệu mà chúng ta dùng để huấn luyện mô hình sẽ tiếp tục tăng cho đến khi chúng ta không còn bị giới hạn bởi dữ liệu… hiện nay huấn luyện bị giới hạn bởi năng lực tính toán. Lý do là vì phần lớn dữ liệu là dữ liệu tổng hợp. Giai đoạn tiếp theo là mở rộng thời điểm kiểm thử (suy luận), tôi còn nhớ người ta từng nói với tôi: «Suy luận? À, điều đó rất đơn giản. Tiền huấn luyện mới khó chứ. Đó là hệ thống khổng lồ. Suy luận chắc chắn rất đơn giản. Vì vậy, chip suy luận chỉ là những chip nhỏ —»
Jen-Hsun Huang
(00:25:32) «Chúng sẽ không giống chip của NVIDIA. Chúng quá phức tạp và đắt đỏ. Trong tương lai, suy luận sẽ là thị trường lớn nhất, nó sẽ trở nên rất đơn giản, chúng ta sẽ hàng hóa nó. Ai cũng có thể tự chế tạo chip của mình». Điều này luôn phi lý đối với tôi, bởi vì suy luận chính là tư duy, và tôi cho rằng tư duy rất khó. Tư duy khó hơn đọc nhiều.
Jen-Hsun Huang
(00:25:59) Tiền huấn luyện chỉ là ghi nhớ và khái quát hóa, tìm kiếm mẫu trong các mối quan hệ. Bạn chỉ đang đọc liên tục. Còn mở rộng thời điểm kiểm thử (suy luận) liên quan đến tư duy, suy luận, giải quyết vấn đề. Phân tích các trải nghiệm chưa được khám phá, các kinh nghiệm mới thành các phần có thể giải quyết, sau đó chúng ta sử dụng suy luận nguyên lý đầu tiên, hoặc thông qua các ví dụ trước đây và kinh nghiệm trước đây để giải quyết nó. Hoặc chỉ đơn giản là khám phá, tìm kiếm, thử các phương pháp khác nhau. Toàn bộ quá trình mở rộng thời điểm kiểm thử trong giai đoạn suy luận thực tế là về tư duy. Nó là về suy luận, lập kế hoạch và tìm kiếm.
Jen-Hsun Huang
(00:26:50) Làm sao có thể là việc nhẹ về mặt tính toán được? Chúng tôi hoàn toàn đúng ở điểm này. Việc mở rộng thời điểm kiểm thử là cực kỳ tốn năng lực tính toán. Câu hỏi tiếp theo là, hiện nay chúng ta đang ở giai đoạn suy luận và mở rộng thời điểm kiểm thử, vậy sau đó là gì? Rõ ràng, hiện nay chúng ta tạo ra một «con người tác nhân», người tác nhân này sở hữu mô hình ngôn ngữ lớn (LLM) mà chúng ta phát triển. Nhưng trong quá trình kiểm thử, hệ thống tác nhân này sẽ tiến hành nghiên cứu, truy cập cơ sở dữ liệu, sử dụng các công cụ khác nhau, và điều quan trọng nhất mà nó làm là tạo ra và sinh ra một loạt «tác nhân con» (Sub-agents). Điều này nghĩa là chúng ta đang xây dựng các đội ngũ lớn. Việc mở rộng NVIDIA bằng cách thuê thêm nhân viên dễ hơn nhiều so với việc mở rộng chính tôi.
Jen-Hsun Huang
(00:27:44) Vì vậy, Định luật mở rộng tiếp theo là Định luật mở rộng theo tác nhân (Agentic Scaling Law). Điều này giống như sao chép AI. Chúng ta có thể sinh ra tác nhân một cách nhanh chóng tùy ý. Vì vậy, tôi đã tóm tắt bốn chiều của Định luật mở rộng. Khi chúng ta sử dụng hệ thống tác nhân, chúng sẽ tạo ra thêm dữ liệu, tạo ra lượng lớn kinh nghiệm. Với một số kinh nghiệm, chúng ta sẽ nói: «Ồ, điều này thật tuyệt vời. Chúng ta nên ghi nhớ điều này».
Jen-Hsun Huang
(00:28:12) Sau đó, tập dữ liệu này lại quay trở lại giai đoạn tiền huấn luyện. Chúng ta ghi nhớ và khái quát hóa nó. Sau đó chúng ta tinh chỉnh và hoàn thiện nó trong giai đoạn hậu huấn luyện. Tiếp theo, chúng ta sử dụng thời điểm kiểm thử và hệ thống tác nhân để tăng cường nó hơn nữa, rồi xuất ra ngành công nghiệp. Vòng lặp này sẽ tiếp tục mãi mãi. Về cơ bản, mức độ thông minh sẽ được mở rộng thông qua một điều duy nhất: năng lực tính toán.
Lex Fridman
(00:28:41) Nhưng ở đây có một vấn đề nan giải, ông phải dự đoán tương lai, bởi vì một số thành phần cần các loại phần cứng khác nhau để hoạt động tối ưu. Vì vậy, ông phải dự đoán đổi mới AI sẽ đi về đâu. Ví dụ, mô hình chuyên gia hỗn hợp (MoE) —
Jen-Hsun Huang
(00:28:57) Đúng vậy.
Lex Fridman
(00:28:58) Mô hình có tính thưa.
Jen-Hsun Huang
(00:28:59) Chính xác như vậy.
Lex Fridman
(00:29:00) Phần cứng không thể thay đổi trong vòng một tuần. Ông phải dự đoán hình dạng trong tương lai. Việc này thật đáng sợ và rất khó, đúng không?
Jen-Hsun Huang
(00:29:09) Ví dụ, các kiến trúc mô hình AI này khoảng sáu tháng cập nhật một lần. Còn kiến trúc hệ thống và kiến trúc phần cứng khoảng ba năm cập nhật một lần. Vì vậy, bạn cần dự đoán những điều có thể xảy ra trong hai hoặc ba năm tới. Có một vài cách để làm điều này. Thứ nhất, chúng tôi tự nghiên cứu nội bộ, đây cũng là lý do vì sao chúng tôi vừa có nghiên cứu cơ bản, vừa có nghiên cứu ứng dụng.
Jen-Hsun Huang
(00:29:40) Chúng tôi tự tạo ra các mô hình của mình. Vì vậy, chúng tôi có kinh nghiệm sống thực tế ở đây. Đây là một phần của thiết kế đồng bộ mà tôi đã đề cập. Chúng tôi cũng là công ty AI duy nhất trên thế giới gần như hợp tác với tất cả các công ty AI. Trong phạm vi có thể, chúng tôi cố gắng cảm nhận những thách thức mà mọi người đang gặp phải.
Lex Fridman
(00:29:59) Vì vậy, ông đang lắng nghe thì thầm của toàn bộ ngành công nghiệp, các phòng thí nghiệm AI hàng đầu.
Jen-Hsun Huang
(00:30:02) Đúng vậy. Bạn phải lắng nghe và học hỏi từ tất cả mọi người. Phần cuối cùng là sở hữu một kiến trúc linh hoạt, có thể thích ứng theo gió. Một trong những lợi ích của CUDA là, một mặt nó là bộ tăng tốc cực kỳ mạnh mẽ; mặt khác, nó rất linh hoạt. Sự cân bằng đáng kinh ngạc giữa tính chuyên môn hóa (nếu không thì không thể tăng tốc CPU) và tính phổ quát (để thích ứng với các thuật toán thay đổi liên tục) là vô cùng quan trọng. Đây cũng là lý do vì sao CUDA vừa có độ bền cao, vừa có thể liên tục được tăng cường.
Jen-Hsun Huang
(00:30:44) Hiện nay, chúng tôi đã ở phiên bản CUDA 13.2. Chúng tôi tiến hóa kiến trúc rất nhanh, đến mức có thể theo kịp tốc độ của các thuật toán hiện đại. Ví dụ… khi mô hình chuyên gia hỗn hợp (MoE) xuất hiện, đây là lý do chúng tôi ra mắt NVLink 72 thay vì NVLink 8. Hiện nay, chúng tôi có thể đặt một mô hình có 4 nghìn tỷ, 10 nghìn tỷ tham số vào một miền tính toán, như thể nó đang chạy trên một GPU. Có thể mọi người chưa để ý tôi nói điều này, nhưng nếu bạn xem kiến trúc của tủ rack Grace Blackwell, nó hoàn toàn tập trung vào một việc: xử lý mô hình ngôn ngữ lớn (LLM). Chỉ một năm sau, bạn thấy tủ rack Vera Rubin. Nó có bộ tăng tốc lưu trữ, có CPU mới tuyệt vời mang tên Vera. Nó có Vera Rubin và NVLink 72 để chạy LLM.
Jen-Hsun Huang
(00:31:46) Nó còn có một tủ rack bổ sung
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News














