
황런쉰 GTC 기조연설 전문: 추론 시대의 도래, 2027년 매출 최소 1조 달러, ‘랍스터(Lobster)’가 새로운 운영체제
출처: Wall Street Insights
2026년 3월 16일, NVIDIA GTC 2026 컨퍼런스가 정식 개막했으며, NVIDIA 창립자이자 CEO인 젠슨 황(Jensen Huang)이 기조연설을 발표했다.
이를 ‘AI 산업의 연례 순례’라 불리는 행사에서 황은 NVIDIA가 단순한 ‘반도체 기업’에서 ‘AI 인프라 및 공장 기업’으로 진화해 왔음을 설명했다. 시장이 가장 우려하는 실적 지속성과 성장 잠재력 문제에 대해, 황은 향후 성장을 이끄는 근본적인 비즈니스 논리를 상세히 분석했는데, 바로 ‘토큰 공장 경제학(Token Factory Economics)’이다.

실적 전망 극도로 낙관적 — “2027년까지 최소 1조 달러 수요”
지난 2년간 전 세계 AI 컴퓨팅 수요는 지수 급증을 보였다. 대규모 언어모델(LLM)이 ‘인지’, ‘생성’ 단계를 넘어 ‘추론’과 ‘행동(작업 수행)’ 단계로 진화함에 따라, 컴퓨팅 자원 소비량은 급격히 증가하고 있다. 시장이 특히 주목하는 주문량 및 매출 한계에 대해, 황은 매우 강력한 전망을 제시했다.
황은 연설에서 명확히 밝혔다:
“작년 이맘때, 나는 블랙웰(Blackwell)과 루빈(Rubin) 아키텍처에 대한 2026년까지의 고신뢰도 수요가 500억 달러 규모라고 말했다. 지금, 바로 이 순간, 나는 2027년까지 최소 1조 달러의 수요(at least $1 trillion)를 목전에 두고 있다.”

황의 ‘1조 달러’ 전망은 NVIDIA 주가를 4.3% 이상 급등시키기도 했다.

더 나아가 그는 이 수치에 다음과 같은 보완 설명을 덧붙였다:
“이 예측이 타당할까? 바로 그것이 내가 다음에 다룰 내용이다. 사실 우리는 오히려 공급 부족에 직면할 것이다. 나는 실제 컴퓨팅 수요가 이보다 훨씬 높을 것임을 확신한다.”
황은 현재 NVIDIA 시스템이 전 세계에서 ‘비용 효율성이 가장 높은 인프라’임을 입증했다고 지적했다. NVIDIA 하드웨어는 거의 모든 분야의 AI 모델을 실행할 수 있는 범용성을 갖추고 있어, 고객이 투자한 이 1조 달러가 최대한 활용되고 장기간 생애주기를 유지할 수 있다고 설명했다.
현재 NVIDIA 매출의 60%는 글로벌 상위 5개 초대형 클라우드 서비스 제공업체(Cloud Service Provider, CSP)에서 발생하며, 나머지 40%는 주권 클라우드(Sovereign Cloud), 기업, 산업, 로봇, 엣지 컴퓨팅 등 다양한 분야에 걸쳐 분포되어 있다.
토큰 공장 경제학: 와트당 성능이 비즈니스 생명선
이 1조 달러 수요의 타당성을 설명하기 위해, 황은 전 세계 기업 CEO들에게 새로운 비즈니스 사고방식을 제시했다. 그는 미래의 데이터센터가 더 이상 파일 저장소가 아니라, AI가 생성하는 기본 단위인 ‘토큰(Token)’을 생산하는 ‘공장’이라고 강조했다.

황은 다음과 같이 강조했다:
“모든 데이터센터와 모든 공장은 본질적으로 전력 공급에 의해 제약받는다. 1GW(기가와트) 규모의 공장은 물리법칙과 원자 구조상 결코 2GW가 될 수 없다. 고정된 전력 조건에서, 누구나 와트당 토큰 처리량(Token Throughput per Watt)이 가장 높은 쪽이 생산 단가가 가장 낮아진다.”
황은 미래 AI 서비스를 다음과 같은 다섯 가지 상업적 계층으로 구분했다:
- 무료 계층(Free Tier): 고처리량, 저속
- 중간 계층(Mid-Tier): 약 100만 토큰당 3달러
- 고급 계층(Premium Tier): 약 100만 토큰당 6달러
- 고속 계층(High-Speed Tier): 약 100만 토큰당 45달러
- 초고속 계층(Ultra-High-Speed Tier): 약 100만 토큰당 150달러
그는 모델 규모가 커지고 컨텍스트 길이가 늘어남에 따라 AI는 더욱 똑똑해지지만, 토큰 생성 속도는 감소한다고 지적했다. 황은 다음과 같이 말했다:
“이 토큰 공장 안에서는, 당신의 처리량과 토큰 생성 속도가 바로 내년 정확한 수입으로 직결된다.”
황은 NVIDIA 아키텍처가 고객에게 무료 계층에서 극도로 높은 처리량을 제공함과 동시에, 가장 높은 가치를 지닌 추론(Inference) 계층에서 놀라운 35배의 성능 향상을 가능하게 한다고 강조했다.

베라 루빈(Vera Rubin), 2년 만에 350배 가속화; 그록(Groq), 초고속 추론 완성
이러한 물리적 한계 속에서, NVIDIA는 역대 최복잡한 AI 컴퓨팅 시스템인 ‘베라 루빈(Vera Rubin)’을 공개했다. 황은 다음과 같이 설명했다:
“과거 호퍼(Hopper)를 언급할 때는 칩 하나를 들어 보였는데, 그 모습이 참 귀엽기도 했다. 그러나 베라 루빈을 말할 때는 전체 시스템을 떠올려야 한다. 이 100% 액체 냉각 방식의 시스템은 전통적인 케이블을 완전히 제거했으며, 과거에는 이틀이 걸렸던 랙 설치 작업이 이제는 단 두 시간 만에 완료된다.”
황은 극도의 엔드투엔드 소프트웨어·하드웨어 공동 설계(Co-design)를 통해, 동일한 1GW 데이터센터 내에서 놀라운 성능 도약을 달성했다고 밝혔다:
“단 2년 만에 토큰 생성 속도를 초당 2,200만 개에서 7억 개로 끌어올려, 350배의 성능 향상을 이뤄냈다. 같은 기간 동안 무어의 법칙(Moore’s Law)은 약 1.5배의 향상만 가능했다.”
초고속 추론(예: 초당 1,000 토큰) 조건에서 발생하는 대역폭 병목 현상을 해결하기 위해, NVIDIA는 인수한 그록(Groq)사 기술을 통합한 최종 솔루션을 제시했다: ‘비대칭 분리 추론(Asymmetric Disaggregated Inference)’. 황은 다음과 같이 설명했다:
“두 프로세서의 특성은 극명하게 다르다. 그록 칩은 500MB의 SRAM을 탑재한 반면, 루빈 칩은 288GB의 메모리를 갖춘다.”

황은 NVIDIA의 ‘다이너모(Dynamo)’ 소프트웨어 시스템을 통해, 막대한 계산량과 그래픽 메모리(GPU 메모리)가 필요한 ‘프리필(Pre-fill)’ 단계는 베라 루빈에, 지연 시간에 민감한 ‘디코드(Decode)’ 단계는 그록에 각각 할당한다고 설명했다. 또한 기업의 컴퓨팅 자원 구성에 대한 조언도 제시했다:
“작업 부하가 주로 고처리량 중심이라면, 베라 루빈을 100% 사용하라. 반면, 코드 수준의 고가치 토큰 생성 수요가 많다면, 데이터센터 규모의 약 25%를 그록에 할당하라.”
삼성에서 위탁 생산 중인 그록 LP30 칩은 이미 양산 단계에 진입했으며, 올해 3분기 출하될 예정이다. 첫 번째 베라 루빈 랙은 마이크로소프트 애저(Azure) 클라우드에서 이미 운영 중이다.
또한 광인터커넥트 기술 관련하여, 황은 세계 최초 양산형 공동패키징 광학(CPO, Co-Packaged Optics) 스위치 ‘스펙트럼 X(Spectrum X)’를 공개하고, ‘구리 케이블 퇴출, 광학 기술 진입’이라는 기술 노선 논쟁을 종식시켰다:
“우리는 더 많은 구리 케이블 생산 능력, 더 많은 광칩 생산 능력, 더 많은 CPO 생산 능력이 필요하다.”
에이전트(Agent)가 기존 SaaS 종식, ‘연봉+토큰’이 실리콘밸리 표준
하드웨어 장벽 외에도, 황은 AI 소프트웨어 및 생태계 혁명, 특히 에이전트(Agent)의 폭발적 성장에 큰 비중을 두었다.
그는 오픈소스 프로젝트 ‘오픈클로(OpeClaw)’를 ‘인류 역사상 가장 인기 있는 오픈소스 프로젝트’라고 칭하며, 단 몇 주 만에 리눅스(Linux)가 지난 30년간 달성한 성과를 넘어서고 있다고 평가했다. 황은 오픈클로가 본질적으로 에이전트 컴퓨팅의 ‘운영체제(OS)’라고 단언했다.
황은 다음과 같이 예측했다:
“모든 SaaS(소프트웨어 애즈 어 서비스) 기업은 AaaS(Agent-as-a-Service, 에이전트 애즈 어 서비스) 기업으로 전환될 것이다. 의심의 여지 없이, 민감한 데이터 접근 및 코드 실행 능력을 갖춘 에이전트를 기업 환경에 안전하게 도입하기 위해, NVIDIA는 기업용 네모 클로(NeMo Claw) 참조 설계를 출시했다. 이 설계는 정책 엔진(Policy Engine)과 프라이버시 라우터(Privacy Router)를 포함한다.”
일반 직장인에게도 이 변화는 이미 눈앞에 다가왔다. 황은 미래 직장의 새 형태를 이렇게 묘사했다:
“미래에는 우리 회사의 모든 엔지니어에게 연간 토큰 예산이 부여될 것이다. 그들의 기본 연봉은 수십만 달러일 수 있으나, 나는 여기에 추가로 약 절반 규모의 토큰 할당량을 제공하여, 그들의 생산성을 10배로 끌어올릴 것이다. 이는 이미 실리콘밸리의 신규 채용 조건이 되었다: ‘귀하의 채용 제안서(Offer Letter)에 얼마나 많은 토큰이 포함되어 있습니까?’”
연설의 마지막 부분에서, 황은 차세대 컴퓨팅 아키텍처 ‘파인만(Feynman)’을 미리 공개했는데, 이는 구리 케이블과 CPO를 동시에 수평 확장하는 최초의 설계다. 더 흥미로운 것은, NVIDIA가 ‘베라 루빈 스페이스-1(Vera Rubin Space-1)’이라는 우주용 데이터센터 컴퓨터 개발을 진행 중이라는 점으로, AI 컴퓨팅 파워를 지구 밖으로 확장하는 상상의 공간을 완전히 열어젖혔다.
황의 GTC 2026 기조연설 전문(번역: AI 도구 보조)
사회자: NVIDIA 창립자이자 최고경영자(CEO) 젠슨 황을 환영합니다.
젠슨 황, 창립자 겸 CEO:
GTC에 오신 것을 환영합니다. 이 행사는 기술 컨퍼런스임을 잊지 말아 주십시오. 이른 아침부터 줄을 서서 입장하시는 많은 분들을 보고, 여러분 모두를 직접 뵙게 되어 정말 기쁩니다.
GTC에서는 세 가지 주요 주제에 집중합니다: 기술, 플랫폼, 그리고 생태계. 현재 NVIDIA는 CUDA-X 플랫폼, 시스템 플랫폼, 그리고 최근에 출시한 AI 공장 플랫폼 등 세 가지 주요 플랫폼을 보유하고 있습니다.
본격적인 발표에 앞서, 준비 세션을 진행해 주신 Conviction의 사라 구오(Sarah Guo), 시리즈 캐피털(Sequoia Capital)의 알프레드 린(Alfred Lin)(NVIDIA의 첫 번째 벤처 캐피탈 투자자), 그리고 NVIDIA의 첫 번째 주요 기관 투자자인 게이빈 베이커(Gavin Baker)께 감사를 표합니다. 이 세 분은 기술에 대한 심도 있는 통찰력을 갖추고 있으며, 전 세계 기술 생태계 전반에 걸쳐 광범위한 영향력을 발휘하고 계십니다. 물론 오늘 직접 초청해 함께 자리해 주신 모든 귀빈 분들께도 깊이 감사드립니다. 이 멋진 스타플레이어 팀에 감사드립니다.
오늘 현장에 계신 모든 기업 관계자 분들께도 감사를 드립니다. NVIDIA는 플랫폼 기업이며, 기술, 플랫폼, 풍부한 생태계를 보유하고 있습니다. 오늘 현장에 계신 기업들은 가치 100조 달러에 달하는 산업 전반의 거의 모든 참여자를 대표합니다. 이번 행사에는 총 450개 기업이 후원하였으며, 이에 대해 진심으로 감사드립니다.
이번 컨퍼런스는 총 1,000개의 기술 포럼과 2,000명의 연사가 참여하며, 인공지능의 ‘다섯 층 케이크’ 아키텍처 — 토지, 전력, 데이터센터 시설 등의 인프라부터 칩, 플랫폼, 모델, 그리고 전체 산업을 비약적으로 성장시키는 응용 프로그램에 이르기까지 — 를 아우르는 모든 계층을 포괄합니다.
CUDA: 20년간의 기술 축적
모든 시작은 바로 여기서부터입니다. 올해는 CUDA 탄생 20주년입니다.
20년간 우리는 이 아키텍처의 개발에 일관되게 집중해 왔습니다. CUDA는 혁명적인 발명품입니다. SIMT(단일 명령어 다중 스레드) 기술을 통해 개발자는 스칼라 코드만으로 프로그램을 작성하고 이를 다중 스레드 애플리케이션으로 확장할 수 있으며, 이는 기존 SIMD 아키텍처보다 훨씬 낮은 프로그래밍 난이도를 제공합니다. 최근에는 텐서 코어(Tensor Core) 및 현대 AI가 의존하는 다양한 수학 연산 구조를 보다 쉽게 프로그래밍할 수 있도록 ‘타일(Tile)’ 기능도 추가했습니다. 현재 CUDA는 수천 가지의 도구, 컴파일러, 프레임워크, 라이브러리를 보유하고 있으며, 오픈소스 커뮤니티에는 수십만 개의 공개 프로젝트가 존재하고, 모든 기술 생태계에 깊이 통합되어 있습니다.
이 차트는 NVIDIA의 100% 전략 논리를 보여줍니다. 저는 처음부터 이 슬라이드를 계속 사용해 왔습니다. 이 차트에서 가장 어렵게 달성해야 하며, 가장 핵심적인 요소는 바닥에 위치한 ‘설치 기반(Installed Base)’입니다. 20년간 전 세계적으로 수억 개의 CUDA 기반 GPU 및 컴퓨팅 시스템이 설치되었습니다.
우리의 GPU는 모든 클라우드 플랫폼을 커버하며, 거의 모든 컴퓨터 제조사 및 산업 분야에 서비스를 제공합니다. CUDA의 방대한 설치 기반은 이 ‘비행 바퀴(Flywheel)’가 계속해서 가속화되는 근본 원인입니다. 설치 기반이 개발자를 유치하고, 개발자는 새로운 알고리즘을 창출하여 돌파구를 만들며, 이 돌파구는 새로운 시장을 창출하고, 새로운 생태계를 형성하여 더 많은 기업을 끌어들이고, 결국 설치 기반을 다시 확대합니다—이 비행 바퀴는 계속해서 가속화되고 있습니다.
NVIDIA 라이브러리의 다운로드 수는 놀라운 속도로 증가하고 있으며, 규모도 크고 증가율 역시 지속적으로 상승하고 있습니다. 이 비행 바퀴는 우리의 컴퓨팅 플랫폼이 방대한 응용 프로그램과 끊임없는 새로운 돌파구를 지원할 수 있게 합니다.
더 중요한 것은, 이러한 인프라가 극도로 긴 수명을 갖는다는 점입니다. 이유는 명백합니다: NVIDIA CUDA에서 실행 가능한 애플리케이션은 AI 라이프사이클의 모든 단계, 다양한 데이터 처리 플랫폼, 다양한 과학적 원리 기반 해석기(Solver)를 아우릅니다. 따라서 일단 NVIDIA GPU가 설치되면, 그 실제 사용 가치는 매우 높습니다. 이것이 우리가 6년 전에 출시한 앰페어(Ampere) 아키텍처 GPU의 클라우드 가격이 오히려 상승하고 있는 이유이기도 합니다.
이 모든 것의 근본 원인은 설치 기반의 방대함, 강력한 비행 바퀴, 광범위한 개발자 생태계에 있습니다. 이러한 요소들이 서로 작용하면서, 우리가 소프트웨어를 지속적으로 업데이트함에 따라 컴퓨팅 비용은 계속해서 하락합니다. 가속 컴퓨팅은 애플리케이션 성능을 획기적으로 향상시킬 뿐만 아니라, 장기간 소프트웨어를 유지·관리하고 반복적으로 업그레이드함으로써 사용자는 초기 성능 향상뿐 아니라 지속적인 컴퓨팅 비용 절감 효과도 누릴 수 있습니다. 우리는 전 세계 모든 GPU에 장기 지원을 제공할 용의가 있습니다. 왜냐하면 이 모든 GPU가 아키텍처상 완전히 호환되기 때문입니다.
우리가 이런 일을 할 수 있는 이유는 설치 기반이 너무나 방대하기 때문입니다—새로운 최적화 버전 하나만 배포해도 수백만 명의 사용자에게 혜택이 돌아갑니다. 이러한 역동적인 조합 덕분에, NVIDIA 아키텍처는 커버리지를 확대하고 자체 성장을 가속화하는 동시에, 지속적으로 컴퓨팅 비용을 낮추고, 궁극적으로 새로운 성장을 촉진합니다. CUDA는 이 모든 것의 핵심입니다.
지포스(GeForce)에서 CUDA까지: 25년의 진화 여정
그리고 우리가 CUDA와 함께 걸어온 여정은 사실 25년 전부터 시작되었습니다.
지포스(GeForce)—여러분 중 상당수는 지포스와 함께 성장하셨을 겁니다. 지포스는 NVIDIA가 가장 성공적으로 추진한 마케팅 프로젝트입니다. 우리는 여러분이 제품을 살 수 없었던 시절부터 미래의 고객을 양성하기 시작했습니다—여러분의 부모님이 여러분을 대신해 NVIDIA의 최초 고객이 되셨고, 해마다 우리 제품을 구매하시다가, 어느 날 여러분이 훌륭한 컴퓨터 과학자가 되어 진정한 의미의 고객과 개발자가 되셨습니다.
이것이 25년 전 지포스가 마련한 기반입니다. 25년 전, 우리는 프로그래밍 가능한 셰이더(Programmable Shader)를 발명했는데, 이는 가속기의 프로그래밍 가능성을 실현시킨, 명백해 보이면서도 심오한 발명이었으며, 세계 최초의 프로그래밍 가능한 가속기—즉 픽셀 셰이더—였습니다. 5년 후, 우리는 CUDA를 창조했습니다—이것은 우리가 지금까지 해온 가장 중요한 투자 중 하나였습니다. 당시 회사 재정은 여유롭지 않았으나, 우리는 대부분의 이익을 이 사업에 투입하여, CUDA를 지포스에서 모든 컴퓨터로 확장시키는 데 집중했습니다. 우리가 이렇게 확고한 믿음을 가졌던 이유는 그 잠재력을 믿었기 때문입니다. 초기에는 힘든 시기를 겪었지만, 회사는 13세대, 즉 20년 동안 이 신념을 굳게 지켰고, 오늘날 CUDA는 어디에나 존재합니다.
픽셀 셰이더는 지포스 혁명을 이끌었습니다. 그리고 약 8년 전, 우리는 RTX를 출시했습니다—현대 컴퓨터 그래픽 시대를 위한 아키텍처 전반의 완전한 혁신이었습니다. 지포스는 CUDA를 전 세계에 알렸고, 바로 이 덕분에 알렉스 크리즈헤프스키(Alex Krizhevsky), 일리야 수츠케버(Ilya Sutskever), 제프리 힌턴(Geoffrey Hinton), 앤드류 응(Andrew Ng) 등 수많은 학자들이 GPU가 딥러닝을 가속화하는 데 이상적인 도구임을 발견하게 되었으며, 이는 10년 전 인공지능의 대폭발을 촉발시켰습니다.
10년 전, 우리는 프로그래밍 가능한 셰이딩과 두 가지 새로운 개념을 융합하기로 결정했습니다. 첫째는 기술적으로 매우 도전적인 하드웨어 레이 트레이싱(Ray Tracing), 둘째는 당시로서는 선견지명이 돋보였던 아이디어였는데, 약 10년 전부터 우리는 AI가 컴퓨터 그래픽 전체를 근본적으로 바꿀 것임을 예측했습니다. 지포스가 AI를 전 세계에 가져다 주었듯이, AI는 이제 반대로 컴퓨터 그래픽의 구현 방식 전체를 재정의할 것입니다.
오늘, 저는 여러분께 미래를 보여드리겠습니다. 이것이 바로 우리의 차세대 그래픽 기술인 ‘뉴럴 렌더링(Neural Rendering)’입니다—3D 그래픽과 인공지능의 심층 융합입니다. 이것이 바로 DLSS 5입니다. 확인해 보십시오.
뉴럴 렌더링: 구조화된 데이터와 생성형 AI의 융합
정말 놀라운가요? 컴퓨터 그래픽이 다시 한번 활력을 얻었습니다.
우리는 무엇을 했을까요? 우리가 현실 세계의 기반이 되는 제어 가능한 3D 그래픽(가상 세계)과 그 구조화된 데이터를 결합하고, 여기에 생성형 AI와 확률 계산을 더했습니다. 하나는 완전히 결정론적이며, 다른 하나는 확률적이지만 극도로 사실적입니다—이 두 개념을 융합하여, 구조화된 데이터를 통해 정밀하고 제어 가능한 결과를 실시간으로 생성합니다. 최종 결과물은 시각적으로 놀라울 뿐 아니라, 완전히 제어 가능합니다.
구조화된 정보와 생성형 AI의 융합이라는 개념은 하나의 산업을 넘어 또 다른 산업에서도 계속해서 반복될 것입니다. 구조화된 데이터는 신뢰할 수 있는 AI의 기반이 됩니다.
구조화된 데이터와 비구조화된 데이터의 가속 플랫폼
이제 기술 아키텍처도 한 번 살펴보겠습니다.
구조화된 데이터—여러분이 잘 아는 SQL, Spark, Pandas, Velox, 그리고 Snowflake, Databricks, Amazon EMR, Azure Fabric, Google BigQuery와 같은 주요 플랫폼—은 모두 데이터 프레임(Data Frame)을 처리합니다. 이 데이터 프레임은 거대한 전자 스프레드시트처럼, 비즈니스 세계의 모든 정보를 담고 있으며, 기업 컴퓨팅의 ‘근본 진실(Ground Truth)’입니다.
AI 시대에는 AI가 구조화된 데이터를 사용하도록 하고, 이를 극도로 가속화해야 합니다. 과거에는 구조화된 데이터 처리를 가속화하는 것이 기업 운영 효율성을 높이는 데 목적이었습니다. 그러나 미래에는 AI가 인간보다 훨씬 빠른 속도로 이러한 데이터 구조를 사용하게 될 것이며, AI 에이전트도 구조화된 데이터베이스를 대량으로 호출하게 될 것입니다.
비구조화된 데이터 측면에서는, 벡터 데이터베이스, PDF, 비디오, 오디오 등이 세상의 대부분 데이터 형태를 구성합니다—매년 생성되는 데이터 중 약 90%가 비구조화된 데이터입니다. 과거에는 이러한 데이터는 거의 전혀 활용되지 않았습니다: 우리는 이를 읽고 파일 시스템에 저장하는 것 외에는 아무것도 하지 못했습니다. 검색하거나 검색하기도 어려웠던 이유는, 비구조화된 데이터에는 간단한 인덱스 방식이 없고, 그 의미와 맥락을 이해해야만 하기 때문이었습니다. 그러나 이제 AI는 이를 가능하게 합니다—멀티모달 감지 및 이해 기술을 통해, AI는 PDF 문서를 읽고 그 의미를 이해하며, 이를 검색 가능한 더 큰 구조에 임베딩할 수 있습니다.
NVIDIA는 이를 위해 두 가지 기반 라이브러리를 개발했습니다:
- cuDF: 데이터 프레임 및 구조화된 데이터 처리 가속화용
- cuVS: 벡터 저장소, 의미론적 데이터 및 비구조화된 AI 데이터 처리용
이 두 플랫폼은 앞으로 가장 중요한 기반 플랫폼 중 하나가 될 것입니다.
오늘, 우리는 여러 기업과의 협업을 발표합니다. SQL 언어의 창시자인 IBM은 cuDF를 활용해 WatsonX Data 플랫폼을 가속화할 예정입니다. 델(Dell)은 우리와 공동으로 Dell AI 데이터 플랫폼을 개발하여 cuDF와 cuVS를 통합했으며, NTT Data의 실제 프로젝트에서 상당한 성능 향상을 달성했습니다. 구글 클라우드(Google Cloud)의 경우, 우리는 Vertex AI뿐만 아니라 BigQuery도 가속화하고 있으며, Snapchat과의 협업을 통해 컴퓨팅 비용을 약 80%까지 절감했습니다.
가속 컴퓨팅이 가져오는 이점은 삼위일체입니다: 속도, 규모, 비용. 이는 무어의 법칙과 동일한 논리입니다—가속 컴퓨팅을 통해 성능을 비약적으로 향상시키고, 알고리즘을 지속적으로 최적화함으로써, 누구나 지속적으로 하락하는 컴퓨팅 비용을 누릴 수 있습니다.
NVIDIA는 가속 컴퓨팅 플랫폼을 구축했으며, 이 위에는 RTX, cuDF, cuVS 등 다양한 라이브러리가 집약되어 있습니다. 이 라이브러리들은 전 세계 클라우드 서비스 및 OEM 시스템에 통합되어, 전 세계 사용자에게 제공됩니다.
주요 클라우드 서비스 제공업체와의 심층 협력
주요 클라우드 서비스 제공업체와의 협력
구글 클라우드(Google Cloud): 우리는 Vertex AI와 BigQuery를 가속화하며, JAX/XLA와 심층 통합을 이루었고, PyTorch에서도 탁월한 성능을 보이고 있습니다—NVIDIA는 전 세계 유일하게 PyTorch와 JAX/XLA 모두에서 탁월한 성능을 보이는 가속기입니다. 우리는 Base10, CrowdStrike, Puma, Salesforce 등 고객을 구글 클라우드 생태계로 유치했습니다.
AWS: 우리는 EMR, SageMaker, Bedrock을 가속화하며 AWS와 심층 통합을 이루고 있습니다. 올해 특히 흥분되는 것은, 우리가 OpenAI를 AWS로 유치한다는 점입니다. 이는 AWS 클라우드 컴퓨팅 소비를 크게 증가시키고, OpenAI의 지역 배포 및 컴퓨팅 규모 확장을 지원할 것입니다.
마이크로소프트 애저(Microsoft Azure): NVIDIA의 100 PFLOPS 초컴퓨터는 우리가 건설한 첫 번째 초컴퓨터이자, 애저에 배치된 첫 번째 초컴퓨터입니다. 이는 OpenAI와의 협력의 중요한 기반이 되었습니다. 우리는 Azure 클라우드 서비스 및 AI 파운드리(AI Foundry)를 가속화하고, Azure 지역 확장을 협력 추진하며, 빙(Bing) 검색과도 심층 협력하고 있습니다. 주목할 점은, 우리의 **비밀 컴퓨팅(Confidential Computing)** 능력—운영자조차 사용자의 데이터 및 모델을 볼 수 없도록 보장하는 기능—인데, NVIDIA GPU는 전 세계 최초로 비밀 컴퓨팅을 지원하는 GPU이며, OpenAI 및 Anthropic 모델을 전 세계 각 지역 클라우드 환경에서 비밀 배포할 수 있도록 지원합니다. 예를 들어, 신옵시스(Synopsys)의 경우, 우리는 그들의 전체 EDA 및 CAD 워크플로를 가속화하고, 이를 마이크로소프트 애저에 배포했습니다.
오라클(Oracle): 우리는 오라클의 첫 번째 AI 고객이며, 오라클에 처음으로 AI 클라우드 개념을 설명할 수 있었던 것을 자랑스럽게 생각합니다. 이후 오라클은 급속히 성장했고, 우리는 Cohere, Fireworks, OpenAI 등 다수의 파트너를 오라클에 소개했습니다.
코어위브(CoreWeave): 전 세계 최초의 AI 원생 클라우드로, GPU 호스팅 및 AI 클라우드 서비스에 특화된, 훌륭한 고객군과 강력한 성장세를 자랑합니다.
팔란티어(Palantir) + 델(Dell): 삼사는 팔란티어의 온톨로지 플랫폼(Ontology Platform) 및 AI 플랫폼을 기반으로 한 새로운 AI 플랫폼을 공동 개발했습니다. 이 플랫폼은 어떤 국가, 어떤 에어갭(Air-Gap) 환경에서도 완전히 로컬화된 AI를 배포할 수 있으며, 데이터 처리(벡터화 또는 구조화)에서 AI 전체 가속 컴퓨팅 스택에 이르기까지 모든 것을 아우릅니다.
NVIDIA는 전 세계 클라우드 서비스 제공업체와 이러한 특별한 협력 관계를 구축했습니다—우리는 고객을 클라우드로 유치하는데, 이는 상호 윈윈하는 생태계입니다.
수직 통합, 수평 개방: NVIDIA의 핵심 전략
NVIDIA는 전 세계 최초의 ‘수직 통합·수평 개방’ 기업입니다.
이 모델이 필수적인 이유는 매우 간단합니다: 가속 컴퓨팅은 단순한 칩 문제도, 시스템 문제도 아닙니다. 그 완전한 표현은 ‘애플리케이션 가속(Application Acceleration)’입니다. CPU는 컴퓨터 전체를 더 빠르게 작동하게 하지만, 이 길은 이미 한계에 도달했습니다. 미래에는 애플리케이션 또는 특정 분야에 특화된 가속을 통해서만, 지속적인 성능 향상과 비용 절감을 이룰 수 있습니다.
이것이 바로 NVIDIA가 하나의 라이브러리, 하나의 분야, 하나의 수직 산업을 깊이 파고들어야 하는 이유입니다. 우리는 수직 통합된 컴퓨팅 기업이며, 다른 선택지는 없습니다. 우리는 애플리케이션과 분야를 이해하고, 알고리즘을 깊이 이해하며, 이를 데이터센터, 클라우드, 로컬, 엣지, 로봇 시스템 등 어떤 환경에도 배포할 수 있어야 합니다.
동시에, NVIDIA는 수평적으로 개방되어 있으며, 기술을 어떤 파트너의 플랫폼에도 통합할 수 있도록 열려 있습니다. 전 세계가 가속 컴퓨팅의 혜택을 누릴 수 있도록 하기 위해서입니다.
이번 GTC의 참가자 구조는 이를 잘 보여줍니다. 이번 행사 참가자 중 금융 서비스 산업 비중이 가장 높습니다—개발자들이 와 주길 바라며, 트레이더가 아니라요. 우리의 생태계는 공급망의 상류 및 하류를 모두 아우릅니다. 설립 50년, 70년, 혹은 150년 된 기업들조차, 작년에 역사상 최고의 실적을 기록했습니다. 우리는 정말, 정말 중요한 어떤 일의 시작점에 서 있습니다.
CUDA-X: 각 산업 분야의 가속 컴퓨팅 엔진
각 수직 산업 분야에서, NVIDIA는 이미 심층적으로 진출해 있습니다:
- 자율주행: 광범위한 적용 범위와 심대한 영향력
- 금융 서비스: 양적 투자는 인공 특징 공학에서 슈퍼컴퓨터 기반 딥러닝으로 전환되며, 이는 그들의 ‘트랜스포머 순간(Transformer Moment)’입니다
- 의료 건강: 자신만의 ‘챗GPT 순간(ChatGPT Moment)’을 맞이하고 있으며, AI 보조 신약 개발, AI 에이전트 기반 진단 지원, 의료 고객 서비스 등 다양한 분야를 아우릅니다
- 산업: 전 세계 규모 최대의 건설 열풍이 펼쳐지고 있으며, AI 공장, 반도체 공장, 데이터센터 공장이 속속 등장하고 있습니다
- 엔터테인먼트 및 게임: 실시간 AI 플랫폼은 번역, 라이브 스트리밍, 게임 인터랙션, 스마트 쇼핑 에이전트 등을 지원합니다
- 로봇: 10여 년간의 심층 연구를 바탕으로, 훈련용 컴퓨터, 시뮬레이션용 컴퓨터, 탑재용 컴퓨터 등 세 가지 주요 컴퓨터 아키텍처를 완비하였으며, 이번 전시회에는 총 110종의 로봇이 전시되었습니다
- 통신: 약 2조 달러 규모의 산업으로, 기지국은 단순한 통신 기능에서 AI 인프라 플랫폼으로 진화하고 있으며, 이에 해당하는 플랫폼 이름은 ‘에어리얼(Aerial)’이며, 노키아(Nokia), T-Mobile 등 기업과 심층 협력을 진행 중입니다
위 모든 분야의 핵심은 바로 우리의 CUDA-X 라이브러리입니다—이는 NVIDIA가 알고리즘 기업으로서의 근본입니다. 이 라이브러리들은 회사의 가장 핵심 자산이며, 컴퓨팅 플랫폼이 각 산업에서 실질적인 가치를 발휘할 수 있도록 합니다.
그중 가장 중요한 라이브러리 중 하나는 cuDNN(CUDA Deep Neural Network Library)으로, 이는 인공지능을 완전히 혁신시켜 현대 AI의 대폭발을 촉발시켰습니다.
(CUDA-X 데모 영상 재생)
방금 보신 모든 장면은 시뮬레이션입니다—물리 기반 해석기, AI 에이전트 기반 물리 모델, 물리 AI 로봇 모델 등이 모두 포함됩니다. 이 모든 것은 시뮬레이션이며, 수작업 애니메이션이나 조인트 바인딩은 전혀 사용되지 않았습니다. 이것이 바로 NVIDIA의 핵심 역량입니다: 알고리즘에 대한 심층적인 이해와 컴퓨팅 플랫폼의 유기적인 결합을 통해 이러한 기회를 해방합니다.
AI 원생 기업과 새로운 컴퓨팅 시대
방금 월마트, 로레알, JP모건, 로슈, 도요타 등 현재 사회를 규정짓는 업계 거물들과, 여러분이 들어보지 못한 수많은 기업—우리는 이를 ‘AI 원생 기업(AI-Native Companies)’이라 부릅니다—을 보셨습니다. 이 명단은 매우 방대하며, 여기에는 OpenAI, Anthropic, 그리고 다양한 수직 산업 분야를 위한 신생 기업들이 포함되어 있습니다.
지난 2년간 이 산업은 놀라운 비약을 이뤘습니다. 벤처캐피탈이 스타트업에 투자한 자금 규모는 1,500억 달러에 달해 인류 역사상 최고치를 기록했습니다. 더 중요한 것은, 단일 투자 규모가 수백만 달러에서 수억~수십억 달러로 급격히 증가했다는 점입니다. 이유는 하나뿐입니다: 이번이 사상 최초로, 이러한 기업들 각각이 막대한 컴퓨팅 자원과 막대한 토큰을 필요로 하기 때문입니다. 이 산업은 토큰을 창출하고 생성하거나, Anthropic, OpenAI 등 기관에서 제공하는 토큰의 가치를 높이고 있습니다.
PC 혁명, 인터넷 혁명, 모바일 클라우드 혁명이 각각 시대를 정의하는 기업들을 탄생시켰듯이, 이번 컴퓨팅 플랫폼 혁명도 미래 세계를 이끌 핵심 기업들을 탄생시킬 것입니다.
이 모든 것을 이끄는 세 가지 역사적 돌파구
지난 2년간 과연 무슨 일이 있었을까요? 세 가지 사건입니다.
첫째: 챗GPT—생성형 AI 시대의 개막(2022년 말~2023년)
이것은 단순히 인지하고 이해하는 것을 넘어, 독창적인 콘텐츠를 생성할 수 있습니다. 저는 생성형 AI와 컴퓨터 그래픽의 융합을 보여드렸습니다. 생성형 AI는 계산의 방식을 근본적으로 바꾸었습니다—검색 중심의 계산에서 생성 중심의 계산으로의 전환은, 컴퓨터 아키텍처, 배포 방식, 그리고 전반적인 의미에 깊은 영향을 미칩니다.
둘째: 추론 AI(Reasoning AI)—o1을 대표로 함
추론 능력은 AI가 스스로 성찰하고, 계획하고, 문제를 분해할 수 있게 합니다—즉, AI가 직접 이해하지 못하는 문제를 처리 가능한 단계로 나누는 것입니다. o1은 생성형 AI를 신뢰할 수 있게 만들었으며, 실제 정보에 근거한 추론을 가능하게 했습니다. 이를 위해 입력 컨텍스트의 토큰 수와 사고 과정에서 출력되는 토큰 수가 대폭 증가했고, 이에 따라 계산량도 급격히 증가했습니다.
셋째: 클로드 코드(Claude Code)—최초의 에이전트 모델
이 모델은 파일을 읽고, 코드를 작성하고, 컴파일하고, 테스트하고, 평가하고, 반복할 수 있습니다. 클로드 코드는 소프트웨어 엔지니어링을 완전히 혁신했습니다—NVIDIA의 엔지니어 전원이 클로드 코드, 코덱스(Codex), 커서(Cursor) 중 하나 이상을 사용하고 있으며, AI를 활용하지 않는 소프트웨어 엔지니어는 단 한 명도 없습니다.
이것은 완전히 새로운 전환점입니다—이제 당신은 AI에게 ‘무엇인가, 어디에 있는가, 어떻게 하는가’를 묻지 않고, ‘만들고, 실행하고, 구축하라’고 명령합니다. AI가 도구를 적극적으로 사용하고, 파일을 읽고, 문제를 분해하고, 행동에 옮깁니다. AI는 인지에서 생성, 추론을 거쳐, 이제야 비로소 실제로 일을 할 수 있게 되었습니다.
지난 2년간, 추론에 필요한 계산량은 약 10,000배 증가했고, 사용량은 약 100배 증가했습니다. 저는 항상 지난 2년간 계산 수요가 100만 배 증가했다고 생각해 왔습니다—이는 모두의 공통된 느낌이며, OpenAI의 느낌이자 Anthropic의 느낌이기도 합니다. 더 많은 컴퓨팅 파워를 얻으면 더 많은 토큰을 생성할 수 있고, 수입은 증가하며, AI는 더욱 똑똑해집니다. 추론 전환점은 이미 도래했습니다.
1조 달러 규모의 AI 인프라 시대
작년 이맘때, 저는 여기서 블랙웰과 루빈에 대한 2026년까지의 수요 및 구매 주문에 대해 약 500억 달러 규모의 고신뢰도 전망을 발표했습니다. 오늘, GTC 개최 1년 후, 저는 여기서 2027년까지의 수치가 최소 1조 달러임을 말씀드립니다. 그리고 저는 실제 컴퓨팅 수요가 이보다 훨씬 더 클 것임을 확신합니다.
2025년: NVIDIA의 추론의 해(Year of Inference)
2025년은 NVIDIA의 ‘추론의 해’입니다. 우리는 훈련 및 사후 훈련(Post-training) 외에도, AI 라이프사이클의 모든 단계에서 뛰어난 성능을 보장하고자 합니다. 이렇게 하면 이미 투자된 인프라가 지속적으로 효율적으로 작동하게 되며, 유효 수명이 길수록 단위 비용은 점점 더 낮아집니다.
한편, Anthropic와 메타(Meta)가 공식적으로 NVIDIA 플랫폼에 합류했습니다. 이 두 기업은 전 세계 AI 컴퓨팅 수요의 3분의 1을 대표합니다. 오픈소스 모델은 선두 수준에 근접했으며, 어디에서나 사용 가능합니다.
NVIDIA는 현재 전 세계 유일하게 언어, 생물학, 컴퓨터 그래픽, 컴퓨터 비전, 음성, 단백질 및 화학, 로봇 등 AI의 모든 분야—엣지와 클라우드, 어떤 언어라도—모든 AI 모델을 실행할 수 있는 플랫폼입니다. NVIDIA 아키텍처는 이러한 모든 시나리오에 범용성을 갖추고 있어, 비용 효율성과 신뢰도 측면에서 최고의 플랫폼이 되었습니다.
현재, NVIDIA 매출의 60%는 전 세계 상위 5개 초대형 클라우드 서비스 제공업체에서 발생하며, 나머지 40%는 지역 클라우드, 주권 클라우드, 기업, 산업, 로봇, 엣지 컴퓨팅 등 다양한 분야에 분포되어 있습니다. AI의 광범위한 적용 범위 자체가 바로 그 탄력성의 근원입니다—이것은 분명히 새로운 컴퓨팅 플랫폼 혁명입니다.
그레이스 블랙웰(Grace Blackwell)과 NVLink 72: 대담한 아키텍처 혁신
호퍼 아키텍처가 여전히 절정에 달해 있을 때, 우리는 시스템을 완전히 재설계하기로 결정했고, NVLink를 8채널에서 NVLink 72로 확장하여, 컴퓨팅 시스템 전체를 분해·재구성했습니다. 그레이스 블랙웰 NVLink 72은 거대한 기술적 도박이었으며, 모든 파트너에게 쉬운 결정이 아니었음에도 불구하고, 진심으로 감사드립니다.
동시에, 우리는 NVFP4를 출시했습니다—단순한 FP4가 아니라, 완전히 새로운 유형의 텐서 코어 및 연산 유닛입니다. 우리는 NVFP4가 정밀도 손실 없이 추론을 수행할 수 있음을 입증했으며, 이는 엄청난 성능 향상과 에너지 효율 향상을 가져오고, 훈련에도 동일하게 적용 가능합니다. 또한 다이너모(Dynamo) 및 텐서RT-LLM(TensorRT-LLM) 등 일련의 새로운 알고리즘이 등장했고, 우리는 최적화 커널을 위해 수십억 달러를 투입해 슈퍼컴퓨터 DGX Cloud를 건설했습니다.
결과는 놀라웠습니다. 세미 애널리시스(Semi Analysis)의 데이터—지금까지 가장 포괄적인 AI 추론 성능 평가—에 따르면, NVIDIA는 와트당 토큰 수 및 토큰당 비용이라는 두 가지 차원에서 압도적인 1위를 차지했습니다. 원래 무어의 법칙은 H200에 1.5배의 성능 향상을 가져다줄 수 있었겠지만, 우리는 35배의 향상을 달성했습니다. 세미 애널리시스의 드릴런 패틀(Dylan Patel)은 “젠슨 황은 보수적으로 발표했다. 실제로는 50배다”라고 말했습니다. 그 말은 맞습니다.
저는 그의 말을 인용하겠습니다: “Jensen sandbagged.”
NVIDIA의 토큰당 비용은 전 세계에서 가장 낮으며, 현재까지는 누구도 따라올 수 없습니다. 그 이유는 바로 ‘극도의 공동 설계(Extreme Co-design)’에 있습니다.
예를 들어, 파이어워크스(Fireworks)의 경우, NVIDIA가 전체 소프트웨어 및 알고리즘을 업데이트하기 전에는 평균 토큰 속도가 초당 약 700개였으나, 업데이트 후 초당 약 5,000개에 근접하여 약 7배 향상되었습니다. 이것이 바로 극도의 공동 설계의 힘입니다.
AI 공장: 데이터센터에서 토큰 공장으로
데이터센터는 과거에는 파일을 저장하는 곳이었지만, 이제는 토큰을 생산하는 공장입니다. 모든 클라우드 서비스 제공업체, 모든 AI 기업은 앞으로 ‘토큰 공장 효율성(Token Factory Efficiency)’을 핵심 경영 지표로 삼게 될 것입니다.
이것이 제 핵심 주장입니다:
- 세로축: 처리량(Throughput)—고정 전력 조건에서 초당 생성되는 토큰 수
- 가로축: 상호작용 속도(Token Speed)—각 추론의 응답 속도. 속도가 빠를수록 사용 가능한 모델이 더 크고, 컨텍스트가 더 길어지며, AI는 더 똑똑해집니다
토큰은 새로운 원자재가 되었으며, 성숙되면 계층별 가격 책정이 이루어질 것입니다:
- 무료 계층(Free Tier): 고처리량, 저속
- 중간 계층(Mid-Tier): 약 100만 토큰당 3달러
- 고급 계층(Premium Tier): 약 100만 토큰당 6달러
- 고속 계층(High-Speed Tier): 약 100만 토큰당 45달러
- 초고속 계층(Ultra-High-Speed Tier): 약 100만 토큰당 150달러
호퍼와 비교해, 그레이스 블랙웰은 최고 가치 계층에서 처리량을 35배 향상시켰으며, 완전히 새로운 계층을 도입했습니다. 단순 모델로 추정해 보면, 네 계층에 각각 25%의 전력을 할당할 경우, 그레이스 블랙웰은 호퍼 대비 5배 더 많은 수익을 창출할 수 있습니다.
베라 루빈(Vera Rubin): 차세대 AI 컴퓨팅 시스템
(베라 루빈 시스템 소개 영상 재생)
베라 루빈은 에이전트(Agentic) 워크로드를 위해 전면적으로 최적화된 완전한 엔드투엔드 시스템입니다:
- 대규모 언어모델(Large Language Model) 연산 코어: NVLink 72 GPU 클러스터로, 프리필(Prefill) 및 KV 캐시(KV Cache) 처리
- 신규 베라 CPU: 극도의 단일 스레드 성능을 위해 설계되었으며, LPDDR5 메모리를 탑재해 뛰어난 에너지 효율을 자랑합니다. 이는 전 세계 유일하게 LPDDR5를 사용하는 데이터센터 CPU로, AI 에이전트의 도구 호출에 최적화되어 있습니다
- 스토리지 시스템: 블루필드 4(BlueField 4) + CX 9—AI 시대를 위한 신규 스토리지 플랫폼으로, 전 세계 스토리지 업계가 100% 참여했습니다
- CPO 스펙트럼 X(Spectrum X) 스위치: 세계 최초의 공동패키징 광학 이더넷 스위치로, 이미 전면 양산 중입니다
- 카이버(Kyber) 랙: 신규 랙 시스템으로, 144개의 GPU를 단일 NVLink 도메인으로 구성 가능하며, 프론트엔드 계산과 백엔드 NVLink 스위칭을 통해 거대한 단일 컴퓨터를 형성합니다
- 루빈 울트라(Rubin Ultra): 차세대 슈퍼컴퓨터 노드로, 수직 삽입식 디자인을 채택하여 카이버 랙과 결합해 더 큰 규모의 NVLink 인터커넥트를 지원합니다
베라 루빈은 100% 액체 냉각 방식이며, 설치 시간이 이틀에서 두 시간으로 단축되었습니다. 45°C의 온수 냉각 방식을 채택하여 데이터센터의 냉각 부담을 크게 줄였습니다. 이번에 사티아 나데라(Satya Nadella)가 공식 확인한 바에 따르면, 첫 번째 베라 루빈 랙이 마이크로소프트 애저에서 이미 운영 중이며, 이에 대해 저는 매우 기쁩니다.
그록(Groq) 통합: 추론 성능의 극한 확장
우리는 그록(Groq) 팀을 인수하고 기술 라이선스를 취득했습니다. 그록은 결정론적 데이터플로우 프로세서(Deterministic Dataflow Processor)로, 정적 컴파일 및 컴파일러 스케줄링을 채택하고, 대량의 SRAM을 탑재하여 단일 워크로드 추론에 최적화되어 있으며, 지연 시간이 극도로 낮고 토큰 생성 속도가 매우 빠릅니다.
그러나 그록의 메모리 용량은 제한적입니다(500MB의 온칩 SRAM). 이는 대규모 모델의 파라미터 및 KV 캐시를 독립적으로 수용하기 어렵게 만들어, 대규모 적용에 제약을 줍니다.
해결책은 바로 다이너모(Dynamo)—추
TechFlow 공식 커뮤니티에 오신 것을 환영합니다
Telegram 구독 그룹:https://t.me/TechFlowDaily
트위터 공식 계정:https://x.com/TechFlowPost
트위터 영어 계정:https://x.com/BlockFlow_News













