
황런슨 CES2026 최신 연설: 세 가지 핵심 주제, 한 대의 '칩 괴물'
작가: 리하이룬, 쑤양
베이징 시간 1월 6일, 엔비디아 CEO 젠슨 황이 상징적인 가죽 재킷을 입고 CES2026 메인 스테이지에 다시 섰다.
2025년 CES에서 엔비디아는 양산된 블랙웰 칩과 완전한 피지컬 AI 기술 스택을 선보였다. 회의에서 젠슨 황은 "피지컬 AI 시대"가 열리고 있다고 강조했다. 그는 상상력이 풍부한 미래를 그렸다: 자율주행차가 추론 능력을 갖추고, 로봇이 이해하고 사고할 수 있으며, AI 에이전트(인텔리전트 에이전트)가 백만 수준의 토큰을 가진 긴 컨텍스트 작업을 처리할 수 있다는 것이다.
순식간에 1년이 지나, AI 업계는 거대한 변화와 진화를 겪었다. 젠슨 황은 발표회에서 이 1년간의 변화를 회고하며 오픈소스 모델을 특히 언급했다.
그는 DeepSeek R1과 같은 오픈소스 추론 모델이 업계 전체에 깨달음을 주었다고 말했다: 개방과 글로벌 협업이 진정으로 시작되면 AI의 확산 속도는 극히 빠를 것이다. 오픈소스 모델이 전체 능력 면에서 여전히 최첨단 모델보다 약 6개월 정도 뒤처지지만, 6개월마다 한 번씩 따라잡고 있으며, 다운로드량과 사용량은 이미 폭발적으로 증가하고 있다.

2025년에 비전과 가능성을 더 많이 보여준 것과 비교해, 이번에는 엔비디아가 "어떻게 실현할 것인가"라는 문제를 체계적으로 해결하고자 했다: 추론형 AI를 중심으로 장기 실행에 필요한 컴퓨팅 파워, 네트워크 및 스토리지 인프라를 보완하고, 추론 비용을 현저히 낮추며, 이러한 능력을 자율주행과 로봇 등 실제 시나리오에 직접 내장하는 것이다.
이번 CES에서의 젠슨 황의 연설은 세 가지 주요 흐름을 중심으로 전개되었다:
● 시스템 및 인프라 측면에서, 엔비디아는 장기 추론 수요를 중심으로 컴퓨팅 파워, 네트워크 및 스토리지 아키텍처를 재구성했다. 루빈 플랫폼, NVLink 6, Spectrum-X 이더넷 및 추론 컨텍스트 메모리 스토리지 플랫폼을 핵심으로, 이러한 업데이트는 추론 비용이 높고, 컨텍스트가 지속되기 어려우며, 확장성이 제한되는 병목 현상을 직접 겨냥해, AI가 좀 더 생각하고, 계산할 수 있으며, 오래 실행될 수 있는 문제를 해결한다.
● 모델 측면에서, 엔비디아는 추론형 AI(Reasoning / Agentic AI)를 핵심 위치에 놓았다. Alpamayo, Nemotron, Cosmos Reason 등의 모델과 도구를 통해, AI가 "콘텐츠 생성"에서 지속적으로 사고할 수 있는 방향으로, "일회성 응답 모델"에서 "장기간 작업할 수 있는 인텔리전트 에이전트"로 전환되도록 추진한다.
● 응용 및 실현 측면에서, 이러한 능력들은 자율주행과 로봇 등 피지컬 AI 시나리오에 직접 도입된다. Alpamayo로 구동되는 자율주행 시스템이든, GR00T와 Jetson의 로봇 생태계든, 클라우드 업체와 엔터프라이즈급 플랫폼 협력을 통해 규모화된 배포를 추진하고 있다.

01 로드맵에서 양산까지: 루빈, 처음으로 완전한 성능 데이터 공개
이번 CES에서 엔비디아는 처음으로 루빈 아키텍처의 기술 세부 사항을 완전히 공개했다.
연설에서 젠슨 황은 Test-time Scaling(추론 시 확장)부터 시작했다. 이 개념은 AI를 똑똑하게 만들고 싶다면, 단지 "더 열심히 공부하게" 하는 것이 아니라, "문제를 만났을 때 좀 더 생각하게" 하는 것이라고 이해할 수 있다.
과거에는 AI 능력 향상이 주로 훈련 단계에서 더 많은 컴퓨팅 파워를 투입해 모델을 점점 더 크게 만드는 데 의존했다; 그러나 지금은 새로운 변화가 있다. 모델이 더 이상 커지지 않더라도, 매번 사용할 때 생각할 시간과 컴퓨팅 파워를 조금 더 주면 결과도 현저히 좋아질 수 있다는 것이다.
"AI가 좀 더 생각하는 것"을 경제적으로 실현 가능하게 하려면? 루빈 아키텍처의 차세대 AI 컴퓨팅 플랫폼이 바로 이 문제를 해결하기 위해 나온 것이다.
젠슨 황은 이 시스템이 완전한 차세대 AI 컴퓨팅 시스템으로, Vera CPU, Rubin GPU, NVLink 6, ConnectX-9, BlueField-4, Spectrum-6의 협력 설계를 통해 추론 비용의 혁명적인 하락을 실현한다고 소개했다.

엔비디아 루빈 GPU는 루빈 아키텍처에서 AI 컴퓨팅을 담당하는 핵심 칩으로, 추론과 훈련의 단위 비용을 현저히 낮추는 것이 목표다.
간단히 말해, 루빈 GPU의 핵심 임무는 "AI를 더 저렴하고 똑똑하게 사용하게 하는 것"이다.
루빈 GPU의 핵심 능력은 다음과 같다: 동일한 GPU가 더 많은 일을 할 수 있다. 한 번에 더 많은 추론 작업을 처리하고, 더 긴 컨텍스트를 기억하며, 다른 GPU와의 소통도 더 빠르다. 이는 많은 원래 "다중 카드 강제 적재"에 의존했던 시나리오를 이제 더 적은 GPU로 완료할 수 있음을 의미한다.
결과는 추론이 더 빨라질 뿐만 아니라, 현저히 더 저렴해진다는 것이다.
젠슨 황은 현장에서 루빈 아키텍처의 NVL72 하드웨어 파라미터를 복습했다: 220조 개의 트랜지스터를 포함하고, 대역폭은 260 TB/초이며, 업계 최초로 랙 규모 기밀 컴퓨팅을 지원하는 플랫폼이다.

전체적으로 블랙웰과 비교해, 루빈 GPU는 핵심 지표에서 세대를 뛰어넘는 도약을 실현했다: NVFP4 추론 성능은 50 PFLOPS(5배)로 향상되었고, 훈련 성능은 35 PFLOPS(3.5배)로 향상되었으며, HBM4 메모리 대역폭은 22 TB/s(2.8배)로 향상되었고, 단일 GPU의 NVLink 상호 연결 대역폭은 3.6 TB/s로 두 배 증가했다.
이러한 향상이 공동으로 작용해 단일 GPU가 더 많은 추론 작업과 더 긴 컨텍스트를 처리할 수 있게 하여, 근본적으로 GPU 수량에 대한 의존도를 줄인다.

Vera CPU는 데이터 이동과 에이전트 처리에 맞춰 설계된 핵심 구성 요소로, 88개의 엔비디아 자체 개발 Olympus 코어를 채택하고, 1.5 TB 시스템 메모리(이전 세대 Grace CPU의 3배)를 갖추었으며, 1.8 TB/s의 NVLink-C2C 기술을 통해 CPU와 GPU 간의 일관된 메모리 접근을 실현한다.
전통적인 범용 CPU와 달리, Vera는 AI 추론 시나리오에서의 데이터 스케줄링과 다단계 추론 논리 처리에 집중하며, 본질적으로 "AI가 좀 더 생각하는 것"이 효율적으로 실행될 수 있도록 하는 시스템 조정자 역할을 한다.
NVLink 6는 3.6 TB/s의 대역폭과 네트워크 내 컴퓨팅 능력을 통해 루빈 아키텍처 내의 72개 GPU가 하나의 슈퍼 GPU처럼 협력하여 작업할 수 있게 하여, 추론 비용을 낮추는 핵심 인프라를 실현한다.
이렇게 하면 AI가 추론 시 필요한 데이터와 중간 결과가 GPU 사이에서 신속하게 흐를 수 있어, 반복적으로 기다리거나 복사하거나 재계산할 필요가 없다.


루빈 아키텍처에서 NVLink-6는 GPU 내부 협력 컴퓨팅을 담당하고, BlueField-4는 컨텍스트와 데이터 스케줄링을 담당하며, ConnectX-9는 시스템의 대외 고속 네트워크 연결을 담당한다. 이는 루빈 시스템이 다른 랙, 데이터 센터 및 클라우드 플랫폼과 효율적으로 통신할 수 있도록 보장하여, 대규모 훈련 및 추론 작업이 원활하게 실행되기 위한 전제 조건이다.

이전 세대 아키텍처와 비교해, 엔비디아는 구체적이고 직관적인 데이터도 제시했다: NVIDIA 블랙웰 플랫폼과 비교해 추론 단계의 토큰 비용을 최대 10배 낮출 수 있고, 혼합 전문가 모델(MoE) 훈련에 필요한 GPU 수량을 원래의 1/4로 줄일 수 있다.
엔비디아 공식은 현재 마이크로소프트가 차세대 Fairwater AI 슈퍼 팩토리에 수십만 개의 Vera Rubin 칩을 배치할 것을 약속했으며, CoreWeave 등의 클라우드 서비스 제공업체가 2026년 하반기에 루빈 인스턴스를 제공할 예정이라고 밝혔다. 이 "AI가 좀 더 생각하게 하는" 인프라는 기술 데모에서 규모화된 상용화로 나아가고 있다.

02 "스토리지 병목"은 어떻게 해결하는가?
AI가 "좀 더 생각하는 것"은 또 하나의 핵심 기술적 도전에 직면한다: 컨텍스트 데이터는 어디에 저장해야 하는가?
AI가 다중 대화, 다단계 추론이 필요한 복잡한 작업을 처리할 때, 대량의 컨텍스트 데이터(KV Cache)가 생성된다. 전통적인 아키텍처는 이를 비싸고 용량이 제한된 GPU 메모리에 밀어 넣거나, 일반 스토리지에 넣는다(접근이 너무 느리다). 이 "스토리지 병목"을 해결하지 않으면, 아무리 강력한 GPU라도 발목을 잡힐 것이다.
이 문제를 위해, 엔비디아는 이번 CES에서 처음으로 BlueField-4로 구동되는 추론 컨텍스트 메모리 스토리지 플랫폼(Inference Context Memory Storage Platform)을 완전히 공개했다. 핵심 목표는 GPU 메모리와 전통적인 스토리지 사이에 "제3의 계층"을 만드는 것이다. 충분히 빠르면서도 충분한 용량을 가지고, AI의 장기 실행을 지원할 수 있어야 한다.
기술 구현 측면에서 볼 때, 이 플랫폼은 단일 구성 요소가 작용하는 것이 아니라, 일련의 협력 설계의 결과다:
- BlueField-4는 하드웨어 측면에서 컨텍스트 데이터의 관리와 접근을 가속화하여 데이터 이동과 시스템 오버헤드를 줄인다;
- Spectrum-X 이더넷은 고성능 네트워크를 제공하여 RDMA 기반의 고속 데이터 공유를 지원한다;
- DOCA, NIXL 및 Dynamo 등의 소프트웨어 구성 요소는 시스템 측면에서 스케줄링을 최적화하고, 지연 시간을 낮추며, 전체 처리량을 향상시키는 역할을 한다.
우리는 이 플랫폼의 접근 방식을 다음과 같이 이해할 수 있다: 원래 GPU 메모리에만 넣을 수 있었던 컨텍스트 데이터를 독립적이고 고속이며 공유 가능한 "메모리 계층"으로 확장하는 것이다. 한편으로는 GPU의 부담을 해소하고, 다른 한편으로는 여러 노드, 여러 AI 인텔리전트 에이전트 사이에서 이 컨텍스트 정보를 신속하게 공유할 수 있다.
실제 효과 측면에서, 엔비디아 공식이 제시한 데이터는 다음과 같다: 특정 시나리오에서 이 방식은 초당 처리되는 토큰 수를 최대 5배까지 향상시킬 수 있으며, 동등한 수준의 에너지 효율 최적화를 실현할 수 있다.
젠슨 황은 발표에서 여러 번 강조했다, AI는 "일회성 대화 챗봇"에서 진정한 인텔리전트 협업체로 진화하고 있다: 그들은 현실 세계를 이해하고, 지속적으로 추론하며, 도구를 호출해 작업을 완료하고, 동시에 단기 및 장기 기억을 보유해야 한다. 이것이 바로 에이전트 AI의 핵심 특징이다. 추론 컨텍스트 메모리 스토리지 플랫폼은 바로 이러한 장기 실행, 반복적 사고를 하는 AI 형태를 위해 설계된 것으로, 컨텍스트 용량을 확대하고, 노드 간 공유를 가속화함으로써 다중 대화와 다중 인텔리전트 에이전트 협업을 더욱 안정적으로 만들고, 더 이상 "갈수록 느려지지" 않게 한다.

03
차세대 DGX SuperPOD: 576개 GPU가 협력하여 작업
엔비디아는 이번 CES에서 루빈 아키텍처 기반의 차세대 DGX SuperPOD(슈퍼노드)를 출시한다고 발표했으며, 루빈을 단일 랙에서 전체 데이터 센터의 완전한 솔루션으로 확장했다.
DGX SuperPOD란 무엇인가?
루빈 NVL72가 72개 GPU가 장착된 "슈퍼 랙"이라면, DGX SuperPOD는 여러 개의 이러한 랙을 연결하여 더 큰 규모의 AI 컴퓨팅 클러스터를 형성하는 것이다. 이번에 발표된 버전은 8개의 Vera Rubin NVL72 랙으로 구성되어 있으며, 이는 576개 GPU가 협력하여 작업하는 것과 같다.
AI 작업 규모가 계속 확대될 때, 단일 랙의 576개 GPU로는 부족할 수 있다. 예를 들어 초대규모 모델 훈련, 수천 개의 에이전트 AI 인텔리전트 에이전트 동시 서비스, 또는 수백만 토큰 컨텍스트가 필요한 복잡한 작업 처리 등이다. 이때는 여러 랙이 협력하여 작업해야 하며, DGX SuperPOD는 바로 이러한 시나리오를 위해 설계된 표준화된 솔루션이다.
기업과 클라우드 서비스 제공업체에게 DGX SuperPOD는 "개봉 즉시 사용 가능한" 대규모 AI 인프라 솔루션을 제공한다. 수백 개의 GPU를 어떻게 연결하고, 네트워크를 어떻게 구성하며, 스토리지를 어떻게 관리할지 등을 스스로 연구할 필요가 없다.
차세대 DGX SuperPOD의 다섯 가지 핵심 구성 요소:
○8개의 Vera Rubin NVL72 랙 - 컴퓨팅 능력을 제공하는 핵심, 각 랙당 72개 GPU, 총 576개 GPU;
○NVLink 6 확장 네트워크 - 이 8개 랙 내의 576개 GPU가 하나의 초대형 GPU처럼 협력하여 작업할 수 있게 함;
○Spectrum-X 이더넷 확장 네트워크 - 다른 SuperPOD와 연결하고, 스토리지 및 외부 네트워크에 연결함;
○추론 컨텍스트 메모리 스토리지 플랫폼 - 장시간 추론 작업을 위한 공유 컨텍스트 데이터 스토리지 제공;
○엔비디아 Mission Control 소프트웨어 - 전체 시스템의 스케줄링, 모니터링 및 최적화 관리.
이번 업그레이드에서 SuperPOD의 기초는 DGX Vera Rubin NVL72 랙급 시스템을 핵심으로 한다. 각 NVL72 자체가 완전한 AI 슈퍼컴퓨터로, 내부적으로 NVLink 6를 통해 72개의 루빈 GPU가 연결되어 하나의 랙 내에서 대규모 추론 및 훈련 작업을 완료할 수 있다. 새로운 DGX SuperPOD는 여러 대의 NVL72로 구성되어 장기간 실행 가능한 시스템급 클러스터를 형성한다.
컴퓨팅 규모가 "단일 랙"에서 "다중 랙"으로 확장되면, 새로운 병목 현상이 나타난다: 랙 사이에서 대량의 데이터를 안정적이고 효율적으로 전송하는 방법이다. 이 문제를 중심으로, 엔비디아는 이번 CES에서 Spectrum-6 칩 기반의 차세대 이더넷 스위치를 동시에 발표했으며, 처음으로 "공동 패키징 광학"(CPO) 기술을 도입했다.
간단히 보면, 원래 탈부착 가능한 광 모듈을 스위치 칩 옆에 직접 패키징하여 신호 전송 거리를 몇 미터에서 몇 밀리미터로 단축함으로써 전력 소모와 지연 시간을 현저히 낮추고, 시스템 전체의 안정성도 향상시킨 것이다.
04 엔비디아 오픈소스 AI "풀세트": 데이터부터 코드까지 모두 갖춤
이번 CES에서 젠슨 황은 오픈소스 모델 생태계(Open Model Universe)를 확장한다고 발표했으며, 일련의 모델, 데이터셋, 코드 라이브러리 및 도구를 새로 추가하고 업데이트했다. 이 생태계는 6대 분야를 포괄한다: 생물의학 AI(Clara), AI 물리 시뮬레이션(Earth-2), 에이전트 AI(Nemotron), 피지컬 AI(Cosmos), 로봇(GR00T) 및 자율주행(Alpamayo).
AI 모델을 훈련하는 데는 컴퓨팅 파워뿐만 아니라, 고품질 데이터셋, 사전 훈련된 모
TechFlow 공식 커뮤니티에 오신 것을 환영합니다
Telegram 구독 그룹:https://t.me/TechFlowDaily
트위터 공식 계정:https://x.com/TechFlowPost
트위터 영어 계정:https://x.com/BlockFlow_News












