
황인훈 COMPUTEX 2024 기조연설 전문: 우리는 현재 컴퓨팅 인플레이션 시기를 겪고 있다
정리: 유신

지난 6월 2일 밤, 황젠선(Nvidia CEO)은 타이베이에서 열린 컴퓨텍스 2024 행사에서 Nvidia의 가속 컴퓨팅 및 생성형 AI 분야 최신 성과를 발표하고, 미래의 컴퓨팅과 로봇 기술 발전 청사진을 제시했다.

이번 연설에서는 AI 기반 기술부터 미래 로봇, 생성형 AI의 산업별 응용에 이르기까지 폭넓게 다루며, Nvidia가 컴퓨팅 기술 혁신을 주도해온 뛰어난 성과를 입증했다.

황젠선은 "Nvidia는 컴퓨터 그래픽, 시뮬레이션, AI의 교차점에 위치하며, 이것이 바로 우리 회사의 핵심 정체성"이라며 "오늘 보여드리는 모든 것은 시뮬레이션이다. 수학, 과학, 컴퓨터 과학, 그리고 놀라운 컴퓨터 아키텍처가 결합된 결과물이다. 단순한 애니메이션이 아니라 자체적으로 개발한 것으로, 이를 모두 Omniverse 가상 세계에 통합했다"고 말했다.
가속 컴퓨팅과 AI

황젠선은 "우리가 목격하는 모든 기술의 근간에는 두 가지 핵심 기술이 있다. 즉, 가속 컴퓨팅과 Omniverse 내에서 작동하는 AI다. 이 두 가지 힘은 컴퓨터 산업을 재편할 것이며, 60년 역사의 컴퓨터 산업을 다시 한번 변화시킬 것"이라고 강조했다. 그는 "컴퓨터 산업은 많은 면에서 1964년, 즉 내가 태어난 다음 해에 발명된 기술 위에 구축되어 왔다"고 설명했다.
IBM System 360은 중앙처리장치(CPU), 범용 컴퓨팅, 운영체제를 통한 하드웨어와 소프트웨어의 분리, 멀티태스킹, I/O 서브시스템, DMA 등을 도입했으며, 오늘날 사용되는 다양한 기술들 대부분이 여기서 시작됐다. 호환성, 역방향 호환성, 제품군 간 호환성 등 우리가 알고 있는 컴퓨터의 기본 개념 대부분이 1964년에 이미 정립됐다. 이후 PC 혁명으로 컴퓨팅이 대중화되었고, 2007년 아이폰 출시로 모바일 컴퓨팅 시대가 열렸으며, 이로부터 모든 것이 모바일 클라우드를 통해 연결되고 항상 실행 가능한 상태가 되었다.
지난 60년 동안 실제로 획기적인 기술 변혁은 몇 차례뿐이었다. 지금 우리는 또 한 번 그러한 전환점을 맞이하고 있다.

현재 일어나고 있는 두 가지 중요한 변화가 있다. 첫째, 컴퓨터 산업의 엔진인 CPU의 성능 향상 속도가 크게 느려졌다. 반면 처리해야 할 데이터량은 여전히 지수급으로 증가하고 있다. 만약 데이터 처리 요구량은 계속 늘어나는데 성능 향상은 더 이상 이루어지지 않는다면 '계산 인플레이션'이 발생하게 된다. 실제로 현재 전 세계 데이터센터의 전력 소비량은 급격히 증가하고 있으며, 컴퓨팅 비용도 상승하고 있다. 우리는 이미 계산 인플레이션을 겪고 있는 것이다.
이러한 상황은 지속될 수 없다. 데이터양은 계속해서 지수함수적으로 증가할 것이고, CPU 성능 향상은 절대 원래 수준으로 돌아가지 않을 것이다. 그러나 우리는 더 나은 해결책을 가지고 있다. 지난 20년간 Nvidia는 가속 컴퓨팅을 연구해왔다. CUDA는 CPU를 보완하여, 특화된 프로세서가 더 잘 수행할 수 있는 작업들을 오프로드하고 가속화한다. 실제로 그 성능은 매우 뛰어나며, CPU 성능 향상이 둔화되고 결국 거의 정체되면서 이제 모든 것을 가속화해야 한다는 것이 명백해졌다.

황젠선은 "앞으로 고강도 처리가 필요한 모든 애플리케이션은 가속화될 것이며, 가까운 장래에 모든 데이터센터가 가속화될 것"이라고 예측했다. 그는 "가속 컴퓨팅은 지금 매우 타당하다. 예를 들어, 100t는 100단위 시간(100초 또는 100시간)을 의미한다. 현재 많은 AI 애플리케이션들이 100일 동안 실행되는 경우도 있다"고 설명했다.
1T 코드란 순차적 처리가 필요한 코드를 말하며, 이때 단일 스레드 CPU가 매우 중요하다. 운영체제 제어 로직처럼 하나의 명령이 다음 명령을 따라야 하는 경우가 여기에 해당된다. 그러나 컴퓨터 그래픽 처리, 이미지 처리, 물리 시뮬레이션, 조합 최적화, 그래프 처리, 데이터베이스 처리, 특히 딥러닝에서 유명한 선형대수 등 많은 알고리즘들은 완전히 병렬 처리가 가능하다.
따라서 Nvidia는 CPU에 GPU를 추가하는 아키텍처를 고안했다. 특화된 프로세서는 오랜 시간이 걸리는 작업을 극도로 빠르게 가속화할 수 있다. 이 두 프로세서가 함께 작동하면 각각 독립적이면서도 협력하여, 원래 100단위 시간이 걸리던 작업을 1단위 시간으로 줄일 수 있다. 성능은 믿기 어려울 정도로 100배 향상되지만, 전력 소비는 약 3배, 비용은 약 1.5배만 증가한다. PC 산업에서도 마찬가지로, 1000달러짜리 PC에 500달러짜리 GeForce GPU를 추가하면 성능이 크게 향상된다. 데이터센터에서도 마찬가지로, 10억 달러짜리 데이터센터에 5억 달러 상당의 GPU를 추가하면, 갑자기 AI 공장으로 변모한다. 이런 현상이 전 세계에서 일어나고 있다.
비용 절감 효과는 놀라울 정도다. 1달러를 쓸 때마다 성능이 60배 향상되고, 속도는 100배 빨라지며, 전력은 3배, 비용은 1.5배만 증가한다. 이러한 절감 효과는 실로 엄청나며, 절약된 비용은 달러로 환산할 수 있다.
클라우드에서 데이터 처리에 수억 달러를 지출하는 기업들이 많다는 점을 감안하면, 이러한 프로세스들이 가속화된다면 수억 달러를 절약할 수 있다는 것은 쉽게 상상할 수 있다. 이는 범용 컴퓨팅에서 오랫동안 지속되어 온 인플레이션 때문이기도 하다.

이제 마침내 가속 컴퓨팅의 시대가 도래했으며, 그동안 잠재돼 있던 막대한 효율성 손실을 회수할 수 있게 됐다. 시스템 내부에 존재했던 낭비를 해소할 수 있는 것이다. 이는 비용 절감과 에너지 절약으로 이어질 것이며, 바로 그래서 황젠선은 "더 많이 살수록 더 많이 절약한다(buy more, save more)"라고 말하는 것이다.
그는 또한 "가속 컴퓨팅은 놀라운 성과를 가져왔지만, 결코 쉬운 일이 아니었다"며 "왜 이렇게 많은 비용을 절감할 수 있음에도 불구하고 오랫동안 이를 실현하지 못했을까? 이유는 바로 이것이 매우 어렵기 때문이다. C 컴파일러를 돌리기만 하면 갑자기 애플리케이션이 100배 빨라지는 소프트웨어는 존재하지 않는다. 논리적으로도 말이 안 된다. 그렇게 될 수 있었다면, 사람들이早就 CPU를 개조했을 것이다"라고 설명했다.

사실 소프트웨어를 완전히 재작성해야 하며, 이것이 가장 어려운 부분이다. CPU에서 작성된 알고리즘을 재표현하여 가속화하고, 병렬로 오프로드하여 실행할 수 있도록 소프트웨어를 완전히 재작성해야 한다. 이와 같은 컴퓨터 과학적 작업은 극도로 어렵다.

황젠선은 "지난 20년간 Nvidia는 전 세계가 이를 더 쉽게 할 수 있도록 노력해왔다"며 "예를 들어, 딥러닝 라이브러리로 유명한 cuDNN이 있다. 또한 유체역학 등 다양한 응용 분야에서 물리 법칙을 준수해야 하는 신경망을 위한 AI 물리 라이브러리, 5G 무선 통신을 CUDA로 가속화하는 Arial Ran이라는 훌륭한 라이브러리도 있다. 이를 통해 전통적인 통신 네트워크를 클라우드 컴퓨팅 플랫폼과 동일한 형태로 전환할 수 있다"고 설명했다.
cuLITHO는 칩 제조에서 가장 계산 집약적인 부분인 마스크 제작을 처리할 수 있는 계산 리소그래피 플랫폼이다. TSMC는 생산에 cuLITHO를 사용하며 막대한 에너지와 비용을 절약하고 있다. TSMC는 스택을 가속화하여 더욱 정교한 알고리즘과 더 좁은 트랜지스터를 위한 계산을 준비하려는 목표를 갖고 있다. Parabricks는 세계에서 처리량이 가장 높은 유전자 시퀀싱 라이브러리이며, cuOpt는 여행 영업원 문제(TSP) 등 매우 복잡한 조합 최적화 및 경로 계획 문제를 해결하는 놀라운 라이브러리다.
많은 과학자들이 이 문제를 해결하기 위해 양자컴퓨터가 필요하다고 생각한다. 하지만 Nvidia는 가속 컴퓨팅 위에서 작동하는 알고리즘을 만들어 놀라운 속도로 실행시키며 23개의 세계 기록을 세웠다. cuQuantum은 양자컴퓨터를 시뮬레이션하는 시스템이다. 양자컴퓨터를 설계하려면 시뮬레이터가 필요하며, 양자 알고리즘을 설계하려면 양자 시뮬레이터가 필요하다. 양자컴퓨터가 존재하지 않는 현재, 어떻게 양자컴퓨터를 설계하고 양자 알고리즘을 만들 수 있을까? 바로 세계에서 가장 빠른 컴퓨터인 NVIDIA CUDA 위에서 이를 시뮬레이션하는 것이다. Nvidia는 이를 위한 시뮬레이터를 제공하며, 전 세계 수십만 명의 연구자들이 이를 사용하고 있고, 주요 양자 컴퓨팅 프레임워크에 통합되어 과학용 슈퍼컴퓨팅 센터에서 광범위하게 활용되고 있다.

cuDF는 놀라운 데이터 처리 라이브러리다. 데이터 처리는 현재 클라우드 지출의 대부분을 차지하며, 이 모든 것이 가속화되어야 한다. cuDF는 Spark, Pandas, 새로운 Polars 라이브러리, 그래프 처리 데이터베이스 라이브러리인 NetworkX 등 세계적으로 주로 사용되는 라이브러리를 가속화한다. 이는 일부 사례일 뿐, 다른 수많은 라이브러리들도 있다.
황젠선은 "생태계가 가속 컴퓨팅을 활용할 수 있도록 하기 위해 Nvidia는 이러한 라이브러리를 반드시 만들어야 했다"며 "Nvidia가 cuDNN을 만들지 않았다면, CUDA만으로 전 세계 딥러닝 과학자들이 사용할 수 있었을 리 없다. CUDA와 TensorFlow, PyTorch에서 사용하는 알고리즘 사이의 거리는 너무 멀다. 이는 OpenGL 없이 컴퓨터 그래픽을 하거나 SQL 없이 데이터 처리를 하는 것과 마찬가지다. 이러한 특정 분야의 라이브러리들이 Nvidia의 보물이며, 총 350개에 달한다. 바로 이러한 라이브러리들이 Nvidia가 수많은 시장을 개척할 수 있게 해준다"고 말했다.
지난주, Google은 클라우드에서 Pandas를 가속화한다고 발표했다. Pandas는 세계에서 가장 인기 있는 데이터 과학 라이브러리로, 전 세계 1000만 명의 데이터 과학자들이 사용하며 매월 1.7억 번 다운로드된다. 이는 데이터 과학자들의 전자 스프레드시트나 다름없다. 이제 Google Cloud의 Colab 플랫폼에서 cuDF로 가속화된 Pandas를 클릭 한 번으로 사용할 수 있으며, 그 가속 효과는 정말 놀랍다.

데이터 처리 속도가 이렇게 빨라지면 데모를 오래 보여줄 필요가 없다. 이제 CUDA는 사람들이 말하는 임계점(critical mass)에 도달했으며, 오히려 더 나아갔다. CUDA는 이제 선순환(virtuous cycle)을 이루고 있다.
이런 일은 드물다. 역사상 모든 컴퓨팅 아키텍처 플랫폼을 보면, 마이크로프로세서 CPU는 60년간 존재하면서도 근본적인 변화가 없었다. 가속 컴퓨팅과 같은 새로운 컴퓨팅 방식을 만드는 것은 극도로 어렵다. 이는 '닭이 먼저냐, 알이 먼저냐'의 문제가 있기 때문이다.
개발자가 당신의 플랫폼을 사용하지 않으면 당연히 사용자가 생기지 않는다. 그러나 사용자가 없으면 설치 기반(install base)이 형성되지 않고, 설치 기반이 없으면 개발자들이 관심을 갖지 않는다. 개발자들은 큰 설치 기반을 위해 소프트웨어를 작성하고 싶어 하지만, 큰 설치 기반을 만들기 위해서는 많은 애플리케이션이 필요하며, 이는 사용자를 끌어들여 설치 기반을 만든다.
이러한 '닭과 알'의 문제는 거의 깨지지 않는다. 그러나 Nvidia는 20년간 한 분야의 라이브러리에서 또 다른 분야의 라이브러리로, 하나의 가속 라이브러리에서 또 다른 라이브러리로 쌓아 올렸고, 이제 전 세계적으로 500만 명의 개발자가 Nvidia의 플랫폼을 사용하고 있다.
Nvidia는 의료, 금융 서비스, IT, 자동차 등 거의 모든 주요 산업과 과학 분야에 서비스를 제공한다. 이렇게 많은 고객층을 확보함으로써 OEM 업체들과 클라우드 서비스 제공업체들이 Nvidia 시스템 구축에 관심을 갖게 되었고, 타이완의 시스템 제조사들도 Nvidia 시스템 구축에 적극 참여하고 있다. 이는 시장에 더 많은 시스템 선택지를 제공하게 되며, 궁극적으로 규모를 확대하고 R&D 투자를 늘릴 수 있는 기회를 만들어낸다.
애플리케이션이 가속화될 때마다 컴퓨팅 비용은 하락한다. 100배의 가속은 97%, 96%, 98%의 비용 절감으로 이어진다. 따라서 100배에서 200배, 1000배로 가속화될수록 컴퓨팅의 한계 비용은 계속해서 하락한다.
Nvidia는 컴퓨팅 비용을 크게 낮추면 시장, 개발자, 과학자, 발명가들이 점점 더 많은 알고리즘을 발견하게 되고, 이는 점점 더 많은 컴퓨팅 자원을 소비하게 된다. 결국 질적인 도약이 일어나 컴퓨팅의 한계 비용이 극도로 낮아져 새로운 컴퓨팅 사용 방식이 등장하게 된다고 믿는다.
사실, 이것이 바로 지금 우리가 목격하고 있는 현실이다. 지난 10년간 Nvidia는 특정 알고리즘의 한계 컴퓨팅 비용을 백만 배 이상 낮췄다. 덕분에 이제 인터넷 전체 데이터를 포함하는 LLM을 훈련시키는 것이 매우 합리적이고 일반적인 일이 되었으며, 누구도 이를 의심하지 않는다. 즉, 스스로 소프트웨어를 작성할 수 있는 컴퓨터를 만들 수 있다는 개념이다. AI의 등장은 바로 컴퓨팅을 점점 더 저렴하게 만들면 누군가는 그것을 위대한 용도로 사용하게 될 것이라는 믿음에서 비롯된 것이다.

오늘날 CUDA는 선순환을 이루고 있다. 설치 기반이 성장하고, 컴퓨팅 비용이 하락하며, 이는 더 많은 개발자들이 더 많은 아이디어를 내도록 유도하고, 더 많은 수요를 창출한다. 우리는 지금 매우 중요한 시작점에 서 있다.
황젠선은 이후 '어스 2(Earth-2)' 개념을 언급하며, 지구의 디지털 트윈을 만들어 시뮬레이션을 통해 미래를 더 잘 예측하고, 재해를 피하며, 기후 변화의 영향을 이해하고 적응할 수 있다고 말했다.

연구자들은 2012년 CUDA를 발견했는데, 이는 Nvidia와 AI의 첫 만남이었으며 매우 중요한 사건이었다. 과학자들과 협력하여 딥러닝이 가능하게 된 것은 큰 행운이었다.
AlexNet은 컴퓨터 비전 분야에서 거대한 돌파구를 마련했다. 그러나 더 중요한 것은 딥러닝의 배경, 기초, 장기적인 영향과 잠재력을 되돌아보는 것이다. Nvidia는 이 기술이 거대한 확장 잠재력을 가지고 있음을 깨달았다. 수십 년 전에 발명되고 발견된 알고리즘이 갑자기 더 많은 데이터, 더 큰 네트워크, 그리고 무엇보다 더 많은 컴퓨팅 자원 덕분에 인간의 알고리즘으로는 불가능했던 성과를 이룬 것이다.
이제 아키텍처를 더 확장한다면, 더 큰 네트워크, 더 많은 데이터, 더 많은 컴퓨팅 자원으로 어떤 성과를 이룰 수 있을지 상상해보라. 2012년 이후 Nvidia는 GPU 아키텍처를 변경하여 텐서 코어를 추가했다. 10년 전 NVLink를 발명했고, CUDA, TensorRT, NCCL을 개발했으며, Mellanox를 인수하고, TensorRT-ML, Triton 추론 서버 등을 개발했다. 이 모든 것이 새로운 컴퓨터에 통합된 것이다. 당시 아무도 이를 이해하지 못했고, 아무도 요청하지 않았으며, 그 의미를 이해하는 사람은 없었다.
사실 황젠선은 아무도 이를 사고 싶어하지 않을 것이라고 확신했지만, GTC에서 발표한 후 샌프란시스코에 있는 작은 회사인 OpenAI가 Nvidia에게 한 대를 제공해 달라고 요청했다.

2016년, 황젠선은 세계 최초의 AI 슈퍼컴퓨터인 첫 번째 DGX를 OpenAI에 인도했다. 이후 지속적으로 확장하여 하나의 AI 슈퍼컴퓨터, 하나의 AI 장치에서 대규모 슈퍼컴퓨터, 더 큰 시스템으로 나아갔다.

2017년, 세상은 트랜스포머(Transformer)를 발견했고, 이는 대량의 데이터를 훈련하고 장기 시퀀스 패턴을 인식하고 학습할 수 있게 했다. 이제 Nvidia는 이러한 LLM을 훈련하고 자연어 이해 분야에서 돌파구를 마련할 수 있었다. 계속해서 더 큰 시스템을 건설했다.

그리고 2022년 11월, 수천 개의 Nvidia GPU와 매우 큰 AI 슈퍼컴퓨터를 사용하여 훈련된 OpenAI는 ChatGPT를 발표했다. 이는 5일 만에 사용자 100만 명을, 2개월 만에 1억 명을 달성하며 역사상 가장 빠르게 성장한 애플리케이션이 되었다.
ChatGPT가 세상에 소개되기 전까지 AI는 감지(perception)에 초점이 맞춰져 있었다. 자연어 이해, 컴퓨터 비전, 음성 인식 등 모두 감지와 탐지에 관한 것이었다. 그러나 이번에 세상은 처음으로 생성형 AI를 해결한 것이다. 단어 하나하나(token)씩 생성하는 것이다. 물론 지금은 이미지, 차트, 표, 노래, 단어, 음성, 비디오 등 다양한 형태의 토큰이 될 수 있다. 토큰은 여러분이 의미를 이해할 수 있는 어떤 것이든 될 수 있으며, 화학물질, 단백질, 유전자 등의 토큰도 될 수 있다. 여러분이 어스 2 프로젝트에서 본 것처럼, 날씨 토큰을 생성할 수도 있다.
우리는 물리 법칙을 이해하고 배울 수 있다. 물리 법칙을 배울 수 있다면, AI 모델에게 물리 법칙을 가르칠 수 있다. AI 모델은 물리의 의미를 이해하고, 그 후 물리를 생성할 수 있다. 우리는 이를 1km로 축소하는데, 필터링이 아니라 생성을 통해 이룬다. 따라서 거의 모든 가치 있는 토큰을 생성할 수 있다. 자동차의 운전대 제어를 생성하거나, 로봇 팔의 동작을 생성할 수 있다. 우리가 배울 수 있는 모든 것은 이제 생성할 수 있다.
AI 공장

우리는 이제 생성형 AI 시대로 진입했다. 그러나 정말 중요한 것은, 이 초창기 슈퍼컴퓨터로 시작한 컴퓨터가 이제 하나의 데이터센터로 진화했으며, 이 데이터센터는 오직 하나의 것을 생성한다. 바로 토큰이다. 이는 AI 공장이며, 이 AI 공장은 극도로 가치 있는 새로운 상품을 생성하고 창조하며 생산하고 있다.
19세기 말, 니콜라 테슬라는 교류 발전기를 발명했다. Nvidia는 AI 생성기를 발명했다. 교류 발전기는 전자를 생성하고, Nvidia의 AI 생성기는 토큰을 생성한다. 이 두 가지 모두 시장에서 거대한 기회를 갖고 있으며, 거의 모든 산업에서 완전히 대체 가능하다. 바로 이것이 새로운 산업 혁명인 이유다.
Nvidia는 이제 각 산업을 위해 새로운 상품을 생산하는 새로운 공장을 갖게 됐다. 이 상품은 뛰어난 가치를 지니며, 이 방법은 높은 확장성과 매우 높은 반복성을 갖는다.
매일 수많은 서로 다른 생성형 AI 모델이 발명되고 있음을 눈여겨볼 필요가 있다. 모든 산업이 이제 몰려들고 있다. IT 산업이 3조 달러 규모임에도 불구하고, 이제 100조 달러 규모의 산업에 직접적으로 서비스할 수 있는 무언가를 창출하고 있다. 더 이상 정보 저장이나 데이터 처리 도구에 머무르지 않고, 각 산업을 위한 지능을 생성하는 공장이 된 것이다. 이는 제조업 산업이 될 것이며, 컴퓨터 제조업이 아니라 컴퓨터를 사용한 제조업이 될 것이다.

이는 역사상 처음 있는 일이다. 가속 컴퓨팅이 AI를 낳았고, AI가 생성형 AI를 낳았으며, 이제 산업 혁명을 낳고 있다. 산업에 미치는 영향도 매우 크며, 많은 산업을 위해 새로운 상품, 새로운 제품을 창출할 수 있다. 이를 우리는 토큰이라고 부르지만, 우리 자신의 산업에 미치는 영향도 매우 깊이 있다.
60년간 컴퓨팅의 모든 계층이 변화했다. CPU 기반의 범용 컴퓨팅에서 가속 GPU 컴퓨팅으로 넘어갔다. 과거에는 컴퓨터가 명령을 필요로 했지만, 이제는 LLM과 AI 모델을 처리한다. 과거의 컴퓨팅 모델은 검색 기반(retrieval-based)이었다. 거의 모든 휴대폰을 터치할 때마다, 미리 녹화된 텍스트, 이미지, 비디오를 검색하여 추천 시스템을 기반으로 재조합하고 제시한다.
황젠선은 "미래의 컴퓨터는 가능한 한 많은 데이터를 생성하고, 필요한 정보만 검색할 것"이라고 말했다. 그 이유는 생성된 데이터가 정보를 얻는 데 더 적은 에너지를 필요로 하기 때문이다. 생성된 데이터는 또한 더 맥락에 부합한다. 지식을 인코딩하고 당신을 이해하게 된다. 이제 컴퓨터에게 정보나 파일을 가져오게 하지 않고, 직접 질문에 답하게 할 것이다. 컴퓨터는 우리가 사용하는 도구가 아니라, 기술을 생성하고 작업을 수행하는 존재가 될 것이다.
NIMs, Nvidia 추론 마이크로서비스

1990년대 초, 소프트웨어를 생산하는 산업은 혁명적인 아이디어였다. 마이크로소프트가 만든 소프트웨어 패키징 개념은 PC 산업을 혁신시켰다. 패키징된 소프트웨어가 없었다면 PC로 무엇을 했겠는가? 이는 산업을 이끌었고, 이제 Nvidia는 새로운 공장, 새로운 컴퓨터를 갖게 됐다. 이 위에서 우리는 NIMs(Nvidia Inference Microservices)라 불리는 새로운 소프트웨어를 실행할 것이다.

NIM은 이 공장 내부에서 실행되며, 이 NIM은 사전 훈련된 모델, 즉 AI이다. 이 AI 자체는 매우 복잡하지만, AI를 실행하는 컴퓨팅 스택은 극도로 복잡하다. ChatGPT를 사용할 때 그 이면의 스택은 방대한 소프트웨어로 구성돼 있다. 그 이면의 프롬프트도 방대한 소프트웨어로, 매우 복잡하다. 모델이 방대하며 수십억에서 수조 개의 파라미터를 갖고 있기 때문이다. 이 모델은 한 대의 컴퓨터에서만 실행되는 것이 아니라 여러 대의 컴퓨터에서 실행된다. 여러 GPU 사이에서 워크로드를 분배해야 하며, 텐서 병렬, 파이프라인 병렬, 데이터 병렬, 전문가 병렬 등 다양한 병렬 처리 기법을 사용하여 가능한 한 빠르게 처리해야 한다.
왜냐하면 공장에서 실행 중이라면, 처리량(throughput)이 직접적으로 수익과 관련되기 때문이다. 처리량은 서비스 품질과도 직결되며, 당신의 서비스를 이용할 수 있는 사람 수와도 직결된다.
우리는 이제 데이터센터의 처리량 활용률이 극도로 중요한 세상에 살고 있다. 과거에도 중요했지만 지금만큼 중요하진 않았다. 과거에도 중요했지만 사람들이 이를 측정하지 않았다. 오늘날에는 시작 시간, 실행 시간, 활용률, 처리량, 유휴 시간 등 모든 파라미터가 측정된다. 왜냐하면 이것은 공장이기 때문이다. 어떤 것이 공장이 되면, 그 운영은 기업의 재무 성과와 직접적으로 연결되며, 이는 대부분의 기업들에게 극도로 복잡한 문제다.

그래서 Nvidia는 무엇을 했는가? Nvidia는 이 AI 박스를 만들었다. 이 컨테이너 안에는 방대한 소프트웨어가 담겨 있다. 컨테이너 내부에는 CUDA, cuDNN, TensorRT, Triton 추론 서비스 등이 포함돼 있다. 클라우드 네이티브이며, Kubernetes 환경에서 자동 확장이 가능하다. AI를 모니터링할 수 있는 관리 서비스와 훅(hook)도 제공하며, 표준 API를 통해 이 박스와 대화할 수 있다. 이 NIM을 다운로드하면, 당신의 컴퓨터에 CUDA가 설치돼 있다면(이제는 어디에나 존재한다) 바로 대화할 수 있다. 이는 모든 클라우드와 모든 컴퓨터 제조사에서 사용 가능하며, 수억 대의 PC에서도 사용 가능하다. 모든 소프트웨어가 하나에 통합돼 있으며, 400개의 종속성이 하나로 묶여 있다.

Nvidia는 이 NIM을 테스트했다. 모든 사전 훈련된 모델을 전체 설치 기반(Pascal, Ampere, Hopper 등 다양한 버전)에서 테스트했다. 이름조차 잊어버린 버전들도 있다. 놀라운 발명이며, 개인적으로 가장 좋아하는 것 중 하나다.
황젠선은 "Nvidia는 언어 기반, 시각 기반, 이미지 기반, 의료, 디지털 생물학, 디지털 휴먼 등 다양한 분야의 버전을 모두 보유하고 있으며, ai.nvidia.com에 접속하면 확인할 수 있다"고 말했다.
또한 "오늘 Nvidia는 HuggingFace에 완전히 최적화된 Llama3 NIM을 공개했다. 누구나 시도해볼 수 있으며, 그대로 가져갈 수도 있다. 무료로 제공된다. 어떤 클라우드에서든 실행할 수 있으며, 이 컨테이너를 다운로드하여 자신만의 데이터센터에 넣고 고객에게 제공할 수도 있다"고 덧붙였다.
Nvidia는 물리학, 의미 검색(RAGs), 시각 언어, 다양한 언어 등 다양한 분야의 버전을 보유하고 있다. 사용자는 이러한 마이크로서비스를 대규모 애플리케이션에 연결하여 사용할 수 있다.
미래의 가장 중요한 애플리케이션 중 하나는 물론 고객 서비스다. 거의 모든 산업에 에이전트(agent)가 필요하다. 이는 수조 달러 규모의 고객 서비스를 나타낸다. 간호사도 어느 면에서는 고객 서비스 에이전트다. 일부 비처방, 비진단적인 간호사는 소매업의 고객 서비스와 같다. 패스트푸드, 금융 서비스, 보험 산업 등 수천만 명의 고객 서비스 업무가 이제 언어 모델과 AI로 강화될 수 있다. 그래서 여러분이 보는 이 박스들이 기본적으로 NIMs인 것이다.
일부 NIM은 추론 에이전트이며, 과제를 받아들여 분석하고 계획으로 분해한다. 일부 NIM은 정보를 검색한다. 일부 NIM은 검색을 수행할 수 있다. 일부 NIM은 도구를 사용할 수 있는데, 황젠선이 앞서 언급한 cuOpt를 사용할 수 있다. SAP에서 실행되는 도구를 사용할 수 있다. 이를 위해 ABAP이라는 특정 언어를 배워야 한다. 일부 NIM은 SQL 쿼리를 수행할 수도 있다. 따라서 이러한 모든 NIM은 전문가이며, 이제 하나의 팀으로 조합된다.
무엇이 바뀌었는가? 애플리케이션 계층이 바뀌었다. 과거에는 명령어로 작성된 애플리케이션이 이제는 AI 팀을 조합하는 애플리케이션으로 바뀌었다. 프로그램을 작성하는 방법을 아는 사람은 드물지만, 문제를 분해하고 팀을 구성하는 방법을 아는 사람은 거의 모두다. 나는 미래에 모든 기업이 방대한 NIM 집합을 보유하게 될 것이라고 믿는다. 원하는 전문가를 다운로드하여 팀으로 연결할 수 있으며, 어떻게 연결해야 할지 정확히 알 필요도 없다. 단지 과제를 하나의 에이전트(NIM)에게 맡기면, 그 에이전트가 과제를 어떻게 분배할지 결정할 것이다. 그 팀 리더 에이전트가 과제를 분해하여 팀원들에게 할당할 것이다. 팀원들이 과제를 수행하고 결과를 팀 리더에게 반환하면, 팀 리더는 결과를 추론하여 정보를 제시할 것이다. 인간과 마찬가지로, 이것이 바로 가까운 미래의 애플리케이션 형태다.
물론 텍스트 프롬프트와 음성 프롬프트를 통해 이러한 대규모 AI 서비스와 상호작용할 수 있다. 그러나 인간의 형태로 상호작용하고자 하는 애플리케이션도 많다. Nvidia는 이를 디지털 휴먼(digital humans)이라 부르며, 디지털 휴먼 기술을 지속적으로 연구해왔다.
황젠선은 계속해서 "디지털 휴먼은 당신과 상호작용하는 훌륭한 에이전트가 될 수 있으며, 상호작용을 더욱 매력적이고 공감 있게 만들 수 있다"며 "물론 우리는 이 거대한 현실의 벽을 넘어야 한다. 디지털 휴먼이 더욱 자연스럽게 보이도록 말이다. 미래에는 컴퓨터가 인간처럼 우리와 상호작용할 수 있게 될 것이다. 이것이 바로 디지털 휴먼의 놀라운 현실이다. 디지털 휴먼은 고객 서비스에서 광고, 게임에 이르기까지 다양한 산업을 완전히 바꿔놓을 것이다. 디지털 휴먼의 가능성은 무한하다"고 설명했다.
당신의 주방 스캔 데이터를 사용하여, 휴대폰을 통해 AI 인테리어 디자이너가 되어 아름다운 사진급 제안을 생성하고, 자재와 가구의 출처를 제공할 수 있다.
Nvidia는 이미 여러 가지 디자인 옵션을 생성하여 선택할 수 있도록 했다. 이들은 또한 AI 고객 서비스 에이전트가 되어 상호작용을 더욱 생동감 있고 개인화할 수 있으며, 디지털 의료 종사자로 환자를 진찰하고, 적시에 맞춤형 치료를 제공할 수 있다. 심지어 AI 브랜드 앰배서더가 되어 다음 세대의 마케팅과 광고 트렌드를 설정할 수도 있다.
생성형 AI와 컴퓨터 그래픽의 새로운 돌파구로 디지털 휴먼은 인간처럼 보고, 이해하고, 우리와 상호작용할 수 있게 되었다. 제가 보고 있는 바에 따르면, 당신은 어떤 녹음 또는 제작 설정에 있는 것 같다. 디지털 휴먼의 기반은 다국어 음성 인식 및 합성, 대화를 이해하고 생성할 수 있는 LLM 모델로 구성된 AI 모델에 있다.
이 AI는 또 다른 생성형 AI에 연결되어 사실적인 3D 얼굴 메시를 동적으로 애니메이션화한다. 마지막으로 AI 모델은 사실적인 외관을 재현하며, 실시간 레이트레이싱을 통해 피부의 아래산란(subsurface scattering)을 시뮬레이션하여 빛이 피부를 어떻게 관통하고 산란하며 다른 지점에서 나오는지를 표현하여, 피부에 부드럽고 반투명한 외관을 부여한다.
Nvidia Ace는 이러한 디지털 휴먼 기술을 쉽고 빠르게 배포할 수 있도록 완전히 최적화된 마이크로서비스 또는 NIMs 형태로 포장한 것이다. 개발자들은 기존의 프레임워크, 엔진, 디지털 휴먼 경험에 Ace NIMs를 통합할 수 있으며, Nematon SLM과 LLM NIMs는 우리의 의도를 이해하고 다른 모델들을 조정한다.
Riva Speech NIMs는 대화형 음성 및 번역용이며, Audio to Face 및 Gesture NIMs는 얼굴과 신체 애니메이션용이며, Omniverse RTX와 DLSS는 피부와 머리카락의 신경 렌더링용이다.
매우 놀랍다. 이러한 Ace는 클라우드에서 실행될 수도 있고, PC에서 실행될 수도 있다. 모든 RTX GPU에는 텐서 코어 GPU가 포함되어 있으므로, Nvidia는 이미 이 시대를 준비하기 위해 AI GPU를 출하하고 있다. 이유는 간단하다. 새로운 컴퓨팅 플랫폼을 만들기 위해서는 먼저 설치 기반이 필요하기 때문이다.
궁극적으로 애플리케이션이 등장하게 된다. 설치 기반을 만들지 않으면 어떻게 애플리케이션이 등장할 수 있겠는가? 그래서 당신이 그것을 만들면, 그들이 오지 않을 수도 있다. 그러나 당신이 그것을 만들지 않으면, 그들은 오지도 못한다. 따라서 Nvidia는 모든 RTX GPU에 텐서 코어 프로세서를 설치했다. 현재 전 세계에 1억 대의 GeForce RTX AI PC가 있으며, Nvidia는 200대를 출하하고 있다.
이번 컴퓨텍스에서 Nvidia는 AI를 실행할 수 있는 네 대의 놀라운 새로운 노트북을 선보였다. 미래의 노트북과 PC는 AI가 될 것이다. 백그라운드에서 지속적으로 당신을 도우며 보조할 것이다. PC는 또한 AI로 강화된 애플리케이션도 실행할 것이다.
물론 당신이 사용하는 모든 사진 편집, 글쓰기 도구 등 모든 도구들이 AI로 강화될 것이다. 당신의 PC는 디지털 휴먼을 포함한 AI 애플리케이션도 호스팅할 것이다. 따라서 AI는 PC에서 다양한 방식으로 나타나고 사용될 것이다. PC는 매우 중요한 AI 플랫폼이 될 것이다.
그렇다면 앞으로 어디로 나아가야 할까? 이전에 데이터센터의 확장에 대해 이야기했다. 확장할 때마다 우리는 새로운 도약을 발견한다. DGX에서 대규모 AI 슈퍼컴퓨터로 확장할 때, Nvidia는 트랜스포머가 매우 큰 데이터셋에서 훈련될 수 있도록 했다. 초기에는 데이터가 인공 감독을 받았으며, AI를 훈련시키기 위해 사람이 라벨링해야 했다. 불행히도 인간이 라벨링한 데이터는 한정돼 있다.
트랜스포머는 비지도 학습을 가능하게 했다. 이제 트랜스포머는 방대한 양의 데이터, 비디오, 이미지를 보기만 하면 스스로 패턴과 관계를 찾아낼 수 있다.

다음 세대의 AI는 물리 기반이어야 한다. 오늘날 대부분의 AI는 물리 법칙을 이해하지 못하며, 물리 세계에 뿌리를 두고 있지 않다. 이미지, 비디오, 3D 그래픽, 그리고 많은 물리 현상을 생성하기 위해서는 물리 법칙을 이해하고 물리 세계에 기반한 AI가 필요하다. 이를 위해 비디오 학습을 사용할 수 있으며, 이는 하나의 방법이다.
또 다른 방법은 합성 데이터, 시뮬레이션 데이터이며, 또 다른 방법은 컴퓨터가 서로 학습하는 것이다. 이는 AlphaGo가 자기 자신과 대국하는 것과 크게 다르지 않다. 동등한 능력을 가진 상대와 오랜 시간 동안 대국하면, 점점 더 똑똑해진다. 앞으로 이러한 유형의 AI를 보게 될 것이다.
AI 데이터가 합성 생성되고 강화 학습이 사용된다면, 데이터 생성 속도는 계속 증가할 것이다. 데이터 생성량이 증가할 때마다 제공해야 할 컴퓨팅 양도 증가해야 한다.
우리는 AI가 물리 법칙을 학습하고 물리 세계에 뿌리를 둔 데이터에 기반할 수 있는 단계로 진입하고 있다. 따라서 Nvidia는 모델이 계속 성장할 것으로 예상하며, 더 큰 GPU가 필요할 것이다.
블랙웰

블랙웰은 이러한 세대를 위해 설계되었으며, 몇 가지 매우 중요한 기술을 포함하고 있다. 첫째는 칩의 크기다. Nvidia는 TSMC에서 가장 큰 칩을 제조했으며, 이를 초당 10TB의 연결로 두 개 연결했다. 세계에서 가장 진보된 SerDes 기술이 이 두 칩을 연결한다. 그런 다음 Nvidia는 이 두 칩을 그레이스 CPU로 연결된 하나의 컴퓨팅 노드에 배치했다.
그레이스 CPU는 다양한 용도로 사용할 수 있다. 훈련 상황에서는 빠른 체크포인트와 재시작에 사용할 수 있다. 추론 및 생성 상황에서는 컨텍스트 메모리를 저장하여 AI가 당신이 진행하고자 하는 대화의 맥락을 이해하도록 할 수 있다. 이것은 Nvidia의 2세대 트랜스포머 엔진으로, 계층별로 필요한 정밀도와 범위에 따라 정밀도를 동적으로 조정할 수 있다.
이것은 AI가 도난당하거나 조작당하는 것을 방지하기 위해 서비스 제공업체가 보호할 수 있는 안전한 AI를 갖춘 2세대 GPU다. 5세대 NVLink는 여러 GPU를 연결할 수 있도록 하며, 이에 대해서는
TechFlow 공식 커뮤니티에 오신 것을 환영합니다
Telegram 구독 그룹:https://t.me/TechFlowDaily
트위터 공식 계정:https://x.com/TechFlowPost
트위터 영어 계정:https://x.com/BlockFlow_News











