
황런쉰 최신 인터뷰: 딥시크를 화웨이와 긴밀히 연계하도록 압박—이는 미국에 너무나도 위험하다
정리: 샤오샤오, 넷이즈 인텔리전스
엔비디아 CEO 젠슨 황(Jensen Huang)은 최근 미국 유명 테크 팟캐스트 진행자 드와르케시 파텔(Dwarkesh Patel)과의 인터뷰에서, 자사의 경쟁 우위, 구글 TPU와의 경쟁, 대중국 반도체 수출 등 핵심 이슈에 대해 전면적으로 응답했다.
그는 엔비디아의 경쟁 우위가 이미 공급망 심부까지 확장되었으며, 수천억 달러 규모의 조달 약속을 통해 대만의 TSMC 및 메모리 공급업체들과 깊은 협력 관계를 구축했다고 강조했다.
TPU 경쟁에 대해서는, 앤트로픽(Anthropic)이 ASIC 성장의 독특한 사례일 뿐 추세가 아니라고 지적했다. 엔비디아의 가속 컴퓨팅은 AI를 넘어서 분자역학, 데이터 처리, 유체역학 등 광범위한 분야를 아우르며, CUDA의 높은 프로그래밍 가능성 덕분에 매년 10~50배의 성능 향상을 실현할 수 있다고 설명했다.
또한 엔비디아가 초대규모 클라우드 서비스 사업자로 직접 진출하지 않는 이유를 설명했다. 자금 여유가 충분함에도 불구하고, 엔비디아는 ‘반드시 해야 할 일만 하되 가능한 한 적게 한다’는 원칙을 고수하며, 코어위브(CoreWeave), 오픈AI(OpenAI), 앤트로픽 등 생태계 참여 기업에 투자함으로써 고객과의 이익 충돌을 피하고 있다. 그는 앤트로픽에 더 일찍 대규모 투자를 하지 못한 것을 자신의 실수로 인정하기도 했다. 또한 AI 혁명이 전혀 일어나지 않았더라도, 물리학·화학·데이터 처리 등 분야에서 가속 컴퓨팅을 바탕으로 여전히 거대 기업이 될 것이라고 강조했다.
대중국 수출 문제에서는 극단적인 수출 규제 정책을 ‘아주 어린 짓’이라고 비판했다. 젠슨 황은 AI 연산 능력이 반도체와 에너지의 결합임을 지적하면서, EUV 리소그래피 장비 제한에도 불구하고 중국은 막대한 7nm 칩 생산 역량을 보유하고 있다고 말했다. 현재 주류 대규모 언어모델(Large Language Model) 대부분이 호퍼(Hopper) 아키텍처 세대에서 훈련되고 있다는 점을 고려할 때, 중국은 풍부한 전력 공급과 칩 클러스터 규모 확대로 단일 칩의 성능 격차를 충분히 보완할 수 있다고 주장했다.
더 나아가 중국의 방대한 AI 연구진은 더 효율적인 컴퓨터 과학을 통해 모델 성능을 향상시키고 있다. 젠슨 황은 딥시크(DeepSeek)를 예로 들며, 이는 결코 무시할 수 없는 진전이라고 경고했다. 만약 우수한 오픈소스 모델들이 화웨이 등 국산 하드웨어에 특화되어 최적화되고 최고 성능을 발휘하도록 강제된다면, 객관적으로 미국 기술 스택의 글로벌 우위가 직접적으로 약화될 것이라고 판단했다. 그는 미국 시장 외 세계 2위 규모의 시장을 자발적으로 포기하는 것이 중국으로 하여금 미국과 완전히 분리된 기초 계산 아키텍처를 구축하도록 촉진할 것이라고 주장했다. 이러한 오픈소스 표준 기반 기술이 점차 남반구(Global South)로 확산됨에 따라, 미국은 장기적인 AI 생태계 표준 경쟁에서 불리한 위치에 놓일 가능성이 매우 높다고 전망했다.
다음은 젠슨 황 인터뷰 전문이다:
공급망 통제가 엔비디아 최대 경쟁 우위인가?
파텔: 많은 소프트웨어 기업의 시가총액이 하락하고 있는데, 이는 사람들이 AI가 소프트웨어를 상품화시킬 것이라고 보기 때문입니다. 어떤 관점에서는 엔비디아가 설계 파일을 TSMC에 보내고, TSMC가 논리 칩과 스위치를 제조하며, SK하이닉스·마이크론·삼성의 HBM을 이용해 패키징한 후, 대만의 ODM 업체에서 랙(rack) 형태로 조립한다는 인식이 있습니다. 본질적으로 엔비디아는 소프트웨어를 만들고, 하드웨어는 타사가 만든다는 것입니다. 그렇다면 소프트웨어가 상품화되면 엔비디아도 상품화될 수 있지 않습니까?
젠슨 황: 결국 누군가는 전자를 토큰(token)으로 전환해야 합니다. 이 전환 과정은 완전히 상품화되기 어렵습니다. 한 토큰을 다른 토큰보다 더 가치 있게 만드는 것은 한 분자를 다른 분자보다 더 가치 있게 만드는 것과 같습니다. 이를 위해서는 막대한 기술·공학·과학·발명이 필요합니다. 이 작업들은 아직 완전히 이해되지도 않았고, 끝나지도 않았습니다. 저는 이런 상품화 현상이 실제로 발생할 것이라고 믿지 않습니다.
다만 우리는 이 과정을 더욱 효율적으로 만들 수 있습니다. 당신이 질문한 방식 그 자체가 제가 회사를 바라보는 모델입니다. 입력은 전자이고 출력은 토큰이며, 그 사이에 엔비디아가 존재합니다. 우리의 원칙은 반드시 해야 할 일을 하되, 가능한 한 적게 하는 것입니다. ‘가능한 한 적게 한다’는 것은 제가 직접 하지 않아도 되는 일은 파트너와 협력하여 우리 생태계의 일부로 만든다는 의미입니다.
현재 엔비디아는 아마도 가장 방대한 파트너 생태계를 보유한 기업일 것입니다. 여기에는 상游·하游 공급망, 모든 컴퓨터 기업, 애플리케이션 개발자, 모델 기업 등이 포함됩니다. AI는 다섯 층의 케이크와 같으며, 우리는 각 층마다 자신만의 생태계를 구축했습니다. 우리는 가능한 한 적게 하지만 반드시 해야 하는 부분은 극도로 어려운데, 저는 그 부분이 상품화될 것이라고 생각하지 않습니다.
또한 저는 기업용 소프트웨어 기업도 상품화되지 않을 것이라고 봅니다. 지금 대부분의 소프트웨어 기업은 엑셀·파워포인트·캐덴스·신옵시스 같은 도구 제조사입니다. 제 관점은 많은 사람들과 반대인데, AI 에이전트의 수는 지수적으로 증가할 것이며, 도구 사용자의 수도 지수적으로 증가할 것입니다. 이러한 도구의 인스턴스 수는 폭증할 가능성이 매우 높습니다.
예를 들어 신옵시스의 디자인 컴파일러는 배치(layout) 및 설계 규칙 검사(DRC)를 위해 수많은 AI 에이전트에 의해 활용될 것입니다. 오늘날 우리가 겪는 제약은 엔지니어의 수입니다. 내일부터는 각 엔지니어 뒤에 여러 명의 AI 에이전트가 있을 것입니다. 우리는 오늘날의 도구를 사용하면서도 이전에 없던 방식으로 설계 공간을 탐색할 수 있습니다. 도구의 고빈도 사용은 소프트웨어 기업의 급속한 성장을 이끌 것입니다. 지금까지 그런 일이 벌어지지 않은 이유는 AI 에이전트가 도구를 충분히 잘 활용하지 못했기 때문입니다. 따라서 이 소프트웨어 기업들이 직접 AI 에이전트를 개발하거나, AI 에이전트가 충분히 정교해져서 도구를 능숙하게 사용하게 될 것입니다. 저는 두 가지 모두 현실화될 것이라고 봅니다.
파텔: 최근 발표한 자료에서 대만의 파운드리, 메모리, 패키징 업체에 대한 약 1,000억 달러 규모의 조달 약속을 확인했습니다. 반도체 분석 기관 세미애널리시스(SemiAnalysis)는 이 숫자가 2,500억 달러에 달할 것이라고 전망했습니다. 한 해석에 따르면, 엔비디아의 경쟁 우위는 미래 수년간 희귀 부품을 선점한 데 있습니다. 다른 기업은 가속기(accelerator)를 보유할 수 있어도 메모리나 논리 칩을 확보하지 못한다는 것입니다. 이것이 앞으로 몇 년간 엔비디아의 주요 경쟁 우위입니까?
젠슨 황: 이것은 우리가 할 수 있지만 다른 기업은 어렵게 느끼는 일 중 하나입니다. 우리는 상위 공급망에 막대한 약속을 했습니다. 일부는 당신이 언급한 것처럼 명시적이고, 일부는 암묵적입니다. 예를 들어, 상위 공급망의 많은 투자는 제가 관련 CEO들에게 “이 산업이 얼마나 커질 것인지”, “왜 그렇게 커질 것인지”를 설명하고, 제 관점을 그들에게 납득시킨 후 이루어진 것입니다.
그들이 왜 저를 위해 투자하려고 할까요? 그들은 제가 그들의 공급량 전체를 구매해 하위 공급망을 통해 판매할 수 있는 능력을 갖추고 있다는 사실을 알기 때문입니다. 엔비디아의 하위 수요 및 공급망은 너무 방대해서, 그들은 상위 공급망에 투자할 의향을 갖습니다.
GTC 컨퍼런스를 보십시오. 사람들은 그 규모와 인기에 감탄합니다. 그것은 전 세계 AI 커뮤니티가 모인 자리입니다. 서로 교류하고 서로를 보여줘야 하기 때문입니다. 제가 그들을 모았고, 하위 공급망이 상위 공급망을 보게 하며, 상위 공급망이 하위 공급망을 보게 합니다. 모두가 AI의 진전을 눈앞에서 확인할 수 있습니다. 또한 모든 AI 퍼스트(First) 기업과 스타트업도 만나볼 수 있습니다. 그래서 그들은 제가 말했던 내용을 직접 검증할 수 있습니다. 저는 많은 시간을 들여 직접 혹은 간접적으로 공급망, 파트너, 생태계가 직면한 기회를 이해하도록 돕고 있습니다.
누군가는 제 기조연설이 마치 수업 같고, 심지어 다소 고통스럽다고 말하기도 합니다. 사실 그것이 바로 제 의도입니다. 저는 전체 공급망과 상위·하위 파트너, 생태계가 무엇이 일어날 것인지, 왜 그렇게 될 것인지, 언제 일어날 것인지, 규모는 어느 정도일 것인지, 그리고 제가 하는 것처럼 체계적으로 사고할 수 있도록 해야 합니다.
경쟁 우위에 관해서는, 우리는 미래를 위해 미리 준비하고 있습니다. 만약 우리가 향후 수년 안에 트릴리언 달러 규모로 성장한다면, 그때는 자연스럽게 그에 맞는 공급망을 구축할 능력을 갖추게 될 것입니다. 그러나 전제는 오늘날의 비즈니스 규모와 영향력, 그리고 비즈니스의 고속 순환 속도입니다. 현금흐름과 마찬가지로 공급망 역시 고유한 순환 및 회전 속도를 갖고 있습니다. 만약 비즈니스 회전 속도가 느리다면, 아무도 텅 빈 구조물에 공급망을 구축하려 하지 않을 것입니다. 우리가 오늘날 이 정도 규모를 유지할 수 있는 근본적인 이유는 하위 수요가 극도로 강하다는 점입니다. 그들이 직접 보고, 듣고, 이 모든 것이 실제로 일어나고 있음을 인식할 때, 비로소 우리는 현재 규모에서 지금의 성과를 이룰 수 있습니다.
파텔: 상위 공급망이 따라올 수 있는지 구체적으로 알고 싶습니다. 여러분은 수년째 매년 수익이 두 배로 증가했고, 매년 전 세계에 제공하는 연산 능력도 2배 이상 증가하고 있습니다.
젠슨 황: 이 규모에서 두 배로 증가하는 것은 정말 놀라운 일입니다.
파텔: 그런데 논리 칩을 보십시오. 여러분은 TSMC N3 노드의 최대 고객이자 N2 노드의 주요 고객 중 하나입니다. 세미애널리시스는 올해 AI가 N3 생산능력의 60%를 차지할 것이며, 내년에는 86%에 이를 것이라고 분석했습니다. 이미 대부분을 차지하고 있는데 어떻게 두 배로 증가할 수 있습니까? 매년 두 배로 증가할 수 있습니까? 우리가 이제 AI 연산 능력 증가 속도가 상위 공급망의 제약으로 인해 둔화되는 단계에 진입한 것입니까? 해결책을 보셨습니까? 궁극적으로 웨이퍼 공장의 생산능력을 매년 두 배로 늘리는 방법은 무엇입니까?
젠슨 황: 어느 시점에서든 순간적인 수요는 전 세계 상위·하위 공급망의 총 공급량을 초과할 수 있습니다. 심지어 배관공 수에 의해 제한받을 수도 있으며, 실제로 그런 경우도 있었습니다.
파텔: 배관공은 내년 GTC에 초대되어야 합니다.
젠슨 황: 좋은 아이디어입니다. 하지만 사실 이것은 오히려 좋은 현상입니다. 산업의 순간적인 수요가 총 공급량을 초과하는 것이 바람직합니다. 반대로라면 좋지 않습니다. 어떤 부품의 공급 부족이 심각해지면, 전체 산업이 그 문제 해결을 위해 몰려듭니다. 이미 CoWoS에 대한 논의는 거의 사라졌습니다. 지난 2년 동안 우리가 이 문제를 집요하게 해결했기 때문입니다. 이제 TSMC는 CoWoS 공급이 논리 칩 및 메모리 수요와 함께 확대되어야 한다는 것을 알고 있습니다. 그들은 논리 칩 확장과 동일한 속도로 CoWoS 및 차세대 패키징 기술을 확장하고 있습니다. 이는 매우 좋은 일입니다. 왜냐하면 CoWoS와 HBM 메모리는 이전에는 비교적 소수의 기술이었지만, 이제는 주류 컴퓨팅 기술이 되었기 때문입니다.
우리는 이제 더 광범위한 공급망에 영향을 미칠 수 있습니다. AI 혁명 초기에 제가 한 말은 5년 전부터 계속해온 것입니다. 그것을 믿고 투자한 사람이 있습니다. 예를 들어 마이크론 CEO 산자이 메흐로트라(Sanjay Mehrotra)와 그 팀입니다. 저는 그 회의를 정확히 기억합니다. 제가 무슨 일이 일어날 것인지, 왜 그렇게 될 것인지, 그리고 오늘날의 상황을 정확히 설명했고, 그들은 실제로 투자를 두 배로 늘렸습니다. 우리는 LPDDR 및 HBM 메모리에서 협력했고, 그들의 대규모 투자는 큰 성공을 거두었습니다. 늦게 온 사람도 있지만, 지금은 모두 왔습니다.
모든 병목 현상은 막대한 관심을 받습니다. 우리는 현재 몇 년 앞선 시점에서 병목 현상을 예측하고 있습니다. 예를 들어, 지난 몇 년간 루멘텀(Lumentum), 코히런트(Coherent), 실리콘 포토닉스 생태계에 대한 투자를 통해 공급망을 재구성했습니다. 우리는 TSMC 주변에 전체 공급망을 구축했고, 실리콘 포토닉스 통합 플랫폼 COUPE를 공동 개발했습니다. 우리는 많은 기술을 발명하고, 특허를 공급망에 라이선스하여 개방성을 유지했습니다.
우리는 새로운 기술, 새로운 공정, 새로운 테스트 장비(예: 양면 탐사), 그리고 생산 확대를 돕기 위한 기업 투자를 통해 공급망을 강화하고 있습니다. 우리는 생태계를 형성하고, 이 규모를 지원할 수 있는 공급망을 구축하기 위해 노력하고 있습니다.
파텔: 어떤 병목 현상은 다른 것보다 해결하기 쉬운 것 같네요. 예를 들어 CoWoS 생산 확대는 비교적 쉽습니다.
젠슨 황: 우리는 가장 어려운 병목 현상을 극복하는 책임이 있습니다.
파텔: 어떤 병목 현상입니까?
젠슨 황: 배관공과 전기공입니다. 이것이 제가 종말론자들을 걱정하는 이유입니다. 그들은 일자리가 사라지고, 직업이 망가질 것이라고 말합니다. 만약 우리가 사람들을 소프트웨어 엔지니어가 되지 못하게 막는다면, 우리는 소프트웨어 엔지니어를 고갈시킬 것입니다. 10년 전에도 똑같은 예언이 있었습니다. 어떤 종말론자는 “어떤 경우라도 방사선과 의사가 되지 마라”고 했고, 지금도 온라인에서 “방사선과는 가장 먼저 사라질 직업이며, 세상은 더 이상 방사선과 의사가 필요하지 않다”는 영상을 볼 수 있습니다. 그런데 지금 우리가 부족한 것은 무엇입니까? 바로 방사선과 의사입니다.
파텔: 어떤 것은 규모화할 수 있고, 어떤 것은 그렇지 않습니다. 여러분은 매년 논리 칩을 두 배로 만들 수 있습니까? 결국 메모리와 논리 칩 모두 EUV 리소그래피 장비에 제한을 받습니다. 여러분은 매년 EUV 리소그래피 장비를 두 배로 확보할 수 있습니까?
젠슨 황: 이러한 생산 능력은 빠르게 규모화할 수 있습니다. 2~3년 안에 가능합니다. 공급망에 수요 신호만 전달하면 됩니다. 하나를 만들 수 있다면 열 개도 만들 수 있고, 열 개를 만들 수 있다면 백만 개도 만들 수 있습니다. 이것들을 복제하는 것은 어렵지 않습니다.
파텔: 여러분은 공급망에서 어느 정도까지 개입할 것입니까? ASML에 직접 가서 “3년 후 엔비디아는 연 매출 2조 달러를 달성할 것이며, 훨씬 더 많은 EUV 리소그래피 장비가 필요하다”고 말할 것입니까?
젠슨 황: 일부는 직접 말하고, 일부는 간접적으로 말합니다. TSMC를 설득할 수 있다면, ASML도 설득할 수 있습니다. 우리는 핵심 병목 지점을 찾아야 합니다. 하지만 TSMC가 설득된다면, 몇 년 안에 충분한 EUV 장비를 확보할 수 있습니다.
저의 관점은 어떤 병목 현상도 2~3년 이상 지속되지 않을 것이라는 것입니다. 동시에 우리는 계산 효율을 10배, 20배, 호퍼에서 블랙웰로의 전환에서는 30~50배까지 향상시키고 있습니다. CUDA가 유연하기 때문에 우리는 끊임없이 새로운 알고리즘과 기술을 발명하고, 용량을 늘리면서 효율을 높이고 있습니다. 이러한 일들은 저를 걱정하지 않게 합니다. 제가 걱정하는 것은 하위 공급망입니다. 에너지 정책이 에너지 확장을 막고 있기 때문입니다. 에너지가 없다면 새 산업을 건설할 수 없습니다. 에너지가 없다면 새로운 제조업도 불가능합니다.
우리는 미국을 다시 산업화해야 합니다. 반도체 제조, 컴퓨터 제조, 패키징을 미국으로 되돌려야 합니다. 전기자동차, 로봇, AI 팩토리를 만들어야 합니다. 에너지가 없으면 이 모든 것을 건설할 수 없습니다. 그런데 에너지는 오랜 시간이 걸립니다. 반도체 생산 능력은 2~3년 안에 해결할 수 있는 문제입니다. CoWoS 생산 능력도 2~3년 안에 해결할 수 있습니다.
TPU가 엔비디아의 AI 연산 능력 지배를 무너뜨릴 수 있습니까?
파텔: 세계 상위 3개 모델 중 클로드(Claude)와 제미나이(Gemini)라는 두 모델이 모두 구글 TPU에서 훈련되었습니다. 이는 엔비디아에게 어떤 의미입니까?
젠슨 황: 우리가 하는 일은 매우 다릅니다. 엔비디아는 단순한 텐서 처리 유닛(Tensor Processing Unit)이 아니라 가속 컴퓨팅을 합니다. 가속 컴퓨팅은 분자역학, 양성자색역학(QCD), 데이터 처리, 구조화된 데이터, 비구조화된 데이터, 유체역학, 입자물리학 등 다양한 분야에 적용될 수 있습니다. 물론 AI도 포함됩니다.
가속 컴퓨팅은 훨씬 더 광범위합니다. AI는 현재의 화두이며, 분명히 중요하고 영향력이 크지만, 컴퓨팅은 그보다 훨씬 넓은 개념입니다. 엔비디아는 일반 컴퓨팅에서 가속 컴퓨팅으로 계산 방식을 재정의했습니다. 우리의 시장 범위는 어떤 TPU나 ASIC보다 훨씬 넓으며, 다양한 응용 프로그램을 가속화할 수 있는 유일한 기업입니다. 우리는 방대한 생태계를 보유하고 있으며, 다양한 프레임워크와 알고리즘이 엔비디아에서 실행될 수 있습니다.
우리의 컴퓨터는 다른 사람들이 조작할 수 있도록 설계되어 있기 때문에, 어떤 운영자도 우리 시스템을 구매할 수 있습니다. 반면 대부분의 자체 제작 시스템은 유연성이 부족해 다른 사람이 운영할 수 없기 때문에, 운영자 자신이 직접 운영해야 합니다. 누구나 우리 시스템을 구축하고 운영할 수 있기 때문에, 우리는 구글, 아마존, 애저(Azure), 오라클 등 모든 클라우드에 존재합니다.
남에게 임대하려면, 다양한 산업에서 거대한 고객군을 확보해야 합니다. 스스로 사용하려면, 당연히 우리가 직접 운영을 도울 수 있습니다. 예를 들어 xAI에서 일론 머스크를 도운 것처럼 말입니다. 우리는 어떤 기업, 어떤 산업의 운영자라도 능력 있게 만들 수 있습니다. 예를 들어, 제약회사 엘릴리(Lilly)에 과학 연구 및 신약 발견을 위한 슈퍼컴퓨터를 구축해 줄 수 있고, 이를 전체 신약 발견 및 생명과학 분야에 활용할 수 있도록 도울 수 있습니다.
TPU가 수행할 수 없는 응용 프로그램이 많습니다. 엔비디아의 CUDA는 훌륭한 텐서 처리 유닛이지만, 데이터 처리의 모든 단계, 계산, AI 등도 처리할 수 있습니다. 우리의 시장 기회는 훨씬 크고, 범위는 훨씬 넓습니다. 우리는 세계에서 사용되는 모든 응용 프로그램을 지원하므로, 어디서든 엔비디아 시스템을 구축하고 반드시 고객이 있을 것임을 확신할 수 있습니다. 이것은 매우 다른 상황입니다.
파텔: 여러분의 수익은 놀라울 정도로 크지만, 제약산업이나 양자컴퓨팅에서 나오는 것이 아니라 주로 AI에서 나옵니다. 이전에 없던 기술인 AI가 전례 없는 속도로 성장하고 있기 때문입니다. 그렇다면 AI 자체에게 가장 유리한 것은 무엇입니까? TPU는 기본적으로 거대한 펄스 어레이(pulsed array)로서 행렬 곱셈(matrix multiplication)에 특히 강합니다. GPU는 더 유연하며, 분기 결정이 많거나 메모리 접근이 불규칙한 작업에 적합합니다. 그러나 문제는 AI가 실제로 무엇을 하고 있는가입니다. 솔직히 말해, AI는 예측 가능한 행렬 곱셈을 반복적으로 수행하는 것입니다. 그렇다면 왜 칩에 스레드 블록 스케줄러(thread block scheduler)나 스레드와 메모리 뱅크 사이의 전환과 같은 일반적인 기능을 위해 면적을 할당해야 합니까? 이 면적은 전부 행렬 곱셈에 사용할 수 있습니다. TPU는 바로 현재 폭발적으로 성장하는 계산 수요에 특화되어 설계된 것입니다. 어떻게 생각하십니까?
젠슨 황: 행렬 곱셈은 AI의 중요한 부분이지만 전부는 아닙니다. 새로운 어텐션 메커니즘을 고안하거나, 분해 방식을 바꾸거나, 혼합 상태 공간 모델(Mixed State Space Model, SSM)과 같은 완전히 새로운 아키텍처를 발명하려면 일반적으로 프로그래밍 가능한 아키텍처가 필요합니다. 확산 모델(diffusion model)과 오토리그레시브(auto-regressive) 모델을 융합한 모델을 만들려면, 역시 일반적으로 프로그래밍 가능한 아키텍처가 필요합니다. 우리는 당신이 생각할 수 있는 어떤 것도 실행할 수 있습니다. 이것이 우리의 강점입니다. 프로그래밍 가능하기 때문에 새로운 알고리즘을 발명하는 것이 훨씬 쉽습니다.
새로운 알고리즘을 발명할 수 있는 능력이 바로 AI가 이렇게 빠르게 진보하는 이유입니다. TPU와 기타 기술은 모두 무어 법칙(Moore’s Law)의 영향을 받으며, 매년 약 25%씩 향상됩니다. 매년 10배 또는 100배의 비약적 향상을 이루려면, 매년 근본적으로 알고리즘과 계산 방식을 바꿔야 합니다.
이것이 바로 엔비디아의 근본적인 강점입니다. 블랙웰은 호퍼보다 에너지 효율이 50배 높습니다. 제가 처음 35배라고 말했을 때는 아무도 믿지 않았습니다. 이후 누군가 “실제로는 50배인데, 젠슨 황이 일부러 숨겼다”는 기사를 썼습니다. 단순한 무어 법칙으로는 절대 불가능합니다. 우리는 전문가 혼합 모델(Mixture of Experts, MoE) 같은 새로운 모델을 활용해, 이를 병렬화하고, 분해하며, 전체 계산 시스템에 분산시켰습니다. CUDA가 없고, 새로운 커널을 깊이 있게 작성할 수 있는 능력이 없다면, 이는 매우 어렵습니다.
이는 프로그래밍 가능한 아키텍처와 엔비디아의 극도로 긴밀한 협업 설계 능력이 결합된 결과입니다. 우리는 NVLink나 스펙트럼-X(Spectrum-X) 같은 네트워크 구조 자체로 일부 계산을 오프로드할 수도 있습니다. 우리는 프로세서, 시스템, 네트워크 구조, 라이브러리, 알고리즘을 동시에 변경할 수 있습니다. CUDA가 없다면, 저는 어디서부터 시작해야 할지조차 모를 것입니다.
파텔: 이것은 엔비디아 고객에 대한 흥미로운 질문을 이끕니다. 여러분 수익의 60%는 다섯 개의 초대규모 클라우드 업체에서 나옵니다. 다른 시대에는 실험을 하는 교수님들이 고객이었고, 그들은 CUDA가 필요했으며, 다른 가속기를 사용할 수 없었습니다. 그들은 단지 PyTorch를 CUDA 위에서 실행하면 모든 것이 최적화되었다는 점만 필요했습니다. 그러나 이러한 초대규모 클라우드 업체는 자체 커널을 직접 작성할 능력을 갖추고 있습니다. 사실 특정 아키텍처에서 마지막 5%의 성능을 뽑아내기 위해 반드시 그렇게 해야 합니다. 앤트로픽과 구글은 주로 TPU와 트레이니엄(Trainium) 같은 자체 가속기를 사용합니다. GPU를 사용하는 오픈AI조차도 자체 커널이 필요하기 때문에 트라이톤(Triton)을 사용합니다. 그들은 cuBLAS와 NCCL을 사용하지 않고, 자체 소프트웨어 스택을 사용하며, 이를 다른 가속기로도 컴파일할 수 있습니다. 만약 여러분의 대부분 고객이 CUDA를 대체할 수 있고 실제로 그렇게 하고 있다면, CUDA는 최첨단 AI가 엔비디아 하드웨어에서 실행되는 데 있어 여전히 핵심 요소입니까?
젠슨 황: CUDA는 풍부한 생태계입니다. 어떤 컴퓨터에서든 개발을 하려면, CUDA를 선택하는 것이 매우 현명합니다. 생태계가 너무 풍부하기 때문에, 우리는 모든 프레임워크를 지원합니다. 맞춤형 커널을 작성하려면, 우리가 트라이톤에 크게 기여했음을 아셔야 합니다. 트라이톤의 백엔드에는 엔비디아 기술이 대량 포함되어 있습니다.
우리는 모든 프레임워크가 더 나아지도록 돕는 것을 기꺼이 합니다. 트라이톤, vLLM, SGLang 같은 프레임워크가 많습니다. 이제는 베를(verl)과 네모 RL(NeMo RL) 같은 강화학습 프레임워크도 쏟아져 나오고 있습니다. 후처리(post-training)와 강화학습 분야는 폭발적으로 성장하고 있습니다. 따라서 어떤 아키텍처를 기반으로 개발하려면, CUDA를 선택하는 것이 가장 의미 있습니다. 왜냐하면 그 생태계가 훌륭하다는 것을 알기 때문입니다.
문제가 생겼을 때, 문제는 당신의 코드에 있을 가능성이 더 높다는 것을 압니다. 아래 쌓인 엄청난 저수준 시스템 때문일 가능성은 훨씬 낮습니다. 당신이 다루는 코드 규모가 얼마나 방대한지 기억하세요. 시스템이 작동하지 않을 때, “내가 틀렸는가, 아니면 컴퓨터가 틀렸는가?”라고 스스로 물어봐야 합니다. 당신은 항상 자신이 틀렸다고 확인하기를 원합니다. 그래야만 컴퓨터를 계속 믿을 수 있으니까요. 분명히 우리도 아직 많은 버그를 가지고 있습니다. 하지만 핵심은, 우리의 시스템이 수없이 검증되었기 때문에, 당신은 그 위에 자신 있게 구축할 수 있다는 점입니다. 이것이 제가 말씀드리고 싶은 첫 번째 점, 즉 생태계의 풍부성, 프로그래밍 가능성, 그리고 능력입니다.
두 번째로, 개발자라면 가장 원하는 것이 설치 기반(install base)입니다. 당신의 소프트웨어가 다른 많은 컴퓨터에서 실행되기를 바랍니다. 당신은 자신을 위해 소프트웨어를 작성하는 것이 아니라, 자신이 속한 클러스터나 다른 사람의 클러스터를 위해 작성합니다. 왜냐하면 당신은 프레임워크 개발자이기 때문입니다. 엔비디아의 CUDA 생태계는 결국 그것이 가장 큰 자산입니다.
현재 우리는 전 세계에 수억 개의 GPU를 보유하고 있으며, 모든 클라우드에 있습니다. A10, A100, H100, H200, L 시리즈, P 시리즈, 그리고 다양한 크기와 형태의 제품이 있습니다. 만약 당신이 로봇 기업이라면, 그 CUDA 스택이 로봇 내부에서 바로 실행되기를 원할 것입니다. 우리는 거의 어디에나 있습니다. 이 설치 기반은, 일단 당신이 소프트웨어나 모델을 개발하면, 어디서든 사용할 수 있다는 것을 의미합니다. 이 가치는 측량할 수 없습니다.
마지막으로, 우리는 모든 클라우드에 존재합니다. 이것이 우리를 진정으로 독특하게 만듭니다. 만약 당신이 AI 기업이나 개발자라면, 어느 클라우드 서비스 제공업체와 협력할지, 또는 부하를 어디에 실행할지 확신하지 못할 수 있습니다. 괜찮습니다. 우리는 당신의 자체 데이터센터를 포함해 어디에나 있습니다. 생태계의 풍부성, 설치 기반의 광범위성, 존재 위치의 다양성—이 모든 것이 결합되어 CUDA의 가치를 극대화합니다.
파텔: 타당합니다. 하지만 제가 묻고 싶은 것은, 이러한 장점이 여러분의 최대 고객에게 얼마나 중요한가 하는 점입니다. 많은 사람들에게 CUDA는 분명 가치가 있습니다. 하지만 여러분 수익의 대부분은 자체 소프트웨어 스택을 구축할 능력을 갖춘 대규모 고객들로부터 나옵니다. 특히 향후 AI가 강화학습을 통해 엄격하게 검증할 수 있는 분야에 진입하게 되면, 문제는 누가 대규모 클러스터에서 가장 빠른 행렬 곱셈과 어텐션 커널을 작성할 수 있는가가 됩니다. 이것은 매우 검증 가능한 최적화 문제입니다.
초대규모 클라우드 업체는 이러한 맞춤형 커널을 직접 작성할 능력을 완전히 갖추고 있습니다. 물론 엔비디아의 성능 대비 가격이 여전히 더 우수할 수 있으므로, 그들은 여전히 엔비디아를 선택할 수 있습니다. 그러나 그러면 문제는 단지 하드웨어 사양과 달러당 연산 능력 및 대역폭이 더 높은 쪽을 겨루는 것으로 바뀝니다.
역사적으로 엔비디아는 CUDA 경쟁 우위를 바탕으로 AI 하드웨어 및 소프트웨어에서 70% 이상의 이윤률을 유지해 왔습니다. 그러나 지금의 문제는, 여러분의 최대 고객이 이 경쟁 우위를 우회할 수 있는 능력을 갖추고 있다면, 여전히 이렇게 높은 이윤률을 유지할 수 있느냐는 점입니다.
젠슨 황: 우리는 이러한 AI 연구소에 배정한 엔지니어 수가 놀랍도록 많으며, 그들과 함께 협력하여 소프트웨어 스택을 최적화합니다. 이유는 우리 아키텍처에 대해 우리보다 더 잘 아는 사람이 없기 때문입니다. 이러한 아키텍처는 CPU만큼 일반적이지 않습니다. CPU는 어떤 면에서는 캐딜락과 같고, 운전하기 쉽고, 고속 주행을 하지 않아도 괜찮습니다. 누구나 꽤 잘 운전할 수 있고, 크루즈 컨트롤도 있고, 모든 것이 간단합니다. 그러나 엔비디아의 GPU와 가속기는 F1 레이싱카와 같습니다. 저는 누구나 시속 160km까지는 쉽게 운전할 수 있다고 상상합니다. 하지만 극한까지 밀어붙이려면 상당한 전문 지식이 필요합니다. 우리는 많은 AI를 사용해 커널을 작성합니다.
저는 상당한 기간 동안 우리는 여전히 필요로 될 것이라고 확신합니다. 우리의 전문 지식은 종종 AI 연구소 파트너가 성능을 쉽게 2배 더 높일 수 있도록 도와줍니다. 커널 하나나 전체 소프트웨어 스택을 최적화한 후, 모델 속도가 50%, 2배, 심지어 3배까지 향상되는 것은 흔한 일입니다. 그들이 보유한 모든 호퍼 및 블랙웰 클러스터 규모를 고려할 때, 이것은 엄청난 숫자입니다. 속도가 2배가 되면 수익도 바로 2배가 됩니다.
엔비디아의 계산 스택은 총 소유 비용(TCO) 측면에서 전 세계 최고이며, 누구도 우리보다 더 나은 성능 대비 TCO를 보여줄 수 없습니다. 드일란(Dylan)의 InferenceMAX 벤치마크 테스트가 바로 그곳에 있습니다. 누구나 사용할 수 있습니다. 그러나 TPU는 테스트에 참가하지 않으며, 트레이니엄도 테스트에 참가하지 않습니다. 저는 TPU가 주장하는 초저비용 추론 성능을 InferenceMAX로 입증해 보기를 진심으로 권장합니다. 하지만 어렵습니다. 왜냐하면 아무도 참여하려 하지 않기 때문입니다.
MLPerf도 마찬가지입니다. 저는 트레이니엄이 계속 주장해온 40%의 우위를 입증해 보기를 정말 원합니다. 또한 TPU의 비용 우위를 입증해 보기를 원합니다. 그러나 제 관점에서 보면, 그들이 주장하는 이러한 우위는 근본 원리에서 완전히 말이 되지 않습니다. 따라서 저는 우리가 성공한 이유가 단순히 우리의 TCO가 너무 훌륭하기 때문이라고 생각합니다.
두 번째로, 여러분은 우리 수익의 60%가 상위 5개 클라우드 업체에서 나온다고 말씀하셨지만, 이 비즈니스의 대부분은 외부를 향해 있습니다. 예를 들어 AWS에서 엔비디아 칩을 사용하는 대부분은 외부 고객을 위한 것이지, 내부용이 아닙니다. 애저의 고객은 분명히 외부 고객이며, 오라클의 고객도 마찬가지입니다. 그들이 우리를 선호하는 이유는 우리의 영향력이 크기 때문이며, 우리는 전 세계 최고의 고객을 그들에게 데려다줄 수 있고, 이 고객들은 모두 엔비디아 위에 구축되어 있습니다. 그리고 이 기업들이 엔비디아 위에 구축되는 이유는, 우리의 영향력과 다용도성이 너무 강하기 때문입니다.
따라서 저는 이 피드백 루프(flywheel)가 설치 기반, 아키텍처의 프로그래밍 가능성, 생태계의 풍부성, 그리고 전 세계 수천 개의 AI 기업이라는 점에서 성립한다고 생각합니다. 만약 당신이 AI 스타트업이라면, 어떤 아키텍처를 선택하겠습니까? 당신은 가장 풍부한 것을 선택할 것이며, 우리는 가장 풍부합니다. 설치 기반이 가장 큰 것을 선택할 것이며, 우리는 가장 큽니다. 생태계가 가장 완벽한 것을 선택할 것입니다. 이것이 바로 피드백 루프입니다.
이 모든 점을 종합해 보면, 우리의 달러당 성능이 최고이며, 고객의 토큰 비용이 최저입니다. 우리의 와트당 성능은 전 세계 최고이며, 따라서 파트너가 1기가와트(GW) 규모의 데이터센터를 건설하려면, 이 데이터센터가 최대한 많은 수익과 토큰을 생산해야 합니다. 이는 곧 수익과 동일합니다. 당신은 수익을 최대화하기 위해 가능한 한 많은 토큰을 생산하기를 원할 것이며, 우리는 전 세계에서 와트당 토큰 수가 가장 높은 아키텍처입니다. 또한 인프라를 임대하려는 목표라면, 우리는 전 세계에서 가장 많은 고객을 보유하고 있습니다. 이것이 바로 피드백 루프가 작동하는 이유입니다.
파텔: 흥미롭습니다. 핵심은 실제 시장 구조가 어떻게 되는가에 달려 있습니다. 왜냐하면 다른 기업이 존재하더라도, 수천 개의 AI 기업이 각각 거의 동일한 연산 능력 점유율을 갖는 세계가 있을 수 있습니다. 그러나 현실은, 이 다섯 개의 클라우드 업체를 통해 아마존에서 실제로 연산 능력을 사용하는 것은 앤트로픽, 오픈AI, 그리고 대규모 기초 연구소들입니다. 이러한 주요 플레이어는 다양한 가속기를 실행할 수 있는 능력과 자원을 갖추고 있습니다.
만약 당신이 말한 성능 대비 가격, 와트당 성능 등의 장점이 모두 사실이라면, 왜 앤트로픽 같은 기업이 며칠 전 보드컴과 구글과의 다중 기가와트 규모의 TPU 계약을 발표하고, 대부분의 연산 능력을 그 위에 두었다고 합니까? 구글 입장에서도 TPU는 그들의 대부분 연산 능력을 차지합니다. 따라서 이러한 대형 AI 기업들의 연산 능력이 과거에는 전부 엔비디아였지만, 지금은 그렇지 않다는 점을 보면, 제가 궁금한 것은, 만약 이 모든 장점이 종이 위에서만 성립한다면, 왜 그들은 다른 가속기를 선택했는가입니다.
젠슨 황: 앤트로픽은 단지 특이 사례일 뿐이며, 큰 추세가 아닙니다. 한번 생각해 보십시오. 만약 앤트로픽이라는 회사가 없다면, TPU는 어디서 성장했을까요? 100% 앤트로픽 때문입니다. 마찬가지로, 앤트로픽이 없다면 트레이니엄은 어디서 성장했을까요? 역시 100% 앤트로픽 때문입니다. 이것은 거의 공공연한 비밀입니다. ASIC 기회가 많이 생긴 것이 아니라, 단지 앤트로픽 하나뿐입니다.
파텔: 그러나 오픈AI는 AMD와 거래를 하고 있으며, 자체 타이탄(Titan) 가속기를 개발하고 있습니다.
젠슨 황: 그렇습니다. 그러나 모두가 인정하듯, 그들의 대부분 연산 능력은 여전히 엔비디아에서 실행됩니다. 우리는 여전히 함께 많은 일을 할 것입니다. 다른 것을 사용하거나 시도하는 것을 저는 전혀 반기지 않습니다. 그들이 시도하지 않으면 우리 것이 얼마나 좋은지 알 수 없으니까요. 때때로 그들은 우리 것을 다시 상기시켜야 합니다. 우리는 지금의 위치를 계속해서 지켜야 합니다.
항상 누군가 과장된 주장을 합니다. 얼마나 많은 ASIC 프로젝트가 취소되었는지 보십시오. 단지 ASIC를 만들겠다고 해서, 엔비디아보다 더 나은 것을 만들어야 한다는 것은 쉽지 않습니다. 사실, 엔비디아에 어떤 결함이 분명히 존재하지 않는 한, 이는 합리적이지 않습니다. 그러나 우리의 규모와 속도는 분명히 나타나 있습니다. 우리는 전 세계 유일의 매년 신제품을 출시하고, 매년 획기적인 비약을 이루는 기업입니다.
파텔: 저는 그들의 논리는, 그것이 엔비디아보다 더 나을 필요는 없고, 다만 70%만큼 나쁘지 않으면 된다는 것이라고 추정합니다. 왜냐하면 당신에게 70%의 이윤률을 지불하기 때문입니다.
젠슨 황: 아닙니다. ASIC의 이윤률도 매우 높다는 점을 잊지 마십시오. 예를 들어, 엔비디아의 이윤률이 70%이고, ASIC의 이윤률이 65%라고 가정해 보겠습니다. 당신은 도대체 무엇을 절약한 것입니까?
파텔: 보드컴 같은 경우를 말씀하시는 겁니까?
젠슨 황: 그렇습니다. 당신은 다른 사람에게 돈을 지불해야 합니다. 제가 아는 바로는, ASIC 이윤률은 매우 높으며, 그들 스스로도 그렇게 생각하고, 놀라운 ASIC 이윤률을 자랑스럽게 여깁니다.
그렇다면 왜 그런가요? 오래 전에는 우리가 그렇게 할 능력이 없었습니다. 당시 저는 오픈AI나 앤트로픽 같은 기초 AI 연구소를 설립하는 것이 얼마나 어려운지, 그리고 그들이 공급업체 자체의 막대한 투자를 필요로 한다는 것을 깊이 인식하지 못했습니다. 우리는 당시 앤트로픽에 수십억 달러를 투자해 그들이 우리 연산 능력을 사용하도록 하는 능력이 없었습니다. 그러나 구글과 AWS는 그 능력을 갖추고 있었습니다. 그들은 초창기부터 막대한 투자를 했고, 그에 대한 보답으로 앤트로픽은 그들의 연산 능력을 사용했습니다. 우리는 당시 그 능력이 없었습니다.
제 실수는, 그들이 실제로 다른 선택의 여지가 없었다는 것을 깊이 인식하지 못한 것입니다. 벤처 캐피털이 50~100억 달러를 AI 연구소에 투자해 앤트로픽이 되기를 기대하는 것은 불가능하다는 점을 제 실수로 인정합니다. 그러나 당시 제가 그걸 인식했다고 해도, 저는 우리가 그렇게 할 능력이 있다고 생각하지는 않았습니다. 그러나 저는 같은 실수를 다시는 반복하지 않을 것입니다.
저는 오픈AI에 투자하는 것을 기꺼이 하며, 그들의 확장을 돕는 것도 기꺼이 합니다. 저는 이것이 필수적이라고 믿습니다. 이후 제가 그 능력을 갖추었을 때, 앤트로픽이 우리를 찾아왔고, 저는 투자자로서 참여하고 그들의 확장을 돕는 것을 기꺼이 했습니다. 우리는 당시 그것을 할 수 없었습니다. 만약 제가 모든 것을 다시 시작할 수 있다면, 지금의 엔비디아 규모가 당시에도 있었다면, 저는 그것을 기꺼이 했을 것입니다.
왜 엔비디아는 초대규모 클라우드 업체가 되지 않습니까?
파텔: 수년간 엔비디아는 AI 분야에서 돈을 벌고, 또 큰돈을 벌어온 기업이었습니다. 지금 당신은 투자하고 있습니다. 보도에 따르면, 이미 오픈AI에 300억 달러, 앤트로픽에 100억 달러를 투자했습니다. 지금 그들의 가치는 상승했고, 앞으로도 계속 상승할 것이라고 믿습니다. 따라서 당신은 수년간 그들에게 연산 능력을 제공해 왔고, 그것의 발전 방향을 보아왔으며, 그들의 가치가 1~2년 전에는 지금의 10분의 1이었고, 심지어 1년 전에도 훨씬 낮았다는 점을 알고 있습니다. 그런데 당신은 그렇게 많은 현금을 보유하고 있습니다. 그렇다면 엔비디아가 자체적으로 기초 연구소가 되어 막대한 자금을 투입하거나, 지금의 평가액에서 훨씬 일찍 이러한 거래를 하는 것이 더 나은 선택이 아닐까요? 당신은 현금을 보유하고 있습니다. 왜 그렇게 하지 않습니까?
젠슨 황: 우리는 가능한 한 빨리, 그리고 능력이 생기자마자 바로 그렇게 했습니다. 제가 할 수 있었다면 훨씬 일찍 했을 것입니다.
TechFlow 공식 커뮤니티에 오신 것을 환영합니다
Telegram 구독 그룹:https://t.me/TechFlowDaily
트위터 공식 계정:https://x.com/TechFlowPost
트위터 영어 계정:https://x.com/BlockFlow_News














