
황런쉰 최신 인터뷰: 딥시크를 화웨이와 긴밀히 연계하도록 압박—이는 미국에 너무나도 위험하다
정리: 샤오샤오, 넷이즈 인텔리전스
엔비디아 CEO 젠슨 황(Jensen Huang)은 최근 미국 유명 테크 팟캐스트 진행자 드와르케시 파텔(Dwarkesh Patel)과의 인터뷰에서, 자사의 경쟁 우위(무적지대), 구글 TPU와의 경쟁, 중국에 대한 반도체 수출 등 핵심 이슈에 대해 전면적으로 응답했다.
그는 엔비디아의 무적지대가 이미 공급망 심부까지 확장됐다고 강조하며, 수천억 달러 규모의 구매 약속을 통해 대만 TSMC 및 메모리 공급업체들과 깊은 협력 관계를 구축했다고 밝혔다.
TPU 경쟁에 대해서는, 앤트로픽(Anthropic)이 ASIC 성장의 독특한 사례일 뿐 추세가 아니라고 지적했다. 엔비디아의 가속 컴퓨팅은 AI를 넘어서 분자역학, 데이터 처리, 유체역학 등 광범위한 분야를 아우르며, CUDA의 높은 프로그래밍 가능성 덕분에 매년 10배에서 최대 50배에 이르는 성능 향상이 가능하다고 설명했다.
또한 엔비디아가 초대규모 클라우드 서비스 제공업체가 되지 않는 이유에 대해, 현금 유동성은 풍부하나 ‘반드시 해야 할 일만 하되, 가능한 한 적게 하겠다’는 원칙을 고수한다고 밝혔다. 즉, 코어위브(CoreWeave), 오픈AI(OpenAI), 앤트로픽 등 생태계 참여 기업에 투자함으로써 고객과의 직접적인 이익 갈등을 피하고, 생태계 전체를 지원하는 방식을 택했다고 말했다. 그는 앤트로픽에 대한 초기 대규모 투자를 하지 못한 것을 자신의 실수로 인정하기도 했다. 더불어, “AI 혁명이 결코 일어나지 않았더라도, 물리학·화학·데이터 처리 등 분야에서 가속 컴퓨팅을 기반으로 엔비디아는 여전히 거대 기업이 될 것”이라고 단언했다.
중국에 대한 수출 문제에서는 극단적인 수출 규제 정책을 ‘아주 어린 짓’이라고 비판했다. 젠슨 황은 AI 연산 능력이 반도체와 에너지의 결합임을 지적하면서, EUV 리소그래피 장비 제한에도 불구하고 중국은 여전히 막대한 7nm 칩 생산 역량을 보유하고 있다고 말했다. 현재 주류 대규모 언어모델(Large Language Model) 대부분이 호퍼(Hopper) 아키텍처 세대에서 훈련되고 있음을 감안할 때, 중국은 풍부한 전력 공급과 칩 클러스터 규모 확대를 통해 단일 칩의 성능 격차를 충분히 보완할 수 있다고 주장했다.
더 나아가 중국의 거대한 AI 연구진은 더 효율적인 컴퓨터 과학 기법을 통해 모델 성능을 향상시키고 있다. 젠슨 황은 딥시크(DeepSeek) 사례를 들어, 이러한 진전이 결코 사소한 것이 아니라고 경고했다. 만약 우수한 오픈소스 모델들이 화웨이 등 국내 하드웨어에 특화되어 최적화되고, 그 위에서 가장 뛰어난 성능을 발휘하도록 강제된다면, 이는 객관적으로 미국 기술 스택의 글로벌 우위를 직접 약화시키는 결과를 낳을 것이라고 분석했다. 그는 미국 시장 외 세계 2위 규모의 중국 시장을 자발적으로 포기하면, 중국이 미국 기술 스택과 독립된 하층 계산 아키텍처를 구축할 수밖에 없다고 강조했다. 이러한 오픈소스 기반 기술들이 점차 남반구 국가들로 확산됨에 따라, 미국은 장기적인 AI 생태계 표준 경쟁에서 오히려 수세에 몰릴 가능성이 크다고 내다봤다.

다음은 젠슨 황 CEO 인터뷰 전문이다:
공급망 통제가 엔비디아 최대 무적지대인가?
파텔: 많은 소프트웨어 기업의 기업 가치가 하락하고 있다. 사람들은 AI가 소프트웨어를 상품화시킬 것이라고 보기 때문이다. 일부는 엔비디아가 설계 파일을 TSMC에 넘겨 논리 칩과 스위치를 만들게 하고, SK하이닉스·마이크론·삼성의 HBM을 사용해 패키징한 후, 대만 지역 ODM 업체에서 랙(rack) 형태로 조립한다고 본다. 본질적으로 엔비디아는 소프트웨어를 만드는 기업이고, 하드웨어는 타사가 제조한다는 것이다. 그렇다면 소프트웨어가 상품화되면 엔비디아 역시 상품화될 수 있는가?
황: 결국 누군가는 전자를 토큰(token)으로 바꿔야 한다. 이 변환 과정은 완전히 상품화되기 어렵다. 한 토큰을 다른 토큰보다 더 가치 있게 만드는 것은, 한 분자를 다른 분자보다 더 가치 있게 만드는 것과 같다. 이를 위해서는 막대한 기술, 공학, 과학, 발명이 필요하다. 이 작업은 아직도 완전히 이해되지 않았으며, 끝나지도 않았다. 나는 이런 식의 상품화가 실제로 일어날 것이라고 생각하지 않는다.
다만 우리는 이 과정을 더욱 효율적으로 만들 수 있다. 당신이 질문한 방식 그 자체가 바로 내가 회사를 운영하는 사고 모델이다. 입력(input)은 전자이고, 출력(output)은 토큰이며, 그 사이에 엔비디아가 있다. 우리의 원칙은 반드시 해야 할 일만 하되, 가능한 한 적게 하는 것이다. ‘가능한 한 적게 한다’는 말은, 내가 직접 하지 않아도 되는 일은 파트너와 협력해 우리 생태계의 일부로 만든다는 의미다.
오늘날 엔비디아는 아마도 세계에서 가장 큰 파트너 생태계를 보유한 기업일 것이다. 여기에는 상游 및 하流 공급망, 모든 컴퓨터 제조사, 애플리케이션 개발자, 모델 제조사가 포함된다. AI는 다섯 층으로 된 케이크와 같고, 우리는 각 층마다 자신만의 생태계를 갖추고 있다. 우리는 가능한 한 적게 하되, 반드시 해야 하는 부분은 극도로 어려운데, 그런 부분은 상품화될 리 없다.
또한 나는 기업용 소프트웨어 기업들이 상품화될 것이라고도 생각하지 않는다. 지금 대부분의 소프트웨어 기업은 엑셀(Excel), 파워포인트(PowerPoint), 캐덴스(Cadence), 시놉시스(Synopsys) 같은 도구 제조사다. 내 관점은 많은 이들과 다르다. AI 에이전트(agent)의 수는 기하급수적으로 증가할 것이며, 도구 사용자의 수도 기하급수적으로 증가할 것이다. 도구의 인스턴스(instance) 수는 폭증할 가능성이 매우 높다.
예를 들어, 시놉시스의 디자인 컴파일러(design compiler)는 배치(layout), 설계 규칙 검사(DRC) 등을 위해 수많은 AI 에이전트에 의해 활용될 것이다. 오늘날 우리가 겪는 제약은 엔지니어의 수인데, 내일부터는 각 엔지니어 뒤에 여러 명의 AI 에이전트가 있을 것이다. 우리는 오늘날의 도구를 이용해, 이전에는 상상도 못했던 방식으로 설계 공간을 탐색할 수 있다. 도구의 고빈도 사용은 소프트웨어 기업의 급속한 성장을 가져올 것이다. 지금까지 그러지 못한 이유는 AI 에이전트가 도구를 충분히 잘 다루지 못했기 때문이다. 따라서 이런 소프트웨어 기업들은 스스로 AI 에이전트를 만들어야 하거나, AI 에이전트가 도구를 능숙하게 다룰 수 있을 정도로 진화해야 한다. 나는 이 두 가지 모두 현실화될 것이라고 본다.
파텔: 당신의 최신 문서에서 파운드리, 메모리, 패키징에 대한 약 1,000억 달러 규모의 구매 약속이 언급됐다. 반도체 분석 기관 세미애널리시스(SemiAnalysis)는 이 금액이 2,500억 달러에 이를 것이라고 전망한다. 해석 하나는, 엔비디아의 무적지대가 향후 수년간 희귀 부품을 선점하는 데 있다는 것이다. 다른 기업들도 가속기(accelerator)를 보유하고 있지만, 메모리와 논리 칩을 확보하지 못한다는 것이다. 이것이 앞으로 몇 년 동안 당신들의 주요 무적지대인가?
황: 이것은 우리가 할 수 있고, 다른 기업은 하기 어려운 일 중 하나다. 우리는 상류 공급업체에 막대한 약속을 했는데, 일부는 당신이 언급한 것처럼 명시적인 것이고, 또 일부는 암묵적인 것이다. 예를 들어, 상류 기업의 CEO들에게 “이 산업이 얼마나 커질 것인지”, “왜 그렇게 커질 것인지”를 설명해주고, 내 관점을 그들에게 설득하여 투자를 유도한 경우가 있다.
그들이 왜 나를 위해 투자하려고 할까? 그들은 내가 그들의 제품을 구매할 능력이 있으며, 그것을 하류에서 판매할 수 있다는 사실을 알기 때문이다. 엔비디아의 하류 수요와 하류 공급망은 너무나도 방대해서, 그들이 상류에 투자하려는 것이다.
GTC 컨퍼런스를 보면, 참가 규모와 열기가 정말 놀랍다. 그것은 전 세계 AI 커뮤니티가 한자리에 모여 서로 소통하고, 서로를 알아가려는 욕구 때문인데, 내가 그들을 한자리에 모았기 때문이다. 하류 기업이 상류 기업을 보고, 상류 기업이 하류 기업을 보며, 모두가 AI의 진전을 목격할 수 있도록 했다. 또한 모든 AI 네이티브 기업과 스타트업도 만날 수 있다. 그래서 그들은 내가 말한 내용을 직접 눈으로 확인할 수 있다. 나는 직접 또는 간접적으로, 공급망과 파트너, 생태계 전체가 앞에 놓인 기회를 이해하도록 하기 위해 엄청난 시간을 투자한다.
누군가는 내 기조연설을 마치 수업 같고, 다소 고통스럽다고 표현하기도 한다. 사실 그것이 바로 의도다. 나는 전체 공급망, 상류 및 하류, 생태계가 ‘무엇이 일어날 것인지’, ‘왜 일어날 것인지’, ‘언제 일어날 것인지’, ‘규모는 얼마나 클 것인지’를 이해하도록 하려는 것이다. 그리고 그들이 나처럼 체계적으로 사고할 수 있도록 하려는 것이다.
무적지대에 대해서는, 사실 미래를 위한 선제적 포지셔닝을 하고 있는 것이다. 만약 우리가 향후 수년 내에 트릴리언 달러 규모로 성장한다면, 그때는 당연히 그에 걸맞은 공급망을 구축할 능력을 갖추게 된다. 하지만 그 전제는, 오늘날의 사업 규모와 영향력, 그리고 사업의 고속 순환 속도가 존재해야 한다는 것이다. 현금 흐름(cash flow)과 마찬가지로, 공급망에도 고유의 순환 및 회전 속도가 있다. 만약 사업 회전 속도가 느리다면, 아무도 공허한 구조물에 공급망을 구축하려 하지 않을 것이다. 우리가 오늘날 이처럼 방대한 규모를 유지할 수 있는 근본적인 이유는, 하류 수요가 극도로 강하다는 점이다. 그들이 직접 보고, 듣고, 이 모든 것이 실제 일어나고 있음을 인식할 때, 우리는 현재의 규모에서 지금 이 일을 해낼 수 있다.
파텔: 구체적으로 상류 공급업체가 수요를 따라갈 수 있는지를 알고 싶다. 당신의 매출은 수년간 매년 두 배로 증가했고, 매년 세계에 제공하는 연산 능력은 세 배 이상 증가했다.
황: 이 정도 규모에서 매년 두 배로 증가하는 것은 정말 놀라운 일이다.
파텔: 그런데 논리 칩을 보자면, 당신은 TSMC N3 노드의 최대 고객이자 N2 노드의 주요 고객 중 하나다. 세미애널리시스는 올해 AI가 N3 생산능력의 60%를 차지할 것이며, 내년에는 86%에 이를 것이라고 분석했다. 이미 대부분을 차지하고 있는데, 어떻게 매년 두 배씩 증가할 수 있단 말인가? 계속해서 두 배씩 증가할 수 있을까? 이제 AI 연산 능력의 증가 속도가 상류 제약으로 인해 둔화되는 단계에 접어들었는가? 해결책은 보이는가? 궁극적으로, 웨이퍼 공장 생산능력을 매년 두 배로 늘리는 방법은 무엇인가?
황: 어떤 순간에도, 순간적 수요가 전 세계 상류 및 하류의 총 공급을 초과할 수 있다. 심지어 배관공(plumber)의 수에 의해 제한될 수도 있었고, 실제로 그런 일이 있었다.
파텔: 배관공은 내년 GTC에 초대받아야 한다.
황: 좋은 아이디어다. 그러나 사실 이것은 오히려 좋은 현상이다. 산업의 순간적 수요가 총 공급을 초과하는 것이 바람직하며, 그 반대는 바람직하지 않다. 어떤 구성 요소의 부족이 너무 크면, 전체 산업이 이를 해결하기 위해 몰려든다. 이미 지금은 CoWoS에 대해 별로 논의하지 않는다. 지난 2년간 우리가 이 문제를 집요하게 해결했기 때문에 상황이 많이 나아졌다. TSMC는 이제 CoWoS 공급이 논리 칩 및 메모리 수요를 따라가야 한다는 것을 알고 있다. 그들은 논리 칩 확장과 동일한 속도로 CoWoS 및 차세대 패키징 기술을 확장하고 있다. 이는 매우 좋은 일인데, CoWoS와 HBM 메모리는 이전에는 소수의 전문 기술이었으나, 이제는 주류 컴퓨팅 기술이 되었기 때문이다.
우리는 이제 보다 광범위한 공급망에 영향을 미칠 수 있다. AI 혁명이 시작될 당시 내가 한 말은, 5년 전부터 이미 했던 이야기다. 그것을 믿고 투자한 사람들이 있었다. 예를 들어, 마이크론의 CEO 산자이 메흐로트라(Sanjay Mehrotra)와 그의 팀이 그렇다. 나는 그 회의를 정확히 기억한다. 내가 어떤 일이 일어날 것인지, 왜 그렇게 될 것인지, 그리고 오늘날의 상황을 정확히 설명했고, 그들은 실제로 투자를 두 배로 늘렸다. 우리는 LPDDR 및 HBM 메모리 분야에서 협력했고, 그들의 대규모 투자는 거대한 성공을 거두었다. 나중에 합류한 사람들도 지금은 모두 왔다.
각각의 병목 현상은 막대한 관심을 받는다. 우리는 지금부터 몇 년 앞을 내다보고 병목 현상을 예측한다. 예를 들어, 지난 몇 년간 루멘텀(Lumentum), 코히런트(Coherent), 실리콘 포토닉스(silicon photonics) 생태계에 대한 투자를 통해 공급망을 재구성했다. 우리는 TSMC 주변에 전체 공급망을 구축했고, 실리콘 포토닉스 통합 플랫폼 COUPE를 공동 개발하며, 수많은 기술을 발명하고, 특허를 공급망에 라이선스하여 개방성을 유지했다.
우리는 새로운 기술, 새로운 공정, 새로운 테스트 장비(예: 양면 탐지)를 발명하고, 기업에 투자해 생산 능력을 확장함으로써 공급망을 강화한다. 우리는 생태계를 형성하고, 이 규모를 지탱할 수 있는 공급망을 구축하기 위해 노력하고 있다.
파텔: 일부 병목 현상은 다른 것들보다 해결하기 쉬운데, 예를 들어 CoWoS의 증산이 그렇다.
황: 우리는 가장 어려운 병목 현상을 해결하는 책임이 있다.
파텔: 어느 것인가?
황: 배관공과 전기공이다. 이것이 내가 종말론자(apocalyptic thinkers)를 걱정하는 지점이다. 그들은 일자리가 사라지고, 직업이 멸종한다고 말한다. 만약 우리가 사람들을 소프트웨어 엔지니어가 되지 못하게 막는다면, 우리는 소프트웨어 엔지니어를 고갈시킬 것이다. 10년 전에도 똑같은 예언이 있었다. 일부 종말론자들은 어떠한 경우에도 방사선과 의사가 되지 말라고 했고, 지금도 인터넷에서 그런 영상을 볼 수 있다. 방사선과가 가장 먼저 사라질 직업이라며, 세상은 더 이상 방사선과 의사가 필요하지 않다고 했다. 그런데 지금 우리가 부족한 게 뭐냐? 바로 방사선과 의사다.
파텔: 어떤 것은 규모화할 수 있고, 어떤 것은 그렇지 않다. 당신은 매년 논리 칩을 두 배로 생산할 수 있는가? 결국 메모리와 논리 칩 모두 EUV 리소그래피 장비에 제한된다. 당신은 매년 EUV 리소그래피 장비를 두 배로 확보할 수 있는가?
황: 이러한 생산 능력은 빠르게 규모화할 수 있다. 2~3년 안에 가능하다. 단지 공급망에 수요 신호만 전달하면 된다. 하나를 만들 수 있다면, 열 개도 만들 수 있고, 열 개를 만들 수 있다면 백만 개도 만들 수 있다. 이것들을 복제하는 것은 그리 어렵지 않다.
파텔: 당신은 공급망에서 어디까지 들어갈 것인가? ASML에 직접 가서 “3년 후 엔비디아는 연매출 2조 달러를 달성할 것이며, 우리는 훨씬 더 많은 EUV 리소그래피 장비가 필요하다”고 말할 것인가?
황: 어떤 것은 직접 말하고, 어떤 것은 간접적으로 말한다. TSMC를 설득할 수 있다면, ASML도 설득할 수 있다. 우리는 핵심 병목 지점을 찾아야 한다. 하지만 TSMC가 설득된다면, 몇 년 안에 충분한 EUV 장비를 확보할 수 있다.
내 관점은, 어떤 병목 현상도 2~3년 이상 지속되지 않는다는 것이다. 동시에 우리는 계산 효율을 10배, 20배, 호퍼에서 블랙웰(Blackwell)로는 30~50배까지 높이고 있다. CUDA가 유연하기 때문에, 우리는 끊임없이 새로운 알고리즘과 기술을 발명하고, 용량을 늘리면서 효율을 높이고 있다. 이러한 일들은 전혀 걱정되지 않는다. 내가 걱정하는 것은 하류의 문제다. 에너지 정책이 에너지 확장을 막고 있는데, 에너지 없이는 새로운 산업을 건설할 수 없고, 새로운 제조업도 불가능하다.
우리는 미국을 다시 산업화해야 한다. 반도체 제조, 컴퓨터 제조, 패키징을 미국으로 되돌려야 한다. 전기자동차, 로봇, AI 팩토리를 만들어야 한다. 에너지 없이는 이 모든 것을 건설할 수 없으며, 에너지는 오랜 시간이 걸린다. 반도체 생산 능력은 2~3년 안에 해결 가능한 문제다. CoWoS 생산 능력도 2~3년 안에 해결 가능한 문제다.
TPU가 엔비디아의 AI 연산 능력 지배를 끝낼 수 있는가?
파텔: 세계 상위 3개 모델 중 클로드(Claude)와 제미나이(Gemini)는 모두 구글 TPU에서 훈련됐다. 이는 엔비디아에게 어떤 의미인가?
황: 우리가 하는 일은 매우 다르다. 엔비디아는 단순한 텐서 처리 유닛(TPU)이 아니라, 가속 컴퓨팅을 수행한다. 가속 컴퓨팅은 분자역학, 양자색역학, 데이터 처리, 구조화된 데이터, 비구조화된 데이터, 유체역학, 입자물리학 등 다양한 분야에 적용될 수 있다. 물론 AI도 포함된다.
가속 컴퓨팅은 이보다 훨씬 광범위하다. 비록 AI가 현재의 화두이며, 분명히 중요하고 영향력이 크지만, 컴퓨팅은 이보다 훨씬 넓은 개념이다. 엔비디아는 범용 컴퓨팅에서 가속 컴퓨팅으로 컴퓨팅 방식을 재정의했다. 우리의 시장 규모는 어떤 TPU나 ASIC보다 훨씬 크며, 우리는 다양한 애플리케이션을 가속화할 수 있는 유일한 기업이다. 우리는 거대한 생태계를 보유하고 있어, 다양한 프레임워크와 알고리즘이 엔비디아 하드웨어에서 실행될 수 있다.
우리의 컴퓨터는 타인이 조작할 수 있도록 설계되었기 때문에, 누구나 시스템을 구매할 수 있다. 그러나 대부분의 자체 개발 시스템은 유연성이 부족해 타인이 운영할 수 없고, 따라서 운영자가 직접 운영해야 한다. 누구나 우리 시스템을 구축하고 운영할 수 있기 때문에, 우리는 구글, 아마존, 애저(Azure), 오라클 등 모든 클라우드에 존재한다.
만약 타인에게 임대하려면, 다양한 산업의 방대한 고객군을 확보해 수요를 보장해야 한다. 만약 스스로 사용하려면, 당연히 우리가 직접 운영을 도울 수 있다. 예를 들어, xAI에서 일론 머스크를 위해 그렇게 했다. 우리는 어떤 기업, 어떤 산업의 운영자라도 운영 능력을 갖출 수 있도록 도울 수 있다. 예를 들어, 리 Lilly사에 과학 연구 및 신약 발견을 위한 슈퍼컴퓨터를 구축할 수 있고, 우리는 그것을 운영해 전체 신약 발견 및 생명과학 분야에 기여할 수 있다.
TPU가 할 수 없는 응용 분야가 많다. 엔비디아의 CUDA는 훌륭한 텐서 처리 유닛이지만, 데이터 처리의 모든 단계, 계산, AI 등도 처리할 수 있다. 우리의 시장 기회는 훨씬 크고, 범위는 훨씬 넓다. 우리는 현재 세계의 모든 애플리케이션을 지원하므로, 어디서든 엔비디아 시스템을 구축할 수 있고, 반드시 고객이 있을 것임을 알 수 있다. 이는 매우 다른 상황이다.
파텔: 당신의 수익은 놀라울 정도지만, 제약산업이나 양자컴퓨팅에서 나오는 것이 아니라, 주로 AI에서 나온다. AI라는 전례 없는 기술이 전례 없는 속도로 성장하고 있기 때문이다. 그렇다면 AI 자체에게 가장 유리한 것은 무엇인가? TPU는 기본적으로 거대한 펄스 어레이(pulsed array)로, 행렬 곱셈(matrix multiplication)에 특히 능숙하다. GPU는 더 유연하며, 분기(branching) 판단이 많거나 메모리 접근이 불규칙한 작업에 적합하다. 하지만 문제는 AI가 정확히 무엇을 하고 있는가 하는 것이다. 솔직히 말해, AI는 예측 가능한 행렬 곱셈을 반복해서 수행하는 것이다. 그렇다면 왜 칩에 스레드 블록 스케줄러(thread block scheduler)나 스레드와 메모리 뱅크 간 전환과 같은 범용 기능을 위한 면적을 남겨두는가? 그 면적은 전부 행렬 곱셈을 위해 사용할 수 있지 않은가? TPU는 바로 현재 폭발적으로 성장하는 계산 수요에 특화된 설계다. 어떻게 생각하는가?
황: 행렬 곱셈은 AI의 중요한 부분이지만 전부는 아니다. 새로운 어텐션(attention) 메커니즘을 고안하거나, 다른 방식으로 분해하거나, 혼합 상태 공간 모델(Mixing State Space Model, SSM)이라는 완전히 새로운 아키텍처를 발명하려면, 일반적으로 프로그래밍 가능한 아키텍처가 필요하다. 확산 모델(diffusion model)과 오토리그레시브(auto-regressive) 모델을 융합한 모델을 만들려면, 역시 일반적으로 프로그래밍 가능한 아키텍처가 필요하다. 우리는 당신이 생각할 수 있는 어떤 것도 실행할 수 있다. 이것이 바로 우리의 강점이다. 프로그래밍 가능하기 때문에, 새로운 알고리즘을 발명하는 것이 훨씬 쉽다.
새로운 알고리즘을 발명할 수 있는 능력이 바로 AI가 이렇게 빠르게 진보하는 이유다. TPU와 다른 기술들은 모어 법칙(Moore’s Law)의 영향을 받으며, 매년 약 25%의 진보를 이룬다. 매년 10배 또는 100배의 비약적 진보를 이루려면, 매년 알고리즘과 계산 방식을 근본적으로 바꾸어야 한다.
이것이 바로 엔비디아의 근본적 강점이다. 블랙웰은 호퍼보다 에너지 효율이 50배 높다. 처음에 나는 35배라고 말했을 때 아무도 믿지 않았다. 이후 누군가 내 말이 보수적이었고, 실제로는 50배라고 쓴 기사가 나왔다. 모어 법칙만으로는 불가능하다. 우리는 전문가 혼합 모델(Mixture of Experts, MoE) 같은 새로운 모델을 사용해, 이를 병렬화하고, 분해하며, 전체 계산 시스템에 분산시켰다. CUDA가 없고, 새로운 커널(kernel)을 깊이 있게 작성할 수 있는 능력이 없다면, 이는 매우 어렵다.
이는 프로그래밍 가능한 아키텍처와 엔비디아의 극단적인 공동 설계(co-design) 능력이 결합된 결과다. 우리는 NVLink 같은 네트워크 구조 자체나 Spectrum-X 같은 네트워크 내에서 일부 계산을 오프로드할 수도 있다. 우리는 프로세서, 시스템, 네트워크 구조, 라이브러리, 알고리즘을 동시에 변경할 수 있다. CUDA가 없다면, 나는 어디서부터 시작해야 할지조차 모를 것이다.
파텔: 이것은 엔비디아 고객에 대한 흥미로운 질문을 이끈다. 당신의 수익의 60%는 다섯 개의 초대규모 클라우드 기업에서 나온다. 과거에는 교수님들이 실험을 위해 고객이었고, 그들은 CUDA를 필요로 했으며, 다른 가속기로는 대체할 수 없었다. 그들은 단지 PyTorch에서 CUDA를 실행하면 모든 것이 최적화돼 있었다. 그러나 이러한 초대규모 클라우드 기업은 자체 커널을 직접 작성할 능력을 갖추고 있다. 사실, 특정 아키텍처에서 마지막 5%의 성능을 끌어내기 위해 그들은 반드시 그렇게 해야 한다. 앤트로픽과 구글은 주로 자체 가속기인 TPU와 트레이니엄(Trainium)을 사용한다. GPU를 사용하는 오픈AI조차도 Triton을 사용하는데, 그들은 자체 커널이 필요하기 때문이다. 그들은 cuBLAS와 NCCL을 사용하지 않고, 자체 소프트웨어 스택을 사용하며, 다른 가속기로도 컴파일할 수 있다. 만약 당신의 대부분의 고객이 CUDA를 대체할 수 있고, 실제로 그렇게 하고 있다면, CUDA는 선두 AI 모델이 엔비디아 하드웨어에서 실행되는 데 얼마나 핵심적인 요소인가?
황: CUDA는 풍부한 생태계다. 어떤 컴퓨터에서든 개발을 하려면, CUDA를 선택하는 것이 매우 현명하다. 생태계가 너무나 풍부하고, 우리는 모든 프레임워크를 지원한다. 맞춤형 커널을 작성하려면, 우리는 Triton에 막대한 기여를 했고, Triton의 백엔드에는 엔비디아 기술이 대량 포함되어 있다.
우리는 모든 프레임워크가 더 나아지도록 기꺼이 도울 준비가 되어 있다. Triton, vLLM, SGLang 같은 프레임워크가 있다. 이제 강화학습 프레임워크도 폭발적으로 증가하고 있다. verl, NeMo RL 등이 그 예이다. 사후 훈련(post-training)과 강화학습 분야가 폭발하고 있다. 따라서 특정 아키텍처에서 개발하려면, CUDA를 선택하는 것이 가장 의미 있다. 왜냐하면 그 생태계가 풍부하다는 것을 알기 때문이다.
당신은 문제가 발생했을 때, 문제가 당신의 코드에 있는지, 아니면 바닥에 쌓인 엄청난 저수준 시스템에 있는지 알 수 있다. 얼마나 방대한 코드 규모를 다뤄야 하는지 생각해보라. 시스템이 작동하지 않을 때, ‘내가 잘못했는가, 아니면 컴퓨터가 잘못했는가?’라고 자문해야 한다. 당신은 당연히 항상 자신이 잘못했기를 바란다. 그래야만 컴퓨터를 언제나 신뢰할 수 있기 때문이다. 분명히 우리도 여전히 버그가 많다. 하지만 핵심은, 우리의 시스템이 수없이 검증되어, 당신이 그것 위에 안심하고 구축할 수 있다는 점이다. 이것이 내가 말하고 싶은 첫 번째 점, 즉 생태계의 풍부성, 프로그래밍 가능성, 그리고 능력이다.
두 번째로, 개발자라면 가장 원하는 것은 설치 기반이다(installed base). 당신의 소프트웨어가 다른 많은 컴퓨터에서 실행되기를 원한다. 당신은 단지 자신을 위해 소프트웨어를 작성하는 것이 아니라, 자신이 속한 클러스터나 다른 사람의 클러스터를 위해 작성한다. 왜냐하면 당신은 프레임워크 개발자이기 때문이다. 엔비디아의 CUDA 생태계는 결국 그것이 가장 큰 자산이다.
우리는 현재 전 세계에 수억 개의 GPU를 보유하고 있으며, 모든 클라우드에 존재한다. A10, A100, H100, H200, L 시리즈, P 시리즈, 그리고 다양한 크기와 형태의 GPU가 있다. 만약 당신이 로봇 기업이라면, 그 CUDA 스택이 로봇 내부에서 바로 실행되기를 원할 것이다. 우리는 거의 모든 곳에 존재한다. 이 설치 기반은, 당신이 소프트웨어나 모델을 개발하면, 어디서든 사용할 수 있음을 의미한다. 이 가치는 측정할 수 없다.
마지막으로, 우리는 모든 클라우드에 존재한다. 이는 우리를 진정으로 독특하게 만든다. 만약 당신이 AI 기업이나 개발자라면, 어떤 클라우드 서비스 제공업체와 협력할지, 또는 부하를 어디에 실행할지 확신하지 못할 수 있다. 괜찮다. 우리는 당신의 자체 데이터센터를 포함해 어디에나 존재한다. 생태계의 풍부성, 설치 기반의 광범위성, 존재 위치의 다양성—이 모든 것이 함께 어우러져 CUDA의 가치를 극대화한다.
파텔: 타당하다. 하지만 나는 이 이점들이 당신의 가장 큰 고객에게 얼마나 중요한지 묻고 싶다. 많은 사람들에게 CUDA는 분명히 가치 있다. 그러나 당신의 수익 대부분은, 자체 소프트웨어 스택을 구축할 능력을 갖춘 대규모 고객에서 나온다. 특히 향후 AI가 강화학습을 통해 엄격하게 검증 가능한 분야에 진입할 경우, 문제는 누가 대규모 클러스터에서 가장 빠른 행렬 곱셈과 어텐션 커널을 작성할 수 있는가가 된다. 이는 매우 검증 가능한 최적화 문제다.
그러한 초대규모 클라우드 기업은 충분히 능력이 있어서, 이러한 맞춤형 커널을 직접 작성할 수 있다. 물론 엔비디아의 비용 대비 성능이 여전히 더 좋을 수 있으므로, 그들은 여전히 엔비디아를 선택할 수 있다. 하지만 그러면 문제는 결국, 누가 더 우수한 하드웨어 사양을 갖추었는가, 그리고 달러당 더 많은 연산 능력과 대역폭을 제공하는가로 귀결된다.
역사적으로 엔비디아는 CUDA 무적지대를 바탕으로 AI 하드웨어 및 소프트웨어에서 70% 이상의 이윤률을 유지해왔다. 그러나 지금의 문제는, 당신의 최대 고객이 이 무적지대를 우회할 능력을 갖추고 있다면, 당신은 여전히 이처럼 높은 이윤률을 유지할 수 있는가 하는 것이다.
황: 우리는 이러한 AI 연구소에 엄청난 수의 엔지니어를 배정해, 그들과 함께 일하며 소프트웨어 스택을 최적화한다. 그 이유는, 우리보다 우리 아키텍처를 더 잘 아는 사람이 없기 때문이다. 이러한 아키텍처는 CPU만큼 범용적이지 않다. CPU는 어느 정도 캐딜락 같고, 쉽게 운전할 수 있으며, 고속 주행 없이도 크루즈 컨트롤을 사용할 수 있어, 모든 것이 간단하다. 그러나 엔비디아의 GPU와 가속기는 F1 레이싱카와 같다. 나는 누구나 시속 160km로 운전할 수 있다고 상상할 수 있지만, 극한까지 밀어붙이기 위해서는 상당한 전문 지식이 필요하다. 우리는 엄청난 양의 AI를 사용해 커널을 작성한다.
나는 상당한 기간 동안 우리는 여전히 필요로 될 것이라고 확신한다. 우리의 전문 지식은 종종 AI 연구소 파트너가 성능을 쉽게 2배 더 높일 수 있도록 도와준다. 커널 하나나 전체 소프트웨어 스택을 최적화한 후, 모델 속도가 50%, 2배, 심지어 3배까지 향상되는 것은 흔한 일이다. 그들이 보유한 호퍼와 블랙웰 클러스터 규모를 고려할 때, 이는 엄청난 숫자다. 성능이 2배 향상되면, 수익도 바로 2배가 된다.
엔비디아의 계산 스택은 총 소유 비용(TCO) 측면에서 전 세계 최고이며, 누구도 우리보다 나은 성능 대비 TCO를 보여줄 수 없다. 딜런(Dylan)의 InferenceMAX 벤치마크가 바로 그곳에 있다. 누구나 사용할 수 있다. 그러나 TPU는 테스트하지 않고, 트레이니엄도 테스트하지 않는다. 나는 그들이 InferenceMAX를 사용해 자신들이 주장하는 초저비용 추론 성능을 보여주기를 적극 권장한다. 그러나 어렵다. 아무도 참여하려 하지 않기 때문이다.
MLPerf도 마찬가지다. 나는 트레이니엄이 자신들이 늘 주장하는 40%의 우위를 보여주기를 진심으로 원한다. 또한 TPU의 비용 우위를 보여주기를 원한다. 그러나 내 관점에서, 그들이 말하는 이러한 우위는 근본 원리(first principles)에서 출발해 보면 전혀 타당하지 않다. 따라서 나는 우리가 성공한 이유가 단순히 우리의 TCO가 너무 훌륭하기 때문이라고 생각한다.
둘째, 당신은 우리 수익의 60%가 상위 5개 클라우드 기업에서 나온다고 말했지만, 이 비즈니스 대부분은 외부를 향해 있다. 예를 들어, AWS에서 엔비디아 칩을 사용하는 대부분의 경우는 내부 사용이 아니라 외부 고객을 위한 것이다. Azure의 고객은 분명히 외부 고객이며, 오라클의 고객도 마찬가지다. 그들이 우리를 선호하는 이유는, 우리의 영향력이 크기 때문이다. 우리는 그들에게 전 세계 최고의 고객을 끌어오고, 그 고객들이 모두 엔비디아 위에서 구축되고 있기 때문이다. 그리고 그들이 엔비디아 위에서 구축하는 이유는, 우리의 영향력과 다용도성이 너무 강하기 때문이다.
따라서 나는 이 피드백 루프(feedback loop)가 설치 기반, 아키텍처의 프로그래밍 가능성, 생태계의 풍부성, 그리고 전 세계 수천 개의 AI 기업으로 구성된다는 것을 믿는다. 만약 당신이 AI 스타트업이라면, 어떤 아키텍처를 선택할 것인가? 당신은 가장 풍부한 것을 선택할 것이며, 우리는 가장 풍부하다. 당신은 설치 기반이 가장 큰 것을 선택할 것이며, 우리는 가장 크다. 당신은 생태계가 가장 완벽한 것을 선택할 것이다. 이것이 바로 피드백 루프다.
이 모든 점을 종합해 보면, 우리의 달러당 성능이 최고이며, 고객의 토큰 비용이 최저다. 우리의 와트당 성능은 세계 최고이며, 따라서 파트너가 1기가와트(GW) 규모의 데이터센터를 건설하려면, 그 데이터센터가 최대한 많은 수익과 토큰을 생산해야 한다. 이는 바로 수익과 동일하다. 당신은 수익을 극대화하기 위해 가능한 한 많은 토큰을 생산하기를 원하며, 우리는 세계에서 와트당 토큰 수가 가장 높은 아키텍처이다. 또한 인프라를 임대하려는 목표가 있다면, 우리는 세계에서 가장 많은 고객을 보유한다. 이것이 바로 피드백 루프가 작동하는 이유다.
파텔: 흥미롭다. 나는 궁극적인 문제는 실제 시장 구조가 무엇인지라고 생각한다. 다른 기업들이 존재하더라도, 수천 개의 AI 기업이 각각 거의 동일한 연산 능력 점유율을 갖는 세계가 있을 수 있다. 그러나 현실은, 이 다섯 개의 클라우드 기업을 통해, 아마존에서 실제로 연산 능력을 사용하는 것은 앤트로픽, 오픈AI, 그리고 대규모 기초 연구실들이다. 이러한 주요 플레이어들은 자체적으로 다양한 가속기들을 실행할 수 있는 능력과 자원을 갖추고 있다.
만약 당신이 말한 성능 대비 비용, 와트당 성능 등의 장점이 모두 사실이라면, 왜 앤트로픽 같은 기업이 며칠 전 보로드컴(Broadcom)과 구글과의 다중 기가와트 규모의 TPU 계약을 발표하고, 대부분의 연산 능력을 그 위에 배치했는가? 구글 입장에서도 TPU는 그들의 대부분의 연산 능력을 차지한다. 따라서 이러한 대규모 AI 기업들의 연산 능력이 과거에는 전부 엔비디아였지만, 지금은 그렇지 않다는 점을 보면, 나는 이 장점들이 이론적으로 성립하더라도, 왜 그들이 다른 가속기를 선택했는지 궁금하다.
황: 앤트로픽은 단지 특이 사례일 뿐, 큰 추세가 아니다. 한번 생각해보라. 앤트로픽이라는 기업이 없었다면, TPU는 어디서 성장했겠는가? 100% 앤트로픽 덕분이다. 마찬가지로, 앤트로픽이 없었다면, 트레이니엄은 어디서 성장했겠는가? 100% 앤트로픽 덕분이다. 이는 거의 공공연한 비밀이다. ASIC 기회가 많아진 것이 아니라, 단지 앤트로픽 하나뿐이라는 것이다.
파텔: 그러나 오픈AI는 AMD와 계약을 맺었고, 자체적으로 타이탄(Titan) 가속기를 개발 중이다.
황: 그렇다. 그러나 모두가 인정하듯, 그들의 대부분의 연산 능력은 여전히 엔비디아에서 실행된다. 우리는 여전히 함께 많은 일을 할 것이다. 나는 다른 것을 사용하거나 시도하는 것을 막지 않는다. 그들이 시도하지 않으면, 우리 것이 얼마나 좋은지 알 수 없기 때문이다. 때때로 그들은 상기시켜야 한다. 우리는 지금의 위치를 계속해서 지켜야 한다.
항상 누군가 과장된 주장을 한다. 얼마나 많은 ASIC 프로젝트가 취소됐는지 보라. 단지 ASIC를 만들겠다고 해서, 엔비디아보다 더 나은 것을 만들어야 한다는 부담은 쉽게 감당할 수 없다. 사실, 그것은 비합리적이다. 엔비디아에 반드시 어떤 결함이 있어야만 그런 것이 가능하다. 그러나 우리의 규모와 속도는 분명히 드러나 있다. 우리는 세계 유일의 매년 신제품을 출시하고, 매년 획기적인 비약을 이룩하는 기업이다.
파텔: 나는 그들의 논리는, 엔비디아보다 더 나을 필요는 없고, 70% 정도만 뒤처지면 된다는 것이라고 추정한다. 왜냐하면 당신에게 70%의 이윤률을 지불하기 때문이다.
황: 아니다. ASIC의 이윤률도 매우 높다는 것을 잊지 말라. 엔비디아의 이윤률이 70%이고, ASIC의 이윤률이 65%라고 가정해보자. 당신은 정확히 무엇을 절약한 것인가?
파텔: 보로드컴 같은 기업을 말하는가?
황: 그렇다. 당신은 다른 사람에게 돈을 지불해야 한다. 내가 아는 바로는, ASIC의 이윤률은 매우 높으며, 그들 스스로도 그렇게 믿고, 놀라운 ASIC 이윤률에 자랑스럽게 생각한다.
그러면 왜 그런가? 오래전에 우리는 그런 능력이 없었다. 당시 나는 오픈AI, 앤트로픽과 같은 기초 AI 연구소를 운영하는 것이 얼마나 어려운지, 그리고 그들이 공급업체 자체로부터 막대한 투자를 필요로 한다는 것을 깊이 인식하지 못했다. 우리는 당시 앤트로픽에 수십억 달러를 투자해 그들이 우리 연산 능력을 사용하도록 하는 능력이 없었다. 그러나 구글과 AWS는 그 능력을 갖고 있었다. 그들은 초기부터 막대한 투자를 했고, 그에 대한 보답으로 앤트로픽은 그들의 연산 능력을 사용했다. 우리는 당시 그 능력이 없었다.
내 실수는, 그들이 실제로 다른 선택의 여지가 없다는 것을 깊이 인식하지 못한 것이다. 벤처 캐피털이 50~100억 달러를 AI 연구소에 투자해 앤트로픽이 되기를 기대하는 것은 불가능하다는 것을 나는 실수로 인식하지 못했다. 그러나 당시에 그걸 인식했다고 해도, 나는 우리가 그 정도의 투자를 할 능력이 있다고 생각하지는 않았다. 그러나 나는 같은 실수를 다시는 반복하지 않을 것이다.
나는 오픈AI에 투자하는 것을 기꺼이 하며, 그들의 확장을 돕는 것도 기꺼이 한다. 나는 이것이 필수적이라고 믿는다. 이후 내가 그 능력을 갖추었을 때, 앤트로픽이 우리를 찾아왔고, 나는 투자자로서, 그리고 그들의 확장을 돕는 것으로서 기꺼이 참여했다. 우리는 당시 그럴 수 없었다. 만약 내가 모든 것을 다시 시작할 수 있다면, 당시의 엔비디아가 지금처럼 크다면, 나는 매우 기꺼이 그렇게 할 것이다.
엔비디아는 왜 초대규모 클라우드 기업이 되지 않는가?
파텔: 수년간 엔비디아는 AI 분야에서 돈을 벌고, 많은 돈을 벌어온 기업이었다. 지금 당신은 투자하고 있다. 보도에 따르면, 당신은 오픈AI에 300억 달러, 앤트로픽에 100억 달러를 투자했다. 지금 그들의 기업 가치는 상승했고, 나는 계속 상승할 것이라고 믿는다. 따라서 이들 기업이 수년간 당신의 연산 능력을 사용해왔고, 그 방향을 보아왔다면, 그들이 1~2년 전에는 지금의 10분의 1, 혹은 1년 전에는 지금의 절반 가치밖에 없었던 시점에, 당신은 많은 현금을 보유하고 있었기 때문에, 엔비디아가 직접 기초 연구소가 되어 막대한 자금을 투입하거나, 지금의 기업 가치에서 더 일찍 거래를 체결했어야 했다. 당신은 현금을 보유하고 있다. 그렇다면 왜 더 일찍 하지 않았는가?
황: 우리는 가능한 한 빨리, 그리고 능력이 생기는 대로 최대한 빨리 했다. 만약 내가 할 수 있었다면, 더 일찍 했을 것이다. 앤트로픽이 우리를 필요로 했을 때, 우리는 그 능력이 없었고, 그때는 그 고민조차 하지 않았다.
파텔: 무슨 뜻인가? 자금 문제인가?
황: 그렇다. 즉, 투자 규모 문제다. 우리는 당시 회사 외부에 투자한 적이 없었고, 더 말할 것도 없이 그 정도의 거액을 투자한 적은 없었다. 우리는 그런 투자가 필요하다는 것을 인식하지 못했다. 나는 항상 그들이 다른 모든 기업처럼 벤처 캐피털에서 자금을 조달할 수 있다고 생각했다. 그러나 그들이 하려는 일은 벤처 캐피털이 해낼 수 없는 일이었다. 오픈AI가 하려는 일도 벤처 캐피털이 해낼 수 없는 일이었다. 나는 지금은 인식하지만, 당시에는 몰랐다.
그러나 바로 그 점이 그들의 천재성이다. 그들은 이미 그때부터 반드시 그렇게 해야 한다는 것을 깨달았다. 나는 그들이 그렇게 했다는 점을 매우 기쁘게 생각한다. 앤트로픽이 다른 곳을 찾아갔다고 해도, 나는 그것이 일어났다는 점을 기쁘게 생각한다. 앤트로픽의 존재는 세상에 좋은 일이며, 나는 그 사실을 기쁘게 생각한다.
파텔: 당신은 여전히 많은 돈을 벌고 있으며, 매 분기마다 더 많은 돈을 벌고 있다. 당신은 이렇게 끊임없이 벌어오는 돈을 무엇에 써야 할까? 한 가지 답은, 자본 지출을 이러한 연구소의 운영 지출로 전환해, 그들이 연산 능력을 임대할 수 있도록 하는 중간 상인 생태계가 이미 나타났다는 것이다. 칩은 비싸지만, 그 수명 동안 많은 돈을 벌 수 있고, AI 모델이 점점 더 좋아지기 때문이다. 그것들이 생성하는 토큰의 가치는 증가하지만, 배포 비용은 높다. 엔비디아는 자본 지출을 할 수 있는 자금을 보유하고 있다. 실제로 보도에 따르면, 당신은 코어위브(CoreWeave)를 63억 달러 규모로 지원하고 있으며, 이미 20억 달러를 투자했다. 엔비디아는 왜 스스로 클라우드 서비스 제공업체가 되지 않는가? 왜 스스로 초대규모 클라우드 기업이 되어, 스스로 연산 능력을 임대하지 않는가?
황: 이것은 우리 회사의 철학이며, 나는 이것이 현명하다고 생각한다. 우리는 반드시 해야 할 일만 하되, 가능한 한 적게 해야 한다.
TechFlow 공식 커뮤니티에 오신 것을 환영합니다
Telegram 구독 그룹:https://t.me/TechFlowDaily
트위터 공식 계정:https://x.com/TechFlowPost
트위터 영어 계정:https://x.com/BlockFlow_News














