NVIDIA를 놓쳤다면, 이제 Crypto AI는 놓치지 마라
작가: Teng Yan
번역: TechFlow

좋은 아침입니다! 마침내 도착했습니다.
우리의 전체 논문은 상당히 방대한 내용을 담고 있어, 독자들이 더 쉽게 이해할 수 있도록(또한 이메일 서비스 제공업체의 용량 제한을 초과하지 않기 위해), 저는 이를 몇 개의 파트로 나누어 향후 한 달간 차례로 공유하기로 결정했습니다. 자, 이제 시작해볼까요!
제가 결코 잊지 못하는 커다란 실패가 하나 있습니다.
이 일은 지금까지도 여전히 마음에 걸립니다. 시장을 주시하는 누구라도 명백하게 보았을 기회였지만, 저는 단 한 푼도 투자하지 않고 놓쳐버렸기 때문입니다.
아니요, 다음 세대의 솔라나 킬러도 아니고, 우스꽝스러운 모자를 쓴 강아지의 밈코인이 아닙니다.
그것은… NVIDIA입니다.

NVDA 연초 대비 주가 흐름. 출처: Google
단 1년 만에, NVIDIA의 시가총액은 1조 달러에서 3조 달러로 급등했으며, 주가는 3배 가까이 오르며 동기간 비트코인 성과를 넘어섰습니다.
물론 일부는 AI 열풍 덕분입니다. 하지만 더 중요한 것은 이러한 성장이 탄탄한 현실적 근거 위에 서 있다는 점입니다. NVIDIA는 2024 회계연도에 600억 달러의 매출을 기록하며 전년 대비 126% 증가했습니다. 이 놀라운 성장 뒤에는 글로벌 대형 테크 기업들이 범용 인공지능(AGI) 경쟁에서 앞서가기 위해 GPU를 사재기에 나선 결과가 있습니다.
왜 제가 놓쳤을까요?
지난 2년간, 저는 암호화폐 분야에만 집중했고 AI 분야의 변화를 전혀 눈여겨보지 않았습니다. 이는 엄청난 실수였으며, 지금도 후회하고 있습니다.
하지만 이번만큼은 같은 실수를 반복하지 않을 것입니다.
오늘날의 Crypto AI는 저에게 매우 익숙한 느낌을 줍니다.
우리는 혁신이 폭발적으로 나타날 시점 바로 앞에 서 있습니다. 이는 19세기 중반 캘리포니아 골드러시와 놀라울 정도로 유사합니다—산업과 도시가 하룻밤 사이에 부상하고, 인프라가 급속도로 발전하며, 도전을 두려워하지 않는 사람들이 막대한 부를 얻었습니다.
초기의 NVIDIA처럼, 장래에 되돌아보면 Crypto AI 또한 너무나 명백하게 보일 것입니다.
Crypto AI: 무한한 잠재력을 지닌 투자 기회
저는 논문의 첫 번째 파트에서 왜 Crypto AI가 현재 투자자들과 개발자들에게 가장 흥미로운 잠재적 기회인지 설명했습니다. 핵심 포인트는 다음과 같습니다:
-
많은 사람들은 여전히 이를 "공중에 떠 있는 성"이라고 생각합니다.
-
Crypto AI는 아직 초기 단계이며, 허 hype 정점까지는 1~2년 정도 남았을 수 있습니다.
-
이 분야는 적어도 2300억 달러 규모의 성장 가능성을 지니고 있습니다.
Crypto AI의 핵심은 인공지능과 암호화 기반 인프라를 결합하는 것입니다. 이로 인해 Crypto AI는 더 넓은 암호화폐 시장보다는 AI의 지수적 성장 궤도를 따를 가능성이 높습니다. 따라서 앞서가기 위해서는 Arxiv의 최신 AI 연구를 주시하고, 자신들이 다음 큰 사건을 만들고 있다고 믿는 창업자들과 교류해야 합니다.
Crypto AI의 네 가지 핵심 분야
본 논문의 두 번째 파트에서는 Crypto AI 내에서 가장 유망한 네 가지 하위 분야를 집중적으로 분석하겠습니다:
-
탈중앙화 컴퓨팅: 모델 학습, 추론 및 GPU 거래 시장
-
데이터 네트워크
-
검증 가능한 AI
-
체인 상에서 작동하는 AI 에이전트
이 글은 수주간의 심층적인 연구와 Crypto AI 분야의 창업자 및 팀들과의 대화를 바탕으로 작성되었습니다. 각 분야에 대한 디테일한 분석이라기보다는, 여러분의 호기심을 자극하고 연구 방향을 최적화하며 투자 결정을 안내하기 위한 고차원적인 로드맵을 제공합니다.
Crypto AI 생태계 로드맵

저는 탈중앙화 AI 생태계를 계층 구조로 상상합니다. 한쪽 끝에는 탈중앙화 컴퓨팅과 오픈 데이터 네트워크가 있으며, 이는 탈중앙화된 AI 모델의 학습을 위한 기반을 제공합니다.
모든 추론(inference)의 입력과 출력은 암호학적 방법, 암호경제적 인센티브, 그리고 평가 네트워크를 통해 검증됩니다. 이렇게 검증된 결과는 체인 상에서 자율적으로 작동하는 AI 에이전트와 사용자가 신뢰할 수 있는 소비자 및 기업용 AI 애플리케이션으로 흘러갑니다.
조정 네트워크는 전체 생태계를 연결하여 원활한 의사소통과 협업을 가능하게 합니다.
이 비전 속에서, AI 개발을 하는 모든 팀은 자신의 필요에 따라 생태계의 하나 이상의 계층에 접속할 수 있습니다. 탈중앙화 컴퓨팅을 활용한 모델 학습이든, 평가 네트워크를 통한 고품질 출력 보장이든, 이 생태계는 다양한 선택지를 제공합니다.
블록체인의 구성 가능성(composability) 덕분에, 우리는 모듈화된 미래로 나아가고 있다고 확신합니다. 각 계층은 고도로 특화될 것이며, 프로토콜은 일체형 솔루션이 아닌 특정 기능에 맞춰 최적화될 것입니다.

최근 몇 년간, 탈중앙화 AI 기술 스택의 각 계층마다 다수의 스타트업이 등장하며 '캄브리아기 폭발'과 같은 성장세를 보이고 있습니다. 대부분의 기업은 설립된 지 겨우 1~3년밖에 되지 않았습니다. 이는 우리가 여전히 이 산업의 초창기 단계에 있음을 의미합니다.
제가 본 Crypto AI 스타트업 생태계 지도 중 가장 포괄적이며 최신 정보를 담은 것은 topology.vc의 Casey와 그녀의 팀이 관리하고 있습니다. 이는 이 분야의 발전을 추적하려는 모든 이에게 필수적인 리소스입니다.
저는 Crypto AI의 각 하위 분야를 깊이 있게 살펴볼 때 항상 이런 질문을 합니다. 여기에 숨겨진 기회는 얼마나 클까요? 저는 소규모 시장이 아니라 수천억 달러 규모로 확장 가능한 거대한 기회를 찾고 있습니다.
-
시장 규모
시장 규모를 평가할 때 저는 스스로에게 묻습니다. 이 하위 분야는 새로운 시장을 창출하는 것인가, 아니면 기존 시장을 뒤엎는 것인가?
예를 들어, 탈중앙화 컴퓨팅은 전형적인 파괴적(disruptive) 영역입니다. 기존의 클라우드 컴퓨팅 시장을 기준으로 잠재력을 추정할 수 있습니다. 현재 클라우드 컴퓨팅 시장은 약 6800억 달러 규모이며, 2032년까지 2.5조 달러에 이를 것으로 예상됩니다.
반면, AI 에이전트와 같은 완전히 새로운 시장은 정량화하기가 훨씬 어렵습니다. 역사적 데이터가 부족하기 때문에 문제 해결 능력에 대한 직관과 합리적인 추측에 의존해야 합니다. 그러나 주의해야 할 점은, 때때로 새로운 시장처럼 보이는 제품이 실제로는 "문제를 찾아 해결책을 강매하는" 경우도 있다는 것입니다.
-
타이밍
타이밍은 성패를 좌우합니다. 기술은 일반적으로 시간이 지남에 따라 개선되고 비용이 낮아지지만, 각 분야의 진보 속도는 크게 다릅니다.
특정 하위 분야의 기술은 어느 정도 성숙되었는가? 이미 대규모 적용이 가능한 수준에 도달했는가, 아니면 여전히 연구 단계에 머물러 있고 실제 적용까지 몇 년이 더 필요한가? 타이밍은 어떤 분야에 즉각 주목할 가치가 있는지, 아니면 당분간 관망해야 하는지를 결정합니다.
완전동형암호(Fully Homomorphic Encryption, FHE)를 예로 들면, 그 잠재력은 의심의 여지가 없지만, 현재 기술의 성능은 여전히 너무 느려 대규모 적용이 어렵습니다. 메인스트림 시장에 진입하기까지는 몇 년 더 걸릴 수 있습니다. 따라서 저는 기술이 거의 대규모 적용 수준에 도달한 분야를 우선시하며, 제 시간과 노력을 momentum을 얻고 있는 기회에 집중합니다.

이러한 하위 분야들을 "시장 규모 vs. 타이밍" 그래프에 표시하면 아마도 다음과 같은 배치가 될 것입니다. 참고로 이것은 엄격한 가이드라인이 아닌 개념적 스케치임을 유념하세요. 각 분야 내부에도 복잡성이 존재합니다. 예를 들어 검증 가능한 추론(verifiable inference) 내에서도 zkML과 opML과 같은 서로 다른 방법들이 기술적 성숙도 면에서 서로 다른 단계에 있습니다.
비록 그러하더라도, 저는 AI의 미래 규모가 어마어마할 것이라 확신합니다. 오늘날 "소수 취향"처럼 보이는 분야라도 미래에는 중요한 시장으로 성장할 수 있습니다.
동시에, 기술 발전은 항상 선형적으로 이루어지는 것은 아니라는 점을 인식해야 합니다—대개는 점프 형태로 진행됩니다. 새로운 기술적 돌파구가 나타날 때마다, 저는 시장의 타이밍과 규모에 대한 제 관점을 조정할 것입니다.
위의 프레임워크를 기반으로, 이제부터 Crypto AI의 각 하위 분야를 하나씩 분석하여 그 성장 가능성과 투자 기회를 탐색해보겠습니다.
분야 1: 탈중앙화 컴퓨팅
요약
-
탈중앙화 컴퓨팅은 전체 탈중앙화 AI의 핵심 기둥입니다.
-
GPU 시장, 탈중앙화 학습, 탈중앙화 추론은 서로 긴밀하게 연결되어 공동 발전합니다.
-
공급 측은 주로 중소형 데이터센터와 일반 소비자의 GPU 장비에서 발생합니다.
-
수요 측은 현재 규모가 작지만 점차 증가하고 있으며, 주로 가격에 민감하고 지연 시간에 대해 관대한 사용자와 소규모 AI 스타트업이 포함됩니다.
-
현재 Web3 GPU 시장이 직면한 가장 큰 도전은 이러한 네트워크를 실제로 효율적으로 작동시키는 것입니다.
-
탈중앙화 네트워크 내에서 GPU 사용을 조정하려면 정교한 엔지니어링 기술과 견고한 네트워크 아키텍처 설계가 필요합니다.
1.1 GPU 시장 / 컴퓨팅 네트워크

현재 일부 Crypto AI 팀들은 GPU 수요가 공급을 훨씬 초과하는 상황을 해결하기 위해 전 세계적으로 활용되지 않은 컴퓨팅 자원 풀을 활용하는 탈중앙화 GPU 네트워크를 구축하고 있습니다.
이러한 GPU 시장의 핵심 가치는 다음 세 가지로 요약할 수 있습니다:
-
AWS 대비 최대 90%까지 컴퓨팅 비용을 절감할 수 있습니다. 이 낮은 비용은 중간자(middleman)를 제거하고 공급 측을 개방함으로써 실현됩니다. 이러한 시장은 전 세계에서 가장 낮은 한계비용의 컴퓨팅 자원에 접근할 수 있게 해줍니다.
-
장기 계약, 본인 확인(KYC), 승인 대기 없음.
-
검열 저항성
시장의 공급 문제를 해결하기 위해, 이러한 시장은 다음과 같은 출처로부터 컴퓨팅 자원을 확보합니다:
-
기업용 GPU: A100, H100과 같은 고성능 GPU로, 일반적으로 중소형 데이터센터(독자 운영 시 충분한 고객을 확보하기 어려운) 또는 수익원 다각화를 원하는 비트코인 채굴자들로부터 옵니다. 또한 일부 팀은 정부 자금 지원을 받은 대규모 인프라 프로젝트를 활용하고 있는데, 이는 기술 발전의 일환으로 건설된 많은 데이터센터를 포함합니다. 이러한 공급자들은 장비 감가상각 비용을 상쇄하기 위해 GPU를 지속적으로 네트워크에 연결하도록 인센티브를 받습니다.
-
소비자용 GPU: 수백만 명의 게이머와 가정 사용자들이 컴퓨터를 네트워크에 연결하고 토큰 보상을 통해 수익을 얻습니다.
현재 탈중앙화 컴퓨팅의 수요 측은 다음과 같은 사용자 그룹을 중심으로 합니다:
-
가격에 민감하고 지연 시간에 관대한 사용자: 예산이 제한된 연구자, 독립형 AI 개발자 등. 그들은 실시간 처리 능력보다 비용을 우선시합니다. 예산 제약으로 인해 AWS나 Azure와 같은 전통적인 클라우드 서비스 제공업체의 높은 비용을 감당하기 어렵기 때문에, 이 그룹에 대한 정확한 마케팅이 중요합니다.
-
소규모 AI 스타트업: 유연하고 확장 가능한 컴퓨팅 자원이 필요하지만, 대형 클라우드 제공업체와 장기 계약을 맺고 싶지 않은 기업들. 이 그룹을 유치하려면 비즈니스 협력을 강화해야 하며, 그들은 전통적인 클라우드 컴퓨팅 외의 대안을 적극적으로 찾고 있기 때문입니다.
-
Crypto AI 스타트업: 탈중앙화 AI 제품을 개발 중이나 자체 컴퓨팅 자원이 없어 이러한 탈중앙화 네트워크에 의존해야 하는 기업들.
-
클라우드 게임: AI와 직접적인 연관성은 낮지만, GPU 자원에 대한 수요가 급속도로 증가하고 있습니다.
기억해야 할 핵심은 다음과 같습니다: 개발자는 언제나 비용과 신뢰성을 우선시합니다.
진정한 도전: 수요, 공급이 아님
많은 스타트업들이 GPU 공급 네트워크의 규모를 성공의 척도로 삼지만, 사실상 이는 단순한 '허영 지표(vanity metric)'에 불과합니다.
진정한 병목은 공급이 아닌 수요 측에 있습니다. 성공을 측정하는 핵심 지표는 네트워크에 연결된 GPU의 수가 아니라, GPU의 이용률과 실제로 임대된 GPU의 수입니다.
토큰 인센티브 메커니즘은 공급 측을 시작하는 데 매우 효과적이며, 자원을 빠르게 네트워크에 유입시킬 수 있습니다. 그러나 수요 부족 문제를 직접 해결해주지는 않습니다. 진정한 시험은 제품을 충분히 잘 다듬어 잠재적 수요를 자극할 수 있는가 하는 점에 있습니다.
Dragonfly의 Haseeb Qureshi가 말했듯이, 이것이 바로 핵심입니다.

컴퓨팅 네트워크를 실제로 작동시키기
현재 Web3 분산형 GPU 시장이 직면한 가장 큰 도전은 이러한 네트워크를 실제로 효율적으로 작동시키는 것입니다.
이건 쉬운 일이 아닙니다.
분산형 네트워크에서 GPU를 조정하는 작업은 자원 할당, 동적 워크로드 확장, 노드 및 GPU의 로드 밸런싱, 지연 관리, 데이터 전송, 오류 복구 능력, 그리고 전 세계적으로 다양하게 분포된 하드웨어 장비를 처리하는 방법 등 여러 기술적 난제를 포함하며, 이 모든 것이 중첩되어 거대한 엔지니어링 도전을 형성합니다.
이러한 문제를 해결하려면 매우 탄탄한 엔지니어링 역량과 견고하고 잘 설계된 네트워크 아키텍처가 필요합니다.
이를 더 잘 이해하기 위해 Google의 Kubernetes 시스템을 참고할 수 있습니다. Kubernetes는 컨테이너 오케스트레이션 분야의 골드 스탠다드로 간주되며, 분산 환경에서의 로드 밸런싱 및 확장과 같은 작업을 자동화합니다. 이는 분산형 GPU 네트워크가 직면한 도전과 매우 유사합니다. 참고로, Kubernetes는 Google의 10년 이상의 분산 컴퓨팅 경험을 바탕으로 개발되었으며, 그럼에도 불구하고 완성되기까지 수년간의 반복적인 개선이 필요했습니다.
현재 일부 상용화된 GPU 컴퓨팅 시장은 소규모 워크로드는 처리할 수 있지만, 대규모로 확장하려 할 때 문제가 드러납니다. 이는 아키텍처 설계에 근본적인 결함이 있을 수 있기 때문입니다.
신뢰성 문제: 도전과 기회
탈중앙화 컴퓨팅 네트워크가 해결해야 할 또 다른 중요한 문제는 노드의 신뢰성을 어떻게 보장할 것인가입니다. 즉, 각 노드가 주장하는 컴퓨팅 능력을 실제로 제공하고 있는지 검증하는 방법입니다. 현재 이 검증 과정은 대부분 네트워크의 평판 시스템에 의존하며, 때때로 컴퓨팅 제공자는 평판 점수에 따라 순위가 매겨집니다. 블록체인 기술은 신뢰 없이 검증(trustless verification) 메커니즘을 구현할 수 있기 때문에 이 분야에 천연적인 장점을 가지고 있습니다. Gensyn과 Spheron과 같은 일부 스타트업은 이러한 문제를 신뢰 없는 방법으로 해결하기 위해 노력하고 있습니다.
현재 많은 Web3 팀들이 이러한 도전에 직면해 있으며, 이는 여전히 이 분야에 광범위한 기회가 열려 있다는 의미입니다.
탈중앙화 컴퓨팅 시장의 규모
그렇다면 탈중앙화 컴퓨팅 네트워크의 시장은 과연 얼마나 클까요?
현재로서는 전 세계 클라우드 컴퓨팅 시장(약 6800억~2.5조 달러 규모)의 극히 작은 부분에 불과할 수 있습니다. 그러나 탈중앙화 컴퓨팅의 비용이 전통적인 클라우드 제공업체보다 낮다면, 사용자 경험에 추가적인 마찰이 있더라도 반드시 수요가 존재할 것입니다.
저는 단기에서 중기적으로 탈중앙화 컴퓨팅의 비용이 계속해서 낮게 유지될 것이라 생각합니다. 이는 두 가지 요인 때문인데, 하나는 토큰 보조금이며, 다른 하나는 가격에 민감하지 않은 사용자들로부터 공급이 해제되는 것입니다. 예를 들어, 게임용 노트북을 빌려 추가 수입을 얻을 수 있다면 월 20달러든 50달러든 만족할 것입니다.

탈중앙화 컴퓨팅 네트워크의 진정한 성장 잠재력과 시장 규모의 현격한 확장은 다음과 같은 핵심 요인에 달려 있습니다:
-
탈중앙화 AI 모델 학습의 실현 가능성: 탈중앙화 네트워크가 AI 모델 학습을 지원할 수 있게 된다면, 거대한 수요가 창출될 것입니다.
-
추론 수요의 폭발: AI 추론 수요가 급증함에 따라 기존 데이터센터는 이를 감당하기 어려울 수 있습니다. 사실 이러한 추세는 이미 시작되었습니다. NVIDIA의 Jensen Huang은 추론 수요가 "십억 배" 증가할 것이라고 말했습니다.
-
서비스 수준 계약(SLAs) 도입: 현재 탈중앙화 컴퓨팅은 '최선을 다해(best effort)' 서비스를 제공하며, 사용자는 서비스 품질(예: 가동 시간)에 대한 불확실성을 겪을 수 있습니다. SLA가 도입되면 이러한 네트워크는 표준화된 신뢰성과 성능 지표를 제공함으로써 기업 채택의 핵심 장벽을 제거하고, 전통적인 클라우드 컴퓨팅의 실질적인 대안이 될 수 있습니다.
탈중앙화되고 허가 없이 접근 가능한 컴퓨팅은 탈중앙화 AI 생태계의 기초 계층이자 가장 중요한 인프라 중 하나입니다.
GPU 등의 하드웨어 공급망이 계속 확장되고 있음에도 불구하고, 우리는 여전히 '인간 지능 시대'의 새벽에 있다고 믿습니다. 앞으로 계산 능력에 대한 수요는 무한할 것입니다.
GPU 시장의 재평가를 유발할 수 있는 핵심 전환점에 주목하세요—그 전환점은 곧 다가올 수 있습니다.
기타 참고사항:
-
순수 GPU 시장은 경쟁이 치열합니다. 탈중앙화 플랫폼 간의 경쟁뿐 아니라 Vast.ai와 Lambda와 같은 Web2 AI 신생 클라우드 플랫폼의 급부상도 있습니다.
-
4장의 H100 GPU와 같은 소규모 노드는 용도가 제한적이기 때문에 수요가 크지 않습니다. 하지만 대규모 클러스터를 판매하려는 공급자를 찾는 것은 거의 불가능합니다. 왜냐하면 그들의 수요는 여전히 매우 높기 때문입니다.
-
탈중앙화 프로토콜의 컴퓨팅 자원 공급이 결국 한 명의 주도자가 통합할 것인지, 아니면 여러 시장에 분산된 상태로 유지될 것인지? 저는 전자를 더 선호하며, 통합이 인프라 효율성을 높이기 때문에 결국 멱법칙(power law) 분포를 따를 것이라 생각합니다. 물론 이 과정에는 시간이 걸리며, 그 기간 동안 시장의 분산과 혼란은 계속될 것입니다.
-
개발자들은 배포 및 설정 문제에 시간을 쏟기보다는 애플리케이션 구축에 집중하고 싶어합니다. 따라서 컴퓨팅 시장은 이러한 복잡성을 단순화하고, 사용자가 컴퓨팅 자원을 확보하는 데 드는 마찰을 최소화해야 합니다.
1.2 탈중앙화 학습
요약
-
확장 법칙(Scaling Laws)이 성립한다면, 차세대 선두 AI 모델을 단일 데이터센터에서 학습하는 것은 물리적으로 불가능해질 것입니다.
-
AI 모델 학습은 GPU 간 대량의 데이터 전송을 필요로 하며, 분산형 GPU 네트워크의 낮은 상호 연결 속도가 주요 기술적 장애물입니다.
-
연구자들은 다양한 해결책을 탐색하고 있으며 돌파구를 만들어냈습니다(Open DiLoCo 및 DisTrO). 이러한 기술적 혁신은 중첩 효과를 통해 탈중앙화 학습의 발전을 가속화할 것입니다.
-
탈중앙화 학습의 미래는 AGI를 향한 선두 모델보다는 특정 분야를 위한 소형 전용 모델에 더 집중될 수 있습니다.
-
OpenAI의 o1과 같은 모델이 보편화됨에 따라 추론 수요가 폭발적으로 증가할 것이며, 이는 탈중앙화 추론 네트워크에 거대한 기회를 제공합니다.
상상해보세요. 세상을 바꾸는 거대한 AI 모델이 비밀스러운 정상급 연구소가 아니라 수백만의 일반인들에 의해 공동으로 개발되는 미래 말입니다. 게이머들의 GPU는 더 이상 '콜 오브 듀티'의 화려한 그래픽을 렌더링하는 데만 쓰이지 않고, 더 큰 목적을 위해 사용됩니다—즉, 아무런 중앙집권적 관리자가 없는 오픈소스의 공동 소유 AI 모델 말입니다.
이러한 미래에서 기초 규모의 AI 모델은 정상급 연구소의 전유물이 아니라 모두가 참여하는 성과가 됩니다.
하지만 현실로 돌아오면, 현재 대부분의 대규모 AI 학습은 여전히 중앙집권적 데이터센터에 집중되어 있으며, 이 추세는 당분간 변하지 않을 가능성이 큽니다.
OpenAI와 같은 기업들은 거대한 GPU 클러스터를 계속해서 확장하고 있습니다. Elon Musk는 최근 밝혔습니다. xAI는 곧 20만 장의 H100에 해당하는 GPU를 갖춘 데이터센터를 완공할 예정입니다.
하지만 문제는 GPU의 수량만이 아닙니다. Google이 2022년 PaLM 논문에서 제시한 핵심 지표인 모델 FLOPS 활용률(Model FLOPS Utilization, MFU)은 GPU의 최대 계산 능력이 실제로 얼마나 활용되는지를 측정합니다. 놀랍게도, 이 활용률은 일반적으로 35~40%에 불과합니다.
왜 이렇게 낮을까요? GPU 성능은 무어의 법칙에 따라 급속도로 향상되고 있지만, 네트워크, 메모리, 저장 장치의 개선은 훨씬 뒤처져 있어 명백한 병목 현상을 일으킵니다. 결과적으로 GPU는 종종 데이터 전송이 끝날 때까지 기다리며 유휴 상태에 빠집니다.
현재 AI 학습이 고도로 중앙집권화된 근본적인 이유는 하나뿐입니다—효율성.
대규모 모델 학습은 다음의 핵심 기술에 의존합니다:
-
데이터 병렬 처리: 데이터셋을 여러 GPU에 분할하여 병렬 처리함으로써 학습 속도를 높입니다.
-
모델 병렬 처리: 모델의 서로 다른 부분을 여러 GPU에 분산하여 메모리 제한을 극복합니다.
이러한 기술은 GPU 간에 빈번한 데이터 교환이 필요하므로, 상호 연결 속도(네트워크 내 데이터 전송 속도)가 결정적입니다.
앞선 AI 모델의 학습 비용이 10억 달러에 이를 수 있을 때, 효율성의 미세한 향상조차도 매우 중요합니다.
중앙집권적 데이터센터는 고속 상호 연결 기술 덕분에 GPU 간 빠른 데이터 전송이 가능하며, 이를 통해 학습 시간을 줄이고 비용을 절감합니다. 이는 현재 탈중앙화 네트워크가 따라잡기 어려운 부분입니다… 적어도 지금은 그렇습니다.
느린 상호 연결 속도 극복하기
AI 분야 종사자들과 이야기를 나눠보면, 많은 사람들이 탈중앙화 학습은 불가능하다고 말할 것입니다.
탈중앙화 아키텍처에서는 GPU 클러스터가 동일한 물리적 위치에 있지 않아 데이터 전송 속도가 느려지며, 이것이 주요 병목이 됩니다. 학습 과정에서는 각 단계마다 GPU가 데이터를 동기화하고 교환해야 합니다. 거리가 멀수록 지연(latency)이 높아지고, 높은 지연은 학습 속도 저하와 비용 증가를 의미합니다.
중앙집권적 데이터센터에서는 며칠 만에 끝낼 수 있는 학습 작업이 탈중앙화 환경에서는 2주가 걸리고 비용도 더 많이 들 수 있습니다. 이는 분명히 실현 가능하지 않습니다.
그러나 상황이 변하고 있습니다.
흥미롭게도, 분산형 학습에 대한 연구 관심이 빠르게 증가하고 있습니다. 연구자들은 여러 방향에서 동시에 탐색을 진행하고 있으며, 최근 발표된 다수의 연구 성과와 논문이 이를 입증합니다. 이러한 기술적 진전은 중첩 효과를 통해 탈중앙화 학습의 발전을 가속화할 것입니다.
또한 실제 생산 환경에서의 테스트 역시 중요하며, 이는 기존 기술의 한계를 돌파하는 데 도움이 됩니다.
현재 일부 탈중앙화 학습 기술은 저속의 상호 연결 환경에서도 소규모 모델을 처리할 수 있습니다. 선도적인 연구는 이러한 방법을 더 큰 규모의 모델로 확장하는 데 주력하고 있습니다.
-
예를 들어, Prime Intellect의 Open DiCoLo 논문은 실용적인 접근법을 제시했습니다. GPU를 '군도(islands)'로 나누고, 각 군도가 동기화 전에 500회의 로컬 계산을 수행함으로써 대역폭 요구량을 1/500로 줄이는 방법입니다. 이 기술은 원래 Google DeepMind가 소규모 모델을 위해 연구한 것이었으나, 이제는 100억 개의 파라미터를 가진 모델 학습에 성공적으로 확장되었으며 최근 완전히 오픈소스화되었습니다.

-
Nous Research의 DisTrO 프레임워크는 더욱 획기적인 성과를 거두었습니다. 최적화 기술을 통해 GPU 간 통신 요구량을 최대 10,000배까지 줄이며 12억 개의 파라미터를 가진 모델 학습에 성공했습니다.
-
이러한 추세는 계속되고 있습니다. Nous는 최근 150억 개의 파라미터를 가진 모델의 사전 학습을 완료했다고 발표했으며, 손실 곡선과 수렴 속도가 기존의 중앙집권적 학습 성능을 뛰어넘었다고 밝혔습니다.

(트윗 보기)
-
또한 SWARM Parallelism 및 DTFMHE와 같은 방법들도 속도와 연결 조건이 서로 다른 다양한 장비에서 초대규모 AI 모델을 학습하는 방법을 탐색하고 있습니다.
또 다른 도전 과제는 다양한 GPU 하드웨어, 특히 탈중앙화 네트워크에서 흔한 소비자용 GPU를 관리하는 방법입니다. 이들은 일반적으로 메모리가 제한적입니다. 모델 병렬 처리 기술(모델의 서로 다른 계층을 여러 장치에 분산)을 통해 이 문제는 점차 해결되고 있습니다.
탈중앙화 학습의 미래
현재 탈중앙화 학습 방법의 모델 규모는 가장 앞선 모델(GPT-4는 약 1조 개의 파라미터로, Prime Intellect의 100억 개 모델보다 100배 큼)에 비해 여전히 훨씬 뒤떨어져 있습니다. 진정한 규모 확장을 이루기 위해서는 모델 아키텍처 설계, 네트워크 인프라, 작업 분배 전략에서 중대한 돌파구가 필요합니다.
하지만 우리는 대담하게 상상할 수 있습니다. 미래에는 탈중앙화 학습이 최대의 중앙집권적 데이터센터보다 더 많은 GPU 계산 능력을 모을 수 있을지도 모릅니다.
Pluralis Research(탈중앙화 학습 분야에서 주목해야 할 팀)는 이것이 가능할 뿐만 아니라 필연적이라고 생각합니다. 중앙집권적 데이터센터는 공간과 전력 공급과 같은 물리적 조건에 제약받는 반면, 탈중앙화 네트워크는 전 세계적으로 거의 무한한 자원을 활용할 수 있습니다.
NVIDIA의 Jensen Huang조차 비동기 탈중앙화 학습이 AI 확장 잠재력을 해방하는 열쇠일 수 있다고 언급했습니다. 또한 분산형 학습 네트워크는 오류 복구 능력도 더 뛰어납니다.
따라서 미래의 가능성 중 하나는 세상에서 가장 강력한 AI 모델이 탈중앙화 방식으로 학습될 수 있다는 것입니다.
이 비전은 흥미롭지만, 저는 여전히 보류된 입장입니다. 초대규모 모델의 탈중앙화 학습이 기술적으로나 경제적으로 실현 가능하다는 강력한 증거가 필요합니다.
저는 탈중앙화 학습의 최적 활용처가 초대규모 AGI 지향 선두 모델과 경쟁하기보다는, 특정 애플리케이션 시나리오를 위해 설계된 소규모 전용 오픈소스 모델에 있을 것이라 생각합니다. 일부 아키텍처, 특히 트랜스포머가 아닌 모델은 탈중앙화 환경에 매우 적합하다는 것이 입증되었습니다.
또한 토큰 인센티브 메커니즘도 미래의 중요한 요소가 될 것입니다. 탈중앙화 학습이 규모 면에서 실현 가능해지면, 토큰은 기여자들을 효과적으로 인센티브 제공하고 보상함으로써 이러한 네트워크의 발전을 촉진할 수 있습니다.
앞길은 멀지만, 현재의 진전은 고무적입니다. 탈중앙화 학습의 돌파구는 탈중앙화 네트워크에만 이득이 되는 것이 아니라, 대형 테크 기업과 정상급 AI 연구소에도 새로운 가능성을 제공할 것입니다…
1.3 탈중앙화 추론
현재 AI의 컴퓨팅 자원은 대부분 대규모 모델 학습에 집중되어 있습니다. 정상급 AI 연구소들 사이에서는 가장 강력한 기초 모델을 개발하고 궁극적으로 AGI를 실현하기 위한 군비 경쟁이 벌어지고 있습니다.
하지만 저는 이러한 학습에 집중된 컴퓨팅 자원이 향후 몇 년 내에 점차 추론으로 이동할 것이라 생각합니다. AI 기술이 의료, 엔터테인먼트 등 우리가 일상적으로 사용하는 애플리케이션에
TechFlow 공식 커뮤니티에 오신 것을 환영합니다
Telegram 구독 그룹:https://t.me/TechFlowDaily
트위터 공식 계정:https://x.com/TechFlowPost
트위터 영어 계정:https://x.com/BlockFlow_News














