잠재력 있는 트랙 전망: 탈중앙화 컴퓨팅 마켓플레이스 (상)

2023.11.03

잠재력 있는 트랙 전망: 탈중앙화 컴퓨팅 마켓플레이스 (상)

연산 능력 부족은 불가피하게 발생할 전망이며, 탈중앙화된 연산 자원 시장이 좋은 비즈니스가 될 수 있을까?

2023.11.03 - 08:40:14

算力

Web3 심층 보도에 집중하고 흐름을 통찰

연산 능력 부족은 불가피하게 발생할 전망이며, 탈중앙화된 연산 자원 시장이 좋은 비즈니스가 될 수 있을까?

저자: Zeke, YBB Capital

서론

GPT-3가 등장한 이래 생성형 AI는 놀라운 성능과 광범위한 응용 시나리오를 통해 인공지능 분야에 폭발적인 전환점을 가져왔으며, 주요 기술 기업들이 AI 분야로 대거 진입하고 있다. 그러나 문제도 함께 발생했다. 대규모 언어 모델(LLM)의 학습 및 추론은 막대한 컴퓨팅 파워를 필요로 하며, 모델이 반복적으로 업그레이드됨에 따라 컴퓨팅 수요와 비용은 지수급으로 증가한다. 예를 들어 GPT-2와 GPT-3의 경우, 파라미터 수에서 1,166배 차이가 난다(GPT-2는 1억 5천만 개, GPT-3는 1,750억 개). 또한 GPT-3 한 번의 학습 비용은 당시 공개 GPU 클라우드 가격 기준 최고 1,200만 달러에 달해 GPT-2보다 200배 비쌌다. 실제로 사용하는 과정에서 사용자의 매 질문마다 추론 연산이 필요하며, 올해 초 약 1,300만 명의 독립적 사용자가 방문한 상황을 기준으로 하면, 이에 필요한 칩 수요는 A100 GPU 기준 3만 장 이상이다. 초기 투자 비용은 무려 8억 달러에 이를 것이며, 매일의 모델 추론 비용은 약 70만 달러로 추정된다.

컴퓨팅 파워 부족과 비용 과다 문제가 전 산업의 AI 분야에서 직면한 난제가 되었으며, 유사한 문제는 블록체인 산업에도 다가올 것으로 보인다. 한편으로는 비트코인 네 번째 감반과 ETF 승인이 임박해 있으며, 미래 가격 상승에 따라 채굴업체들의 컴퓨팅 하드웨어 수요가 급증할 것이다. 다른 한편으로 제로지식 증명("Zero-Knowledge Proof", 줄여서 ZKP) 기술이 급성장하고 있으며, 비탈릭 뷰트릭(Vitalik Buterin) 역시 여러 차례 ZK 기술이 향후 10년간 블록체인 분야에 블록체인 자체만큼 중요한 영향을 미칠 것이라고 강조한 바 있다. 이 기술의 미래는 블록체인 업계로부터 큰 기대를 받고 있지만, 복잡한 계산 과정 때문에 증명 생성 과정에서 AI와 마찬가지로 막대한 컴퓨팅 파워와 시간을 소비한다.

예견 가능한 미래에 컴퓨팅 부족은 불가피한 상황이 될 것이며, 그렇다면 탈중앙화된 컴퓨팅 시장은 좋은 사업이 될 수 있을까?

탈중앙화 컴퓨팅 시장 정의

탈중앙화 컴퓨팅 시장은 기본적으로 탈중앙화 클라우드 컴퓨팅 분야와 거의 동일하다. 그러나 탈중앙화 클라우드 컴퓨팅보다는 앞으로 설명할 신규 프로젝트들을 설명하는 용어로서 '탈중앙화 컴퓨팅 시장'이 더 적절하다고 생각한다. 이 시장은 DePIN(탈중앙화 물리 인프라 네트워크)의 하위 집합에 속하며, 오픈된 컴퓨팅 시장을 창출하는 것을 목표로 한다. 토큰 인센티브를 통해 유휴 컴퓨팅 자원을 가진 누구나 시장에서 자신의 자원을 제공할 수 있도록 하며, 주로 B2B 고객과 개발자 그룹에게 서비스를 제공한다. 잘 알려진 프로젝트들 중에서는 탈중앙화 GPU 기반 렌더링 솔루션 네트워크인 Render Network와 클라우드 컴퓨팅을 위한 분산형 P2P 시장 Akash Network가 이 분야에 해당한다.

아래에서는 기본 개념부터 시작하여 이 분야 내 세 가지 새로운 시장—AGI 컴퓨팅 시장, 비트코인 컴퓨팅 시장, ZK 하드웨어 가속 시장 중 AGI 컴퓨팅 시장에 대해 논의할 것이며, 나머지 두 시장은 《잠재력 있는 트랙 전망: 탈중앙화 컴퓨팅 시장 (하)》에서 다룰 예정이다.

컴퓨팅 개요

컴퓨팅의 개념은 컴퓨터 발명 초기로 거슬러 올라간다. 초기 컴퓨터는 기계 장치로 계산 작업을 수행했으며, 컴퓨팅 능력은 이러한 기계 장치의 계산 능력을 의미했다. 컴퓨터 기술이 발전함에 따라 컴퓨팅 개념도 진화하였으며, 현재 컴퓨팅 능력은 일반적으로 컴퓨터 하드웨어(CPU, GPU, FPGA 등)와 소프트웨어(운영체제, 컴파일러, 애플리케이션 등)가 협력하는 능력을 말한다.

정의

컴퓨팅 파워(Computing Power)란 일정 시간 내에 컴퓨터 또는 기타 계산 장치가 처리할 수 있는 데이터량 또는 완료할 수 있는 계산 작업의 수를 의미한다. 컴퓨팅 능력은 일반적으로 컴퓨터 또는 기타 계산 장치의 성능을 설명하는 데 사용되며, 계산 장치의 처리 능력을 측정하는 중요한 지표이다.

측정 기준

컴퓨팅 능력은 다양한 방식으로 측정할 수 있으며, 계산 속도, 계산 에너지 소비, 계산 정밀도, 병렬 처리 정도 등을 포함한다. 컴퓨터 분야에서 일반적으로 사용되는 컴퓨팅 능력 지표에는 FLOPS(초당 부동소수점 연산 횟수), IPS(초당 명령어 수), TPS(초당 트랜잭션 수) 등이 있다.

FLOPS(Floating Point Operations Per Second)는 컴퓨터가 부동소수점 연산(소수점을 포함한 숫자의 수학적 연산으로, 정밀도와 반올림 오차 등을 고려해야 함)을 수행하는 능력을 나타내며, 초당 얼마나 많은 부동소수점 연산을 수행할 수 있는지를 측정한다. FLOPS는 고성능 컴퓨팅 능력을 평가하는 지표로, 슈퍼컴퓨터, 고성능 컴퓨팅 서버, 그래픽 프로세서(GPU) 등의 계산 능력을 평가할 때 일반적으로 사용된다. 예를 들어 어떤 컴퓨터 시스템의 FLOPS가 1 TFLOPS(초당 1조 회 부동소수점 연산)라면, 초당 1조 회의 부동소수점 연산을 수행할 수 있다는 의미이다.

IPS(Instructions Per Second)는 컴퓨터가 명령어를 처리하는 속도를 나타내며, 초당 얼마나 많은 명령어를 실행할 수 있는지를 측정한다. IPS는 컴퓨터 단일 명령어 성능을 평가하는 지표로, 일반적으로 중앙처리장치(CPU) 등의 성능 평가에 사용된다. 예를 들어, 어떤 CPU의 IPS가 3GHz(초당 3억 회 명령어 실행 가능)라면, 초당 3억 회의 명령어를 실행할 수 있다는 의미이다.

TPS(Transactions Per Second)는 컴퓨터가 트랜잭션을 처리하는 능력을 나타내며, 초당 몇 개의 트랜잭션을 완료할 수 있는지를 측정한다. 일반적으로 데이터베이스 서버의 성능 평가에 사용된다. 예를 들어, 어떤 데이터베이스 서버의 TPS가 1,000이라면, 초당 1,000개의 데이터베이스 트랜잭션을 처리할 수 있다는 의미이다.

또한 특정 응용 시나리오를 위한 특화된 컴퓨팅 지표들도 있는데, 추론 속도, 이미지 처리 속도, 음성 인식 정확도 등이 있다.

컴퓨팅 유형

GPU 컴퓨팅 능력이란 그래픽 프로세서(Graphics Processing Unit)의 계산 능력을 의미한다. CPU(Central Processing Unit)와 달리 GPU는 이미지와 비디오 등 그래픽 데이터 처리를 위해 특별히 설계된 하드웨어로, 다수의 처리 유닛과 효율적인 병렬 계산 능력을 갖추고 있어 동시에 많은 부동소수점 연산을 수행할 수 있다. GPU는 처음 게임 그래픽 처리를 위해 개발되었기 때문에 일반적으로 CPU보다 더 높은 클록 주파수와 더 큰 메모리 대역폭을 가지고 있어 복잡한 그래픽 연산을 지원한다.

CPU와 GPU의 차이점

구조: CPU와 GPU는 계산 구조가 다르다. CPU는 일반적으로 하나 또는 여러 개의 코어를 사용하며, 각 코어는 다양한 작업을 수행할 수 있는 범용 프로세서이다. 반면 GPU는 스트림 프로세서(Stream Processors)와 셰이더(Shader)를 다수 보유하고 있으며, 이들은 이미지 처리 관련 연산을 전문으로 수행한다.
병렬 계산: GPU는 일반적으로 더 높은 병렬 계산 능력을 가진다. CPU는 코어 수가 제한적이며 각 코어는 하나의 명령어만 실행할 수 있지만, GPU는 수천 개의 스트림 프로세서를 가지고 있어 여러 명령어와 작업을 동시에 실행할 수 있다. 따라서 GPU는 머신러닝 및 딥러닝처럼 대량의 병렬 계산이 필요한 작업에 더 적합하다.
프로그래밍: GPU의 프로그래밍은 CPU에 비해 더 복잡하며, CUDA 또는 OpenCL과 같은 특정 프로그래밍 언어를 사용하고 GPU의 병렬 계산 능력을 활용하기 위한 특수한 프로그래밍 기법이 필요하다. 반면 CPU의 프로그래밍은 보다 간단하며 일반적인 프로그래밍 언어와 도구를 사용할 수 있다.

컴퓨팅의 중요성

산업혁명 시대에는 석유가 세계의 혈액이었으며 모든 산업에 스며들었다. AI 시대가 다가오는 지금, 컴퓨팅 능력은 전 세계의 '디지털 석유'가 될 것이다. 주요 기업들의 AI 칩에 대한 열광적 경쟁, Nvidia 주가의 만억 돌파, 최근 미국이 중국에 대한 고성능 칩 수출 규제를 시행하면서까지 컴퓨팅 능력 크기, 칩 면적까지 구체적으로 제한하고 GPU 클라우드 사용 금지까지 계획하고 있음을 보면, 그 중요성은 말할 필요 없이 명백하다. 컴퓨팅 능력은 다음 시대의 대중 상품이 될 것이다.

일반 인공지능 개요

인공지능(Artificial Intelligence, AI)은 인간의 지능을 모방, 확장, 확대하기 위한 이론, 방법, 기술 및 응용 시스템을 연구·개발하는 새로운 기술 과학이다. 20세기 50~60년대에 기원하여 반세기 이상의 진화를 거쳐 상징주의, 연결주의, 행동주체의 세 번의 물결이 얽히고설켜 발전해왔으며, 오늘날 새로운 범용 기술로서 사회생활과 각 산업 분야에 거대한 변화를 일으키고 있다. 현재 흔히 접하는 생성형 AI는 좀 더 구체적으로는 인공 일반 지능(Artificial General Intelligence, 약칭 AGI)을 의미하는데, 이는 다양한 과제와 분야에서 인간과 유사하거나 인간을 능가하는 지능을 보여줄 수 있는 광범위한 이해 능력을 갖춘 인공지능 시스템이다. AGI는 기본적으로 딥러닝(deep learning, 약칭 DL), 빅데이터, 대규모 컴퓨팅 능력이라는 세 가지 요소로 구성된다.

딥러닝

딥러닝은 머신러닝(ML)의 하위 분야로, 딥러닝 알고리즘은 인간의 뇌를 모방한 신경망 구조를 따른다. 예를 들어 인간의 뇌는 수백만 개의 상호 연결된 뉴런으로 구성되어 있으며, 이들은 협력하여 정보를 학습하고 처리한다. 마찬가지로 딥러닝 신경망(또는 인공 신경망)은 컴퓨터 내부에서 협력하는 다층의 인공 뉴런으로 구성된다. 인공 뉴런은 노드라고 하는 소프트웨어 모듈이며, 수학적 계산을 통해 데이터를 처리한다. 인공 신경망은 이러한 노드를 사용하여 복잡한 문제를 해결하는 딥러닝 알고리즘이다.

신경망은 계층적으로 입력층, 은닉층, 출력층으로 나뉘며, 서로 다른 층 사이의 연결을 파라미터라고 한다.

입력층(Input Layer): 입력층은 신경망의 첫 번째 층으로, 외부에서 입력되는 데이터를 수신한다. 입력층의 각 뉴런은 입력 데이터의 한 특성에 대응한다. 예를 들어 이미지 데이터를 처리할 때 각 뉴런은 이미지의 픽셀 값 하나에 해당할 수 있다.
은닉층(Hidden Layers): 입력층은 데이터를 처리하여 신경망의 더 깊은 층으로 전달한다. 이러한 은닉층은 다양한 수준에서 정보를 처리하며, 새로운 정보를 수신할 때 그 행동을 조정한다. 딥러닝 네트워크는 수백 개의 은닉층을 가질 수 있으며, 여러 관점에서 문제를 분석할 수 있다. 예를 들어 분류해야 할 알려지지 않은 동물의 이미지를 받았다고 하자. 이를 이미 알고 있는 동물들과 비교할 수 있다. 귀 모양, 다리 개수, 눈동자 크기 등을 기준으로 어떤 동물인지 판단할 수 있다. 딥뉴럴 네트워크의 은닉층도 이와 같은 방식으로 작동한다. 딥러닝 알고리즘이 동물 이미지를 분류하려 할 때, 각 은닉층은 동물의 서로 다른 특성을 처리하여 정확한 분류를 시도한다.
출력층(Output Layer): 출력층은 신경망의 마지막 층으로, 네트워크의 출력을 생성하는 역할을 한다. 출력층의 각 뉴런은 가능한 출력 범주 또는 값 하나를 나타낸다. 예를 들어 분류 문제에서 각 출력층 뉴런은 하나의 범주에 해당할 수 있으며, 회귀 문제에서는 출력층에 하나의 뉴런만 존재할 수 있고 그 값이 예측 결과를 나타낸다.
파라미터: 신경망에서 서로 다른 층 사이의 연결은 가중치(Weights)와 편향(Biases) 파라미터로 표현되며, 이 파라미터들은 학습 과정에서 최적화되어 네트워크가 데이터 내 패턴을 정확하게 인식하고 예측할 수 있도록 한다. 파라미터 수가 증가하면 신경망의 모델 용량, 즉 데이터 내 복잡한 패턴을 학습하고 표현할 수 있는 능력이 향상된다. 하지만 이에 비례하여 컴퓨팅 요구량도 증가한다.

빅데이터

효과적인 학습을 위해서는 일반적으로 양이 많고 다양하며 질이 높고 다원적인 데이터가 필요하다. 이는 머신러닝 모델의 학습과 검증의 기반이 된다. 빅데이터를 분석함으로써 머신러닝 모델은 데이터 내 패턴과 관계를 학습하여 예측이나 분류를 수행할 수 있다.

대규모 컴퓨팅

신경망의 다층적 복잡한 구조, 다수의 파라미터, 빅데이터 처리 요구, 반복적 학습 방식(학습 단계에서 모델은 반복적으로 학습해야 하며, 각 층에서 순전파와 역전파를 계산하고 활성화 함수, 손실 함수, 기울기, 가중치 갱신을 포함), 고정밀 계산 요구, 병렬 처리 능력, 최적화 및 정규화 기술, 모델 평가 및 검증 과정 등이 모두 고성능 컴퓨팅 요구를 초래한다. 딥러닝이 발전함에 따라 AGI의 대규모 컴퓨팅 요구는 매년 약 10배씩 증가하고 있다. 현재 가장 최신 모델인 GPT-4는 1.8조 개의 파라미터를 포함하며, 단일 학습 비용은 6,000만 달러를 넘고, 필요한 컴퓨팅 능력은 2.15e25 FLOPS(2경 1,500조 회 부동소수점 연산)이다. 이후 모델 학습을 위한 컴퓨팅 요구는 계속해서 커지고 있으며, 새로운 모델도 지속적으로 추가되고 있다.

AI 컴퓨팅 경제학

향후 시장 규모

가장 권위 있는 분석에 따르면 국제데이터회사(IDC, International Data Corporation)와 낭촨정보, 칭화대학교 글로벌 산업연구원이 공동으로 작성한 《2022-2023 글로벌 컴퓨팅 지수 평가 보고서》에 따르면, 글로벌 AI 컴퓨팅 시장은 2022년 195억 달러에서 2026년 346.6억 달러로 성장할 전망이며, 생성형 AI 컴퓨팅 시장은 2022년 8.2억 달러에서 2026년 109.9억 달러로 성장할 것으로 예상된다. 생성형 AI 컴퓨팅이 전체 AI 컴퓨팅 시장에서 차지하는 비중은 4.2%에서 31.7%로 증가할 전망이다.

컴퓨팅 경제 독점

AI용 GPU 생산은 NVIDIA에 의해 사실상 독점되고 있으며, 매우 비싸다(최신 H100은 한 장당 4만 달러까지 치솟았다). 게다가 GPU가 출시되면 실리콘밸리의 대기업들이 바로 품귀 상태로 만들며, 이 장비 일부는 자체 신규 모델 학습에 사용된다. 나머지는 Google, Amazon, Microsoft 등의 클라우드 플랫폼을 통해 AI 개발자들에게 임대된다. 이들 클라우드 플랫폼은 서버, GPU, TPU 등 막대한 컴퓨팅 자원을 장악하고 있다. 컴퓨팅 능력은 이제 거대 기업들이 독점하는 새로운 자원이 되었으며, 다수의 AI 관련 개발자들은 심지어 가격이 붙지 않은 전용 GPU 한 장도 구매하지 못하고 있다. 최신 장비를 사용하기 위해 개발자들은 AWS나 Microsoft의 클라우드 서버를 이용할 수밖에 없다. 재무제표상 이 사업은 매우 높은 수익률을 보이고 있는데, AWS 클라우드 서비스의 마진율은 61%, 마이크로소프트는 더 높은 72%에 달한다.

그렇다면 우리는 이러한 중앙집중적 권위와 통제를 받아들여야 하며, 컴퓨팅 자원에 대해 72%의 이윤을 지불해야 하는가? Web2 시대를 독점했던 거대 기업들이 다음 시대도 독점할 것인가?

탈중앙화 AGI 컴퓨팅의 난제

독점에 대항하는 방법으로 탈중앙화가 일반적으로 최선의 해법으로 여겨진다. 기존 프로젝트들을 살펴보면 DePIN의 저장소 프로젝트와 RDNR 같은 유휴 GPU 활용 프로토콜을 통해 AI에 필요한 대규모 컴퓨팅을 실현할 수 있을까? 답은 아니오이다. 용을 물리치는 길은 그리 간단하지 않다. 초기 프로젝트들은 AGI 컴퓨팅을 위해 특별히 설계되지 않았으며 실현 가능성이 낮다. 컴퓨팅을 블록체인에 연결하려면 아래 다섯 가지 도전 과제를 최소한으로 해결해야 한다.

1.작업 검증: 정말로 신뢰 없이도 작동하는 컴퓨팅 네트워크를 구축하고 참여자들에게 경제적 인센티브를 제공하기 위해 네트워크는 딥러닝 계산 작업이 실제로 수행되었는지 검증할 방법이 있어야 한다. 이 문제의 핵심은 딥러닝 모델의 상태 의존성에 있다. 딥러닝 모델에서 각 층의 입력은 이전 층의 출력에 의존한다. 즉, 앞선 모든 층을 고려하지 않고 특정 층만 검증할 수 없다는 의미이다. 각 층의 계산은 앞선 모든 층의 결과를 기반으로 한다. 따라서 특정 지점(특정 층 등)에서 완료된 작업을 검증하기 위해서는 모델의 시작부터 그 특정 지점까지의 모든 작업을 수행해야 한다.

2.시장: AI 컴퓨팅 시장은 공급과 수요의 어려움으로 인해 신생 시장의 특성을 지닌다. 예를 들어 냉기동 문제(cold start problem)가 있는데, 공급과 수요의 유동성이 시장이 성장할 수 있도록 초기부터 대략적으로 맞아야 한다. 잠재적인 컴퓨팅 공급을 확보하기 위해 참여자들에게 명확한 보상을 제공하여 그들의 컴퓨팅 자원을 교환받아야 한다. 시장은 완료된 계산 작업을 추적하고 제공자에게 적시에 요금을 지불할 수 있는 메커니즘을 필요로 한다. 전통적인 시장에서는 중개자가 관리 및 입점 등의 작업을 처리하며, 최소 지불 한도를 설정하여 운영 비용을 줄인다. 그러나 이 방식은 시장 규모를 확장할 때 비용이 높아진다. 소수의 공급자만 경제적으로 효과적으로 포착될 수 있으므로, 시장은 제한된 공급만을 확보하고 유지할 수 있으며 더 이상 성장하지 못하는 임계 균형 상태에 도달한다.

3.정지 문제(Halting Problem): 정지 문제는 계산 이론의 기본적인 문제로, 주어진 계산 작업이 유한한 시간 안에 종료될지 혹은 영원히 멈추지 않을지를 판단하는 문제이다. 이 문제는 해결 불가능하다. 즉, 모든 계산 작업에 대해 유한 시간 내 종료 여부를 사전에 판단할 수 있는 일반적인 알고리즘은 존재하지 않는다. 예를 들어 이더리움의 스마트 계약 실행도 유사한 정지 문제에 직면한다. 즉, 스마트 계약 실행에 얼마만큼의 컴퓨팅 자원이 필요한지, 또는 합리적인 시간 내에 종료될지 사전에 알 수 없다.

(딥러닝 맥락에서 이 문제는 더욱 복잡해진다. 모델과 프레임워크가 정적 그래프에서 동적 구성 및 실행으로 전환되기 때문이다.)

4.프라이버시: 프라이버시를 고려한 설계와 개발은 프로젝트 팀이 반드시 해야 할 일이다. 많은 머신러닝 연구는 공개 데이터셋에서 수행할 수 있지만, 모델 성능을 향상시키고 특정 응용에 적응시키기 위해 일반적으로 독점적인 사용자 데이터 위에서 모델을 파인튜닝(fine-tuning)해야 한다. 이 파인튜닝 과정은 개인 데이터 처리를 포함할 수 있으므로 프라이버시 보호 요구사항을 고려해야 한다.

5.병렬화: 이 점은 현재 프로젝트들의 실현 가능성 부족의 핵심 요소이다. 딥러닝 모델은 전용 아키텍처를 갖고 지연 시간이 극도로 낮은 대규모 하드웨어 클러스터에서 병렬로 학습하는 경우가 일반적이다. 반면 분산 컴퓨팅 네트워크의 GPU들은 빈번한 데이터 교환을 위해 지연 시간이 발생하며, 가장 성능이 낮은 GPU에 의해 제약을 받는다. 컴퓨팅 자원이 신뢰할 수 없고 신뢰할 수 없는 상황에서 어떻게 이기종 병렬화를 실현할 것인가는 반드시 해결해야 할 문제이다. 현재 가능한 방법은 트랜스포머 모델(Transformer Model)을 통해 병렬화를 실현하는 것으로, 예를 들어 Switch Transformers는 이미 고도의 병렬화 특성을 지니고 있다.

해결책: 현재 탈중앙화 AGI 컴퓨팅 시장에 대한 시도는 초기 단계이지만, 우연히도 두 프로젝트가 탈중앙화 네트워크의 합의 설계 및 탈중앙화 컴퓨팅 네트워크가 모델 학습과 추론에 적용되는 과정을 부분적으로 해결하였다. 아래에서는 Gensyn과 Together를 예로 들어 탈중앙화 AGI 컴퓨팅 시장의 설계 방식과 문제점을 분석하겠다.

Gensyn

Gensyn은 아직 개발 중인 AGI 컴퓨팅 시장으로, 탈중앙화 딥러닝 컴퓨팅의 여러 도전 과제를 해결하고 현재 딥러닝 비용을 낮추는 것을 목표로 한다. 본질적으로 Gensyn은 Polkadot 네트워크 기반의 1층 지분 증명 프로토콜이며, 스마트 계약을 통해 솔버(Solver)에게 보상을 제공하여 유휴 GPU 장비를 계산에 사용하도록 하고 머신러닝 작업을 수행한다.

다시 위의 문제로 돌아가 보자. 정말로 신뢰 없이도 작동하는 컴퓨팅 네트워크를 구축하는 핵심은 완료된 머신러닝 작업을 검증하는 것이다. 이는 매우 복잡한 문제로, 복잡도 이론, 게임 이론, 암호학, 최적화의 교차 지점에서 균형을 찾아야 한다.

Gensyn은 간단한 해결책을 제안한다. 솔버는 완료한 머신러닝 작업 결과를 제출한다. 이 결과의 정확성을 검증하기 위해 또 다른 독립적인 검증자가 동일한 작업을 다시 수행하려고 시도한다. 이 방법을 '단일 복제'라고 부를 수 있는데, 검증자는 원본 작업의 정확성을 검증하기 위해 한 번의 추가 작업만 수행한다는 의미이다. 그러나 검증 작업을 하는 사람이 원래 작업 요청자가 아니라면 신뢰 문제는 여전히 존재한다. 검증자 자신도 정직하지 않을 수 있으며, 그들의 작업도 검증되어야 한다. 이로 인해 잠재적인 문제가 발생하는데, 만약 검증 작업을 하는 사람이 원래 작업 요청자가 아니라면, 또 다른 검증자가 그들의 작업을 검증해야 한다. 그러나 이 새로운 검증자도 신뢰할 수 없을 수 있으므로, 또 다른 검증자가 그들의 작업을 검증해야 하며, 이는 무한한 복제 사슬로 이어질 수 있다. 여기서는 무한 사슬 문제를 해결하기 위해 세 가지 핵심 개념을 도입하고 네 가지 역할의 참여자 시스템을 구성해야 한다.

확률적 학습 증명(Probabilistic Learning Proof): 그래디언트 기반 최적화 과정의 메타데이터를 사용하여 작업 완료 증명서를 생성한다. 특정 단계를 복제함으로써 이 증명서를 빠르게 검증하여 작업이 예정대로 완료되었는지 확인할 수 있다.

그래프 기반 정밀 위치 지정 프로토콜(Graph-based Pinpoint Protocol): 다중 입도, 그래프 기반 정밀 위치 지정 프로토콜과 교차 검증자의 일관성 실행을 사용한다. 이를 통해 검증 작업을 다시 실행하고 비교하여 일관성을 보장하며, 궁극적으로 블록체인 자체가 확인한다.

Truebit 스타일 인센티브 게임(Truebit-style Incentive Game): 담보와 슬래싱(slash)을 사용하여 인센티브 게임을 구성하여 모든 경제적으로 합리적인 참여자가 정직하게 행동하고 예정된 작업을 수행하도록 한다.

참여자 시스템은 제출자(Submitters), 솔버(Solvers), 검증자(Verifiers), 내부고발자(Whistleblowers)로 구성된다.

제출자(Submitters):

제출자는 시스템의 최종 사용자로서 계산될 작업을 제공하고 완료된 작업 단위에 대한 요금을 지불한다.

솔버(Solvers):

솔버는 시스템의 주요 작업자로, 모델 학습을 수행하고 검증자가 검사할 증명을 생성한다.

검증자(Verifiers):

검증자는 비결정적 학습 과정과 결정적 선형 계산을 연결하는 핵심으로, 솔버의 증명 일부를 복제하고 예상 임계값과 거리를 비교한다.

내부고발자(Whistleblowers):

내부고발자는 마지막 방어선으로, 검증자의 작업을 검사하고 도전을 제기하며, 풍부한 보상을 받기를 희망한다.

시스템 운영

이 프로토콜이 설계한 게임 시스템은 여덟 단계로 구성되며, 네 가지 주요 참여자 역할을 포함하여 작업 제출부터 최종 검증까지의 전체 프로세스를 완료한다.

작업 제출(Task Submission): 작업은 세 가지 특정 정보로 구성된다.
- 작업과 하이퍼파라미터를 설명하는 메타데이터;
- 모델 이진 파일(또는 기본 아키텍처);
- 공개적으로 접근 가능한 사전 처리된 학습 데이터.
작업을 제출하기 위해 제출자는 작업 세부 정보를 기계가 읽을 수 있는 형식으로 지정하고, 모델 이진 파일(또는 기계가 읽을 수 있는 아키텍처)과 사전 처리된 학습 데이터의 공개 위치와 함께 체인에 제출한다. 공개 데이터는 AWS S3 같은 간단한 오브젝트 스토리지 또는 IPFS, Arweave, Subspace 같은 탈중앙화 스토리지에 저장할 수 있다.
분석(Profiling): 분석 과정은 학습 검증 증명을 위한 기준 거리 임계값을 결정한다. 검증자는 정기적으로 분석 작업을 추출하고 학습 증명 비교를 위해 변이 임계값을 생성한다. 임계값을 생성하기 위해 검증자는 결정론적으로 학습 일부를 실행하고 재실행하며, 다른 랜덤 시드를 사용하여 자신의 증명을 생성하고 검사한다. 이 과정에서 검증자는 검증 솔루션을 위한 비결정적 작업의 전체 예상 거리 임계값을 설정한다.
학습(Training): 분석 후 작업은 공개 작업 풀(이더리움의 Mempool과 유사)에 진입한다. 하나의 솔버가 작업을 수행하도록 선택되며, 작업 풀에서 작업이 제거된다. 솔버는 제출자가 제출한 메타데이터와 제공된 모델 및 학습 데이터를 기반으로 작업을 수행한다. 학습 작업을 수행할 때 솔버는 정기적으로 체크포인트를 설정하고 학습 과정의 메타데이터(파라미터 포함)를 저장하여 검증자가 이후 최적화 단계를 가능한 한 정확하게 복제할 수 있도록 학습 증명을 생성한다.
증명 생성(Proof Generation): 솔버는 주기적으로 모델 가중치 또는 업데이트와 학습 데이터셋의 해당 인덱스를 저장하여 가중치 업데이트에 사용된 샘플을 식별한다. 저장 공간을 절약하거나 더 강한 보장을 제공하기 위해 체크포인트 빈도를 조정할 수 있다. 증명은 '쌓을 수(stack)' 있는데, 이는 증명이 랜덤 분포에서 초기화된 가중치에서 시작되거나 자신의 증명을 사용하여 생성된 사전 학습된 가중치에서 시작될 수 있다는 의미이다. 이를 통해 프로토콜은 이미 검증된 사전 학습된 기본 모델(즉, 기반 모델) 세트를 구축할 수 있으며, 이는 보다 구체적인 작업에 대해 파인튜닝될 수 있다.
증명 검증(Verification of Proof): 작업 완료 후 솔버는 체인에 작업 완료를 등록하고, 공개적으로 접근 가능한 위치에 자신의 학습 증명을 표시하여 검증자가 접근할 수 있도록 한다. 검증자는 공개 작업 풀에서 검증 작업을 추출하고, 증명 일부를 다시 실행하고 거리 계산을 수행하는 계산 작업을 수행한다. 이후 체인(분석 단계에서 계산된 임계값과 함께)은 산출된 거리를 사용하여 검증이 증명과 일치하는지 판단한다.
그래프 기반 정밀 위치 도전(Graph-based Pinpoint Challenge): 학습 증명 검증 후, 내부고발자는 검증자의 작업을 복제하여 검증 작업 자체가 올바르게 수행되었는지 확인할 수 있다. 내부고발자가 검증이 잘못 수행되었다고(악의적이든 비악의적이든) 판단하면, 보상을 받기 위해 계약 중재에 도전을 제기할 수 있다. 이 보상은 솔버와 검증자의 예치금(긍정적 사례) 또는 로또 상금 풀(거짓 긍정 사례)에서 나오며, 체인 자체가 중재를 수행한다.내부고발자(그들의 사례에서는 검증자)는 적절한 보상을 받을 것으로 예상할 때만 검증하고 이후 도전을 제기한다. 실제로는 다른 내부고발자의 수(즉, 실시간 예치금과 도전을 가진 사용자 수)에 따라 네트워크에 가입하거나 탈퇴하는 것을 의미한다. 따라서 모든 내부고발자의 예상 기본 전략은 다른 내부고발자 수가 적을 때 네트워크에 가입하고 예치금을 제출하며, 무작위로 활성 작업 하나를 선택하고 검증 과정을 시작하는 것이다. 첫 번째 작업이 끝난 후, 또 다른 무작위 활성 작업을 추출하고 반복하며, 내부고발자 수가 그들이 설정한 지불 임계값을 초과할 때까지 네트워크를 떠나거나(또는 더 가능성이 높게는 하드웨어 능력에 따라 네트워크 내 다른 역할—검증자 또는 솔버—로 전환) 상황이 다시 역전될 때까지 반복한다.
계약 중재(Contract Arbitration): 검증자가 내부고발자에 의해 도전받으면, 체인과 함께 유감작업이나 입력 위치를 찾아내는 프로세스에 진입하며, 결국 체인이 최종 기본 작업을 수행하고 도전이 정당한지 판단한다. 내부고발자를 정직하게 유지하고 검증자의 딜레마를 극복하기 위해 정기적인 강제 오류와 상금 지급을 도입한다.
정산(Settlement): 정산 과정에서 확률적 및 결정적 검사 결론에 따라 참여자에게 지불한다. 이전 검증 및 도전 결과에 따라 다양한 시나리오에서 다른 지불 방식이 이루어진다. 작업이 올바르게 수행되었고 모든 검사를 통과했다고 판단되면, 수행된 작업에 따라 솔루션 제공자와 검증자에게 보상을 준다.

프로젝트 평가

Gensyn은 검증 레이어와 인센티브 레이어에서 네트워크 내 분歧 지점을 찾아 신속하게 오류 위치를 파악할 수 있는 뛰어난 게임 시스템을 설계했지만, 현재 시스템에는 여전히 많은 세부 사항이 부족하다. 예를 들어, 어떻게 파라미터를 설정해야 보상과 처벌이 합리적이면서도 진입 장벽이 과도하지 않을까? 게임 내 단계에서 극단적인 상황이나 솔버의 컴퓨팅 능력 차이를 고려했는가? 현재 버전의 백서에는 이기종 병렬화 실행에 대한 자세한 설명도 없다. 현재로서는 Gensyn의 실현 가능성은 아직 멀고 험난하다.

Together.ai

Together는 대규모 모델의 오픈소스와 탈중앙화 AI 컴퓨팅 솔루션에 집중하는 회사로, 누구나 어디서나 AI에 접근하고 사용할 수 있기를 희망한다. 엄밀히 말해 Together는 블록체인 프로젝트는 아니지만, 이미 탈중앙화 AGI 컴퓨팅 네트워크의 지연 문제를 부분적으로 해결했다. 따라서 아래에서는 Together의 해결책만 분석하고 프로젝트 자체에 대한 평가는 생략하겠다.

중앙화된 데이터센터보다 100배 느린 탈중앙화 네트워크에서 어떻게 대규모 모델의 학습과 추론을 실현할 수 있는가?

탈중앙화 상황에서 네트워크에 참여하는 GPU 장비가 어떻게 분포되어 있을지 상상해보자. 이 장비들은 서로 다른 대륙, 서로 다른 도시에 분포되어 있으며, 장비 간 연결은 지연 시간과 대역폭이 다양하다. 아래 그림은 북미, 유럽, 아시아에 분포된 장비를 시뮬레이션한 것으로, 장비 간 대역폭과 지연 시간이 서로 다르다. 이를 어떻게 연결할 수 있을까?