Foresight Ventures: 분산형 컴퓨팅 네트워크에 대한 분석과 성찰

2023.06.02

Foresight Ventures: 분산형 컴퓨팅 네트워크에 대한 분석과 성찰

AI 대규모 모델의 발전 추세 하에서 컴퓨팅 파워 자원은 향후 10년간의 새로운 주요 전장이자 미래 인류 사회에서 가장 중요한 요소가 될 것이다.

2023.06.02 - 01:13:04

去中心化算力网络

Web3 심층 보도에 집중하고 흐름을 통찰

AI 대규모 모델의 발전 추세 하에서 컴퓨팅 파워 자원은 향후 10년간의 새로운 주요 전장이자 미래 인류 사회에서 가장 중요한 요소가 될 것이다.

글: Yihan@Foresight Ventures

요약

현재 AI + Crypto 결합의 주요 방향은 두 가지로 나뉜다. 분산 컴퓨팅 파워와 ZKML이다. ZKML에 대해서는 이전 필자의 글을 참고하기 바란다. 본문은 탈중앙화된 분산 컴퓨팅 네트워크에 대해 분석하고 성찰한다.
AI 대규모 모델의 발전 추세 속에서 컴퓨팅 리소스는 향후 10년간 가장 치열한 경쟁 무대가 될 것이며, 미래 인류 사회의 핵심 자원이 될 것이다. 이는 단순히 상업적 경쟁을 넘어 국가 간 전략 자원으로서의 지위를 갖게 될 것이며, 고성능 컴퓨팅 인프라 및 컴퓨팅 파워 비축에 대한 투자는 기하급수적으로 증가할 것이다.
탈중앙화된 분산 컴퓨팅 네트워크는 AI 대규모 모델 학습에서 가장 큰 수요를 보이지만, 동시에 가장 큰 도전과 기술적 병목 현상에도 직면해 있다. 복잡한 데이터 동기화 및 네트워크 최적화 문제 등이 있으며, 데이터 프라이버시와 보안 역시 중요한 제약 요소다. 일부 기존 기술들이 초보적인 해결책을 제공하고 있지만, 계산 및 통신 오버헤드가 막대한 대규모 분산 학습 작업에서는 여전히 적용이 어렵다.
반면 모델 추론(inference) 측면에서는 탈중앙화된 분산 컴퓨팅 네트워크가 실현 가능성이 더 높으며, 미래 성장 잠재력도 충분하다. 다만 통신 지연, 데이터 프라이버시, 모델 보안 등의 과제도 존재한다. 추론은 학습에 비해 계산 복잡도와 데이터 상호작용성이 낮아 분산 환경에서 수행하기에 더 적합하다.
스타트업인 Together와 Gensyn.ai의 사례를 통해 탈중앙화된 분산 컴퓨팅 네트워크의 기술적 최적화 및 인센티브 설계 관점에서의 연구 방향과 구체적 접근법을 살펴본다.

분산 컴퓨팅 파워 — 대규모 모델 학습

분산 컴퓨팅 파워를 모델 학습에 적용하는 논의는 일반적으로 대규모 언어 모델(LLM) 학습에 집중된다. 소규모 모델의 경우 컴퓨팅 요구가 크지 않아 데이터 프라이버시 문제나 공학적 복잡성을 감수하며 굳이 분산 구조를 도입할 필요가 없고, 중심화된 방식으로 해결하는 것이 더 효율적이기 때문이다. 반면 대규모 언어 모델은 엄청난 컴퓨팅 수요를 가지고 있으며, 현재 폭발적 성장 초기 단계에 있다. 2012~2018년 사이 AI의 컴퓨팅 수요는 약 4개월마다 두 배씩 증가했으며, 현재 더욱 가속화되고 있으며, 향후 5~8년간도 지속적인 성장 수요가 예상된다.

거대한 기회가 있음에도 불구하고 문제를 명확히 인식해야 한다. 모두가 시장 규모가 크다는 것은 알지만, 정작 구체적인 도전 과제는 무엇이며, 누가 이러한 문제들을 타깃으로 삼아盲目하게 진입하지 않고 접근할 것인지가 이 분야의 우수한 프로젝트를 판단하는 핵심이다.

(NVIDIA NeMo Megatron Framework)

1. 전체 학습 프로세스

1750억 개의 파라미터를 가진 대규모 모델 학습을 예로 들어보자. 모델 규모가 거대하므로 여러 GPU 장치를 활용하여 병렬 학습이 필요하다. 중앙집중형 데이터센터에 100개의 GPU가 있다고 가정하자. 각 장치는 32GB 메모리를 보유하고 있다.

데이터 준비: 우선 거대한 데이터셋이 필요하다. 인터넷 정보, 뉴스, 서적 등 다양한 데이터를 포함한다. 학습 전에는 텍스트 정제, 토큰화(tokenization), 어휘표 구성 등의 전처리 과정이 필요하다.
데이터 분할: 처리 완료된 데이터는 여러 batch로 나뉘어 여러 GPU에서 병렬 처리된다. 예를 들어 배치 크기를 512로 설정하면, 각 배치는 512개의 텍스트 시퀀스를 포함한다. 전체 데이터셋을 배치 단위로 나누어 배치 큐를 형성한다.
장치 간 데이터 전송: 각 학습 스텝 시작 시 CPU가 배치 큐에서 하나의 배치를 꺼내 PCIe 버스를 통해 GPU로 전송한다. 각 텍스트 시퀀스의 평균 길이가 1024토큰이고, 각 토큰이 4바이트(single precision float)를 사용한다고 가정하면, 한 배치의 데이터 크기는 약 512 * 1024 * 4 B = 2MB이다. 이 전송 과정은 일반적으로 몇 밀리초 정도 소요된다.
병렬 학습: 각 GPU 장치가 데이터를 수신한 후 순전파(forward pass)와 역전파(backward pass) 연산을 수행하며 각 파라미터의 그래디언트를 계산한다. 모델 규모가 매우 크므로 단일 GPU 메모리로는 모든 파라미터를 저장할 수 없으므로 모델 병렬화 기술을 사용하여 파라미터를 여러 GPU에 분산 저장한다.
그래디언트 집계 및 파라미터 갱신: 역전파 계산 후 각 GPU는 일부 파라미터의 그래디언트를 얻는다. 이후 모든 GPU 장치 간에 그래디언트를 집계하여 글로벌 그래디언트를 계산해야 한다. 이는 네트워크를 통한 데이터 전송을 필요로 하며, 25Gbps 네트워크를 사용한다고 가정하면, 700GB 데이터(1750억 파라미터 × 4바이트 ≈ 700GB) 전송에 약 224초가 소요된다. 이후 각 GPU는 글로벌 그래디언트에 따라 자신의 파라미터를 갱신한다.
동기화: 파라미터 갱신 후 모든 GPU 장치는 다음 학습 단계를 위해 일관된 모델 파라미터를 사용하도록 동기화되어야 한다. 이 또한 네트워크를 통한 데이터 전송을 필요로 한다.
반복 학습 스텝: 위 단계를 반복하여 모든 배치의 학습을 완료하거나 사전에 정한 에포크(epoch) 수에 도달할 때까지 진행한다.

이 과정에는 많은 데이터 전송과 동기화가 포함되며, 이는 학습 효율의 병목이 될 수 있다. 따라서 대규모 모델 학습에서는 네트워크 대역폭과 지연 최적화, 그리고 효율적인 병렬 및 동기화 전략이 중요하다.

2. 통신 오버헤드의 병목

통신 병목은 현재 분산 컴퓨팅 네트워크가 대규모 언어 모델 학습에 적용되지 못하는 주요 원인이다.

각 노드는 협업을 위해 빈번한 정보 교환을 해야 하며, 이로 인해 통신 오버헤드가 발생한다. 특히 대규모 언어 모델의 경우 파라미터 수가 엄청나게 많아 문제가 심각하다. 통신 오버헤드는 다음과 같은 측면에서 나타난다:

데이터 전송: 학습 중 노드들은 모델 파라미터와 그래디언트 정보를 빈번히 교환해야 한다. 이는 네트워크 대역폭을 많이 소비하는 대량 데이터 전송을 필요로 하며, 네트워크 상태가 좋지 않거나 노드 간 거리가 멀면 전송 지연이 커져 통신 오버헤드가 더욱 증가한다.
동기화 문제: 노드들은 학습의 정확한 진행을 위해 협업해야 하며, 이는 모델 파라미터 갱신, 글로벌 그래디언트 계산 등의 빈번한 동기화 작업을 필요로 한다. 이러한 작업은 네트워크를 통해 대량 데이터를 전송하고 모든 노드의 작업 완료를 기다려야 하므로 통신 오버헤드와 대기 시간이 크게 발생한다.
그래디언트 누적 및 갱신: 각 노드는 자신의 그래디언트를 계산하여 다른 노드로 보내 누적 및 갱신을 수행해야 한다. 이는 대량의 그래디언트 데이터 전송을 필요로 하며, 모든 노드의 계산 및 전송 완료를 기다려야 하므로 통신 오버헤드의 주요 원인이 된다.
데이터 일관성 유지: 모든 노드의 모델 파라미터가 일치해야 하므로, 빈번한 데이터 검증 및 동기화 작업이 필요하며, 이 역시 통신 오버헤드를 증가시킨다.

통신 오버헤드를 줄이는 방법들(예: 파라미터 및 그래디언트 압축, 효율적 병렬 전략 등)이 존재하지만, 이들은 추가적인 계산 부담을 유발하거나 모델 학습 성능에 부정적 영향을 줄 수 있다. 또한 이러한 방법들도 통신 오버헤드를 완전히 해결하지는 못하며, 특히 네트워크 상태가 좋지 않거나 노드 간 거리가 먼 경우 더욱 그렇다.

예시:

탈중앙화된 분산 컴퓨팅 네트워크

GPT-3 모델은 1750억 개의 파라미터를 가지며, 단정밀도 실수(각 파라미터 4바이트)로 표현하면 약 700GB의 메모리가 필요하다. 분산 학습에서는 이 파라미터들이 여러 컴퓨팅 노드 간에 빈번히 전송되고 갱신되어야 한다.

100개의 컴퓨팅 노드가 있고, 각 노드가 매 스텝마다 모든 파라미터를 갱신해야 한다면, 각 스텝당 약 70TB(700GB × 100)의 데이터 전송이 필요하다. 스텝 당 1초(매우 낙관적인 가정)가 소요된다고 가정하면, 초당 70TB의 데이터 전송이 필요하다. 이는 대부분의 네트워크 대역폭을 초과하는 수준이며 실현 가능성 자체가 문제다.

실제로는 통신 지연과 네트워크 혼잡으로 인해 데이터 전송 시간이 1초를 훨씬 초과할 수 있다. 이는 컴퓨팅 노드가 실제 계산보다 데이터 전송 대기 시간을 더 많이 소비하게 되며, 학습 효율을 크게 저하시킨다. 이는 단순히 느린 문제가 아니라 실현 가능 vs 불가능의 차이이며, 전체 학습 프로세스 자체를 불가능하게 만들 수 있다.

중앙집중형 데이터센터

중앙집중형 데이터센터에서도 대규모 모델 학습은 여전히 통신 최적화가 필요하다.

고성능 컴퓨팅 장치들이 클러스터를 이루고 고속 네트워크로 연결되어 작업을 공유한다. 그러나 이런 고속 네트워크 환경에서도 파라미터 수가 극도로 많은 모델의 학습 시 통신 오버헤드는 여전히 병목이 된다. 모델의 파라미터와 그래디언트는 여러 컴퓨팅 장치 간에 빈번히 전송 및 갱신되어야 하기 때문이다.

앞서 언급했듯, 100개의 컴퓨팅 노드가 있고, 각 서버의 네트워크 대역폭이 25Gbps라고 가정하자. 각 서버가 매 학습 스텝마다 모든 파라미터를 갱신한다면, 약 700GB 데이터 전송에 약 224초가 소요된다. 중앙집중형 데이터센터의 장점을 활용하면, 데이터센터 내부에서 네트워크 토폴로지를 최적화하고 모델 병렬화 기술 등을 사용하여 이 시간을 크게 줄일 수 있다.

반면, 동일한 학습을 전 세계에 분산된 100개의 컴퓨팅 노드로 구성된 분산 환경에서 수행한다고 가정하면, 각 노드의 평균 네트워크 대역폭이 1Gbps라면, 동일한 700GB 데이터 전송에 약 5600초가 소요되며, 중앙집중형 데이터센터보다 훨씬 오래 걸린다. 게다가 네트워크 지연과 혼잡으로 실제 소요 시간은 더 길어질 수 있다.

분산 컴퓨팅 네트워크에 비해 중앙집중형 데이터센터의 통신 오버헤드 최적화는 비교적 용이하다. 중앙집중형 데이터센터에서는 컴퓨팅 장치들이 일반적으로 동일한 고속 네트워크에 연결되어 있어 대역폭과 지연이 상대적으로 우수하다. 반면 분산 컴퓨팅 네트워크에서는 컴퓨팅 노드가 전 세계에 흩어져 있어 네트워크 조건이 상대적으로 열악하므로 통신 오버헤드 문제가 더욱 심각하다.

OpenAI는 GPT-3 학습 과정에서 통신 오버헤드 문제를 해결하기 위해 'Megatron'이라는 모델 병렬 프레임워크를 사용했다. Megatron은 모델 파라미터를 분할하여 여러 GPU에 분산 처리함으로써 각 장치가 저장하고 갱신해야 하는 파라미터 양을 줄여 통신 오버헤드를 감소시킨다. 동시에 고속 인터커넥트 네트워크를 사용하고 네트워크 토폴로지를 최적화하여 통신 경로 길이를 줄이기도 했다.

(LLM 모델 학습에 사용된 데이터)

3. 왜 분산 컴퓨팅 네트워크는 이러한 최적화를 할 수 없는가?

기술적으로는 가능하지만, 중앙집중형 데이터센터에 비해 이러한 최적화의 효과는 크게 제한된다.

1. 네트워크 토폴로지 최적화: 중앙집중형 데이터센터에서는 네트워크 하드웨어와 배치를 직접 제어할 수 있으므로 필요에 따라 네트워크 토폴로지를 설계하고 최적화할 수 있다. 반면 분산 환경에서는 컴퓨팅 노드가 서로 다른 지리적 위치에 분포되어 있어(예: 중국과 미국), 그들 사이의 네트워크 연결을 직접 제어할 수 없다. 소프트웨어적으로 데이터 전송 경로를 최적화할 수는 있지만, 하드웨어 네트워크를 직접 최적화하는 것만큼 효과적이지 않다. 또한 지리적 차이로 인해 네트워크 지연과 대역폭 변동성이 크므로, 네트워크 토폴로지 최적화의 효과가 더욱 제한된다.

2. 모델 병렬화: 모델 병렬화는 모델 파라미터를 여러 컴퓨팅 노드에 분할하여 병렬 처리로 학습 속도를 높이는 기술이다. 그러나 이 방법은 노드 간 빈번한 데이터 전송을 필요로 하므로 네트워크 대역폭과 지연에 매우 민감하다. 중앙집중형 데이터센터는 고대역폭, 저지연 특성 덕분에 모델 병렬화가 매우 효과적이다. 반면 분산 환경은 네트워크 조건이 열악하여 모델 병렬화의 효과가 크게 제한된다.

4. 데이터 보안 및 프라이버시의 도전

데이터 처리 및 전송이 관련된 거의 모든 단계에서 데이터 보안과 프라이버시 문제가 발생할 수 있다:

1. 데이터 분배: 학습 데이터는 각 컴퓨팅 노드에 분배되어야 한다. 이 과정에서 데이터가 분산된 노드에서 악의적으로 사용되거나 유출될 위험이 있다.

2. 모델 학습: 학습 과정에서 각 노드는 할당받은 데이터를 사용하여 계산을 수행하고 모델 파라미터 갱신 또는 그래디언트를 출력한다. 이 과정에서 노드의 계산 과정이 도청되거나 결과가 악의적으로 해석되면 데이터 유출이 발생할 수 있다.

3. 파라미터 및 그래디언트 집계: 각 노드의 출력은 글로벌 모델을 갱신하기 위해 집계되어야 하며, 이 집계 과정의 통신을 통해 학습 데이터에 관한 정보가 유출될 수 있다.

데이터 프라이버시 문제에 대한 해결책은 무엇이 있는가?

보안 다자간 계산(SMC): 특정 소규모 계산 작업에서는 이미 성공적으로 적용되었으나, 대규모 분산 학습 작업에서는 계산 및 통신 오버헤드가 크기 때문에 아직 널리 사용되지 않았다.
차등 프라이버시(DP): Chrome 사용자 통계 등 일부 데이터 수집 및 분석 작업에 적용되었으나, 대규모 딥러닝 작업에서는 모델 정확도에 영향을 미칠 수 있다. 또한 적절한 노이즈 생성 및 추가 메커니즘 설계도 도전 과제다.
연합 학습(FL): Android 키보드 어휘 예측 등 일부 엣지 디바이스 모델 학습에 적용되었으나, 대규모 분산 학습 작업에서는 통신 오버헤드가 크고 조정이 복잡한 문제가 있다.
동형 암호화: 계산 복잡도가 작은 작업에서 성공적으로 적용되었으나, 대규모 분산 학습 작업에서는 계산 오버헤드가 크기 때문에 아직 널리 사용되지 않았다.

요약

각 방법은 각자의 적용 가능한 시나리오와 한계를 가지며, 분산 컴퓨팅 네트워크의 대규모 모델 학습에서 데이터 프라이버시 문제를 완전히 해결할 수 있는 방법은 현재 존재하지 않는다.

큰 기대를 받는 ZK가 대규모 모델 학습 시 데이터 프라이버시 문제를 해결할 수 있을까?

이론적으로 ZKP는 분산 컴퓨팅에서 데이터 프라이버시를 보장할 수 있다. 노드가 규정된 대로 계산을 수행했음을 증명하면서도 실제 입력 및 출력 데이터를 공개하지 않을 수 있기 때문이다.

그러나 실제로 ZKP를 대규모 분산 컴퓨팅 네트워크에서 대규모 모델 학습에 적용하는 데는 다음과 같은 병목이 있다:

계산 및 통신 오버헤드 증가: 제로지식 증명의 생성 및 검증에는 막대한 계산 자원이 필요하다. 또한 ZKP의 통신 오버헤드도 크며, 증명 자체를 전송해야 하기 때문이다. 대규모 모델 학습 시 이러한 오버헤드는 특히 두드러진다. 예를 들어, 각 미니배치 계산마다 증명을 생성해야 한다면 전체 학습 시간과 비용이 크게 증가할 것이다.
ZK 프로토콜의 복잡성: 대규모 모델 학습에 적합한 ZKP 프로토콜을 설계하고 구현하는 것은 매우 복잡하다. 이 프로토콜은 대규모 데이터와 복잡한 계산을 처리할 수 있어야 하며, 예기치 않은 오류 상황도 처리할 수 있어야 한다.
하드웨어 및 소프트웨어 호환성: ZKP 사용에는 특정 하드웨어 및 소프트웨어 지원이 필요하며, 모든 분산 컴퓨팅 장치에서 이를 지원하지 않을 수 있다.

요약

ZKP를 대규모 분산 컴퓨팅 네트워크의 대규모 모델 학습에 적용하기 위해서는 수년간의 연구 및 개발이 필요하며, 학계에서도 이 방향에 더 많은 노력과 자원이 투입되어야 한다.

분산 컴퓨팅 파워 — 모델 추론

분산 컴퓨팅 파워의 또 다른 주요 응용 분야는 모델 추론이다. 대규모 모델의 발전 경로를 고려할 때, 모델 학습 수요는 일정한 정점을 지난 후 대규모 모델의 성숙과 함께 점차 둔화될 것으로 예상되지만, 반대로 모델 추론 수요는 대규모 모델과 AIGC의 성숙과 함께 지수급수적으로 증가할 것이다.

추론 작업은 학습 작업에 비해 일반적으로 계산 복잡도가 낮고 데이터 상호작용성이 약해 분산 환경에서 수행하기에 더 적합하다.

(NVIDIA Triton으로 LLM 추론 가속화)

1. 도전 과제

통신 지연:

분산 환경에서는 노드 간 통신이 필수적이다. 탈중앙화된 분산 컴퓨팅 네트워크에서는 노드가 전 세계에 퍼져 있을 수 있으므로 네트워크 지연이 문제될 수 있으며, 특히 실시간 응답이 필요한 추론 작업에서는 더욱 그렇다.

모델 배포 및 업데이트:

모델은 각 노드에 배포되어야 한다. 모델이 업데이트되는 경우 모든 노드가 모델을 업데이트해야 하며, 이는 많은 네트워크 대역폭과 시간을 소모한다.

데이터 프라이버시:

추론 작업은 일반적으로 입력 데이터와 모델만 필요로 하며, 많은 중간 데이터와 파라미터를 다시 전송할 필요는 없지만, 입력 데이터 자체가 사용자 개인정보 등 민감 정보를 포함할 수 있다.

모델 보안:

탈중앙화된 네트워크에서는 모델이 신뢰할 수 없는 노드에 배포되어야 하므로 모델 유출로 인한 지적 재산권 침해 및 남용 문제가 발생할 수 있다. 또한 민감한 데이터를 처리하는 모델의 경우, 노드가 모델의 행동을 분석하여 민감 정보를 추론할 수도 있어 보안 및 프라이버시 문제가 발생할 수 있다.

품질 관리:

탈중앙화된 분산 컴퓨팅 네트워크의 각 노드는 서로 다른 계산 능력과 리소스를 가질 수 있으므로 추론 작업의 성능과 품질을 보장하기 어려울 수 있다.

2. 실현 가능성

계산 복잡도:

학습 단계에서는 모델이 반복적으로 반복되며, 각 층에서 순전파 및 역전파 계산(활성화 함수 계산, 손실 함수 계산, 그래디언트 계산, 가중치 갱신 등)이 필요하므로 계산 복잡도가 높다.

반면 추론 단계에서는 예측 결과를 얻기 위한 단일 순전파 계산만 필요하다. 예를 들어 GPT-3에서는 입력 텍스트를 벡터로 변환한 후 모델의 각 층(일반적으로 Transformer 층)을 통해 순전파를 수행하고, 출력 확률 분포를 얻은 후 다음 단어를 생성한다. GANs에서는 입력 노이즈 벡터로부터 이미지를 생성한다. 이러한 작업은 모델의 순전파만 포함되며 그래디언트 계산이나 파라미터 갱신이 필요 없으므로 계산 복잡도가 낮다.

데이터 상호작용성:

추론 단계에서는 일반적으로 대량의 배치 데이터가 아닌 단일 입력을 처리한다. 각 추론 결과는 현재 입력에만 의존하며 다른 입력이나 출력에 의존하지 않으므로 대량의 데이터 상호작용이 필요 없으며 통신 부담도 작다.

생성형 이미지 모델을 예로 들면, GANs를 사용하여 이미지를 생성할 때 노이즈 벡터 하나만 모델에 입력하면 해당 이미지가 생성된다. 이 과정에서 각 입력은 하나의 출력만 생성하며 출력 간 종속 관계가 없으므로 데이터 상호작용이 필요 없다.

GPT-3의 경우에도 다음 단어를 생성할 때는 현재 텍스트 입력과 모델 상태만 필요하며 다른 입력이나 출력과의 상호작용이 필요 없으므로 데이터 상호작용성 요구도 낮다.

요약

대규모 언어 모델이든 생성형 이미지 모델이든 추론 작업은 계산 복잡도와 데이터 상호작용성이 낮아 탈중앙화된 분산 컴퓨팅 네트워크에서 수행하기에 더 적합하며, 현재 대부분의 프로젝트가 이 방향에 집중하고 있는 이유이기도 하다.

프로젝트 사례

탈중앙화된 분산 컴퓨팅 네트워크는 기술적 진입 장벽과 기술 범위가 매우 높으며 하드웨어 리소스도 필요로 하므로 현재까지 많은 시도가 이루어지지 않았다. Together와 Gensyn.ai를 예로 들어보자:

1. Together

(Together의 RedPajama)

Together는 대규모 모델의 오픈소스화에 집중하며 탈중앙화된 AI 컴퓨팅 솔루션을 목표로 하는 회사로, 누구나 어디서나 AI에 접근하고 사용할 수 있도록 하고자 한다. Together는 최근 Lux Capital이 주도하는 2000만 달러 규모의 시드 펀딩을 완료했다.

Together는 Chris, Percy, Ce가 공동 설립하였으며, 설립 목적은 대규모 모델 학습에 고성능 GPU 클러스터와 막대한 비용이 필요하며, 이러한 자원과 모델 학습 능력이少数 대기업에 집중되어 있다는 점에서 비롯되었다.

필자의 관점에서, 분산 컴퓨팅 네트워크 창업의 합리적인 로드맵은 다음과 같다:

단계 1. 오픈소스 모델

탈중앙화된 분산 컴퓨팅 네트워크에서 모델 추론을 실현하기 위한 전제 조건은 노드가 저비용으로 모델을 획득할 수 있어야 한다는 것이다. 즉, 탈중앙화된 컴퓨팅 네트워크에서 사용되는 모델은 오픈소스여야 한다(특정 라이선스 하에 사용해야 하는 모델은 구현의 복잡성과 비용을 증가시킴). 예를 들어 비오픈소스 모델인 ChatGPT는 탈중앙화된 컴퓨팅 네트워크에서 실행하기에 적합하지 않다.

따라서 탈중앙화된 컴퓨팅 네트워크를 제공하는 회사의 숨겨진 장벽은 강력한 대규모 모델 개발 및 유지 관리 능력을 갖추어야 한다는 것이다. 자체 개발하고 오픈소스화한 강력한 기본 모델(base model)을 보유하면 제3자 모델의 오픈소스화에 대한 의존도를 어느 정도 줄일 수 있으며, 탈중앙화된 컴퓨팅 네트워크의 가장 기본적인 문제를 해결할 수 있다. 또한 컴퓨팅 네트워크가 대규모 모델의 학습 및 추론을 효과적으로 수행할 수 있음을 입증하는 데도 유리하다.

Together는 바로 이를 실천하고 있다. 최근 LLaMA 기반으로 발표한 RedPajama는 Together, Ontocord.ai, ETH DS 3 Lab, Stanford CRFM, Hazy Research 등 팀들이 공동으로 추진한 프로젝트로, 완전히 오픈소스인 대규모 언어 모델 시리즈 개발을 목표로 한다.

단계 2. 분산 컴퓨팅 파워의 모델 추론 적용

앞서 설명한 바와 같이, 모델 학습에 비해 모델 추론은 계산 복잡도와 데이터 상호작용성이 낮아 탈중앙화된 분산 환경에서 수행하기에 더 적합하다.

오픈소스 모델을 기반으로 Together 연구팀은 RedPajama-INCITE-3B 모델에 대해 LoRA를 활용한 저비용 파인튜닝 등 일련의 업데이트를 수행하여 M2 Pro 프로세서가 탑재된 MacBook Pro와 같은 CPU에서도 모델 실행이 매끄럽게 이루어지도록 했다. 또한 이 모델의 규모는 작지만 동일 규모의 다른 모델보다 능력이 뛰어나며 법률, 소셜 등 다양한 시나리오에서 실제 적용되고 있다.

단계 3. 분산 컴퓨팅 파워의 모델 학습 적용

(탈중앙화된 학습의 통신 병목을 극복하기 위한 컴퓨팅 네트워크 개념도)

중장기적으로는 큰 도전과 기술적 병목에도 불구하고, AI 대규모 모델 학습의 컴퓨팅 수요를 담당하는 것이 가장 매력적인 목표다. Together는 설립 초기부터 탈중앙화된 학습에서의 통신 병목을 극복하는 방법을 연구해왔다. NeurIPS 2022에서 "탈중앙화된 학습을 위한 통신 병목 극복(Overcoming Communication Bottlenecks for Decentralized Training)"이라는 제목의 논문을 발표하기도 했다. 주요 연구 방향을 다음과 같이 요약할 수 있다:

스케줄링 최적화

탈중앙화된 환경에서 학습을 수행할 때 각 노드 간 연결의 지연과 대역폭이 다르므로, 빈번한 통신이 필요한 작업을 빠른 연결을 가진 장치에 할당하는 것이 중요하다. Together는 특정 스케줄링 전략의 비용을 설명하는 모델을 구축하여 통신 비용을 최소화하고 학습 처리량을 극대화하기 위한 스케줄링 전략을 최적화한다. Together 팀은 네트워크 속도가 100배 느려도 엔드투엔드 학습 처리량은 1.7~2.3배 정도만 느려지는 것을 발견했다. 따라서 스케줄링 최적화를 통해 분산 네트워크와 중앙집중형 클러스터 간 격차를 좁힐 가능성이 있음을 보여준다.

통신 압축 최적화

Together는 순방향 활성화 및 역방향 그래디언트에 대한 통신 압축을 제안하며 AQ-SGD 알고리즘을 소개했다. 이 알고리즘은 확률적 경사하강법(SGD) 수렴에 대한 엄격한 보장을 제공한다. AQ-SGD는 느린 네트워크(예: 500Mbps)에서도 대규모 기본 모델의 파인튜닝이 가능하며, 중앙집중형 컴퓨팅 네트워크(예: 10Gbps)에서 압축 없이 수행한 엔드투엔드 학습 성능에 비해 31% 느릴 뿐이다. 또한 AQ-SGD는 QuantizedAdam과 같은 최신 그래디언트 압축 기술과 결합하여 엔드투엔드 속도를 10% 향상시킬 수 있다.

프로젝트 요약

Together 팀은 구성이 매우 다양하며, 구성원들은 강력한 학문적 배경을 갖추고 있으며, 대규모 모델 개발, 클라우드 컴퓨팅, 하드웨어 최적화 등 각 분야의 전문가들이 참여하고 있다. 또한 Together는 로드맵 설정에서 장기적인 안목과 인내심을 보여주고 있으며, 오픈소스 대규모 모델 개발에서 유휴 컴퓨팅 파워(Mac 등)를 활용한 모델 추론 테스트, 그리고 대규모 모델 학습을 위한 분산 컴퓨팅 파워 적용까지의 여정은 두터운 축적 후 폭발적인 성장을 준비하는 느낌을 준다 :)

그러나 현재까지 Together는 인센티브 계층에서 많은 연구 성과를 공개하지 않았으며, 이는 기술 개발과 동일하게 중요하며 탈중앙화된 컴퓨팅 네트워크 발전을 보장하는 핵심 요소라고 생각한다.

2. Gensyn.ai

(Gensyn.ai)

Together의 기술 경로를 통해 탈중앙화된 컴퓨팅 네트워크가 모델 학습 및 추론에 어떻게 적용되는지와 그에 따른 연구 중점사항을 대략적으로 이해할 수 있다.

또 다른 간과할 수 없는 핵심은 컴퓨팅 네트워크의 인센티브 계층/합의 알고리즘 설계다. 우수한 네트워크는 다음과 같은 특성을 가져야 한다:

1. 수익이 충분히 매력적이어야 한다;

2. 각 마이너(miner)가 공정하게 보상을 받으며, 부정행위 방지와 다한 만큼 보상받는 구조여야 한다;

3. 작업이 다양한 노드 간에 합리적으로 스케줄링 및 분배되어야 하며, 유휴 노드가 많거나 일부 노드가 과도하게 혼잡해지는 일이 없어야 한다;

4. 인센티브 알고리즘이 간결하고 효율적이어야 하며, 과도한 시스템 부담과 지연을 초래해서는 안 된다;

Gensyn.ai의 접근 방식을 살펴보자:

노드 참여

먼저, 컴퓨팅 네트워크의 solver는 user가 제출한 작업을 수행할 권리를 입찰(bid) 방식으로 경쟁하며, 작업의 규모와 부정행위 발견 위험에 따라 일정 금액을 담보로 제공해야 한다.

검증

Solver는 파라미터를 갱신하는 동시에 여러 checkpoints를 생성하여 작업의 투명성과 추적 가능성을 보장하며, 정기적으로 작업에 대한 암호학적 추론 증명(proofs)을 생성한다(작업 진행 상황의 증명);

Solver가 작업을 완료하고 일부 계산 결과를 생성하면, 프로토콜은 verifier를 선정하며 verifier도 일정 금액을 담보로 제공한다(verifier가 정직하게 검증을 수행하도록 보장). 이후 위에서 제공된 증명(proofs)에 따라 어느 부분의 계산 결과를 검증할지 결정한다.

solver와 verifier 간 의견이 다를 경우

Merkle tree 기반의 데이터 구조를 통해 계산 결과가 일치하지 않는 정확한 위치를 찾아낸다. 전체 검증 작업은 체인에 기록되며, 부정행위자는 담보금을 몰수당한다.

프로젝트 요약

인센티브 및 검증 알고리즘 설계로 인해 Gensyn.ai는 검증 과정에서 전체 계산 작업의 결과를 재실행할 필요 없이, 제공된 증명(proofs)에 따라 일부 결과만 복제 및 검증하면 된다. 이는 검증 효율을 크게 향상시키며, 노드는 일부 계산 결과만 저장하면 되므로 저장 공간과 계산 자원 소모도 줄어든다. 또한 잠재적 부정행위 노드는 어느 부분이 검증 대상으로 선택될지 예측할 수 없으므로 부정행위 유인이 낮아진다;

이러한 의견 불일치를 해결하고 부정행위자를 찾는 방식은 전체 계산 결과를 비교하지 않고도(Merkle 트리의 루트 노드에서 시작하여 아래로 점차 이동하며) 계산 과정에서 오류가 발생한 지점을 빠르게 찾을 수 있어, 대규모 계산 작업 처리 시 매우 효과적이다.

결론적으로 Gensyn.ai의 인센티브/검증 계층 설계 목표는 간결하고 효율적인 것이다. 그러나 현재는 이론적 수준에 머물러 있으며, 실제 구현 시 다음과 같은 도전 과제에 직면할 수 있다:

경제 모델 측면에서, 사기 행위를 효과적으로 방지하면서도 참여자에게 과도한 진입 장벽을 만들지 않는 적절한 파라미터 설정이 필요하다.
기술 구현 측면에서, 효과적인 주기적 암호학적 추론 증명을 수립하는 것도 고급 암호학 지식이 필요한 복잡한 문제다.
작업 분배 측면에서, 단순히 입찰(bid) 메커니즘만으로 작업을 solver에게 할당하는 것은 효율성과 실현 가능성 측면에서 의문이 있다. 예를 들어, 컴퓨팅 능력이 강한 노드는 더 큰 규모의 작업을 처리할 수 있지만 입찰에 참여하지 않을 수 있으며(이 경우 노드 가용성에 대한 인센티브 문제가 발생), 컴퓨팅 능력이 낮은 노드가 입찰가를 가장 높게 제시하더라도 복잡한 대규모 계산 작업을 수행하기에 부적합할 수 있다.

미래에 대한 몇 가지 고찰

왜 탈중앙화된 컴퓨팅 네트워크가 필요한가?라는 질문은 아직 검증되지 않았다. 유휴 컴퓨팅 파워를 컴퓨팅 자원 수요가 엄청난 대규모 모델 학습에 활용하는 것이 가장 타당하며 상상력도 가장 크다. 그러나 실제로는 통신, 프라이버시 등의 병목으로 인해 우리는 다시 생각해봐야 한다:

탈중앙화된 방식으로 대규모 모델을 학습하는 것이 정말로 희망이 보이는가?

모두가 공감하는 "가장 합리적인 실현 시나리오"라는 틀에서 벗어나 보면, 탈중앙화된 컴퓨팅 파워를 소규모 AI 모델 학습에 적용하는 것도 매우 큰 시장이 될 수 있지 않을까?

기술적으로 보면 현재의 제약 요소들은 모델의 규모와 아키텍처로 인해 해결되고 있다. 시장적으로도 우리는 대규모 모델 학습 수요가 현재부터 미래까지 계속 클 것이라 생각하지만, 소규모 AI 모델 시장은 매력적이지 않을까?

그렇지 않다고 본다. 대규모 모델에 비해 소규모 AI 모델은 배포 및 관리가 용이하며, 처리 속도와 메모리 사용 측면에서도 더 효율적이다. 많은 응용 시나리오에서 사용자나 기업은 대규모 언어 모델의 일반적인 추론 능력보다는 매우 세부적인 예측 목표에만 관심이 있다. 따라서 대부분의 시나리오에서 소규모 AI 모델이 여전히 더 실현 가능한 선택이며, 대규모 모델에 대한 FOMO(Fear of Missing Out) 열풍 속에서 너무 일찍

TechFlow 공식 커뮤니티에 오신 것을 환영합니다

Telegram 구독 그룹:https://t.me/TechFlowDaily

트위터 공식 계정:https://x.com/TechFlowPost

트위터 영어 계정:https://x.com/BlockFlow_News

원문 링크

즐겨찾기 추가

소셜 미디어 공유

작성자

Foresight Ventures