AI x DePIN: 뜨거운 분야의 융합이 낳을 새로운 기회들

2024.01.19

AI x DePIN: 뜨거운 분야의 융합이 낳을 새로운 기회들

알고리즘, 컴퓨팅 파워 및 데이터의 힘을 활용하여 AI 기술의 발전이 데이터 처리와 지능형 의사결정의 경계를 재정의하고 있다.

2024.01.19 - 02:28:31

AIDePIN

Web3 심층 보도에 집중하고 흐름을 통찰

알고리즘, 컴퓨팅 파워 및 데이터의 힘을 활용하여 AI 기술의 발전이 데이터 처리와 지능형 의사결정의 경계를 재정의하고 있다.

글: Cynic, Shigeru

본 기사는 Web3 x AI 시리즈 리서치 보고서 제2편으로, 서론은 「평행에서 교차로: 'Web3과 AI 융합'이 이끄는 디지털 경제의 새로운 물결을 탐색하다」를 참고하십시오.

세계가 디지털 전환으로 나아가는 속도가 빨라짐에 따라, AI와 DePIN(탈중앙화 물리 인프라)은 각 산업 분야의 변화를 주도하는 핵심 기술로 부상하고 있습니다. AI와 DePIN의 융합은 기술의 빠른 반복과 확산을 촉진할 뿐 아니라, 더욱 안전하고 투명하며 효율적인 서비스 모델을 열어全球经济에 깊은 영향을 미칠 것입니다.

DePIN: 탈중앙화가 현실 세계로 진입, 디지털 경제의 중추

DePIN은 탈중앙화 물리 인프라(Decentralized Physical Infrastructure)의 약자입니다. 협의적으로 말하면, DePIN은 전력망, 통신망, 위치 정보 네트워크 등과 같은 전통적 물리 인프라를 지분장부 기술(DLT) 기반의 분산 네트워크로 구현한 것을 의미합니다. 광의적으로 보면 저장소 네트워크, 컴퓨팅 네트워크 등 물리 장비로 구성된 모든 분산형 네트워크를 DePIN이라 할 수 있습니다.

출처: Messari

만약 크립토(Crypto)가 금융 차원에서 탈중앙화의 변혁을 가져왔다면, DePIN은 실물경제에서의 탈중앙화 해결책이라 할 수 있습니다. 사실 PoW 마이닝 장비 자체도 일종의 DePIN이라고 볼 수 있으며, 출발부터 DePIN은 Web3의 핵심 기둥이었습니다.

AI의 3요소 — 알고리즘, 컴퓨팅 파워, 데이터, DePIN은 그 중 두 가지를 독점

인공지능 발전은 일반적으로 세 가지 핵심 요소에 의존한다고 여겨집니다: 알고리즘, 컴퓨팅 파워(연산 능력), 데이터. 알고리즘은 AI 시스템을 구동하는 수학적 모델과 프로그램 논리를 의미하고, 컴퓨팅 파워는 이러한 알고리즘을 실행하기 위한 계산 자원을 뜻하며, 데이터는 AI 모델을 훈련하고 최적화하는 기초입니다.

이 세 요소 중 어느 것이 가장 중요한가? ChatGPT 등장 이전에는 대부분 알고리즘이라고 여겼습니다. 그렇지 않다면 학술 컨퍼런스나 저널 논문들이 왜 끊임없이 알고리즘 조정 논문들로 채워졌겠습니까? 하지만 ChatGPT와 이를 뒷받침하는 대규모 언어 모델(LLM)이 등장한 후 사람들은 후자의 중요성을 깨닫기 시작했습니다. 방대한 컴퓨팅 파워는 모델 생성의 전제이며, 데이터의 질과 다양성은 견고하고 효율적인 AI 시스템을 구축하는 데 매우 중요합니다. 반면 알고리즘에 대한 요구는 예전처럼 정밀함보다 덜 엄격해졌습니다.

빅모델 시대에 들어 AI는 정교한 조각보 만들기에서 '거친 돌로 벽을 세우는' 형태로 바뀌었으며, 연산 능력과 데이터에 대한 수요는 날로 증가하고 있습니다. 그리고 바로 DePIN이 이를 충족시킬 수 있는 잠재력을 지녔습니다. 토큰 인센티브는 로ング테일 시장을 자극하여, 방대한 소비자급 컴퓨팅 파워와 저장 공간이 빅모델에게 최고의 양분이 될 수 있습니다.

AI의 탈중앙화는 선택이 아닌 필수

물론 누군가는 이렇게 반문할 수 있습니다. "AWS 데이터센터에도 컴퓨팅 파워와 데이터가 모두 있는데, 안정성이나 사용 경험 면에서도 DePIN보다 우수하다. 굳이 DePIN을 선택해야 할 이유가 무엇인가?"

이 주장도 일리가 있습니다. 현재 대부분의 빅모델이 대형 인터넷 기업들에 의해 직접 또는 간접적으로 개발되고 있기 때문입니다. ChatGPT 뒤에는 마이크로소프트가 있고, Gemini 뒤에는 구글이 있으며, 중국의 인터넷 거대 기업들도 하나씩 대형 모델을 보유하고 있습니다. 왜 그럴까요? 오직 대형 인터넷 기업만이 충분히 질 좋은 데이터와 막대한 재정력을 바탕으로 한 컴퓨팅 파워를 가질 수 있기 때문입니다. 그러나 이제 사람들은 더 이상 인터넷 거대 기업이 모든 것을 장악하는 상황을 원하지 않습니다.

먼저, 중심화된 AI는 데이터 프라이버시와 보안 위험을 내포하며 검열과 통제를 받을 수 있습니다. 또한, 인터넷 거대 기업이 만든 AI는 사람들이 더욱 강하게 의존하게 만들며, 시장의 집중화를 초래하고 혁신의 장벽을 높입니다.

출처: https://www.gensyn.ai/

인류는 더 이상 AI 시대의 마르틴 루터를 필요로 하지 않습니다. 우리는 직접 신과 대화할 권리가 있어야 합니다.

비즈니스 관점에서 본 DePIN: 비용 절감과 효율 증대가 핵심

탈중앙화와 중심화의 가치 논쟁을 떠나더라도, 비즈니스 관점에서 DePIN을 AI에 활용하는 것은 매력적입니다.

우선 명확히 알아야 할 점은, 인터넷 거대 기업이 고사양 GPU 자원을 많이 보유하고 있다고 해도, 민간에 흩어진 소비자급 GPU들을 결합하면 상당한 규모의 컴퓨팅 네트워크를 형성할 수 있다는 점입니다. 즉, 컴퓨팅 파워의 로ング테일 효과입니다. 이러한 소비자급 GPU들의 유휴율은 매우 높습니다. DePIN이 제공하는 인센티브가 전기료를 초과한다면, 사용자는 네트워크에 컴퓨팅 파워를 기여할 동기를 갖게 됩니다. 동시에 모든 물리 인프라는 사용자가 직접 관리하므로, DePIN 네트워크는 중심화 공급업체가 피할 수 없는 운영 비용을 부담할 필요 없이, 프로토콜 설계 자체에만 집중하면 됩니다.

데이터 측면에서는, DePIN 네트워크가 에지 컴퓨팅 등을 통해 잠재적 데이터의 활용 가능성을 높이고 전송 비용을 낮출 수 있습니다. 또한 대부분의 분산 저장 네트워크는 자동 중복 제거 기능을 갖춰 AI 훈련 데이터 전처리 작업을 줄일 수 있습니다.

마지막으로, DePIN이 도입한 크립토 경제학은 시스템의 오류 허용 범위를 확대하며 제공자, 소비자, 플랫폼 간의 삼자 모두에게 이익이 되는 구조를 실현할 가능성이 있습니다.

출처: UCLA

믿기 어려울 수도 있지만, UCLA의 최신 연구에 따르면 동일한 비용 하에서 탈중앙화 컴퓨팅을 전통적인 GPU 클러스터보다 2.75배 더 높은 성능을 달성했으며, 구체적으로는 1.22배 더 빠르고 비용은 4.83배 저렴했습니다.

난관 속 도전: AIxDePIN이 직면하는 문제들

"우리는 이 십 년 안에 달에 가기로 결정한다. 다른 일을 하기로 하는 것도 아니다. 쉽기 때문이 아니라, 어렵기 때문이다." — 존 F. 케네디

탈중앙화된 저장 및 컴퓨팅을 이용해 신뢰 없이 AI 모델을 구축하는 것은 여전히 많은 도전 과제를 안고 있습니다.

작업 검증

근본적으로 말하면, 딥러닝 모델 계산과 PoW 마이닝 모두 범용 컴퓨팅이며, 가장 하위층에서는 게이트 회로 간의 신호 변화입니다. 거시적으로 보면, PoW 마이닝은 '무용한 계산'으로 무수한 난수 생성과 해시 함수 계산을 통해 접두어에 n개의 0이 붙은 해시 값을 찾으려 합니다. 반면 딥러닝 계산은 '유용한 계산'으로, 순방향 및 역방향 전파를 통해 각 층의 파라미터 값을 계산해 효율적인 AI 모델을 구성합니다.

사실 PoW 마이닝과 같은 '무용한 계산'은 해시 함수를 사용하는데, 원상을 입력해 결과를 계산하는 것은 쉬우나 그 반대는 매우 어렵기 때문에 누구나 쉽게 신속하게 계산 결과를 검증할 수 있습니다. 그러나 딥러닝 모델 계산은 계층적 구조 때문에 각 층의 출력이 다음 층의 입력이 되므로, 계산의 유효성을 검증하려면 이전의 모든 작업을 다시 수행해야 하며, 간단하고 효과적으로 검증하기 어렵습니다.

출처: AWS

작업 검증은 매우 중요합니다. 그렇지 않으면 컴퓨팅 제공자는 계산을 전혀 하지 않고 임의의 결과만 제출할 수 있기 때문입니다.

한 가지 접근법은 서로 다른 서버에 동일한 작업을 수행하게 하고, 반복 실행 후 결과가 일치하는지를 확인해 유효성을 검증하는 것입니다. 그러나 대부분의 모델 계산은 비결정적이며, 완전히 동일한 환경에서도 동일한 결과를 재현할 수 없습니다. 통계적으로 유사한 정도만 가능합니다. 또한 반복 계산은 비용을 급격히 증가시키며, 이는 DePIN의 비용 절감 및 효율 증대라는 핵심 목표와 맞지 않습니다.

다른 접근법은 낙관적(Optimistic) 메커니즘으로, 먼저 결과가 유효하게 계산되었다고 가정한 뒤, 누구든지 계산 결과를 검증할 수 있도록 하고, 오류를 발견하면 사기 증명(Fraud Proof)을 제출할 수 있게 하는 것입니다. 프로토콜은 사기 행위를 한 자에게 패널티를 부과하고 제보자에게 보상을 제공합니다.

병렬화

앞서 언급했듯이, DePIN이 주로 활용하는 것은 소비자급 컴퓨팅 파워의 로ング테일 시장이며, 이는 단일 장치가 제공할 수 있는 컴퓨팅 파워가 제한적임을 의미합니다. 대규모 AI 모델의 경우 단일 장치에서 훈련하는 시간이 매우 길어지므로, 병렬화를 통해 훈련 시간을 단축해야 합니다.

딥러닝 훈련의 병렬화의 주요 난관은 전후 작업 간의 종속성에 있습니다. 이러한 종속성은 병렬화를 어렵게 만듭니다.

현재 딥러닝 훈련의 병렬화는 주로 데이터 병렬화와 모델 병렬화로 나뉩니다.

데이터 병렬화는 데이터를 여러 기기에 분산시키고, 각 기기가 모델 전체의 파라미터를 보유한 상태에서 로컬 데이터로 훈련을 수행한 후, 각 기기의 파라미터를 통합하는 방식입니다. 데이터량이 많을 때 효과적이지만, 파라미터 통합을 위해 동기화된 통신이 필요합니다.

모델 병렬화는 모델이 너무 커서 단일 기기에 적재할 수 없을 때, 모델을 여러 기기에 분할하여 각 기기가 일부 파라미터만 보유하는 방식입니다. 순방향 및 역방향 전파 시 서로 다른 기기 간 통신이 필요합니다. 모델이 큰 경우에 유리하지만, 전파 과정에서의 통신 비용이 큽니다.

각 층 간 그래디언트 정보에 대해서는 동기화 업데이트와 비동기화 업데이트로 나눌 수 있습니다. 동기화 업데이트는 간단하지만 대기 시간이 길어지고, 비동기화 업데이트는 대기 시간이 짧지만 안정성 문제가 발생할 수 있습니다.

출처: 스탠포드 대학교, Parallel and Distributed Deep Learning

프라이버시

전 세계적으로 개인정보 프라이버시 보호에 대한 관심이 높아지고 있으며, 각국 정부도 개인 데이터 보안 강화에 나서고 있습니다. AI는 공개 데이터셋을 많이 사용하지만, 다양한 AI 모델을 차별화하는 핵심은 각 기업의 전용 사용자 데이터입니다.

훈련 과정에서 전용 데이터의 이점을 얻되 프라이버시를 노출하지 않으려면 어떻게 해야 할까요? 구성된 AI 모델의 파라미터가 유출되지 않도록 보장하려면?

이것은 프라이버시의 두 가지 측면, 즉 데이터 프라이버시와 모델 프라이버시입니다. 데이터 프라이버시는 사용자를 보호하고, 모델 프라이버시는 모델을 구축하는 조직을 보호합니다. 현재로서는 데이터 프라이버시가 모델 프라이버시보다 훨씬 중요합니다.

프라이버시 문제 해결을 위한 다양한 방안이 시도되고 있습니다. 페더레이티드 러닝(Federated Learning)은 데이터 원천에서 훈련을 수행하여 데이터를 현장에 남기고 모델 파라미터만 전송함으로써 데이터 프라이버시를 보호합니다. 또한 제로노우ledged 증명(ZKP)이 새롭게 부상할 가능성이 있습니다.

사례 분석: 시장에 어떤 우수한 프로젝트들이 있나?

Gensyn

Gensyn은 AI 모델 훈련을 위한 분산 컴퓨팅 네트워크입니다. 이 네트워크는 Polkadot 기반 1단계 블록체인을 사용해 딥러닝 작업이 올바르게 수행되었는지 검증하고, 명령어를 통해 지불을 트리거합니다. 2020년 설립되었으며, 2023년 6월 a16z가 주도한 4300만 달러 규모의 A라운드 투자를 발표했습니다.

Gensyn은 그래디언트 기반 최적화 과정의 메타데이터를 사용해 수행된 작업의 증명서를 생성하며, 다중 정밀도, 그래프 기반의 정확한 프로토콜과 교차 평가자가 일관성 있게 실행되어 검증 작업을 다시 수행하고 일치성을 비교한 후 최종적으로 체인 자체가 확인함으로써 계산의 유효성을 보장합니다. 작업 검증의 신뢰성을 더욱 강화하기 위해 Gensyn은 스테이킹을 도입해 인센티브 구조를 만듭니다.

시스템에는 네 가지 참여자가 있습니다: 제출자(Submitters), 해결자(Solvers), 검증자(Verifiers), 제보자(Challengers).

제출자는 시스템의 최종 사용자로, 계산할 작업을 제공하고 완료된 작업 단위에 대해 지불합니다.
해결자는 시스템의 주요 작업자로, 모델 훈련을 수행하고 검증자가 점검할 수 있는 증명을 생성합니다.
검증자는 비결정적 훈련 과정과 결정적 선형 계산을 연결하는 핵심으로, 해결자의 증명 일부를 복제하고 예상 임계값과 거리를 비교합니다.
제보자는 마지막 방어선으로, 검증자의 작업을 점검하고 도전을 제기하며, 도전이 성공하면 보상을 받습니다.

해결자는 스테이킹을 해야 하며, 제보자가 해결자의 작업을 검증하여 악의적 행동을 발견하면 도전을 제기하고, 도전이 성공하면 해결자의 스테이킹 토큰이 몰수되며 제보자가 보상을 받습니다.

Gensyn의 예측에 따르면, 이 솔루션은 중심화 공급업체 대비 훈련 비용을 1/5 수준으로 낮출 수 있을 것으로 기대됩니다.

출처: Gensyn

FedML

FedML은 어디서나, 어떤 규모로든 탈중앙화 및 협업형 AI를 가능하게 하는 탈중앙화 협업 머신러닝 플랫폼입니다. 구체적으로 FedML은 MLOps 생태계를 제공하여, 데이터, 모델, 컴퓨팅 리소스를 결합하면서 프라이버시를 보호하는 방식으로 머신러닝 모델을 훈련, 배포, 모니터링 및 지속적으로 개선할 수 있습니다. 2022년 설립되었으며, 2023년 3월 600만 달러의 시드 펀딩을 발표했습니다.

FedML은 고급 API를 나타내는 FedML-API와 저수준 API를 나타내는 FedML-core 두 가지 핵심 구성 요소로 이루어져 있습니다.

FedML-core는 분산 통신과 모델 훈련이라는 두 개의 독립된 모듈을 포함합니다. 통신 모듈은 MPI 기반으로 서로 다른 작업자/클라이언트 간 저수준 통신을 담당하고, 모델 훈련 모듈은 PyTorch 기반입니다.

FedML-API는 FedML-core 위에 구축됩니다. FedML-core를 활용하면 클라이언트 중심의 프로그래밍 인터페이스를 채택해 새로운 분산 알고리즘을 쉽게 구현할 수 있습니다.

FedML 팀의 최신 연구 결과에 따르면, 소비자급 GPU RTX 4090에서 FedML Nexus AI를 사용한 AI 모델 추론이 A100 대비 20배 저렴하고 1.88배 더 빠릅니다.

출처: FedML

미래 전망: DePIN이 가져올 AI의 민주화

언젠가 AI가 더욱 발전해 AGI(일반 지능)가 되면, 컴퓨팅 파워는 실질적인 일반 통화가 될 것입니다. DePIN은 이 과정을 앞당길 수 있습니다.

AI와 DePIN의 융합은 새로운 기술 성장 포인트를 열어 인공지능 발전에 막대한 기회를 제공합니다. DePIN은 AI에게 방대한 분산형 컴퓨팅 파워와 데이터를 제공해 더 큰 규모의 모델 훈련과 더 강력한 지능 실현을 지원합니다. 동시에 DePIN은 AI가 더욱 개방적이고, 안전하며, 신뢰할 수 있는 방향으로 나아가도록 하며, 단일 중심화 인프라에 대한 의존도를 줄입니다.

미래를 전망하면, AI와 DePIN은 지속적으로 공동 발전할 것입니다. 분산 네트워크는 초대규모 모델 훈련을 위한 강력한 기반이 되며, 이러한 모델은 DePIN 응용에서 중요한 역할을 할 것입니다. 프라이버시와 보안을 보호하면서, AI는 DePIN 네트워크 프로토콜과 알고리즘의 최적화에도 기여할 것입니다. 우리는 AI와 DePIN이 더욱 효율적이고, 공정하며, 신뢰할 수 있는 디지털 세상을 만들어가기를 기대합니다.

TechFlow 공식 커뮤니티에 오신 것을 환영합니다

Telegram 구독 그룹:https://t.me/TechFlowDaily

트위터 공식 계정:https://x.com/TechFlowPost

트위터 영어 계정:https://x.com/BlockFlow_News

원문 링크

즐겨찾기 추가

소셜 미디어 공유

작성자

CGV FoF

@CGVFOF