
CZ가 왜 더 나은 AI를 구축하는 Vana를 주목하는가
저자: Biteye 핵심 기여자 제시
편집: Biteye 핵심 기여자 크러시
* 본문 약 6000자, 예상 독서 시간 12분
한 달 전, YZi Labs는 Vana에 투자한다고 발표했으며, 바이낸스 창립자 CZ가 고문으로 합류하며 Vana의 AI 데이터 분야 선도적 지위를 확립했다. 이후 4일 뒤 진행된 Vana와의 AMA에서 CZ는 "데이터는 AI의 핵심 연료"라며 공공 데이터는 이미 고갈되었고 사적 데이터 개발이 필요하다고 강조하며, Vana의 제품-시장 적합성(PMF)과 사용자 성장 잠재력을 긍정적으로 평가했다.
왜 YZi Labs, Coinbase Ventures, Paradigm 등이 모두 Vana에 투자하고 있는가? 또한 CZ는 왜 Vana의 발전 가능성을 주목하는가?
본 보고서는 AI 데이터 위기 상황, Vana의 핵심 가치 제안, 실제 적용 사례 및 미래 성장 궤적을 체계적으로 분석하여, Vana가 어떻게 AI 생태계의 핵심 인프라로 자리매김할 수 있을지 밝히고자 한다.

01 AI와 데이터 위기: 폐쇄 장벽 돌파
Pitchbook 자료에 따르면, 2025년 1분기에 미국 AI 산업은 약 200억 달러의 투자를 유치했다. 2024년 기준 AI 스타트업은 전 세계 리스크투자의 3분의 1을 차지하며 누적 1315억 달러에 달했으며, 이 중 약 4분의 1의 신생 벤처기업이 AI 분야에 집중하고 있다. Statista의 데이터 역시 이러한 폭발적인 성장 추세를 입증한다. AI 및 머신러닝 분야의 벤처 캐피탈 투자금은 2011년 6.7억 달러에서 2020년 360억 달러로 증가해 50배 이상 성장했다. 이 현상은 AI가 똑똑한 자본과 최정상급 창업자들의 공통 선택임을 명확히 보여준다.
그러나 AI의 근본 구조인 "데이터 + 모델 + 컴퓨팅 파워"는 현재 구조적 병목 현상을 겪고 있다. AI 모델 성능의 핵심 동력은 컴퓨팅 우위나 알고리즘 돌파보다는 학습 데이터셋의 질과 규모에 있다. 현재 대규모 언어 모델(LLM)은 훈련용 데이터 고갈의 임계점에 도달했다. 메타의 Llama 3는 약 15조 토큰으로 훈련되었으며, 이는 거의 전체 공개 인터넷에서 얻을 수 있는 고품질 데이터를 소진한 수준이다. 비록 공개 인터넷 데이터량이 방대하지만, 이는 빙산의 일각에 불과하다. 시장이 일반적으로 간과하는 중요한 사실은 고부가가치 데이터 대부분이 접근 권한이 필요한 개인 시스템 내에 묶여 있다는 점이다. 공개 인터넷 데이터는 전체 데이터 중 0.1% 미만을 차지한다. 이 문제는 AI 산업 자체 해결 범주를 넘어서며, 블록체인 기술을 통해 데이터 생산 관계를 재구성하고 새로운 인센티브 메커니즘을 설계하여 고품질 데이터의 대규모 출현을 촉진해야 한다.
다른 한편으로, 오늘날 대부분의 데이터는 Web2 기술 기업의 폐쇄형 생태계에 의해 장악되고 있다. 인공지능의 발전은 데이터 월(Data Wall)의 도전에 직면해 있으며, 이 장벽의 존재는 바로 이들 기업이 데이터의 거대한 가치를 잘 알고 있기 때문이다. 고품질 AI 모델은 매우 높은 경제적 수익을 가져온다. 예를 들어 OpenAI의 연간 수입은 약 34억 달러에 달한다. 탁월한 AI 모델을 구축하려면 막대한 데이터 지원이 필요하며, 데이터 확보는 종종 높은 비용을 요구한다.
예컨대 Reddit은 매년 데이터 판매로 약 2억 달러의 수익을 올리며, PhotoBucket의 이미지 데이터는 각각 1~2달러에 판매되고, 애플의 뉴스 데이터 거래는 무려 5000만 달러에 이른다. 데이터 소유권은 단순한 프라이버시 선호를 넘어 중대한 경제적 문제로 전환되었다. AI 모델이 대부분의 경제활동을 주도하는 세상에서는 데이터 소유권이 곧 미래 AI 모델의 지분을 소유하는 것과 같다.
데이터의 상업화가 점점 더 보편화됨에 따라 데이터 접근 난이도 역시 증가하고 있다. 많은 플랫폼들이 서비스 약관과 API 정책을 조정하여 외부 개발자의 접근 권한을 제한하고 있다. 예를 들어 Reddit과 Stack Overflow는 API 규칙을 수정해 데이터 확보를 더욱 어렵게 만들었다. 이 추세는 확대되고 있으며, 중요한 데이터를 보유한 플랫폼들은 점차 폐쇄화되고 있다.
그럼에도 불구하고, 여전히 이 데이터에 자유롭게 접근할 수 있는 집단이 존재한다. 바로 사용자 자신이다. 많은 사람들이 법적으로 자신이 자신의 데이터에 대해 완전한 소유권을 가지고 있다는 것을 인식하지 못한다. 마치 차를 주차장에 주차하면 주차장은 차를 마음대로 처분할 권리가 없는 것처럼, 사용자가 소셜 플랫폼에 저장한 데이터 역시 본인에게 속한다.
사용자는 가입 시 일반적으로 "내 데이터 사용을 플랫폼에 허용함"이라는 옵션을 체크하는데, 이는 플랫폼이 서비스 운영을 위해 데이터를 활용하도록 허가하는 것이지, 데이터 소유권을 포기하는 것은 아니다.
사실상 사용자는 언제든지 자신의 데이터를 내보낼 수 있다. 플랫폼이 개발자 API 접근을 엄격히 제한하더라도 개인 사용자는 여전히 합법적으로 자신의 데이터를 확보할 수 있다. 예를 들어 Instagram은 사용자가 계정 데이터를 내보낼 수 있도록 허용하며, 여기에는 게시한 사진, 댓글뿐 아니라 AI가 생성한 마케팅 태그까지 포함된다. 23andMe 플랫폼에서는 사용자가 자신의 유전자 데이터를 요청하여 내보낼 수 있으며, 비록 플랫폼이 이를 적극 알리지는 않지만 말이다.
전 세계적으로 관련 규정이 지속적으로 개선되어 사용자가 자신의 데이터를 원활하게 회수할 수 있도록 하고 있다. 데이터 가치가 점점 부각되는 오늘날, 사용자는 개인 데이터에 대한 소유권을 충분히 인식하고 이를 적극적으로 행사해야 한다.
02 VANA의 핵심 개념
기술 기업들은 폐쇄형 시스템을 구축하여 귀중한 데이터 자산을 보호하고 있다. VANA의 핵심 사명은 폐쇄된 생태계 속 데이터를 해제하고 사용자에게 돌려줌으로써 데이터 자율성을 실현하는 것이다.
즉, 각 사용자는 다양한 플랫폼에서 자신의 데이터를 추출하여 기존 어떤 플랫폼보다 우수하고 개인화된 데이터셋을 재구성할 수 있다.
VANA 프레임워크는 두 가지 기본 개념 위에 구축된다:
-
비관리형 데이터(Non-Custodial Data): 사용자가 디지털 자산을 관리하듯 자신의 데이터 접근 권한을 직접 통제할 수 있음을 의미한다. 디지털 지갑으로 암호화 자산을 관리하는 것처럼, VANA 생태계에서도 사용자는 지갑을 통해 데이터 사용 방식을 제어할 수 있다. 트랜잭션 서명을 통해 사용자는 특정 앱에 데이터 접근을 허가하고 용도를 결정함으로써 데이터의 자율성과 보안을 보장한다.
-
기여 증명(Proof of Contribution): 개별 데이터 포인트의 가치는 제한적이지만, 다수 사용자의 데이터가 집적되면 전체 가치는 지수급으로 증가한다. 기여 증명 메커니즘은 데이터 풀의 고품질 기준을 유지하면서 동시에 데이터 제공자에게 가치 보상 채널을 제공하도록 설계되었다.
개발자가 데이터 접근 비용을 지불하면, 데이터 기여자는 기여 비율에 따라 거버넌스 토큰을 배분받는다. 이 메커니즘은 데이터 기여자가 데이터 활용에서 지속적인 경제적 수익을 얻을 수 있을 뿐 아니라 실질적인 거버넌스 권한을 부여함으로써 데이터 사용 규칙의 수립과 의사결정에 직접 참여할 수 있게 한다.
고품질 데이터 기여를 유도함으로써 이 메커니즘은 데이터 시장의 가격 책정 방식과 운영 효율을 재편하며, 탈중앙화 데이터 경제의 기반을 마련한다.
03 VANA의 생태계 적용
3.1 DataDAO
DataDAO는 VANA 생태계 내의 탈중앙화 데이터 시장으로, 사용자가 데이터를 기여하고 토큰화하며 활용할 수 있도록 한다. 사용자는 건강 데이터, 연구 데이터 등 데이터 유형에 따라 적합한 데이터 마이닝 풀에 기여할 수 있다. 기여된 데이터는 Vana의 기여 증명 메커니즘을 통해 품질과 가치를 검증받아 기여자가 공정한 보상을 받도록 한다.
검증 후 데이터는 디지털 자산으로 토큰화되어 거래 또는 AI 훈련에 사용되며, 기여자는 사용 통제권을 유지한다. 데이터가 사용될 때마다 기여자는 토큰 보상과 거버넌스 권한을 얻어 경제적 혜택을 누릴 뿐 아니라 데이터 풀의 방향성에 영향을 줄 수 있다. 다양한 출처의 데이터를 통합함으로써 DataDAO는 유동성 있는 데이터 시장을 창출하며, Vana 생태계 내에서 데이터의 안전하고 효율적인 유통을 실현한다.
DataDAO의 핵심은 데이터 유동성 풀(DLP)로서, 검증된 데이터셋이 토큰과 연결된 형태이다. DLP는 DataDAO 구성원이 관리하며 거버넌스 권한을 갖는다. 각 DLP는 데이터 구조와 기여 기준을 명확히 정의한다. 예를 들어 Sleep.com은 수면 데이터 DAO로서 명확한 데이터 패턴을 설정해 모든 체인상 데이터가 구조화되고 사용 가능하도록 한다. 데이터 가치는 규모뿐만 아니라 구조와 활용 가능성에 있다.
DataDAO는 데이터 진실성과 유효성에 높은 중요성을 둔다. 현재 대부분의 DataDAO는 신뢰 실행 환경(TEE)에서 Python 코드를 실행하여 데이터를 검증함으로써 프라이버시를 보호하면서 품질을 보장한다. 예를 들어 Amazon DataDAO는 브라우저 확장 프로그램을 통해 데이터 품질 증명을 생성한다. 모든 DataDAO는 기여 증명을 공개하여 사용자가 데이터 품질 보장 수준을 명확히 이해할 수 있도록 한다.
VANA 생태계 내 상위 16개 DLP는 추가 인센티브를 받으며, 사용자는 고품질 데이터 제공을 통해 수익을 얻을 수 있다. 보상은 데이터 접근량, 품질, 비용 절감 등 지표에 따라 배분된다. 현재 Reddit DataDAO가 가장 큰 규모로 약 14만 명의 사용자를 유치했으며, 성공적으로 사용자 공동 소유 AI 모델을 훈련시켰다. DLPLabs가 출시한 DataDAO는 운전자가 DIMO_Network 계정을 연결하고 데이터를 공유함으로써 자동차 관련 AI 혁신에 기여하고 보상을 받을 수 있도록 한다. 23andWE는 23andMe 인수를 추진하며 유전자 데이터의 매각을 방지하고자 한다.
DataDAO는 개인 사용자가 자신의 데이터를 통제하고 토큰화 메커니즘을 통해 수익을 실현할 수 있는 완전히 새로운 데이터 관리 방식을 나타낸다. 이 생태계는 빠르게 발전하며 데이터 거버넌스 및 AI 훈련에 있어 더욱 개방적이고 민주화된 가능성을 제시하고 있다.
3.2 DataFi
데이터 유동성 풀(DLP)을 기반으로 DeFi가 점차 데이터 토큰 분야에 적용되고 있다. 데이터 유동성 풀은 전체 생태계의 기반층이며, 이를 기반으로 데이터 토큰을 활용한 다양한 DeFi 애플리케이션이 구축될 수 있다.
현재 데이터 DeFi 생태계에는 일부 초기 애플리케이션이 등장하고 있다. 예를 들어 탈중앙화 거래소 @VanaDataDex 및 @flur_protocol는 사용자가 데이터 토큰을 교환하고 특정 데이터 토큰의 시장 동향을 추적할 수 있게 한다. 이러한 플랫폼의 등장은 데이터 자산의 자유로운 유통을 촉진하며 데이터 시장을 더욱 활성화하고 있다.
주목할 점은 현재 대부분의 DLP 보상 메커니즘이 보상을 DLP 금고에 적립하는 데 그치고 있으며, 데이터 토큰 소각이나 공급 수요에 직접적인 영향을 주지 않는다는 점이다. 그러나 VRC-13 업데이트 도입 이후 이 메커니즘이 변화하고 있다. 새로운 모델은 데이터 토큰화를 장려하기 위해 VANA 보상을 제공하고, 이를 DEX 풀에 주입하여 데이터 토큰 거래를 촉진하며 DeFi 생태계를 더욱 활성화하는 시장 중심 방식을 도입했다.
앞으로 DeFi 분야에서 가능한 기능들—예를 들어 대출, 스테이킹, 유동성 마이닝, 심지어 보험까지—가 데이터 토큰 시장에 도입되어 새로운 응용 시나리오를 창출할 수 있을 것으로 예상된다.
기존 Web2 산업 관점에서 보면, 기업이 석유 선물 거래를 통해 가격 변동 위험을 회피하듯, 데이터 시장은 데이터 선물을 발전시켜 사용자가 데이터셋의 미래 가격을 미리 확정하고 비용 불확실성을 낮출 수 있다.
일부 거래 회사는 이미 데이터를 새로운 자산 클래스로 간주하며 시장 가치 평가 방법을 연구하고 있다. 특정 데이터 토큰 가치 평가, 판매 사용 가능성, 수명 주기 등이 이에 해당하며, 이러한 요소들은 데이터 토큰 가격과 시장 유동성에 직접적인 영향을 미친다. 아직도 거대한 혁신 공간이 남아 있다.
3.3 더욱 쉬운 데이터 접근
현재 메인넷에서 데이터셋 접근은 여전히 다소 번거롭다. 사용자는 목적, 지불 금액, 계획 코드 등을 상세히 기재한 요청을 제출하고 승인을 받아야만 접근할 수 있다. 투명성과 규정 준수는 보장되지만, 조작 마찰이 증가한다.
효율성을 높이기 위해 Vana는 자동 API 접근을 가능하게 하여 여러 DataDAO에서 직접 데이터를 획득할 수 있는 더욱 효율적인 데이터 접근 방식을 개발 중이다. 예를 들어 앞으로 사용자는 수면 데이터와 Coinbase 혹은 Binance 거래 데이터를 결합하여 특정 프로젝트 보유자의 수면 상태를 분석하고 새로운 시장 통찰을 발견할 수 있다.
또한 Vana는 데이터 접근 권한을 얻기 위해 데이터 토큰과 VANA를 80:20 비율로 소각하는 새로운 제안을 추진하고 있다.
Vana는 또한 데이터 접근 절차를 크게 단순화하는 새로운 데이터 조회 인터페이스를 개발했다. 사용자는 지갑 로그인을 통해 인증하고 디지털 서명을 생성함으로써 접근 권한을 입증할 수 있다. 데이터 유동성 풀이 데이터 형식을 기록하고 있으므로 사용자는 데이터 구조를 명확히 이해하고 SQL 쿼리를 사용해 필요한 정보를 얻을 수 있다. 이 과정에서 사용자는 먼저 일부 합성 데이터를 테스트용으로 얻어 쿼리의 정확성을 확인할 수 있다. 실제 데이터 처리 시 모든 연산은 TEE 내에서 수행되어 데이터 보안을 보장한다. 이 메커니즘은 "데이터 이중 문제"(즉, 사용자가 데이터를 구매한 후 임의로 재판매하는 행위)를 효과적으로 방지하여 데이터의 경제적 가치를 보호하고 데이터 시장의 지속 가능성을 보장한다.
04 Vana의 가치 분석
데이터는 디지털 시대의 핵심 자산으로 빠르게 부상하고 있다. 데이터 수집 및 저장 기술은 이미 상당히 성숙했지만, 진정한 도전은 데이터 품질을 효과적으로 평가하고 가치를 극대화하면서 동시에 프라이버시 보안을 확보하는 데 있다. Vana는 혁신적인 인센티브 메커니즘을 통해 이 난제를 교묘하게 해결한다. 사용자는 Vana 토큰을 스테이킹하여 고부가가치 DataDAO를 지원하고 이에 따른 보상을 받음으로써 긍정적인 순환 고리를 형성한다.
4.1 "데이터 월" 제한 돌파
AI 발전은 "데이터 월"에 부딪혔으며, 고품질 공개 데이터 자원은 고갈되어 가고 있다. 미래 AI의 돌파구는 개인 건강 기록, 스마트 기기 사용 데이터, 테슬라 주행 영상 등 잠재적 훈련 자원으로서 고품질 사적 데이터를 효과적으로 확보하고 활용하는 데 달려 있다.
데이터 가치에는 역설이 존재한다. 데이터는 사생활 특성 때문에 가치를 유지하지만, 널리 이용 가능해지면 상품화되어 가치가 떨어진다. AI 모델이 현재 상품화되는 과정을 겪고 있는 것처럼, 장기적인 경쟁 우위는 특정 분야에서 뛰어난 성능을 발휘하게 하는 고유한 데이터셋을 확보하는 데서 나온다. 데이터가 공개되면 즉각 가격 경쟁이 발생하며 가치는 급속히 하락한다.
Vana의 DataDAO는 TEE를 활용하여 고품질 사적 데이터의 가치 전송을 실현하면서 동시에 정보 프라이버시를 보호한다. 이 돌파구는 유의미한 데이터 자산의 범위를 제한된 공개 데이터에서 훨씬 광범위한 사적 데이터 영역으로 확장하여 AI 발전에 새로운 가능성을 열어준다.
4.2 데이터 가치의 독특한 곡선
데이터 가치는 특별한 곡선적 특성을 보인다. 개별 데이터 포인트의 가치는 거의 무시할 수 있지만, 데이터량이 임계 질량에 도달하면 가치는 지수적으로 증가한다. 이 특성은 데이터 금융화에 커다란 도전을 제기한다. 즉, 집단 데이터가 형성된 후에야 각 참여자에게 눈에 띄는 보상이 돌아올 수 있다.
Vana의 DataDAO 메커니즘은 이 난국을 해결하는 혁신적 경로를 제공한다. 유사한 데이터를 집약함으로써 DataDAO는 기여자에게 집단적 가격 결정 능력을 창출한다. 테슬라 차주를 예로 들면, 모든 차주가 DataDAO를 통해 주행 데이터를 집중 수집하고 공유한다면, 그들은 어떤 수요자에게든 강력한 가격 결정권을 갖게 된다. 반면 각 차주가 독립적으로 데이터를 공개하고 유료화한다면, 가격 경쟁이 불가피하게 발생하며 구매자는 최저가를 수용하는 소수 판매자로부터 충분한 샘플을 확보하기만 하면 된다.
구조화되고 검증된 고품질 데이터셋(예: 검증된 테슬라 주행 데이터)은 시장에서 매우 높은 가치를 지닌다. Vana가 제공하는 조직적 프레임워크는 이러한 가치가 충분히 실현될 수 있도록 한다.
4.3 크로스 플랫폼 데이터 집약의 돌파
DataDAO의 가장 강력한 점은 현재의 폐쇄형 생태계에서는 거의 불가능한 크로스 플랫폼 데이터 집약을 가능하게 한다는 것이다. 연구자가 동일 사용자의 Facebook 메시지, iMessage 기록, Google 문서 내용에 접근해야 한다고 가정하자. 기존 경로는 Facebook, 애플, Google 세 플랫폼이 모두 협력하여 데이터를 공유해야 하지만, 이들 플랫폼은 사용자 데이터 통합에 동기를 가지지 않을 뿐 아니라 규제 장벽으로 인해 실현이 어렵다.
DataDAO는 사용자 중심의 데이터 통합 모델을 통해 이 장애물을 교묘히 우회함으로써 크로스 플랫폼 데이터 가치를 해방시키며 AI 훈련과 연구에 있어 전례 없는 가능성을 창출한다.
4.4 새로운 경제 참여 모델
Vana의 비전은 순수한 기술 혁신을 넘어 완전히 새로운 경제 참여 모델을 개척하고 있다. 이 모델에서 사용자는 전통적 자본 없이도 디지털 경제에 참여할 수 있다. 그들이 이미 보유한 가장 귀중한 자원—개인 데이터를 통해 가능하다. 사용자는 자금을 가져올 필요 없이 데이터만 공유하면 된다. 이것이 바로 사용자의 자본이다. DataDAO는 Web3 사용자에게 개인 고유 데이터 기반의 수동 소득원을 제공하며 디지털 경제 진입 장벽을 낮춘다.
4.5 AI 수익 배분 재편
이 모델은 AI 발전의 수익 배분 구조를 근본적으로 재구성할 수 있다. 이제 가치는 주로 대형 기술 기업으로 흐르지 않고, Vana는 데이터 소유권과 거버넌스 메커니즘을 통해 광범위한 AI 경제 참여를 가능하게 한다. 초기 징후는 이러한 접근법이 강한 공감을 얻고 있음을 보여준다. 테스트넷에는 이미 300개 이상의 DataDAO가 개발 중이다.
향후 3~5년 안에 1억 명의 사용자가 데이터를 기여하는 완전한 사용자 자치형 AI 모델이 등장할 수 있으며, 그 성능은 현재 선도적인 중심화 AI 모델을 초월할 수도 있다. 이 모델은 완전히 사용자가 소유하며, 사용자 참여도가 높아 사용자와 더욱 긴밀한 연결을 형성할 수 있다. 데이터 주권은 사용자가 윤리에 부합하는 모델을 선택적으로 지원하거나 비윤리적 기업의 데이터 사용을 거부할 수 있게 한다.
탈중앙화 AI는少数 기업의 주도가 아닌 사회가 공동으로 AI가 무엇을 학습하고 믿어야 하는지를 결정할 수 있는 더욱 민주적인 프레임워크를 제공한다. 사용자 데이터 소유권은 경제적 권리뿐만 아니라 모델 언어 검열 등 핵심 문제 해결 능력을 포함한 AI 모델 행동에 대한 실질적 통제권을 의미한다.
05 결론
상업적 측면에서 Vana는 데이터 집약, AI 모델 훈련, 데이터 판매에 이르는 전 과정을 아우르는 완전한 데이터 가치 사슬 구축을 목표로 한다. 현재 데이터 시장은 소수 플랫폼과 데이터 브로커에 의해 독점되어 있으며, Vana는 이러한 시장의 비효율성을 해결하고 더욱 공정한 데이터 거래 생태계를 창출하고자 한다.
Vana는 단순한 새로운 플랫폼을 넘어 데이터 소유권과 AI 발전 방식의 근본적 전환을 상징한다. 사용자가 집단적 가치 창출에 참여하면서도 데이터에 대한 주권을 유지하도록 함으로써, Vana는 더욱 공정하고 혁신적인 AI 미래를 위한 기반을 마련하고 있다.
현재 개념 과잉이 난무하는 AI 시장에서 Vana는 업계의 핵심 골칫점을 정확히 타격하는 혁신적 메커니즘을 바탕으로 AI 미래 발전 구도를 형성하는 핵심 세력이 될 가능성이 크다.
TechFlow 공식 커뮤니티에 오신 것을 환영합니다
Telegram 구독 그룹:https://t.me/TechFlowDaily
트위터 공식 계정:https://x.com/TechFlowPost
트위터 영어 계정:https://x.com/BlockFlow_News














