
변형 리진: AI 데이터 벽을 극복하고 데이터 DAO의 시대가 도래하다
저자: Li Jin
번역: TechFlow
데이터 DAO는 새로운 고품질 데이터셋을 생성하고 AI 데이터 월(Data Wall)을 극복할 수 있는 가능성을 지닌 경로를 제시한다.

OpenAI가 News Corp 및 Reddit와 체결한 주목받는 데이터 라이선스 계약은 AI 분야에서 고품질 데이터의 중요성을 부각시키고 있다. 현재 선도적인 모델들은 인터넷 상의 방대한 양의 공개 데이터를 기반으로 학습되고 있으며, 예를 들어 Common Crawl은 LLM 학습용으로 약 10%의 웹페이지를 색인하여 100조 개 이상의 토큰을 포함하고 있다.
AI 모델의 성능을 더욱 향상시키기 위한 한 가지 방법은 학습에 사용할 수 있는 데이터의 규모를 확장하고 이를 보완하는 것이다. 우리는 특히 탈중앙화된 방식으로 데이터를 집계할 수 있는 메커니즘에 대해 논의해 왔으며, 분산형 접근법이 어떻게 새로운 데이터셋을 창출하고 데이터 제공자 및 창작자에게 경제적 보상을 제공할 수 있을지에 특별히 관심을 갖고 있다.
지난 몇 년간 암호화폐 생태계 내에서 논의되어 온 주제 중 하나는 데이터를 생성하고 조직하며 관리하는 개인들의 집단인 '데이터 DAO' 개념이다. Multicoin 등 여러 기업들이 이 주제를 다뤘지만, 최근 급속도로 발전하는 인공지능 기술이 데이터 DAO에 대한 새로운 "왜 지금인가(why now)"라는 촉매제 역할을 하고 있다.
현재 AI에서의 데이터 현황
현재 대부분의 AI 모델은 News Corp나 Reddit과 같은 협력 거래를 통해 또는 공개 인터넷에서 데이터를 수집하여 학습된다. 예를 들어 Meta의 Llama 3는 공개 출처에서 수집한 약 15조 개의 토큰으로 학습되었다. 이러한 방법들은 대량의 데이터를 신속하게 집계하는 데 효과적이지만, 수집하는 데이터의 내용과 방식에는 한계가 있다.
첫 번째는 ‘무엇’에 관한 문제다. AI의 발전은 데이터의 질과 양이라는 병목 현상에 의해 제약을 받고 있다. Leopold Aschenbrenner는 글에서 “데이터 월(data wall)”이 알고리즘의 추가 개선을 제한하고 있다고 지적했다. 그는 "곧 더 많은 폐기 데이터를 기반으로 대규모 언어 모델을 사전 학습시키는 단순한 방법은 심각한 병목 현상에 직면하게 될 것"이라고 주장했다.
이러한 데이터 월을 허물기 위한 방법 중 하나는 새로운 데이터셋의 가용성을 열어주는 것이다. 예컨대 모델 기업들은 대부분의 웹사이트 이용 약관을 위반하지 않고는 로그인 후 접근 가능한 데이터를 확보할 수 없으며, 당연히 아직 집계되지 않은 데이터 역시 접근할 수 없다. 또한 기업의 Google 드라이브, 회사의 Slack, 개인 건강 정보 혹은 기타 비공개 정보처럼 현재 AI 학습에서는 접근 불가능한 엄청난 양의 개인 데이터가 존재한다.
두 번째는 ‘어떻게’에 관한 문제다. 기존 구조 하에서는 데이터를 집계하는 기업이 대부분의 가치를 차지한다. Reddit의 S-1 문서에서는 데이터 라이선싱을 주요 수익원으로 전망하며, "우리가 점점 커지는 데이터 우위와 지적 재산권이 앞으로 장기적으로 법률용 언어 모델(LLM) 학습의 핵심 요소가 될 것으로 예상한다"고 밝히고 있다. 그러나 실제 콘텐츠를 만들어내는 최종 사용자는 이러한 라이선스 거래나 AI 모델 자체로부터 어떠한 경제적 보상도 받지 못한다. 이러한 보상 체계의 불균형은 사용자의 참여를 위축시킬 수 있으며, 이미 생성형 AI 기업을 상대로 소송을 제기하거나, 학습 데이터셋에서 아예 탈퇴하기를 선택하는 운동까지 일어나고 있다. 게다가 수익이 모델 기업이나 플랫폼에만 집중되고 최종 사용자에게는 돌아가지 않는다는 점에서 사회경제적 영향 또한 무시할 수 없다.
데이터 DAO의 잠재적 영향
위에서 언급한 데이터 관련 문제들은 공통점이 있다. 즉, 다양한 배경과 대표성을 갖춘 대규모 사용자 집단의 기여를 통해 해결될 수 있다는 점이다. 개별 데이터 포인트가 모델 성능에 미치는 가치는 사소할 수 있지만, 집합적으로 보면 대규모 사용자 그룹은 AI 학습에 유의미한 새 데이터셋을 구성할 수 있다. 바로 여기서 데이터 DAO의 역할이 시작된다. 데이터 DAO를 통해 데이터 기여자들은 단순히 경제적 수익을 얻을 뿐 아니라, 해당 데이터의 활용과 수익화 방식을 직접 관리할 수도 있다.
데이터 DAO는 현재 데이터 생태계의 일부 공백을 메울 수 있으며, 아래와 같은 영역들을 포함한다.
현실 세계 데이터
탈중앙화 물리 인프라(DEPIN) 분야에서는 Hivemapper와 같은 네트워크가 블랙박스 소유자들에게 인센티브를 제공해 그들의 데이터를 수집함으로써 세계 최신 지도 데이터를 구축하고 있다. 또한 앱을 통해 도로 폐쇄 또는 공사 정보와 같은 데이터 제공을 유도하고 있다. DEPIN은 하드웨어 장치 또는 사용자 네트워크에 의해 생성되는 데이터셋이라는 점에서 현실 세계의 데이터 DAO로 간주될 수 있다. 이러한 데이터는 다양한 기업에게 상업적 가치를 지니며, 수익은 토큰 형태의 보상으로 기여자들에게 되돌려진다.
개인 건강 데이터
바이오헤킹(biohacking)은 개인과 공동체가 자기 실험을 통해 생물학을 연구하는 사회운동이다. 예를 들어 개인이 뇌 기능 향상 물질을 섭취하거나 수면 개선을 위한 다양한 치료법이나 환경 변화를 시험해보고, 심지어 실험용 약물을 스스로 주사하는 경우도 있다.
데이터 DAO는 이러한 바이오헤킹 활동에 구조와 인센티브를 제공할 수 있다. 참가자들이 공동 실험을 수행하고 결과를 체계적으로 수집하도록 조직함으로써 말이다. 개인 건강 데이터 DAO는 연구소나 제약회사로부터 발생하는 수익을 토큰 보상 형태로 결과를 제공한 참가자들에게 돌려줄 수 있다.
강화학습을 위한 인간 피드백 (RLHF)
AI 모델의 미세 조정을 위해 인간의 피드백(RLHF)을 활용하는 것은 인간의 입력을 통해 AI 시스템의 성능을 향상시키는 것을 의미한다. 일반적으로 피드백 제공자는 해당 분야의 전문가여야 하며, 모델 출력을 효과적으로 평가할 수 있어야 한다. 예를 들어 연구소는 LLM의 수학 능력을 향상시키기 위해 수학 박사를 모집할 수 있다. 토큰 보상은 전문가들의 참여를 유도하고 동기를 부여하는 데 기여할 수 있으며, 암호화폐 기반 지불 시스템을 통해 전 세계적으로 접근 가능하다. Sapien, Fraction, Sahara 등의 기업들이 이 분야에서 활동 중이다.
비공개 데이터
AI 학습에 사용되는 공개 데이터가 점차 고갈되면서, 경쟁의 초점은 로그인 벽 뒤, 다이렉트 메시지, 개인 문서 등에 위치한 비공개 사용자 데이터를 포함하는 독점 데이터셋으로 이동할 가능성이 있다. 이러한 데이터는 개인 맞춤형 AI를 효과적으로 학습시키는 데 유용할 뿐 아니라, 공개 네트워크에서는 접근할 수 없는 중요한 정보를 포함하고 있다.
하지만 이러한 데이터에 접근하고 활용하는 것은 법적·윤리적 측면에서 큰 도전 과제를 동반한다. 데이터 DAO는 자발적으로 참여하는 사용자가 자신의 데이터를 업로드하고 이를 수익화하며, 데이터 사용 방식을 통제할 수 있도록 함으로써 해결책을 제시할 수 있다. 예를 들어 Reddit 데이터 DAO는 사용자가 댓글, 게시물, 투표 기록 등을 포함한 Reddit 데이터를 플랫폼에서 내보낸 후, 데이터베이스에 저장하고 개인정보를 보호하는 방식으로 AI 기업에 판매하거나 임대할 수 있게 한다. 토큰 인센티브를 통해 사용자는 일회성 거래뿐 아니라, AI 모델이 자신의 데이터를 활용해 창출한 가치에 따라 지속적인 수익을 얻을 수 있다.
열린 질문과 도전 과제
데이터 DAO가 지닌 잠재적 이점이 크다고 해도, 고려해야 할 여러 문제와 도전 과제도 존재한다.
인센티브의 왜곡 효과
암호화 생태계에서 토큰 인센티브를 사용해온 역사에 따르면, 외부 인센티브는 사용자 행동을 변화시킨다. 이는 데이터 수집에 토큰 인센티브를 적용하는 방식에도 직접적인 영향을 미친다. 즉, 인센티브가 기여자 집단과 기여되는 데이터 유형을 왜곡시킬 수 있다는 것이다.
토큰 인센티브 도입은 참여자들이 낮은 품질의 데이터나 가짜 데이터를 제출함으로써 수익을 극대화하려는 시도를 유도할 가능성도 있다. 이는 특히 데이터 DAO의 수익 기회가 데이터 품질에 직접적으로 의존한다는 점에서 매우 중요한 문제다. 기여된 데이터가 왜곡된다면 데이터셋 전체의 가치는 크게 떨어질 것이다.
데이터 측정 및 보상
데이터 DAO의 핵심 아이디어는 기여자들에게 토큰 인센티브를 제공하는 것이며, 장기적으로 이 보상은 DAO의 수익과 연동된다. 그러나 데이터의 가치가 주관적이기 때문에 각각의 데이터 기여에 정확한 보상을 부여하는 것은 어렵다. 예를 들어 바이오헤킹 사례에서 어떤 사용자의 데이터가 다른 사용자보다 더 가치 있는가? 만약 그렇다면 그 기준은 무엇인가? 지도 데이터의 경우 특정 지역의 지도 정보가 다른 지역보다 더 가치 있는가? 그리고 그 차이를 어떻게 정량화할 것인가? 현재는 데이터가 모델 성능에 미치는 증분 기여도를 계산하여 데이터 가치를 측정하려는 연구가 진행 중이지만, 이러한 방법은 계산 비용이 클 수 있다.
또한 데이터의 진위성과 정확성을 검증할 수 있는 견고한 메커니즘을 마련하는 것이 필수적이다. 이러한 조치가 없다면 시스템은 허위 데이터 제출(가짜 계정 생성 등)이나 시빌 공격(Sybil attack)에 취약해질 수 있다. DEPIN 네트워크는 하드웨어 수준에서의 통합을 통해 이를 해결하려 하지만, 사용자 중심의 기여에 의존하는 다른 데이터 DAO는 조작에 더 쉽게 노출될 수 있다.
새로운 데이터의 증분성
대부분의 공개 웹 데이터는 이미 학습에 사용되었기 때문에, 데이터 DAO 운영자는 분산된 노력으로 수집한 데이터셋이 기존 공개 데이터에 실제로 추가적인 가치를 제공하는지, 또 연구자들이 플랫폼에서 데이터를 라이선스하거나 다른 방식으로 접근할 수 있는지를 반드시 고려해야 한다. 이러한 고민은 기존 데이터를 넘어서는 새로운 데이터 수집의 중요성을 강조하며, 다음 고려사항인 영향 규모와 수익 기회로 이어진다.
수익 기회의 규모
본질적으로 데이터 DAO는 데이터 구매자와 기여자를 연결하는 양면 시장을 구축하고 있다. 데이터 DAO의 성공 여부는 안정적이고 다양화된 고객층을 확보해 데이터에 지불하려는 의지를 유도하는 데 달려 있다.
데이터 DAO는 궁극적인 수요를 식별하고 검증하여, 수익 기회가 총량적으로나 기여자 개개인의 수입 측면에서도 충분히 크다는 것을 입증해야 하며, 이를 통해 필요한 양과 질의 데이터 기여를 유도할 수 있어야 한다. 예를 들어 광고 목적으로 개인의 선호도 및 웹 탐색 데이터를 모아 사용자 데이터 DAO를 만든다는 아이디어는 오랫동안 논의되어 왔으나, 결국 그러한 네트워크가 사용자에게 제공할 수 있는 수입은 미미할 가능성이 크다. (참고로 Meta의 2023년 말 기준 글로벌 ARPU는 13.12달러였다.) 반면 AI 기업들이 학습을 위해 수조 달러를 지출할 계획인 가운데, 사용자 데이터로부터 발생하는 수익은 대규모 기여를 유도하기에 충분히 매력적일 수 있으며, 이는 데이터 DAO에 대한 흥미로운 '왜 지금인가'라는 질문을 제기한다.
데이터 월 극복하기
데이터 DAO는 새로운 고품질 데이터셋을 생성하고 AI 데이터 월을 극복할 수 있는 잠재적으로 유망한 경로를 나타낸다. 구체적인 실현 방식은 아직 두고 봐야겠지만, 우리는 이 분야의 발전에 큰 기대를 걸고 있다.
TechFlow 공식 커뮤니티에 오신 것을 환영합니다
Telegram 구독 그룹:https://t.me/TechFlowDaily
트위터 공식 계정:https://x.com/TechFlowPost
트위터 영어 계정:https://x.com/BlockFlow_News










