
전 세계 수천 명이 자신의 정체성을 팔아 AI를 훈련시키고 있지만, 그 대가는 무엇일까?
저자: The Guardian
번역·편집: TechFlow
TechFlow 서두: 이 조사 보도는 급속히 성장하는 그레이 존 산업을 폭로한다. 전 세계 수천 명의 사람들이 자신의 음성, 얼굴, 통화 기록, 일상 영상 등을 판매함으로써 AI 훈련용 데이터를 제공하고 있다.
이것은 단순한 프라이버시 논쟁이 아니다. 실제 인물, 실제 금액, 실제 결과가 얽힌 구체적인 조사다. 한 배우는 자신의 얼굴을 팔았고, 얼마 후 인스타그램에서 자신을 닮은 ‘AI 복제본’이 출처 불명의 의료 제품을 홍보하는 영상을 보게 된다. 댓글란에는 그의 ‘외모’를 평가하는 글들이 가득하다.
AI 기업의 데이터 갈증과 전 세계적 경제 격차가 결합되면서, 극도로 불균형한 거래가 만들어지고 있다.
전문:
지난해 어느 날 아침, 남아프리카공화국 케이프타운에 사는 야코부스 루(Louw)는 평소처럼 산책을 나섰다. 그는 해변을 따라 걷다가 갈매기에게 먹이를 주었다. 그런데 이날은 특별히 몇 차례 영상을 찍었다—인도 위를 걷는 자신의 발걸음과 시야를 촬영한 것이다. 이 짧은 영상 하나로 그는 14달러를 벌었는데, 이는 해당 국가 최저임금의 약 10배에 달하며, 27세 청년인 그의 일주일 식비 절반에 해당하는 금액이었다.
이 영상은 루가 Kled AI에서 수행한 ‘도시 내비게이션’ 과제였다. Kled AI는 사용자가 사진과 영상 등 데이터를 업로드하면 이를 AI 모델 훈련에 활용하고, 그에 상응하는 대가를 지급하는 애플리케이션이다. 단 몇 주 만에 루는 일상 속 사진과 영상을 업로드하며 50달러를 벌어들였다.
수천 마일 떨어진 인도 란치에서는 22세 학생 사힐 티그가(Sahil Tigga) 실렌시오(Silencio)를 통해 정기적으로 수입을 올리고 있다. 이 앱은 AI 훈련용 오디오 데이터를 크라우드소싱하며, 사용자의 스마트폰 마이크에 접근해 식당 내부나 붐비는 교차로 등의 환경 소음을 수집한다. 사힐은 또한 자신의 음성을 녹음해 업로드하기도 한다. 그는 실렌시오 지도에 아직 등록되지 않은 호텔 로비 같은 독특한 장면을 직접 찾아가기도 한다. 이 일을 통해 그는 매달 100달러 이상을 벌며, 식비 전액을 충당할 수 있다.
미국 시카고에서는 18세 용접 실습생 라멜리오 힐(Ramelio Hill)이 네온 모바일(Neon Mobile)—대화형 AI 훈련 플랫폼—에 자신과 친구 및 가족과의 개인적인 휴대전화 대화 기록을 판매해 수백 달러를 벌었다. 분당 0.50달러를 지급하는 이 플랫폼에서 힐은 “기술 기업이 어차피 이미 내 개인정보를 다량 확보하고 있으니, 차라리 내가 직접 이익을 챙기는 게 낫다”고 판단했다.
이 ‘AI 훈련 플랫폼 노동자들’—주변 환경, 자신의 사진, 영상, 음성 등을 업로드하는 사람들—은 전 세계적으로 벌어지는 새로운 데이터 금광 열풍의 최전선에 서 있다. 실리콘밸리의 고품질 인간 데이터에 대한 갈망이 개방 인터넷에서 수집 가능한 범위를 넘어선 지금, 이 공백을 메우기 위해 급성장하는 데이터 시장 산업이 탄생했다. 케이프타운에서부터 시카고까지, 수천 명의 사람들이 차세대 AI를 위해 자신의 생체 인식 정보와 사적 데이터를 미세하게 라이선스하고 있다.
하지만 이 새로운 플랫폼 노동 경제에는 대가가 따른다. 몇 달러에 불과한 대가 뒤에는, 이 훈련자들이 자신들의 기술을 궁극적으로 쓸모없게 만들 수 있는 산업에 연료를 공급하고 있으며, 동시에 딥페이크, 신원 도용, 디지털 착취라는 미래의 위험에 스스로를 노출시키고 있다—그리고 그들은 이러한 위험에 대해 이제 막 인식하기 시작한 상태다.
AI 기어를 계속 돌리는 것
챗GPT나 제미니(Gemini) 같은 AI 언어 모델은 지속적인 개선을 위해 방대한 학습 자료를 필요로 하지만, 현재 데이터 부족에 직면해 있다. 가장 널리 사용되는 훈련 데이터 소스인 C4, RefinedWeb, Dolma는 웹 상의 최고 품질 데이터셋 4분의 1을 차지하지만, 이제 생성형 AI 기업의 모델 훈련용 데이터 사용을 제한하고 있다. 연구진은 AI 기업이 2026년까지 새롭고 고품질의 텍스트 데이터를 모두 소진할 수 있다고 추정한다. 일부 실험실은 이미 AI가 자체 생성한 합성 데이터를 피드백 훈련에 활용하기 시작했지만, 이런 순환적 과정은 모델 출력물에 오류가 가득한 ‘쓰레기’를 초래해 결국 시스템 붕괴로 이어질 수 있다.

이 바로 Kled AI와 실렌시오 같은 앱이 등장하는 자리다. 이 데이터 시장에서는 수백만 명의 사람들이 자신의 정체성 데이터를 판매함으로써 AI를 ‘먹여 살리고’ 훈련시키고 있다. Kled AI, 실렌시오, 네온 모바일 외에도 AI 훈련자들은 다양한 선택지를 갖는다. 유명 인큐베이터 Y-Combinator가 지원하는 루엘 AI(Luel AI)는 다국어 대화 자료를 분당 약 0.15달러에 구매하며, 일레븐랩스(ElevenLabs)는 사용자의 음성을 디지털 클론하여 분당 기본 요율 0.02달러로 타인에게 라이선스할 수 있도록 한다.
런던 킹스칼리지 경제학 교수 부케 클라인 테셀링크(Bouke Klein Teeselink)는 AI 훈련 플랫폼 노동이 새로 등장한 직업군이며, 향후 급격히 성장할 것이라고 말한다.
테셀링크는 “AI 기업들이 사람에게 데이터 라이선스 비용을 지불함으로써, 웹 크롤링에만 의존할 경우 발생할 수 있는 저작권 분쟁을 회피하려 한다”고 설명한다. AI 연구자 베니아민 베셀로프스키(Veniamin Veselovsky)는 “이들 기업은 시스템에 새로운, 개선된 행동을 모델링하기 위해 고품질 데이터를 필요로 한다”고 덧붙이며, “현재로서는 인간 데이터가 모델 분포 밖에서 샘플링하는 데 있어 황금 표준이다”라고 강조한다.
이 기계들을 움직이게 하는 인간들—특히 개발도상국의 사람들—은 대부분 이 돈을 필요로 하며, 사실상 다른 선택의 여지가 거의 없다. 많은 AI 훈련 플랫폼 노동자들에게 이 일은 경제적 격차에 대한 현실적인 대응이다. 실업률이 높고 자국 통화 가치가 하락하는 국가에서는 달러를 벌어들이는 것이 현지 일자리보다 더 안정적이고 실리 있는 선택이다. 어떤 이들은 입문급 일자리를 찾지 못해 생계를 위해 어쩔 수 없이 AI 훈련 일을 한다. 비교적 부유한 국가에서도 생활비 상승으로 인해 자신의 데이터를 판매하는 것이 합리적인 재정적 선택이 되고 있다.
케이프타운의 AI 훈련자 루는 프라이버시 비용을 명확히 인지하고 있다. 수입은 불안정하며 월간 전체 지출을 감당하기엔 부족하지만, 그는 이 조건을 받아들이고 돈을 벌고 있다. 그는 오랜 기간 신경계 질환을 앓아 취업이 어려웠으나, AI 데이터 시장(특히 Kled AI 포함)에서 번 돈으로 500달러를 모아 스파 트레이닝 과정에 등록해 마사지사가 되었다.
“남아프리카공화국 국민으로서 달러를 받는 것은 타인들이 생각하는 것보다 훨씬 큰 의미가 있다,” 루는 말한다.
옥스퍼드대학교 인터넷 지리학 교수이자 『머신에게 먹이 주기(FEEDING THE MACHINE)』의 저자 마크 그레이엄(Mark Graham)은 개발도상국 개인에게 이 돈이 단기적으로는 실질적인 가치가 있을 수 있음을 인정하지만, “구조적으로 보면 이 일은 불안정하고 상승 가능성이 없으며, 사실상 막다른 길이다”라고 경고한다.
그레이엄은 “AI 데이터 시장은 임금 경쟁적 하향 압박과 인간 데이터에 대한 일시적 수요에 의존한다”고 지적한다. 그러면서 “이 수요가 사라지면, 노동자들은 어떠한 보호도, 이전 가능한 기술도, 안전망도 없이 방치될 것”이라고 덧붙인다.
그레이엄은 “유일한 승자는 북반구의 플랫폼들로, 모든 지속 가능한 가치를 흡수해 간다”고 말한다.

무제한 라이선스
시카고 출신의 AI 훈련자 힐은 자신의 개인 휴대전화 통화 기록을 네온 모바일에 판매한 일에 대해 복잡한 심정을 드러낸다. 약 11시간 분량의 통화 내용으로 그는 200달러를 벌었지만, 이 앱은 자주 접속이 끊기거나 지급이 지연된다고 말한다. “네온은 제가 보기엔 항상 수상쩍었지만, 계산서를 내기 위한 용돈을 더 벌기 위해 계속 사용했습니다,” 힐은 말한다.
그는 이제 그 돈이 정말로 ‘쉽게’ 벌린 것인지 다시 고민하기 시작했다. 지난해 9월, 테크크런치(TechCrunch)가 누구나 사용자의 전화번호, 통화 녹음, 문자 기록에 접근할 수 있는 보안 취약점을 발견한 직후, 네온 모바일은 출시된 지 몇 주 만에 서비스를 중단했다. 힐은 네온 모바일이 이 사실을 자신에게 알리지 않았다고 말하며, 지금은 자신의 음성이 인터넷에서 악용될까 봐 걱정된다.
스탠퍼드대학교 인간 중심 인공지능 연구소(Human-Centered AI Institute)의 데이터 프라이버시 연구원 제니퍼 킹(Jennifer King)은 AI 데이터 시장이 사용자 데이터가 어떻게, 어디서 사용될 것인지 명확히 밝히지 않는다는 점에서 우려를 표한다. 그녀는 “자신의 권리에 대해 제대로 알지도 못하고, 이를 바탕으로 협상조차 하지 못한 채, 소비자들은 자신이 원하지 않거나 이해하지 못하거나 예측하지 못한 방식으로 데이터가 재사용될 위험에 처해 있으며, 이때는 거의 어떤 구제 수단도 없다”고 덧붙인다.
AI 훈련자들이 네온 모바일이나 Kled AI에서 데이터를 공유할 때, 그들은 플랫폼에 전 세계적 범위, 독점적, 무효화 불가능, 양도 가능, 로열티 면제 조건의 무제한 라이선스를 부여한다. 이는 플랫폼이 사용자의 초상화를 판매·사용·공개 전시·저장할 뿐 아니라, 이를 기반으로 파생 작품을 제작하는 것도 허용한다는 의미다.
Kled AI 공동창업자 아비 파텔(Avi Patel)은 자사의 데이터 계약서가 사용 목적을 AI 훈련 및 연구에 한정한다고 밝혔다. “전체 비즈니스 모델은 사용자 신뢰에 기반한다. 기여자들이 자신의 데이터가 악용될 수 있다고 느낀다면, 플랫폼은 기능할 수 없다.” 그는 데이터셋 판매 전에 구매자를 심사해 ‘의심스러운 의도’를 가진 기관(예: 포르노 산업)이나, 신뢰를 위반할 수 있는 방식으로 데이터를 사용할 것으로 판단되는 ‘정부 기관’과의 협력을 피한다고 설명한다.
네온 모바일은 논평 요청에 응답하지 않았다.
런던 시티대학교 세인트조지 법학과 교수 엔리코 보나디오(Enrico Bonadio)는 이 계약 조항들이 플랫폼과 그 고객이 “해당 자료에 대해 사실상 어떤 행위라도 영구적으로, 추가 비용 없이 수행할 수 있게 하며, 기여자는 동의를 철회하거나 재협상할 실질적인 수단조차 갖지 못한다”고 지적한다.
더 우려되는 리스크는 훈련자들의 데이터가 딥페이크 및 신원 사칭에 악용될 가능성이다. 데이터 시장은 이름과 위치 등 식별 정보를 데이터에서 제거한다고 주장하지만, 보나디오는 생체 인식 정보는 본질적으로 실질적인 익명화가 어렵다고 설명한다.
판매자의 후회
AI 훈련자들이 데이터 사용 방식에 대해 더 세밀한 보호 조항을 협상할 수 있다고 하더라도, 이후 후회할 가능성이 있다. 2024년, 뉴욕 출신 배우 애덤 코이(Adam Coy)는 AI 영상 편집 소프트웨어 캡션(Captions)—현재 미라지(Mirage)로 이름을 변경함—에 자신의 초상권을 1000달러에 판매했다. 계약서에는 그의 정체성이 정치적 목적으로 사용되지 않으며, 주류·담배·포르노 제품 광고에도 사용되지 않으며, 라이선스 기간은 1년이라는 조항이 명시되어 있었다.
캡션은 논평 요청에 응답하지 않았다.
그러나 얼마 후 애덤의 친구들이 인터넷에서 발견한 영상들을 그에게 전달하기 시작했다. 그 영상들에는 애덤의 얼굴과 음성이 AI로 복제되어 수백만 회 조회된 상태였다. 그중 하나는 인스타그램에 게재된 영상으로, 애덤의 AI 복제본이 ‘질 건강 전문의’라고 자신을 소개하며 임신 및 산후 여성들을 대상으로 검증되지 않은 의료 보충제를 홍보하고 있었다.
“이 일을 다른 사람에게 설명하는 건 날 부끄럽게 만든다,” 코이는 말한다.
“댓글이 참 이상했는데, 사람들이 내 외모를 평가하고 있었지만, 그건 전혀 나와 무관한 일이었다,” 코이는 덧붙인다. “그때 나는 대부분의 모델이 어차피 인터넷에서 데이터와 초상화를 크롤링할 테니, 차라리 돈을 받는 게 낫겠다고 생각했다.”
코이는 이후 AI 데이터 관련 플랫폼 노동을 단 한 건도 하지 않았다고 말한다. 그는 “어떤 기업이 막대한 보상을 제시한다면, 다시 고려해볼 수 있을 것”이라고 말했다.
TechFlow 공식 커뮤니티에 오신 것을 환영합니다
Telegram 구독 그룹:https://t.me/TechFlowDaily
트위터 공식 계정:https://x.com/TechFlowPost
트위터 영어 계정:https://x.com/BlockFlow_News












