
全球數千人正在出售自己的身份訓練 AI,但代價是什麼?
TechFlow Selected深潮精選

全球數千人正在出售自己的身份訓練 AI,但代價是什麼?
當 AI 公司的數據飢渴與全球經濟差距結合在一起,正在製造一場不對等的交易。
作者:The Guardian
編譯:深潮 TechFlow
深潮導讀:這篇調查報道揭示了一個正在快速生長的灰色產業:全球數千人通過出售自己的聲音、面孔、通話記錄和日常視頻來賺取 AI 訓練費用。
這不是隱私爭議的泛泛討論,而是有真實人物、真實金額、真實後果的調查——一個賣了自己臉孔的演員,後來在 Instagram 上看到"自己"在替不明醫療產品做宣傳,評論區有人在評價他的"外貌"。
當 AI 公司的數據飢渴與全球經濟差距結合在一起,正在製造一場不對等的交易。
全文如下:
去年的一個早晨,住在南非開普敦的 Jacobus Louw 照例出門散步,沿途喂海鷗。但這次他錄了幾段視頻——拍攝他走在人行道上的腳步和視野。這段視頻讓他賺到 14 美元,大約是該國最低工資的 10 倍,也相當於這個 27 歲年輕人半周的食品開銷。
這是 Louw 在 Kled AI 上完成的一項"城市導航"任務。Kled AI 是一款付費給用戶上傳照片、視頻等數據用於訓練 AI 模型的應用。在短短几周內,Louw 通過上傳日常生活中的照片和視頻,賺到了 50 美元。
數千英里之外,在印度蘭契,22 歲的學生 Sahil Tigga 定期靠 Silencio 賺錢——這款應用眾包音頻數據用於 AI 訓練,會訪問他手機的麥克風,採集餐廳內部或繁忙路口的環境噪音。他還上傳自己的聲音錄音。Sahil 會專程前往獨特場景,比如 Silencio 地圖上尚未記錄的酒店大堂。他靠這個每月收入超過 100 美元,足以覆蓋全部餐飲開銷。
在芝加哥,18 歲的焊接學徒 Ramelio Hill 將自己與朋友和家人的私人手機聊天記錄賣給了 Neon Mobile——這是一個對話式 AI 訓練平臺,每分鐘支付 0.50 美元——賺了幾百美元。對 Hill 來說,這筆賬很簡單:他認為科技公司本來就已經掌握了他大量的私人數據,不如自己也從中分一杯羹。
這些"AI 訓練零工"——上傳周圍場景、自身照片、視頻和音頻——站在了一場全球新數據淘金熱的最前線。隨著硅谷對高質量人類數據的渴望超出了從開放互聯網上能夠抓取的範圍,一個蓬勃發展的數據市場行業應運而生,彌合這一缺口。從開普敦到芝加哥,數千人正在將自己的生物特徵身份和私密數據微授權給下一代 AI。
但這個新零工經濟伴隨著代價。用幾美元換來的背後,這些訓練者正在為一個可能最終讓他們的技能變得過時的行業提供燃料,同時讓自己暴露在深度偽造、身份盜竊和數字剝削的未來風險中——而他們對此才剛剛開始有所瞭解。
讓 AI 齒輪持續轉動
ChatGPT 和 Gemini 等 AI 語言模型需要海量學習材料才能持續改進,但它們正面臨數據荒。最常用的訓練數據源——C4、RefinedWeb 和 Dolma——佔據網絡最高質量數據集的四分之一,如今正在限制生成式 AI 公司使用其數據訓練模型。研究人員估計,AI 公司最快將在 2026 年耗盡可用的新鮮高質量文本。儘管部分實驗室已經開始用 AI 自身生成的合成數據反饋訓練,但這種遞歸過程會導致模型產出充斥錯誤的"垃圾",進而引發崩潰。

Kled AI 和 Silencio 這類應用正是在這裡登場。在這些數據市場中,數以百萬計的人正在通過出售自己的身份數據來餵養和訓練 AI。除 Kled AI、Silencio 和 Neon Mobile 之外,AI 訓練者還有許多選擇:由著名孵化器 Y-Combinator 支持的 Luel AI,以每分鐘約 0.15 美元的價格獲取多語言對話素材;ElevenLabs 允許你對自己的聲音進行數字克隆,並以每分鐘 0.02 美元的基礎費率供他人使用。
倫敦國王學院經濟學教授 Bouke Klein Teeselink 表示,AI 訓練零工是一個新興的工作類別,將會大幅增長。
AI 公司知道,向人們支付數據授權費用,有助於規避完全依賴網絡爬取內容可能引發的版權糾紛,Teeselink 說。AI 研究員 Veniamin Veselovsky 表示,這些公司還需要高質量數據來為系統建模新的、改進後的行為。"就目前而言,人類數據是從模型分佈之外進行採樣的黃金標準,"Veselovsky 補充道。
驅動這些機器運轉的人類——尤其是發展中國家的人們——往往需要這筆錢,也幾乎別無選擇。對許多 AI 訓練零工來說,從事這份工作是對經濟差距的一種務實回應。在失業率高、本國貨幣貶值的國家,賺取美元往往比本地工作更穩定、更划算。一些人難以找到入門級工作,出於生計不得不做 AI 訓練。即便在較富裕的國家,生活成本的上升也讓出售自己變成了一種合乎邏輯的財務選擇。
開普敦的 AI 訓練者 Louw 清楚地知道其中的隱私代價。儘管收入不穩定,也不足以覆蓋他全部的月度開銷,但他願意接受這些條件來賺錢。他多年來飽受神經系統疾病困擾,無法找到工作,但在 AI 數據市場(包括 Kled AI)賺到的錢,讓他攢夠了 500 美元,報名參加了一門水療培訓課程,成為一名按摩師。
"作為南非人,收到美元比別人想象的更值,"Louw 說。
牛津大學互聯網地理學教授、《餵養機器》一書作者 Mark Graham 承認,對發展中國家的個人而言,這筆錢在短期內可能有實際意義,但他警告,"從結構上看,這份工作是不穩定的、沒有上升空間的,實際上是一條死路"。
Graham 補充說,AI 數據市場依賴"工資的競相壓低",以及"對人類數據的暫時性需求"。一旦這種需求轉移,"工人將沒有任何保障,沒有可轉移的技能,也沒有安全網"。
Graham 表示,唯一的贏家是"北半球的平臺,它們攫取了所有持久的價值"。

全權授權
來自芝加哥的 AI 訓練者 Hill 對將私人手機通話賣給 Neon Mobile 一事心情複雜。約 11 小時的通話內容讓他賺了 200 美元,但他說這款應用經常下線、拖延付款。"Neon 在我眼裡一直很可疑,但我還是一直用,就為了多賺點零花錢付賬單,"Hill 說。
現在他開始重新考量這筆錢是否真的那麼輕鬆。去年 9 月,Neon Mobile 剛上線幾周後就下線了,此前 TechCrunch 發現了一個安全漏洞,任何人都可以訪問用戶的電話號碼、通話錄音和文字記錄。Hill 說 Neon Mobile 從未通知他這一情況,現在他很擔心自己的聲音會在網絡上被濫用。
斯坦福大學以人為中心人工智能研究所數據隱私研究員 Jennifer King 感到擔憂的是,AI 數據市場並不清楚用戶數據將如何及在何處被使用。她補充說,在不瞭解自身權利、也未能就此談判的情況下,"消費者面臨數據被以他們不喜歡、不理解或未曾預料的方式再利用的風險,且屆時幾乎沒有任何補救途徑"。
當 AI 訓練者在 Neon Mobile 和 Kled AI 上分享數據時,他們授予的是一份全權授權(全球範圍、獨佔、不可撤銷、可轉讓且免版稅),允許平臺出售、使用、公開展示和存儲其肖像,甚至據此創作衍生作品。
Kled AI 創始人 Avi Patel 表示,他公司的數據協議將使用限定在 AI 訓練和研究目的。"整個商業模式依賴用戶信任。如果貢獻者認為他們的數據可能被濫用,平臺就無法運轉。"他表示公司會在出售數據集前審核購買方,避免與"意圖可疑"的機構合作,例如色情行業,以及他們認為可能以違背該信任的方式使用數據的"政府機構"。
Neon Mobile 未回應置評請求。
倫敦城市聖喬治大學法學教授 Enrico Bonadio 指出,這些協議條款允許平臺及其客戶"幾乎可以對該材料做任何事,永久有效,無需額外付款,貢獻者也沒有實際方式撤回同意或重新談判"。
更令人擔憂的風險包括:訓練者的數據被用於製作深度偽造和身份冒充。儘管數據市場聲稱在出售前會剝離數據中的身份識別信息(如姓名和位置),但生物特徵規律從本質上就難以進行有實質意義的匿名化處理,Bonadio 補充道。
賣家的悔恨
即便 AI 訓練者能夠就數據使用方式談判出更細化的保護條款,他們仍可能後悔。2024 年,來自紐約的演員 Adam Coy 以 1000 美元的價格將自己的肖像賣給了 Captions——一款 AI 視頻編輯軟件,現已更名為 Mirage。他的協議規定,他的身份不會被用於任何政治目的,不會用於推銷酒精、菸草或色情內容,且授權期限為一年。
Captions 未回應置評請求。
不久之後,Adam 的朋友們開始轉發他們在網上發現的視頻,那些視頻裡用著他的臉和聲音,播放量達數百萬次。其中一個 Instagram 視頻中,Adam 的 AI 複製體自稱是"陰道醫生",為孕期和產後女性推廣未經證實的醫療補劑。
"向別人解釋這件事讓我感到難堪,"Coy 說。
"評論區很奇怪,因為他們在評價我的外貌,但那根本不是我,"Coy 補充道。"我當時做出(賣肖像)這個決定時的想法是,大多數模型反正都會在網上爬取數據和肖像,不如被付錢。"
Coy 說,他此後沒有再接任何 AI 數據零工。他說,只有在某個公司提供重大報酬的情況下,他才會考慮再做。
歡迎加入深潮 TechFlow 官方社群
Telegram 訂閱群:https://t.me/TechFlowDaily
Twitter 官方帳號:https://x.com/TechFlowPost
Twitter 英文帳號:https://x.com/BlockFlow_News












