
Hàng nghìn người trên toàn cầu đang bán danh tính của mình để huấn luyện AI — nhưng cái giá phải trả là gì?
Tuyển chọn TechFlowTuyển chọn TechFlow

Hàng nghìn người trên toàn cầu đang bán danh tính của mình để huấn luyện AI — nhưng cái giá phải trả là gì?
Khi cơn khát dữ liệu của các công ty AI kết hợp với khoảng cách kinh tế toàn cầu, một giao dịch bất cân xứng đang dần hình thành.
Tác giả: The Guardian
Biên dịch: TechFlow
Dẫn nhập từ TechFlow: Báo cáo điều tra này phơi bày một ngành công nghiệp xám đang phát triển nhanh chóng: hàng nghìn người trên toàn cầu đang bán giọng nói, khuôn mặt, bản ghi cuộc gọi và video đời thường của mình để kiếm tiền cho việc huấn luyện AI.
Đây không phải là một cuộc tranh luận chung chung về quyền riêng tư, mà là một cuộc điều tra có thật với những con người thật, những khoản tiền thật và những hệ lụy thật — một diễn viên đã bán khuôn mặt mình, sau đó bất ngờ nhìn thấy “chính mình” xuất hiện trên Instagram để quảng bá một sản phẩm y tế không rõ nguồn gốc; trong phần bình luận, người ta còn bình luận về “ngoại hình” của anh ta.
Khi cơn khát dữ liệu của các công ty AI gặp phải khoảng cách kinh tế toàn cầu, một giao dịch bất cân xứng đang dần hình thành.
Toàn văn như sau:
Một buổi sáng năm ngoái, Jacobus Louw, cư dân Cape Town (Nam Phi), như thường lệ đi dạo ngoài trời và cho chim biển ăn dọc đường. Lần này, anh ấy quay vài đoạn video — ghi lại bước chân và góc nhìn của anh khi đi bộ trên vỉa hè. Đoạn video này giúp anh kiếm được 14 đô la Mỹ, tương đương khoảng 10 lần mức lương tối thiểu tại quốc gia này và cũng bằng gần một nửa chi phí thực phẩm cho cả tuần của chàng trai 27 tuổi này.
Đây là một nhiệm vụ “điều hướng đô thị” mà Louw hoàn thành trên ứng dụng Kled AI. Kled AI là một nền tảng trả tiền cho người dùng khi họ tải lên ảnh, video và các loại dữ liệu khác nhằm huấn luyện mô hình AI. Chỉ trong vài tuần ngắn ngủi, Louw đã kiếm được 50 đô la Mỹ chỉ bằng cách gửi lên các ảnh và video đời thường.
Cách hàng ngàn dặm ở Ranchi (Ấn Độ), Sahil Tigga, sinh viên 22 tuổi, đều đặn kiếm tiền từ ứng dụng Silencio — một nền tảng thu thập dữ liệu âm thanh phục vụ huấn luyện AI, có quyền truy cập vào micro điện thoại của anh để ghi lại tiếng ồn môi trường trong nhà hàng hoặc tại các ngã tư đông đúc. Anh cũng tự tải lên các bản ghi giọng nói của chính mình. Sahil còn chủ động đến những địa điểm đặc biệt — ví dụ như sảnh khách sạn chưa được đánh dấu trên bản đồ Silencio — để thu thập dữ liệu. Nhờ đó, mỗi tháng anh kiếm hơn 100 đô la Mỹ, đủ chi trả toàn bộ chi phí ăn uống.
Tại Chicago, Ramelio Hill, 18 tuổi, học nghề hàn, đã bán các tin nhắn trò chuyện cá nhân trên điện thoại với bạn bè và người thân cho Neon Mobile — một nền tảng huấn luyện AI đối thoại, trả 0,50 đô la Mỹ mỗi phút — và thu về vài trăm đô la Mỹ. Với Hill, phép tính rất đơn giản: anh cho rằng các công ty công nghệ vốn dĩ đã nắm giữ lượng lớn dữ liệu cá nhân của mình, vậy thì sao không tự hưởng lợi từ chính dữ liệu đó?
Những “công nhân huấn luyện AI” này — người tải lên cảnh vật xung quanh, ảnh cá nhân, video và âm thanh — đang đứng ở tuyến đầu của một cơn sốt khai thác dữ liệu toàn cầu mới. Khi nhu cầu của Thung lũng Silicon đối với dữ liệu con người chất lượng cao vượt xa khả năng thu thập từ Internet mở, một ngành thị trường dữ liệu đang phát triển mạnh mẽ nhằm lấp đầy khoảng trống này. Từ Cape Town đến Chicago, hàng nghìn người đang cấp phép từng phần — dù nhỏ — về đặc điểm sinh trắc học và dữ liệu riêng tư của mình cho thế hệ AI tiếp theo.
Nhưng nền kinh tế lao động linh hoạt mới này đi kèm với cái giá phải trả. Đằng sau vài đô la đổi lấy, những người huấn luyện này đang nuôi dưỡng một ngành công nghiệp có thể cuối cùng khiến kỹ năng của họ trở nên lỗi thời, đồng thời phơi bày bản thân trước các rủi ro trong tương lai như deepfake, đánh cắp danh tính và bóc lột kỹ thuật số — những mối nguy mà họ mới chỉ bắt đầu nhận thức.
Giữ cho bánh răng AI luôn quay
Các mô hình ngôn ngữ AI như ChatGPT và Gemini cần một lượng khổng lồ tài liệu học tập để liên tục cải tiến, nhưng hiện chúng đang đối mặt với tình trạng khan hiếm dữ liệu. Các nguồn dữ liệu huấn luyện phổ biến nhất — C4, RefinedWeb và Dolma — chiếm tới một phần tư các tập dữ liệu chất lượng cao nhất trên mạng, nay đang hạn chế việc sử dụng dữ liệu của mình bởi các công ty AI tạo sinh. Các nhà nghiên cứu ước tính, các công ty AI có thể sẽ cạn kiệt nguồn văn bản chất lượng cao mới vào năm 2026. Dù một số phòng thí nghiệm đã bắt đầu sử dụng dữ liệu tổng hợp do chính AI tạo ra để huấn luyện ngược lại, nhưng quy trình đệ quy này lại dẫn đến việc mô hình sản sinh ngày càng nhiều nội dung sai lệch (“rác”), gây suy thoái hiệu suất.

Chính tại đây, các ứng dụng như Kled AI và Silencio xuất hiện. Trong những thị trường dữ liệu này, hàng triệu người đang nuôi dưỡng và huấn luyện AI bằng cách bán dữ liệu nhận dạng cá nhân của mình. Ngoài Kled AI, Silencio và Neon Mobile, những người huấn luyện AI còn có nhiều lựa chọn khác: Luel AI — do vườn ươm nổi tiếng Y-Combinator hỗ trợ — thu thập dữ liệu hội thoại đa ngôn ngữ với giá khoảng 0,15 đô la Mỹ mỗi phút; ElevenLabs cho phép bạn sao chép kỹ thuật số giọng nói của mình và cho người khác sử dụng với mức phí cơ bản 0,02 đô la Mỹ mỗi phút.
Giáo sư Kinh tế học tại Đại học King’s College London, Bouke Klein Teeselink, cho biết “công nhân huấn luyện AI” là một loại hình việc làm mới đang trên đà tăng trưởng mạnh mẽ.
Theo Teeselink, các công ty AI hiểu rõ rằng việc trả tiền cho người dân để cấp phép dữ liệu giúp họ tránh được các tranh chấp bản quyền tiềm tàng nếu chỉ dựa hoàn toàn vào việc thu thập dữ liệu từ web. Nhà nghiên cứu AI Veniamin Veselovsky cho biết thêm, các công ty này cũng cần dữ liệu chất lượng cao để mô hình hóa các hành vi mới và cải tiến cho hệ thống. “Ở thời điểm hiện tại, dữ liệu con người vẫn là tiêu chuẩn vàng để lấy mẫu từ phân bố ngoài mô hình,” Veselovsky bổ sung.
Những con người vận hành các cỗ máy này — đặc biệt là người dân ở các nước đang phát triển — thường rất cần khoản tiền này và gần như chẳng còn lựa chọn nào khác. Đối với nhiều “công nhân huấn luyện AI”, việc làm này là một phản ứng thực tiễn trước khoảng cách kinh tế. Tại những quốc gia có tỷ lệ thất nghiệp cao và đồng nội tệ mất giá, việc kiếm đô la Mỹ thường ổn định và sinh lời hơn so với công việc trong nước. Một số người khó tìm được việc làm cấp nhập môn và buộc phải chọn huấn luyện AI vì lý do sinh kế. Ngay cả tại những quốc gia giàu có hơn, chi phí sinh hoạt gia tăng cũng khiến việc bán dữ liệu cá nhân trở thành một lựa chọn tài chính hợp lý.
Jacobus Louw, một “công nhân huấn luyện AI” ở Cape Town, hoàn toàn ý thức rõ cái giá về quyền riêng tư mà anh phải trả. Dù thu nhập không ổn định và cũng không đủ chi trả toàn bộ chi phí hàng tháng, anh vẫn sẵn sàng chấp nhận những điều kiện này để kiếm tiền. Nhiều năm qua, Louw mắc bệnh thần kinh khiến anh không thể tìm được việc làm, nhưng số tiền kiếm được từ thị trường dữ liệu AI (bao gồm cả Kled AI) đã giúp anh tích lũy đủ 500 đô la Mỹ để đăng ký khóa đào tạo trị liệu spa và trở thành một chuyên viên mát-xa.
“Là người Nam Phi, việc nhận được đô la Mỹ có giá trị hơn nhiều so với những gì người khác tưởng tượng,” Louw nói.
Giáo sư Địa lý Internet tại Đại học Oxford, đồng thời là tác giả cuốn sách Feeding the Machine, Mark Graham thừa nhận rằng khoản tiền này có thể mang ý nghĩa thực tiễn trong ngắn hạn đối với cá nhân ở các nước đang phát triển, song ông cảnh báo: “về mặt cấu trúc, công việc này thiếu ổn định, không có lộ trình thăng tiến và thực chất là một ngõ cụt”.
Graham bổ sung rằng thị trường dữ liệu AI phụ thuộc vào “cuộc đua cắt giảm lương” và “nhu cầu tạm thời đối với dữ liệu con người”. Một khi nhu cầu này chuyển dịch, “người lao động sẽ không có bất kỳ sự bảo đảm nào, không sở hữu kỹ năng có thể chuyển đổi và cũng không có lưới an toàn nào cả”.
Theo Graham, những bên chiến thắng duy nhất là “các nền tảng ở Bắc Bán Cầu, những bên chiếm đoạt toàn bộ giá trị bền vững”.

Cấp phép toàn quyền
Ramelio Hill ở Chicago cảm thấy tâm trạng phức tạp khi bán các cuộc trò chuyện điện thoại cá nhân cho Neon Mobile. Gần 11 giờ ghi âm cuộc gọi giúp anh kiếm được 200 đô la Mỹ, nhưng anh cho biết ứng dụng này thường xuyên ngừng hoạt động và chậm thanh toán. “Neon luôn khiến tôi cảm thấy nghi ngờ, nhưng tôi vẫn tiếp tục dùng nó — chỉ để kiếm thêm chút tiền lẻ trả hóa đơn,” Hill nói.
Giờ đây, anh bắt đầu cân nhắc lại liệu khoản tiền này có thực sự dễ dàng như vậy hay không. Vào tháng 9 năm ngoái, chỉ vài tuần sau khi ra mắt, Neon Mobile đã ngừng hoạt động sau khi TechCrunch phát hiện một lỗ hổng bảo mật cho phép bất kỳ ai truy cập số điện thoại, bản ghi cuộc gọi và bản sao văn bản của người dùng. Hill cho biết Neon Mobile chưa từng thông báo cho anh về sự việc này và giờ đây anh lo ngại giọng nói của mình sẽ bị lạm dụng trên mạng.
Jennifer King, nhà nghiên cứu về quyền riêng tư dữ liệu tại Viện Nghiên cứu Trí tuệ Nhân tạo Hướng đến Con người thuộc Đại học Stanford, bày tỏ lo ngại rằng thị trường dữ liệu AI không minh bạch về cách thức và nơi dữ liệu người dùng sẽ được sử dụng. Bà bổ sung rằng, “khi người tiêu dùng không hiểu rõ quyền của mình và cũng không có cơ hội thương lượng, họ đối mặt với nguy cơ dữ liệu bị tái sử dụng theo những cách mà họ không thích, không hiểu hoặc chưa từng lường trước — và gần như không có biện pháp khắc phục nào”.
Khi những người huấn luyện AI chia sẻ dữ liệu trên Neon Mobile và Kled AI, họ cấp cho nền tảng một giấy phép toàn quyền (có hiệu lực toàn cầu, độc quyền, không thể hủy bỏ, có thể chuyển nhượng và miễn phí bản quyền), cho phép nền tảng bán, sử dụng, trưng bày công khai và lưu trữ hình ảnh cá nhân của họ, thậm chí sáng tạo các tác phẩm phái sinh dựa trên dữ liệu đó.
Avi Patel, nhà sáng lập Kled AI, cho biết thỏa thuận dữ liệu của công ty ông giới hạn việc sử dụng dữ liệu chỉ cho mục đích huấn luyện và nghiên cứu AI. “Toàn bộ mô hình kinh doanh đều dựa vào niềm tin của người dùng. Nếu những người đóng góp cảm thấy dữ liệu của họ có thể bị lạm dụng, nền tảng sẽ không thể vận hành.” Ông cho biết công ty sẽ kiểm tra kỹ lưỡng các bên mua dữ liệu trước khi bán, tránh hợp tác với các tổ chức “có động cơ đáng ngờ”, ví dụ như ngành công nghiệp khiêu dâm hoặc các “cơ quan chính phủ” mà họ cho rằng có thể sử dụng dữ liệu trái với niềm tin này.
Neon Mobile không phản hồi yêu cầu bình luận.
Giáo sư Luật tại Đại học St George’s, Đại học London, Enrico Bonadio, chỉ ra rằng các điều khoản trong thỏa thuận này cho phép nền tảng và khách hàng của họ “gần như làm bất cứ điều gì với dữ liệu đó, vĩnh viễn, không cần thanh toán thêm và người đóng góp cũng không có cách thực tế nào để rút lại sự đồng ý hoặc thương lượng lại”.
Những rủi ro đáng lo ngại hơn nữa bao gồm việc dữ liệu của người huấn luyện bị sử dụng để tạo deepfake và mạo danh danh tính. Mặc dù các thị trường dữ liệu khẳng định họ sẽ loại bỏ thông tin nhận dạng (ví dụ như tên và vị trí) khỏi dữ liệu trước khi bán, Bonadio bổ sung rằng các đặc điểm sinh trắc học về bản chất rất khó được ẩn danh một cách thực sự có ý nghĩa.
Sự hối tiếc của người bán
Ngay cả khi những người huấn luyện AI có thể thương lượng được các điều khoản bảo vệ chi tiết hơn về cách sử dụng dữ liệu, họ vẫn có thể cảm thấy hối tiếc. Năm 2024, Adam Coy, một diễn viên đến từ New York, đã bán hình ảnh cá nhân của mình cho Captions — một phần mềm chỉnh sửa video AI, nay đổi tên thành Mirage — với giá 1.000 đô la Mỹ. Thỏa thuận của anh quy định rằng danh tính của anh sẽ không được sử dụng cho bất kỳ mục đích chính trị nào, không được dùng để quảng bá rượu, thuốc lá hay nội dung khiêu dâm, và thời hạn cấp phép là một năm.
Captions không phản hồi yêu cầu bình luận.
Không lâu sau, bạn bè của Adam bắt đầu gửi cho anh những video họ tìm thấy trên mạng, trong đó khuôn mặt và giọng nói của anh được sử dụng, đạt hàng triệu lượt xem. Một video trên Instagram cho thấy bản sao AI của Adam tự xưng là “bác sĩ phụ khoa”, quảng bá các loại thực phẩm chức năng y tế chưa được chứng minh hiệu quả dành cho phụ nữ mang thai và sau sinh.
“Việc giải thích chuyện này với người khác khiến tôi cảm thấy xấu hổ,” Coy nói.
“Phần bình luận thật kỳ lạ, vì mọi người đang bình luận về ngoại hình của tôi — trong khi đó hoàn toàn không phải tôi,” Coy bổ sung. “Khi tôi đưa ra quyết định (bán hình ảnh) lúc đó, tôi nghĩ rằng hầu hết các mô hình rồi cũng sẽ tự thu thập dữ liệu và hình ảnh từ mạng, vậy thì tốt hơn hết là được trả tiền.”
Coy cho biết kể từ đó anh chưa nhận thêm bất kỳ công việc nào liên quan đến dữ liệu AI. Anh nói chỉ cân nhắc làm lại nếu một công ty nào đó đưa ra mức thù lao đáng kể.
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News












