AI bùng nổ "khủng hoảng dầu mỏ" dữ liệu, các công ty nội dung có thể nằm mà kiếm tiền

2024.07.24

Chia sẻ đến

Tuyển chọn TechFlowTuyển chọn TechFlow

AI bùng nổ "khủng hoảng dầu mỏ" dữ liệu, các công ty nội dung có thể nằm mà kiếm tiền

Nếu coi mô hình AI lớn như một chiếc ô tô, thì dữ liệu thô chính là dầu thô.

2024.07.24 - 01:19:02

Chuyên sâu báo cáo Web3

Nếu coi mô hình AI lớn như một chiếc ô tô, thì dữ liệu thô chính là dầu thô.

Tác giả: Giang Giang

Biên tập: Man Man Châu

Sự xuất hiện của ChatGPT và việc Midjourney được áp dụng ồ ạt đã giúp AI lần đầu tiên đạt được ứng dụng quy mô lớn, tức là sự phổ biến của các mô hình lớn.

Mô hình lớn ở đây ám chỉ các mô hình học máy có số lượng tham số lớn và cấu trúc phức tạp, có khả năng xử lý khối lượng dữ liệu khổng lồ và hoàn thành nhiều nhiệm vụ phức tạp khác nhau.

01 Tranh chấp bản quyền dữ liệu AI

Nếu so sánh mô hình AI hiện nay với chiếc ô tô, thì dữ liệu gốc chính là dầu thô. Dù bằng cách nào, trước hết mô hình AI cần đủ "dầu thô".

Nguồn "dầu thô" của các công ty AI chủ yếu đến từ những loại sau:

Các nguồn dữ liệu công khai miễn phí trên mạng như Wikipedia, blog, diễn đàn, tin tức;
Các hãng truyền thông và nhà xuất bản lâu đời;
Các tổ chức nghiên cứu như trường đại học;
Người dùng cá nhân (người dùng C) sử dụng mô hình.

Quyền sở hữu dầu mỏ trong thế giới thực đã có hệ thống pháp luật quy định rõ ràng, nhưng trong lĩnh vực AI vẫn còn khá hỗn loạn, quyền khai thác "dầu thô" này vẫn chưa rõ ràng, dẫn đến vô số tranh chấp phát sinh.

Gần đây, nhiều hãng thu âm lớn đã kiện các công ty sản xuất nhạc bằng AI Suno và Udio, cáo buộc vi phạm bản quyền. Vụ kiện này tương tự vụ The New York Times kiện OpenAI vào tháng 12 năm ngoái.

Ảnh: Billboard

Vào tháng 7 năm 2023, một số tác giả đã khởi kiện công ty này, cáo buộc ChatGPT tạo ra tóm tắt tác phẩm của họ dựa trên nội dung được bảo vệ bản quyền.

Cũng trong tháng 12 năm đó, The New York Times cũng khởi kiện Microsoft và OpenAI về hành vi vi phạm bản quyền tương tự, cáo buộc hai công ty này sử dụng nội dung của báo để huấn luyện chatbot trí tuệ nhân tạo.

Ngoài ra, tại bang California đã có một vụ kiện tập thể cáo buộc OpenAI thu thập thông tin cá nhân của người dùng trên Internet để huấn luyện ChatGPT mà không có sự đồng ý.

Cuối cùng, OpenAI không phải chịu trách nhiệm cho cáo buộc này. Họ cho biết không đồng tình với cáo buộc của The New York Times, cũng không thể tái hiện được các vấn đề mà tờ báo nêu ra; quan trọng hơn, dữ liệu mà The New York Times cung cấp đối với OpenAI không mang tính trọng yếu.

Nguồn:

https://openai.com/index/openai-and-journalism/

Đối với OpenAI, bài học lớn nhất từ sự việc này có lẽ là cần xử lý tốt mối quan hệ với các nhà cung cấp dữ liệu, làm rõ quyền và nghĩa vụ giữa hai bên. Vì vậy, trong gần một năm qua chúng ta thấy OpenAI đã thiết lập quan hệ đối tác với rất nhiều nhà cung cấp dữ liệu, bao gồm The Atlantic, Vox Media, News Corp, Reddit, Financial Times, Le Monde, Prisa Media, Axel Springer, American Journalism Project và nhiều đơn vị khác.

Trong tương lai, OpenAI sẽ được phép sử dụng hợp pháp dữ liệu của các phương tiện truyền thông này, đồng thời các phương tiện truyền thông cũng sẽ tích hợp công nghệ của OpenAI vào sản phẩm của mình.

02 AI thúc đẩy nền tảng nội dung kiếm tiền

Tuy nhiên, lý do cơ bản nhất khiến OpenAI thiết lập quan hệ đối tác với các nhà cung cấp dữ liệu không phải vì sợ bị kiện, mà là do dữ liệu cho học máy sắp cạn kiệt. Các nhà nghiên cứu tại MIT từng tiến hành một nghiên cứu ước tính rằng bộ dữ liệu học máy có thể sẽ cạn kiệt tất cả «dữ liệu ngôn ngữ chất lượng cao» trước năm 2026.

Do đó, «dữ liệu chất lượng cao» trở thành hàng hóa quý giá đối với các nhà sản xuất mô hình như OpenAI và Google. Các công ty nội dung liên tục hợp tác với các nhà sản xuất mô hình AI, bước vào chế độ «nằm yên cũng kiếm tiền».

Nền tảng truyền thông truyền thống Shutterstock đã lần lượt hợp tác với các công ty AI như Meta, Alphabet, Amazon, Apple, OpenAI, Reka... Năm 2023, nhờ cấp phép nội dung cho mô hình AI, doanh thu hàng năm tăng lên 104 triệu USD, dự kiến đến năm 2027 sẽ đạt 250 triệu USD; khoản thu từ việc Reddit cấp phép bản quyền nội dung cho Google lên tới 60 triệu USD mỗi năm; Apple cũng đang tìm kiếm hợp tác với các phương tiện truyền thông chính thống, đưa ra mức phí bản quyền ít nhất 50 triệu USD mỗi năm. Chi phí bản quyền mà các công ty nội dung nhận được từ các công ty AI đang tăng vọt với tốc độ tăng trưởng hàng năm lên tới 450%.

Ảnh: CX Scoop

Trong những năm gần đây, ngoài lĩnh vực phát trực tuyến (streaming), việc kiếm tiền từ nội dung gặp khó khăn – đây là một điểm đau lớn trong ngành nội dung. So với thời kỳ khởi nghiệp Internet, sự xuất hiện của AI đã mở ra tiềm năng lớn hơn và kỳ vọng doanh thu mạnh mẽ hơn cho ngành nội dung.

03 Dữ liệu chất lượng cao vẫn khan hiếm

Tất nhiên, không phải mọi nội dung đều đáp ứng nhu cầu của AI.

Liên quan đến tranh luận giữa OpenAI và The New York Times được nhắc đến ở trên, một điểm nổi bật khác là chất lượng dữ liệu. Cũng giống như việc tinh chế dầu từ dầu thô, một là bản thân dầu phải tốt, hai là kỹ thuật tinh chế phải tốt.

OpenAI đặc biệt nhấn mạnh rằng nội dung của The New York Times không đóng góp đáng kể nào vào quá trình huấn luyện mô hình của họ. So với Shutterstock – nơi OpenAI sẵn sàng chi hàng chục triệu USD mỗi năm – thì các phương tiện truyền thông dạng văn bản dựa vào tính thời sự như The New York Times không phải là đối tượng được ưu ái trong thời đại AI. AI cần nhiều hơn những dữ liệu sâu sắc và độc đáo.

Dữ liệu chất lượng cao quá khan hiếm, các công ty AI bắt đầu chú trọng vào «kỹ thuật tinh chế» và «ứng dụng tích hợp toàn diện».

Ngày 25 tháng 6, OpenAI đã mua lại công ty cơ sở dữ liệu phân tích thời gian thực Rockset. Công ty này chủ yếu cung cấp chức năng lập chỉ mục và truy vấn dữ liệu thời gian thực. OpenAI sẽ tích hợp công nghệ của Rockset vào sản phẩm của mình nhằm nâng cao giá trị sử dụng dữ liệu theo thời gian thực.

Ảnh: DePIN Scan

Thông qua việc mua lại Rockset, OpenAI dự định giúp AI tận dụng và truy cập dữ liệu thời gian thực hiệu quả hơn. Điều này sẽ cho phép sản phẩm của OpenAI hỗ trợ các ứng dụng phức tạp hơn như hệ thống gợi ý thời gian thực, chatbot điều khiển bằng dữ liệu động, hệ thống giám sát và cảnh báo thời gian thực...

Rockset giống như «bộ phận lọc dầu» tích hợp bên trong OpenAI, có khả năng chuyển đổi trực tiếp dữ liệu thường thành dữ liệu chất lượng cao phục vụ ứng dụng.

04 Xác lập quyền sở hữu dữ liệu cho người sáng tạo có phải là viễn tưởng?

Dữ liệu trên các nền tảng truyền thông Internet (Facebook, Reddit...) phần lớn đến từ UGC – nội dung do người dùng đóng góp. Nhiều nền tảng khi thu được khoản phí dữ liệu cao từ các công ty AI, âm thầm thêm vào điều khoản người dùng một dòng như: «nền tảng có quyền sử dụng dữ liệu người dùng để huấn luyện mô hình AI».

Mặc dù điều khoản người dùng đã ghi rõ quyền lực đối với việc huấn luyện mô hình AI, nhưng nhiều tác giả không rõ nội dung do mình tạo ra cụ thể được dùng bởi mô hình nào, không biết liệu có phải trả phí hay không, và càng không thể nhận được quyền lợi thuộc về mình.

Tại cuộc họp báo kết quả kinh doanh quý của Meta hồi tháng 2 năm nay, Zuckerberg đã khẳng định rõ ràng sẽ sử dụng ảnh trên Facebook và Instagram để huấn luyện công cụ AI tạo nội dung của ông.

Theo báo cáo, Tumblr cũng đã bí mật ký thỏa thuận cấp phép nội dung với OpenAI và Midjourney, nhưng chưa công bố nội dung cụ thể của thỏa thuận.

Gần đây, các nhà sáng tạo trên nền tảng kho ảnh EyeEm cũng nhận được một thông báo, nhắc nhở rằng ảnh họ đăng sẽ được dùng để huấn luyện mô hình AI. Thông báo nói rằng người dùng có thể chọn không dùng sản phẩm nữa nếu không đồng ý, nhưng chưa đề cập bất kỳ chính sách bồi thường nào. Mẹ công ty Freepik của EyeEm tiết lộ với Reuters rằng họ đã ký thỏa thuận với hai công ty công nghệ lớn, cấp phép phần lớn trong số 200 triệu bức ảnh với giá khoảng 3 xu Mỹ mỗi bức. CEO Joaquin Cuenca Abela cho biết còn năm giao dịch tương tự đang trong quá trình đàm phán, nhưng từ chối tiết lộ danh tính người mua.

Các nền tảng nội dung chủ yếu dựa vào UGC như Getty Images, Adobe, Photobucket, Flickr, Reddit... đều đang đối mặt với vấn đề tương tự. Trước cám dỗ kiếm tiền khổng lồ từ dữ liệu, các nền tảng chọn bỏ qua quyền sở hữu nội dung của người dùng, gom toàn bộ dữ liệu bán cho các công ty mô hình AI.

Toàn bộ quá trình diễn ra trong bóng tối, người sáng tạo không có cơ hội phản kháng. Thậm chí nhiều người sáng tạo có thể chỉ đến một ngày tương lai, khi nhìn thấy nội dung tương tự tác phẩm của mình được tạo ra bởi một mô hình nào đó, mới bắt đầu nghi ngờ rằng tác phẩm trước đây của họ đã bị một nền tảng nào đó đem đi bán cho công ty AI để huấn luyện mô hình.

Để giải quyết vấn đề xác lập quyền sở hữu dữ liệu và bảo vệ lợi ích cho người sáng tạo, Web3 có thể là lựa chọn tốt. Khi các công ty AI liên tục lập đỉnh mới trên thị trường chứng khoán Mỹ, các đồng tiền khái niệm AI trong web3 cũng đồng thời bay vút lên trời. Blockchain, với đặc tính phi tập trung và không thể thay đổi, có lợi thế vượt trội trong việc bảo vệ quyền lợi của người sáng tạo.

Các nội dung truyền thông như hình ảnh và video đã hoàn thành việc đưa lên chuỗi (on-chain) quy mô lớn trong đợt bùng nổ thị trường năm 2021, và việc đưa nội dung UGC từ các nền tảng xã hội lên chuỗi cũng đang âm thầm diễn ra. Đồng thời, nhiều nền tảng mô hình AI web3 đã bắt đầu khuyến khích người dùng bình thường đóng góp vào việc huấn luyện mô hình, cả chủ sở hữu dữ liệu lẫn người tham gia huấn luyện đều được thưởng.

Sự phát triển theo cấp số nhân của mô hình AI đặt ra nhu cầu lớn hơn về việc xác lập quyền sở hữu dữ liệu. Người sáng tạo nên tự hỏi: Tại sao tác phẩm của tôi lại bị bán cho công ty mô hình AI với giá 5 xu mà không cần sự đồng ý? Tại sao trong suốt quá trình này tôi hoàn toàn không hay biết và không nhận được bất kỳ lợi ích nào?

Ngay cả khi các nền tảng truyền thông khai thác cạn kiệt cũng không thể xoa dịu nỗi lo về dữ liệu của các công ty mô hình AI. Tiền đề để sản xuất ra lượng lớn dữ liệu chất lượng cao là việc xác lập quyền sở hữu dữ liệu, cũng như phân phối lợi ích hợp lý giữa ba bên: người sáng tạo, nền tảng và công ty mô hình AI.

Chào mừng tham gia cộng đồng chính thức TechFlow

Nhóm Telegram:https://t.me/TechFlowDaily

Tài khoản Twitter chính thức:https://x.com/TechFlowPost

Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News

Liên kết gốc

Thêm vào mục ưa thích

Chia sẻ lên mạng xã hội

Tác giả

硅兔赛跑

Bài viết liên quan

2026.07.24

Ghi chú Podcast｜Phỏng vấn mới nhất của Jensen Huang: Ngành chip còn cần mở rộng thêm 5 đến 10 lần, mô hình Trung Quốc có lợi cho tất cả mọi người

Các nhà nghiên cứu AI của Trung Quốc nhiều hơn tổng cộng tất cả các nơi khác trên thế giới. Trung Quốc sẽ trở nên phi thường trong lĩnh vực này, đó là điều đã được định trước.

2026.07.24

AI đã viết xong code thay bạn, nhưng không ai còn muốn nghiêm túc xem lại nữa

Các ông lớn đua nhau tự xây dựng công cụ để ứng phó, nhưng các giải pháp trưởng thành vẫn còn dừng lại ở giai đoạn thử nghiệm.

2026.07.24

Bán công cụ hay bán kết quả? Các công ty AI đang hướng tới hai tương lai hoàn toàn khác nhau

Phần có thể tự động hóa thì giao cho AI, phần không thể thì chuyển sang con người đảm nhận.

2026.07.24

Thời kỳ hưởng lợi của nhà đầu tư nhỏ lẻ dần biến mất, thị trường dự đoán bước vào cuộc chạy đua vũ trang AI

Đêm họp lãi suất của Fed tháng 7, một «cuộc chiến ngầm định lượng» về quyền định giá.

2026.07.23

AI đang chuyển từ「công cụ」giúp bạn làm việc sang「thị trường lao động」tạo thu nhập cho bạn.

Mỗi cuộc cách mạng công nghệ lớn đều tạo ra một thế hệ doanh nhân mới.

2026.07.23

Phân tích báo cáo nghiên cứu của Goldman Sachs: Đóng vị thế động lượng gây chấn động thị trường chứng khoán toàn cầu, sự bùng nổ chi tiêu cho AI tiềm ẩn rủi ro

Trước khi hiệu quả nâng cao từ việc triển khai công nghệ AI thực sự được phản ánh trong lợi nhuận doanh nghiệp, nếu tỷ suất lợi nhuận biên trên chi tiêu vốn giảm trước, định giá cổ phiếu công nghệ sẽ chịu áp lực kép.

2026.07.23

Substack ra mắt công cụ phát hiện AI, quét một lần là biết bài viết do người viết hay máy móc viết

Quét một lần là biết ngay bài viết do người hay máy viết.

2026.07.23

Lược sử chiến thắng của AI: Nơi nào có hệ thống chấm điểm, nơi đó có sự xâm nhập của AI

Khi một lĩnh vực thiết lập được tiêu chuẩn chấm điểm, nó đã đặt ra đồng hồ đếm ngược cho việc chính nó bị chinh phục.

2026.07.23

Ghi chú Podcast｜Trò chuyện với CEO Morgan Stanley Jamie Dimon: Cổ phiếu Mỹ lẫn trái phiếu dài hạn hiện tại tôi đều không mua, lợi nhuận từ đầu tư AI có thể sẽ khác với kỳ vọng của bạn

Khi nhìn vào chính bản thân AI, số tiền đổ vào là khổng lồ. Nhìn tổng thể thì có sinh lời không? Có lẽ là có, cũng giống như internet. Nhưng lợi nhuận có đến theo đúng cách thức và thời gian mà bạn kỳ vọng không? Tuyệt đối không.

2026.07.23

Phân tích báo cáo nghiên cứu Morgan Stanley: Nhóm ngành phần mềm quá bi quan, khung mới khai thác các cổ phiếu phần mềm AI chất lượng cao.

Trọng tâm giá trị của AI nên nằm ở tầng workflow.

Nội dung bài viết

Tuyển chọn TechFlow
Xem thêm>

Ghi chú Podcast｜Phỏng vấn mới nhất của Jensen Huang: Ngành chip còn cần mở rộng thêm 5 đến 10 lần, mô hình Trung Quốc có lợi cho tất cả mọi người

2026.07.24

Sự phù hợp hoàn hảo giữa nhà sáng lập và thị trường: Thị trường gấu mới là phép thử tốt nhất

2026.07.24

Định giá tăng vọt gần 7 lần trong một năm, "trung gian" mô hình lớn OpenRouter sắp bán mình

2026.07.24

Đạo luật CLARITY rơi vào bế tắc: Mánh khóe "thực thi chân không" của điều khoản đạo đức

2026.07.24

Giải mã báo cáo nghiên cứu của Bank of America: Nvidia và AMD đối đầu trực diện, ai định hình tiêu chuẩn mới cho CPU AI Agent?

2026.07.24

Chuyên sâu báo cáo Web3

Tôi muốn đăng bài

Yêu cầu phỏng vấn

Theo dõi chúng tôi

Cảnh báo rủi ro: mọi nội dung trên website này không cấu thành tư vấn đầu tư và chúng tôi không cung cấp bất kỳ dịch vụ tín hiệu hay dẫn dắt giao dịch nào. Theo thông báo của PBoC và 10 bộ ngành về việc tăng cường phòng ngừa rủi ro đầu cơ tiền mã hóa, xin hãy nâng cao ý thức rủi ro. Liên hệ: [email protected] Mã ICP: 琼ICP备2022009338号

Phiên bản di động

AI bùng nổ "khủng hoảng dầu mỏ" dữ liệu, các công ty nội dung có thể nằm mà kiếm tiền

Tuyển chọn TechFlowTuyển chọn TechFlow

AI bùng nổ "khủng hoảng dầu mỏ" dữ liệu, các công ty nội dung có thể nằm mà kiếm tiền

01 Tranh chấp bản quyền dữ liệu AI

02 AI thúc đẩy nền tảng nội dung kiếm tiền

03 Dữ liệu chất lượng cao vẫn khan hiếm

04 Xác lập quyền sở hữu dữ liệu cho người sáng tạo có phải là viễn tưởng?

Bài viết liên quan

Ghi chú Podcast｜Phỏng vấn mới nhất của Jensen Huang: Ngành chip còn cần mở rộng thêm 5 đến 10 lần, mô hình Trung Quốc có lợi cho tất cả mọi người

AI đã viết xong code thay bạn, nhưng không ai còn muốn nghiêm túc xem lại nữa

Bán công cụ hay bán kết quả? Các công ty AI đang hướng tới hai tương lai hoàn toàn khác nhau

Thời kỳ hưởng lợi của nhà đầu tư nhỏ lẻ dần biến mất, thị trường dự đoán bước vào cuộc chạy đua vũ trang AI

AI đang chuyển từ「công cụ」giúp bạn làm việc sang「thị trường lao động」tạo thu nhập cho bạn.

Phân tích báo cáo nghiên cứu của Goldman Sachs: Đóng vị thế động lượng gây chấn động thị trường chứng khoán toàn cầu, sự bùng nổ chi tiêu cho AI tiềm ẩn rủi ro

Substack ra mắt công cụ phát hiện AI, quét một lần là biết bài viết do người viết hay máy móc viết

Lược sử chiến thắng của AI: Nơi nào có hệ thống chấm điểm, nơi đó có sự xâm nhập của AI

Ghi chú Podcast｜Trò chuyện với CEO Morgan Stanley Jamie Dimon: Cổ phiếu Mỹ lẫn trái phiếu dài hạn hiện tại tôi đều không mua, lợi nhuận từ đầu tư AI có thể sẽ khác với kỳ vọng của bạn

Phân tích báo cáo nghiên cứu Morgan Stanley: Nhóm ngành phần mềm quá bi quan, khung mới khai thác các cổ phiếu phần mềm AI chất lượng cao.

Nội dung bài viết

Tuyển chọn TechFlowXem thêm>

Tuyển chọn TechFlow
Xem thêm>