
Variant Li Jin: Vượt qua bức tường dữ liệu AI, thời điểm của DAO dữ liệu đã đến
Tuyển chọn TechFlowTuyển chọn TechFlow

Variant Li Jin: Vượt qua bức tường dữ liệu AI, thời điểm của DAO dữ liệu đã đến
DAO dữ liệu đại diện cho một con đường đầy hứa hẹn để tạo ra các bộ dữ liệu mới, chất lượng cao và vượt qua bức tường dữ liệu AI.
Tác giả:Li Jin
Biên dịch: TechFlow
DAO dữ liệu đại diện cho một con đường đầy hứa hẹn để tạo ra các bộ dữ liệu mới chất lượng cao và vượt qua bức tường dữ liệu AI.

Các thỏa thuận cấp phép dữ liệu nổi bật gần đây giữa OpenAI với News Corp và Reddit đã làm nổi bật tầm quan trọng của dữ liệu chất lượng cao trong lĩnh vực trí tuệ nhân tạo (AI). Hiện nay, các mô hình tiên tiến đã được huấn luyện trên lượng lớn dữ liệu Internet — ví dụ, Common Crawl lập chỉ mục khoảng 10% trang web để phục vụ huấn luyện mô hình ngôn ngữ lớn (LLM), chứa hơn 100 nghìn tỷ token.
Một hướng đi nhằm cải thiện hơn nữa các mô hình AI là mở rộng và tăng cường dữ liệu mà chúng có thể học. Chúng tôi đã và đang thảo luận về các cơ chế gom nhóm dữ liệu, đặc biệt theo cách thức phi tập trung. Chúng tôi đặc biệt quan tâm đến việc khám phá cách thức tiếp cận phân tán có thể giúp tạo ra các bộ dữ liệu mới và thưởng về mặt kinh tế cho những người đóng góp và sáng tạo.
Trong vài năm trở lại đây, một chủ đề thường xuyên được bàn luận trong cộng đồng tiền mã hóa là khái niệm DAO dữ liệu – tập hợp những cá nhân cùng nhau tạo ra, tổ chức và quản lý dữ liệu. Multicoin và một số công ty khác đã từng đề cập đến chủ đề này, nhưng sự phát triển nhanh chóng của AI hiện nay chính là yếu tố "tại sao là bây giờ" thúc đẩy sự bùng nổ của DAO dữ liệu.
Dữ liệu trong AI hiện nay
Hiện tại, các mô hình AI đều được huấn luyện trên dữ liệu công khai — thông qua các hợp tác như thương vụ giữa News Corp và Reddit, hoặc bằng cách thu thập dữ liệu từ Internet mở. Ví dụ, Meta đã huấn luyện Llama 3 trên 15 nghìn tỷ token từ các nguồn công khai. Những phương pháp này hiệu quả trong việc nhanh chóng tích lũy lượng dữ liệu khổng lồ, nhưng đều tồn tại hạn chế nhất định về nội dung cũng như cách thức thu thập dữ liệu.
Thứ nhất là vấn đề “cái gì”: Sự phát triển của AI bị giới hạn bởi cả chất lượng lẫn số lượng dữ liệu. Leopold Aschenbrenner từng viết rằng, “bức tường dữ liệu” đang cản trở việc cải tiến thuật toán thêm: “Chẳng mấy chốc, phương pháp ngây thơ là huấn luyện trước các mô hình ngôn ngữ lớn trên nhiều dữ liệu cũ kỹ sẽ bắt đầu gặp phải điểm nghẽn nghiêm trọng”.
Một cách để phá vỡ bức tường dữ liệu là mở rộng khả năng tiếp cận các bộ dữ liệu mới. Chẳng hạn, các công ty mô hình không thể lấy dữ liệu đăng nhập trừ khi vi phạm điều khoản dịch vụ của hầu hết các trang web, và đương nhiên, họ cũng không thể truy cập dữ liệu chưa được tổng hợp. Ngoài ra còn có lượng lớn dữ liệu cá nhân mà hiện tại AI chưa chạm tới được — như Google Drive doanh nghiệp, các kênh Slack công ty, dữ liệu sức khỏe cá nhân hay thông tin riêng tư.
Thứ hai là vấn đề “như thế nào”: Trong mô hình hiện tại, các công ty thu thập dữ liệu hưởng phần lớn giá trị. Bản S-1 của Reddit liệt kê việc cấp phép dữ liệu là nguồn doanh thu chính dự kiến: “Chúng tôi kỳ vọng lợi thế dữ liệu và tài sản trí tuệ ngày càng tăng của mình sẽ tiếp tục là yếu tố then chốt trong việc huấn luyện các mô hình ngôn ngữ lớn trong tương lai.” Tuy nhiên, những người dùng cuối thực sự tạo ra nội dung lại không nhận được bất kỳ lợi ích kinh tế nào từ các giao dịch cấp phép hay từ bản thân các mô hình AI. Sự lệch pha này có thể làm giảm động lực tham gia — hiện đã xuất hiện các phong trào khởi kiện các công ty AI sinh học hoặc lựa chọn rút lui khỏi các bộ dữ liệu huấn luyện. Chưa kể đến hệ quả xã hội - kinh tế khi thu nhập tập trung vào tay các công ty mô hình hoặc nền tảng, chứ không chia sẻ với người dùng cuối.
Tác động của DAO dữ liệu
Những vấn đề dữ liệu nói trên có một điểm chung: chúng đều được hưởng lợi từ các đóng góp quy mô lớn từ cộng đồng người dùng đa dạng và đại diện. Giá trị của mỗi điểm dữ liệu đơn lẻ đối với hiệu suất mô hình có thể rất nhỏ, nhưng khi tập hợp lại, một cộng đồng người dùng lớn có thể gom góp thành các bộ dữ liệu mới mang giá trị to lớn cho việc huấn luyện AI. Đây chính là nơi DAO dữ liệu phát huy vai trò. Thông qua DAO dữ liệu, những người đóng góp dữ liệu không chỉ nhận được lợi ích kinh tế mà còn có thể tham gia quản lý việc sử dụng và thương mại hóa dữ liệu của họ.
DAO dữ liệu có thể giải quyết một số khoảng trống hiện tại trong lĩnh vực dữ liệu, bao gồm nhưng không giới hạn ở các lĩnh vực sau:
Dữ liệu thực tế
Trong lĩnh vực hạ tầng vật lý phi tập trung (DEPIN), các mạng lưới như Hivemapper thu thập dữ liệu bản đồ toàn cầu mới nhất bằng cách khuyến khích chủ sở hữu camera hành trình đóng góp dữ liệu, hoặc thông qua ứng dụng để người dùng đóng góp thông tin (ví dụ như đoạn đường bị phong tỏa hoặc đang sửa chữa). DEPIN có thể được xem như các DAO dữ liệu thực tế, nơi các bộ dữ liệu được tạo ra từ thiết bị phần cứng và/hoặc mạng lưới người dùng. Dữ liệu này có giá trị thương mại đối với nhiều công ty, và doanh thu được hoàn lại cho người đóng góp dưới dạng phần thưởng token.
Dữ liệu sức khỏe cá nhân
Biohacking là một phong trào xã hội, trong đó cá nhân và cộng đồng tự nghiên cứu sinh học thông qua thử nghiệm cá nhân. Ví dụ, một người có thể tiêu thụ các loại thuốc tăng cường chức năng não khác nhau, kiểm tra các phương pháp điều trị hay thay đổi môi trường để cải thiện giấc ngủ, thậm chí tự tiêm các loại thuốc thử nghiệm.
DAO dữ liệu có thể mang lại cấu trúc và động lực cho các hoạt động biohacking này, bằng cách tổ chức người tham gia thực hiện các thí nghiệm chung và thu thập kết quả một cách hệ thống. Các DAO sức khỏe cá nhân có thể chia sẻ doanh thu từ các phòng thí nghiệm nghiên cứu hoặc công ty dược phẩm dưới dạng phần thưởng token cho những người đóng góp dữ liệu.
Học tăng cường qua phản hồi con người
Việc tinh chỉnh mô hình AI thông qua phản hồi con người (RLHF) liên quan đến việc sử dụng đầu vào của con người để nâng cao hiệu suất của hệ thống AI. Thường thì người phản hồi cần là chuyên gia trong lĩnh vực đó, có khả năng đánh giá hiệu quả đầu ra của mô hình. Ví dụ, một phòng thí nghiệm có thể tìm kiếm các tiến sĩ toán học để cải thiện khả năng toán học của LLM. Phần thưởng token có thể thu hút và khuyến khích các chuyên gia tham gia nhờ tiềm năng lợi nhuận đầu cơ, đồng thời việc thanh toán qua blockchain mã hóa giúp mở rộng quyền truy cập toàn cầu. Các công ty như Sapien, Fraction và Sahara đang hoạt động trong lĩnh vực này.
Dữ liệu riêng tư
Khi dữ liệu công khai dùng để huấn luyện AI dần cạn kiệt, cuộc cạnh tranh có thể chuyển sang các bộ dữ liệu độc quyền, bao gồm dữ liệu người dùng riêng tư. Một lượng lớn dữ liệu chất lượng cao vẫn bị khóa sau các tường đăng nhập, tin nhắn trực tiếp, tài liệu cá nhân... Những dữ liệu này không chỉ hữu ích để huấn luyện AI cá nhân, mà còn chứa đựng thông tin có giá trị mà mạng công khai không thể tiếp cận.
Tuy nhiên, việc truy cập và khai thác dữ liệu này đối mặt với nhiều thách thức lớn, cả về mặt pháp lý lẫn đạo đức. DAO dữ liệu có thể cung cấp giải pháp bằng cách cho phép những người tham gia sẵn sàng tải lên và thương mại hóa dữ liệu của họ, đồng thời kiểm soát cách thức sử dụng. Ví dụ, DAO dữ liệu Reddit cho phép người dùng tải lên dữ liệu Reddit được xuất từ nền tảng — bao gồm bình luận, bài đăng và lịch sử bỏ phiếu — vào một cơ sở dữ liệu, sau đó có thể bán hoặc cho thuê theo cách bảo vệ quyền riêng tư cho các công ty AI. Động lực token giúp người dùng không chỉ kiếm thu nhập một lần, mà còn nhận phần thưởng lâu dài dựa trên giá trị mà mô hình AI tạo ra từ dữ liệu họ đóng góp.
Các câu hỏi mở và thách thức
Mặc dù lợi ích tiềm năng của DAO dữ liệu là đáng kể, vẫn còn một số vấn đề cần cân nhắc và thách thức phải vượt qua.
Tác động bóp méo từ động lực
Từ lịch sử sử dụng động lực token trong lĩnh vực mã hóa, ta biết rằng động lực bên ngoài có thể làm thay đổi hành vi người dùng. Điều này ảnh hưởng trực tiếp đến cách sử dụng token để khuyến khích thu thập dữ liệu: các động lực có thể làm lệch cơ sở người tham gia và kiểu dữ liệu được đóng góp.
Việc giới thiệu phần thưởng token cũng có thể khiến người tham gia cố gắng tối đa hóa lợi nhuận bằng cách gửi dữ liệu chất lượng thấp hoặc giả mạo. Điều này đặc biệt nghiêm trọng vì cơ hội thu nhập của các DAO dữ liệu phụ thuộc vào chất lượng dữ liệu. Nếu dữ liệu đóng góp bị bóp méo, giá trị của toàn bộ bộ dữ liệu sẽ bị suy giảm.
Đo lường và thưởng cho dữ liệu
Ý tưởng cốt lõi của DAO dữ liệu là thưởng cho các đóng góp dữ liệu thông qua token, và về dài hạn, phần thưởng này sẽ hội tụ với doanh thu của DAO. Tuy nhiên, việc thưởng chính xác cho các đóng góp dữ liệu khác nhau là khó khăn do giá trị dữ liệu có tính chủ quan. Ví dụ, trong trường hợp biohacking: liệu dữ liệu của một số người dùng có giá trị hơn người khác? Nếu có, yếu tố quyết định là gì? Với dữ liệu bản đồ: liệu thông tin bản đồ của một số khu vực địa lý có giá trị hơn những khu vực khác, và làm sao định lượng sự khác biệt đó? Hiện tại đang có các nghiên cứu về việc đo lường giá trị dữ liệu thông qua đóng góp gia tăng của nó đối với hiệu suất mô hình, nhưng các phương pháp này có thể đòi hỏi khối lượng tính toán rất lớn.
Hơn nữa, việc xây dựng các cơ chế vững chắc để xác minh tính xác thực và độ chính xác của dữ liệu là cực kỳ quan trọng. Nếu thiếu những biện pháp này, hệ thống có thể dễ bị tấn công bởi các dữ liệu gian lận (ví dụ như tạo tài khoản giả) hoặc các cuộc tấn công Sybil. Các mạng DEPIN cố gắng giải quyết vấn đề này bằng cách tích hợp ở cấp thiết bị phần cứng, nhưng các DAO dữ liệu khác phụ thuộc vào đóng góp của người dùng có thể dễ bị thao túng.
Tính gia tăng của dữ liệu mới
Phần lớn Internet công khai đã được sử dụng để huấn luyện, do đó người vận hành DAO dữ liệu phải cân nhắc xem liệu các bộ dữ liệu được thu thập thông qua nỗ lực phân tán có thực sự mang tính gia tăng, có giá trị bổ sung so với dữ liệu mạng công khai hiện có hay không, và liệu các nhà nghiên cứu có thể cấp phép dữ liệu từ nền tảng hay thu thập theo cách khác. Những ý tưởng này nhấn mạnh tầm quan trọng của việc thu thập dữ liệu mới vượt trội so với dữ liệu hiện có, dẫn đến yếu tố tiếp theo cần cân nhắc: quy mô ảnh hưởng và cơ hội thu nhập.
Quy mô cơ hội thu nhập
Về bản chất, DAO dữ liệu đang xây dựng một thị trường hai bên, kết nối người mua dữ liệu với người đóng góp dữ liệu. Thành công của DAO dữ liệu phụ thuộc vào khả năng thu hút một nhóm khách hàng ổn định và đa dạng sẵn sàng trả tiền cho dữ liệu.
DAO dữ liệu cần xác định và xác minh nhu cầu cuối cùng của mình, đảm bảo cơ hội thu nhập đủ lớn — cả về tổng thể lẫn mức thu nhập trên mỗi người đóng góp — để khuyến khích lượng và chất dữ liệu cần thiết. Ví dụ, ý tưởng tạo ra một DAO dữ liệu người dùng để gom dữ liệu sở thích và duyệt web cá nhân phục vụ quảng cáo đã được thảo luận suốt nhiều năm, nhưng cuối cùng, lượng thu nhập mà mạng lưới như vậy có thể chuyển lại cho người dùng có thể là rất nhỏ. (Để so sánh, ARPU toàn cầu của Meta vào cuối năm 2023 là 13,12 USD.) Khi các công ty AI lên kế hoạch chi hàng nghìn tỷ USD cho việc huấn luyện, thu nhập từ dữ liệu người dùng có thể đủ hấp dẫn để kích thích sự đóng góp quy mô lớn — đặt ra một cơ hội "tại sao là bây giờ" thú vị cho DAO dữ liệu.
Vượt qua bức tường dữ liệu
DAO dữ liệu đại diện cho một con đường tiềm năng đầy hứa hẹn để tạo ra các bộ dữ liệu mới chất lượng cao và vượt qua bức tường dữ liệu AI. Cách thức cụ thể để hiện thực hóa điều này vẫn còn để ngỏ, nhưng chúng tôi rất mong chờ sự phát triển của lĩnh vực này.
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News










