
Variant Li Jin:克服 AI 數據牆,數據 DAO 正當時
TechFlow Selected深潮精選

Variant Li Jin:克服 AI 數據牆,數據 DAO 正當時
數據DAO代表了一條生成新高質量數據集並克服AI數據牆的潛在有希望的路徑。
作者:Li Jin
編譯:深潮TechFlow
數據 DAO 代表了生成新的高質量數據集和克服 AI 數據牆的一條途徑。

隨著OpenAI與News Corp和Reddit之間的高調數據許可協議的達成,凸顯了高質量數據在AI中的重要性。如今,前沿模型已在大量互聯網數據上進行了訓練,例如,Common Crawl 索引了大約10% 的網頁,用於LLM訓練幷包含超過 100 萬億個令牌。
進一步改進人工智能模型的一個途徑是擴大和增強它們可以訓練的數據。我們一直在討論如何聚合數據的機制,特別是以去中心化的方式。我們尤其感興趣的是探索分散式方法如何幫助生成新的數據集,並從經濟上獎勵貢獻者和創造者。
在過去幾年中,加密貨幣內部討論的一個話題是數據 DAO 的概念,即創建、組織和管理數據的個人集體。Multicoin和其他公司已經涵蓋了這個話題,但人工智能的快速發展是數據DAO新的“為什麼是現在”的催化劑。
當今 AI 中的數據
如今,人工智能模型都是通過新聞集團和 Reddit 交易等合作方式,或通過在開放互聯網上搜索數據,在公共數據上進行訓練的。例如,Meta 的 Llama 3 就是在 15 萬億個公開來源的代幣上訓練出來的。這些方法都能有效地快速聚合大量數據,但它們在收集數據的內容和方式上都有侷限性。
首先是 "什麼":人工智能的發展受到數據質量和數量的瓶頸制約。Leopold Aschenbrenner 曾撰文指出,"數據牆 "限制了算法的進一步改進: "很快,在更多廢舊數據上預訓大型語言模型的天真方法就會開始遭遇嚴重瓶頸"。
推倒數據牆的方法之一是開放新數據集的可用性。例如,模型公司無法在不違反大多數網站服務條款的情況下獲取登錄數據,而且顧名思義,它們也無法獲取尚未彙總的數據。此外,還有大量私人數據是目前人工智能訓練無法觸及的:比如企業的 Google Drives、公司的 Slacks、個人健康數據或私人信息。
第二,如何: 在現有模式下,彙集數據的公司獲取了大部分價值。Reddit 的 S-1 將數據授權作為主要的預期收入來源: "我們預計,我們不斷增長的數據優勢和知識產權將繼續成為未來法律碩士培訓的關鍵要素。產生實際內容的最終用戶並沒有從這些許可交易或人工智能模型本身中獲得任何經濟利益。這種錯位可能會扼殺人們的參與--現在已經出現了起訴生成式人工智能公司或選擇退出訓練數據集的運動。更不用說將收入集中在模型公司或平臺手中,而不分給最終用戶的社會經濟影響了。
數據DAO的影響
上述數據問題有一個共同點:它們受益於來自多樣化、代表性用戶群的大規模貢獻。任何單個數據點對模型性能的價值可能微不足道,但集體上,一個大型用戶群體可以聚合出對AI訓練有價值的新數據集。這正是數據DAO的用武之地。通過數據DAO,數據貢獻者不僅可以看到經濟收益,還可以管理這些數據的使用和貨幣化。
數據DAO可以解決當前數據領域的一些空白,包括但不限於以下幾個方面:
現實世界數據
在去中心化物理基礎設施(DEPIN)領域,類似Hivemapper的網絡通過激勵行車記錄儀所有者貢獻他們的數據來收集世界最新的全球地圖數據,並通過應用程序激勵用戶貢獻數據(例如道路封閉或維修信息)。DEPIN可以被視為現實世界的數據DAO,數據集由硬件設備和/或用戶網絡生成。這些數據對各種公司具有商業價值,收入以代幣獎勵的形式返還給貢獻者。
個人健康數據
生物黑客是一種社會運動,個人和社區通過自我實驗研究生物學。例如,個人可能會消費不同的腦功能增強藥物,或測試不同的治療方法或環境變化以改善睡眠,甚至自我注射實驗藥物。
數據DAO可以為這些生物黑客活動帶來結構和激勵,通過組織參與者進行共同實驗並系統地收集結果。個人健康DAO通過研究實驗室或製藥公司的收入可以以代幣獎勵的形式返還給貢獻結果的參與者。
人類反饋強化學習
通過人類反饋進行AI模型的微調(RLHF)涉及利用人類輸入來提高AI系統的性能。通常,反饋提供者需要是其領域的專家,能夠有效評估模型的輸出。例如,實驗室可能會尋求數學博士來提高其LLM的數學能力。代幣獎勵可以通過其投機性收益來吸引和激勵專家參與,並通過使用加密支付軌道提供全球訪問權限。像 Sapien、Fraction 和 Sahara 這樣的公司正在這個領域工作。
私有數據
隨著用於AI訓練的公開數據逐漸枯竭,競爭的基礎可能會轉向專有數據集,包括私有用戶數據。大量高質量數據仍然在登錄牆和直接消息、私人文檔等後面無法訪問。這些數據不僅可以有效地訓練個人AI,還包含公共網絡上無法訪問的有價值信息。
然而,訪問和利用這些數據面臨重大挑戰,包括法律和道德方面。數據DAO可以通過允許願意的參與者上傳和貨幣化他們的數據並管理其使用方式來提供解決方案。例如,Reddit數據DAO允許用戶上傳從平臺導出的Reddit數據,包括評論、帖子和投票歷史,進入一個數據庫,可以以隱私保護的方式出售或出租給AI公司。代幣激勵允許用戶不僅通過一次性交易獲得收入,還可以基於AI模型使用其數據所創造的價值獲得收益。
開放問題與挑戰
雖然數據DAO的潛在好處顯著,但也存在一些考慮和挑戰。
激勵的扭曲影響
從加密領域使用代幣激勵的歷史中可以看出,外在激勵會改變用戶行為。這直接影響到利用代幣激勵進行數據收集的方式:激勵可能會扭曲參與者基礎和所貢獻的數據類型。
引入代幣激勵還可能導致參與者試圖通過提交低質量或偽造數據來最大化收益。這一點尤為重要,因為這些數據DAO的收入機會取決於數據質量。如果貢獻數據被扭曲,將削弱數據集的價值。
數據測量和獎勵
數據DAO的核心理念是通過代幣激勵獎勵貢獻者的提交,長期來看這些獎勵會與DAO的收入趨同。然而,準確獎勵不同數據貢獻的難度較大,因為數據價值具有主觀性。例如,在生物黑客的例子中:某些用戶的數據是否比其他用戶更有價值?如果是,決定因素是什麼?對於地圖數據:某些地理區域的地圖信息是否比其他區域更有價值,如何量化這種差異?目前在通過計算數據對模型性能的增量貢獻來衡量數據價值的研究正在進行,但這些方法可能計算量很大。
此外,建立健全的機制來驗證數據的真實性和準確性至關重要。沒有這些措施,系統可能容易受到欺詐性數據提交(例如創建虛假賬戶)或Sybil攻擊的影響。DEPIN網絡試圖通過在硬件設備層面進行集成來解決這一問題,但其他依賴用戶驅動貢獻的數據DAO可能容易受到操縱。
新數據的增量性
大部分公開網絡已經被用於訓練,因此數據DAO運營者必須考慮通過分佈式努力收集的數據集是否真正是增量的,是否對現有的公開網絡數據有附加價值,以及研究人員是否可以從平臺上許可這些數據或通過其他方式獲取。這些想法強調了收集超越現有數據的新數據的重要性,這也引出了下一個考慮因素:影響的規模和收入機會。
收入機會的規模
本質上,數據DAO正在構建一個雙邊市場,將數據買家與數據貢獻者連接起來。數據DAO的成功取決於吸引一個穩定且多樣化的客戶群體願意為數據支付費用。
數據DAO需要識別和驗證其最終需求,確保收入機會足夠大,無論是總量上還是每個貢獻者的收入上,以激勵所需的數據數量和質量。例如,多年來一直在討論創建一個用戶數據DAO以彙集個人偏好和瀏覽數據用於廣告目的的想法,但最終,這樣一個網絡能夠傳遞給用戶的收入可能是微不足道的。(作為對比,Meta在2023年底的全球ARPU為13.12美元。)隨著AI公司計劃花費數萬億美元進行訓練,用戶數據的收入可能足夠誘人,以引發大規模貢獻,提出了一個有趣的“為什麼現在”數據DAO的機會。
克服數據牆
數據DAO代表了一條生成新高質量數據集並克服AI數據牆的潛在有希望的路徑。具體如何實現尚待觀察,但我們對這一領域的發展充滿期待。
歡迎加入深潮 TechFlow 官方社群
Telegram 訂閱群:https://t.me/TechFlowDaily
Twitter 官方帳號:https://x.com/TechFlowPost
Twitter 英文帳號:https://x.com/BlockFlow_News










