
Grass 創始人訪談:為什麼你應該參與去中心化的 AI 數據供應?
TechFlow Selected深潮精選

Grass 創始人訪談:為什麼你應該參與去中心化的 AI 數據供應?
Grass結合了多個不同的看漲敘事:DePin+AI+ Solana。
撰文:AYLO
編譯:深潮TechFlow
Grass是一個非常激動人心的項目,預計將在第一或第二季度上線主網。Grass已經擁有超過50萬用戶。當Grass網絡上線時,僅就用戶數量而言,它將成為市場上最大的加密協議之一,它正在為每個擁有互聯網連接的人創造新的收入來源。
Grass結合了多個不同的看漲敘事:DePin+AI+ Solana。在這篇文章中,你將有機會聽到Grass創始人0xdrej的分享,他透露了很多重要信息。這是一篇篇幅較長但非常值得閱讀的文章,我們在這篇文章中將討論Grass是什麼,它如何工作,它為什麼選擇Solana等等。
是什麼吸引您進入加密領域的?
0xdrej:是的,我猜我早期進入加密貨幣的時候錯過了許多機會。我想對許多人來說都是如此。我第一次聽說加密貨幣是在高中時,因為我的一個同學在他的筆記本電腦上挖比特幣。自那以後我就再也沒有聽說過他,但我敢肯定他現在過得很好。而且我實際上在2014年參與了一個Doge水龍頭的活動,當時Doge剛剛啟動,但我失去了那個賬戶的訪問權限。所以我想這是我早期與加密貨幣的兩次重要經歷,但直到幾年前我開始接觸DeFi,我才真正深入到研發工作中。
我在金融領域工作了一段時間,對傳統金融行業的運作機制非常熟悉。看到一群普通人在區塊鏈上重建整個基礎設施是非常令人興奮的。你知道,從傳統金融到鏈上發生的任何事情都有很多相似之處,這很瘋狂,主要是因為它是一個巨大的不可變賬本。所以是的,幾年前我開始參與一些DeFi協議。
Grass 的 elevator pitch是什麼?您如何從高層次上解釋它?

0xdrej:我們喜歡將其稱為去中心化人工智能的數據提供層。這實際上意味著我們擁有一個由超過50萬個網絡擴展組成的網絡,這些網絡擴展正在爬取公共互聯網,捕捉網站快照並將它們上傳到數據庫。
這裡的想法是,因為我們可以並行處理和分發所有這些計算能力,以及互聯網的這些住宅視圖(這一點很重要,因為網站通常會向消費者展示他們想向公眾展示的東西,而不是數據中心或傳統產品),所以我們實際上可以創建數據集,而這些數據集在其他資源庫中是不可能創建的。
於是就有了一些比較。其中之一就像是人工智能的去中心化預言機,而其他則是普通爬行的去中心化版本。但是,是的,歸根結底,它是一個專注於公共網絡數據的海量數據協議。
因此,通過允許任何人參與這個網絡並集成區塊鏈,您發現您可以與現有的解決方案進行競爭,對嗎?
0xdrej:我們嘗試了幾種不同的商業模式。很明顯,當你在構建這樣一個協議時,你可以只向人們支付一點未使用帶寬的費用。例如,你可以給他們每千兆字節固定的費率,然後使用這些帶寬來抓取大型數據集,從中提取洞察,並將這些洞察變現。從抓取層到數據集層再到洞察層,你在每個步驟中都能捕捉到一點點利潤。
通常,這是由不同的實體完成的,而提供帶寬的用戶(為所有這一切提供動力)只能看到每千兆字節那微小的固定費率,或者通常一點都看不到,因為他們安裝了一個SDK在一個免費的應用上,它只是循環使用帶寬。我們認為這不公平。
我們想到,好吧,我們要如何創建一個價值池機制來補償整個垂直領域的用戶?因此,如果有人用你的Grass節點爬取的數據來推斷一個AI模型,你的Grass節點應該得到補償,而不僅僅是原始數據。希望這有意義。這是我們想要在鏈上解決的重大問題之一。
另一個變得越來越突出的問題就是被汙染數據集的問題。這是一個新出現的問題,但在電子商務領域存在了多年。
例如,如果你在抓取像eBay這樣的電子商務網站,並且你想要每天抓取他們所有庫存的價格,你需要每天抓取大約3000萬個SKU。eBay 瞭解到,如果他們屏蔽您的 IP 地址,你會更換IP。所以,他們所做的是他們設置了價格陷阱。如果他們檢測到你試圖抓取他們並在定價上壓低他們,他們就會給你假的價格。我們在早期使用Grass時就經歷過這一點,並將其與使用數據中心進行比較。
這些電子商務策略已經慢慢滲透到廣告技術中。自從HoloLens在過去一年半爆炸性增長以來,它實際上也流入了NLP(自然語言處理)數據集領域。
所以,如果你是一個政治家,而且你知道某個特定的數據集將被用來訓練一個模型,您可能會聯繫管理該數據集的人,要求他們插入比如說一千個有利於某個特定候選人的句子。類似地,公司提供資金將虛假評論插入到已經從互聯網上抓取的數據集中
現在,解決這個問題非常困難,對吧?因為,正如你可能知道的,LLM 訓練數據集不僅僅是 GB 或 TB,而是 PB 數據,實際上是數百萬 GB。

所以,期望任何人訓練LLM去驗證數據集是否真的來自所聲稱的網站是非常不現實的。例如,如果我聲稱我抓取了Medium的全部內容,那可能是大約5000萬篇文章,但沒有保證這些內容實際上就是那些Medium文章中的內容。
為了解決這個問題,zk-TLS(零知識傳輸層安全)提供了一個很好的解決方案。老實說,這隻有在高吞吐量的區塊鏈上才可能實現。
這個想法是,一旦我們去中心化,這些節點在抓取互聯網時就會提交請求證明。他們提交請求證明,然後我們的排序器(目前是中心化的,但我們計劃去中心化)將把一定數量的代幣委託給智能合約。
這個合約在收到批准請求時就解鎖了。現在,你實際上可以將那個請求證明與來自那次抓取工作的網絡響應聯繫起來,然後直接與數據集聯繫起來。突然之間,你有了加密證明,顯示這個數據集中的這些行實際上來自那些網站,並且是在特定日期和時間抓取的。
這很強大,因為這樣的機制甚至在Web 2.0中都不存在,而且只有使用區塊鏈才可能。
您能否談談什麼是“數據戰”以及 Grass 如何參與其中?

0xdrej:正如我之前所暗示的,最早開始封鎖數據的行業實際上是電子商務,因為那些是當時最直接可變現的數據集。隨著技術的發展,隨著我們對語言數據的理解變得更加先進,這種類型的數據也變得極其寶貴。然而,直到現在,語言數據還沒有提供像現在這樣多的價值。所以,很多網站直到最近才真正找到了變現這些語言數據的方法。然後,他們開始意識到這些數據有多麼強大,並開始封鎖互聯網。
例如,大約半年前,埃隆-馬斯克(Elon Musk)開始對每個人的 Twitter 進行費率限制,因為它被抓取了。以前,Twitter並沒有真正阻止網絡抓取器,但埃隆·馬斯克瞭解到了Twitter數據的價值,並希望用它來訓練他自己的AI。這正是我們預測的,而且確實如此發展。

另一個例子是 Reddit,他們對自己的 API 施加了各種限制。你可能不知道,GPT 所訓練的通用抓取庫中有三分之二實際上是從 Reddit 抓取的。

Reddit並不真正瞭解他們的數據有多麼寶貴。它特別寶貴,因為Reddit系統的運作方式:有人提出問題,人們回答,最好的答案被頂上去,而糟糕的答案被頂下去。Reddit有一群人在手動訓練可以進入模型的數據。
我們預測目前正在展開一場數據戰爭,所有這些網站都試圖封鎖他們的數據。他們甚至為少數幾家大型科技公司開後門,使AI對普通開源開發者不可及,這有點可怕,也帶來了很多中心化的風險。
另一個很好的例子是Medium。幾個月前,Medium的CEO寫了一篇關於網絡抓取器如何將Medium文章輸入AI模型的博客文章。他談到了如何汙染這些數據集,阻止抓取器,並使其儘可能不可訪問。這就是為什麼不註冊帳戶就很難瀏覽 Medium 的原因。
這使得普通人無法使用互聯網,因為公司試圖隔離他們的數據。
Medium的CEO還提到他們允許谷歌訪問他們的數據。普通人無法正確瀏覽他們的網站,但谷歌可以抓取它來免費訓練他們的人工智能模型。他解釋了原因:谷歌將在谷歌搜索中優先考慮Medium,以換取訪問權。這表明擁有一個搜索引擎是多麼有價值,您可以通過優先考慮 SEO 來支付語言數據費用。這是數據戰的下一波大浪潮。
所有這些公司都在為數據而戰,試圖封鎖數據,試圖為人類歷史上從未定價的東西獲得合適的價格。普通人成為了附屬品,這些數據只有少數機構才能獲取,這是不公平的。
瘋狂的是,現在有一些老牌企業通過在數百萬人免費下載的應用程序中安裝 SDK 來抓取 Reddit 等網站。假設您下載了 Roku TV 屏保或一些免費手機遊戲。開發人員通過在其中放置 SDK 來獲得報酬,該 SDK 允許這些大公司使用您的帶寬從您的住宅 IP 地址中抓取網站,因為他們的 IP 地址已被屏蔽。諷刺的是我們總是同意這些條款和條件,他們的理由是:“嘿,你得到了一個無廣告的產品體驗。”他們聲稱這就是你得到補償的方式。但我們非常清楚,廣告的價值遠遠低於所使用的數據的價值。
我們對 Grass 的理念是,如果發生數據戰,我們可能無法阻止它,但我們至少應該有機會參與。我們應該有選擇權,要麼在數據戰爭中出售武器,要麼為互聯網創造一個巨大的開放數據集,任何人都可以用它來訓練他們自己的AI模型。
人們是否容易參與 Grass 並得到一些好處?

0xdrej:目前網絡正在進行beta測試,非常簡單。因為你所需要的硬件已經在你的設備上存在了。你所需要做的就是獲得一個推薦碼。然後你只需創建一個賬戶,或者Saga手機應用,你就可以開始了,上手過程非常流暢。
我們最近面臨的一個問題是,用戶數量的增長比我們預期的要快得多。因此,當我們擴展基礎設施時,人們可能會面臨一些小問題。
您認為這個市場的規模有多大?
0xdrej:我們目前實際上瞄準了兩個垂直領域,或者是三個,每個垂直領域都有不同的市場規模。
第一個是替代數據產業,我相信這是一個 200 億美元的市場。我所說的替代數據,主要是指對沖基金使用的數據。例如,如果你搜索某些商店的價格和庫存,你就可以估算出一家公司的季度收益。對沖基金會花錢購買這類信息。

網絡抓取市場本身雖然仍處於新興階段,目前價值數十億美元,但正在大幅增長。如此大規模增長的原因在於第三個市場,即人工智能。
AI數據市場的規模現在非常難以量化。其市場規模可能每天都在呈指數級增長,對我們來說很難估價。但當你看到一些人在討論出售數據給AI數據集時,你會明白這是一個巨大的機會。
那麼,隨著用戶數量的增加,Grass是否會變得更有價值和競爭力?
0xdrej:是的,這是一個很好的問題。網絡規模越大,它的可行性就越強。
我可以舉一個例子,就是hivemapper,我認為這是一個非常酷的產品和想法。如果您想繪製整個世界的地圖,但只有 10 輛汽車在行駛,那麼您只能得到地圖的一小部分。它可能對一些非常具體的小規模應用程序有用,但用途不是很廣泛。
然而,如果您有數百萬駕駛員繪製世界上每條道路的地圖,您就可以繪製出更全面的圖景。然後,您可以以更高的溢價出售更好的產品,並且對於每個參與者來說,單位經濟效益都會大大提高。
仔細想想,Grass 本質上是在繪製整個互聯網的地圖。
所以,讓我再給你舉一個例子,這個應用與AI無關,但它屬於一個龐大的行業——機票、旅行和酒店。如果你是一個旅行聚合網站,你希望從每個地點的每個提供商處獲取最優惠的價格。例如,從柏林到新加坡的航班價格,從紐約看可能與從柏林看不同。旅行聚合網站需要知道盡可能多的IP地址的每個航班的價格,以便擁有最佳產品。現在,如果他們只有新加坡、中國和美國的一些地方的IP地址,而有人試圖在歐洲兩地之間飛行,那麼對他們來說抓取正確的價格將非常困難。網絡隨著規模的擴大解鎖了更多用例,這很令人興奮。
隨著網絡的發展,您認為用戶的獎勵會被稀釋嗎?還是說由於網絡變得更有利可圖而找到一個平衡?
0xdrej:我會盡量不做任何前瞻性聲明來回答這個問題。第一個變量是,網絡現在非常接近可用,這就是為什麼在這個beta測試期間,我們選擇補償正常運行時間。我們不打算無限期地獎勵用戶的上線時間。
所以,現在是你唯一可以僅僅為了保持設備在線而賺取積分的時候。在未來,節點只會因實際帶寬使用而得到補償。關於平衡,我之前提到的旅行就是一個很好的例子。
在那個領域,你永遠不可能擁有足夠的節點。對於旅行聚合網站來說,要保持競爭力,最有競爭力的聚合網站實際上是那個擁有最多節點的聚合者。因此,如果你能解鎖這個,他們只會通過網絡投放更多的內容和更多的吞吐量。
是什麼促使您決定在 Solana 上進行開發?
0xdrej:對於我們正在嘗試做的事情,擁有高吞吐量的鏈顯然非常重要。當Grass網絡上線時,它將成為用戶數量最多的加密協議之一。這就需要有非常低的Gas費來激勵用戶。Solana是目前最節省Gas費的,可能也是最快的鏈。即將推出的一些更新(例如 FireDancer)非常令人興奮,因為並行事務正是我們所需要的。
Solana上有許多Depin協議,從商業發展的角度來看,我們很樂意與其他一些DePin協議合作。我們發現非常酷的一件事是 Solana 擁有自己的手機,我們相信Solana手機的採用率只會增加。這是其他任何鏈都無法提供的。對於我們來說,在 Solana 手機上安裝一個應用程序是顯而易見的選擇。
您有沒有從DePin領域的其他項目那裡尋找靈感,比如Helium?
0xdrej:當然有,DePin背後的整個理念其實是關於你自身的。你不僅為生活中的很多事情支付了過多的費用,而且還被剝奪了本可以賺錢的東西。
最近Depin對去中心化的推動,以及例如Helium Mobile和Saga手機所做的一些事情,讓每個人都大開眼界。這就好比,我掌握著如此多的資源,但在很多情況下,這些資源卻被人從我身邊偷走了。但現在,人們看到了另一條道路,在這條路徑上你有選擇不接受這種情況發生的權利。這是非常強大的,我不想錯過。因此,我們從中得到了很多啟發。
展望未來,2024 年 Grass 會是什麼樣子?您能給我們一些關於您的路線圖的見解嗎?
0xdrej:我們計劃在 2024 年的某個時間點全面啟動網絡,我想大家都不會感到意外。
除此之外,在路線圖中,我們想實現使用zk-TLS的請求證明,將網絡請求與數據集綁定,這可能在下半年發生。我們還計劃去中心化我們的許多排序器。這將如何實施還有待確定,但我們有許多激動人心的想法,這將允許人們更加容易地運行Grass的基礎設施。

我們還在考慮硬件的問題。現在,使用Grass的成本為零,我們喜歡這樣,並打算永遠保持這種方式。但假設你不想讓你的設備全天候在線,或者由於某種原因你不想在你的設備上運行這個節點。我們想給人們一個選擇,只需購買一個盒子,將其連接到他們的互聯網,並讓它在後臺運行。除了個人偏好之外,擁有硬件的一個令人興奮的方面是,我們實際上可以在硬件中放入AI代理,並允許它們在其中運行。它們可以為你完成大量的網絡抓取和爬行工作。你所要做的就是坐下來讓那些人工智能代理來運行這些工作,就像擁有一輛可以繪製地圖的自動駕駛汽車一樣。
如果你想為網絡做出更多貢獻,那麼我們希望有一種能夠做到這一點的設備可用。
我們正在開發一些小功能,比如儀表盤的新遊戲化功能。我們還想專門為 Saga 用戶添加一些復活節彩蛋功能,目前正在探索這方面的想法。除此之外,我們還在研究其他設備的發行版。現在,我們不僅在考慮網絡擴展,還在考慮讓那些需要的人可以下載。比如,有很多人不喜歡安裝擴展程序,這完全沒有問題。因此,我們計劃將其擴展到其他平臺,如 Android、iOS、Raspberry Pi、Linux 等。
總的來說,我們想給人們更多的選擇,以便能夠輕鬆地加入Grass網絡。
您如何看待Grass的治理結構?它會是一個完全由社區擁有的去中心化網絡嗎?
0xdrej:我們朝向去中心化有幾個不同的階段。第一個是認證機制,在這裡我們能夠在鏈上獎勵用戶的貢獻。
第二階段涉及到我們排序器的去中心化,以及一些抓取審批請求的內容。治理在這裡發揮關鍵作用。我們本質上希望成為一個龐大的數據供應網絡,社區成員可以說,“嘿,我正在訓練這個人工智能模型,我需要這些類型的數據集,我想建議我們將抓取工作轉向抓取這些數據。”然後,排序器可以兼作驗證器,以確保抓取正確的數據。
我們想要包括的少數治理功能之一是保護網絡。在一個去中心化的網絡中,如果執行得當,通常會隨著時間的推移實現市場效率。有許多應用程序可以通過未使用的 CPU、GPU 等貨幣化,通常以法定貨幣進行交易。它們一開始可能會支付一定的費率給入駐會員,然後隨著時間的推移降低費率,最後收益變得微乎其微。
通過治理結構,您可以保護社區,因為那些為網絡做出貢獻的人實際上擁有網絡的一部分。這是我們想要達到的狀態,即Grass網絡中運行節點的每個人都擁有網絡本身的一部分。
您認為您現在理論上有足夠的規模來啟動網絡嗎?或者您仍然想在啟動前增加節點數量?
0xdrej:就節點的總體數量而言,我們非常接近我們的目標。然而,在特定的地理位置,我們實際上並不那麼接近。有些地理位置的人們想要抓取特定類型的內容,而那裡的需求實際上高於供應。我們希望確保我們有能力滿足所有需求,這是我們啟動網絡的目標。
如你所知,我們處於測試階段,所以我們正在盡力確保網絡是可擴展的。由於我們的增長速度比預期的要快,人們在接入網絡和儀表板顯示方面遇到了一些問題。這些都是我們計劃在完全網絡啟動之前解決的問題。這就是為什麼我們還在測試階段。因此,在節點數量方面,我們正在考慮許多因素。總的來說,我們對目前的情況還是相當滿意的。
歡迎加入深潮 TechFlow 官方社群
Telegram 訂閱群:https://t.me/TechFlowDaily
Twitter 官方帳號:https://x.com/TechFlowPost
Twitter 英文帳號:https://x.com/BlockFlow_News












