AIに特化した分散型Web3基盤プロトコルKIP Protocolを理解する（2）

2024.03.01

共有先

TechFlow厳選深潮セレクト

AIに特化した分散型Web3基盤プロトコルKIP Protocolを理解する（2）

RAGは生成AIで使用される革新的な技術であり、AIにおける3つの主要な価値創出者（アプリ開発者、モデル製作者、データ所有者）を関与させる。

2024.03.01 - 04:17:50

KIPProtocol

Web3業界の深掘り報道に専念し潮流を洞察

RAGは生成AIで使用される革新的な技術であり、AIにおける3つの主要な価値創出者（アプリ開発者、モデル製作者、データ所有者）を関与させる。

著者：KIP Protocol

KIP Protocolは、世界で初めて分散型RAGをサポートするプロトコルであり、実質的にすべてのAIを分散化するための基盤フレームワークを提供しています。これは、AI大手企業の独占から脱却するための第一歩です。

1）RAGの概要

AIモデルは大量のデータを学習することで訓練されます。データからパターンを認識し、内部の重みを調整して予測や意思決定を行う能力を獲得します。その後、モデルは新たに得られた「生」の知識に基づいてユーザーの質問に回答できるようになります。

しかし、この訓練プロセスではデータセット全体をモデルに開示する必要があり、結果としてデータがモデルに「吸収」されてしまいます。もしデータに機密情報や著作権保護された情報が含まれている場合、モデルは将来ある時点でそれらの情報をそのまま出力してしまう可能性があります。

では、自分のデータをリスクにさらしたくない場合はどうすればよいでしょうか？

ここで登場するのがRAG（Retrieval-Augmented Generation：検索拡張生成）です。

RAGは、AIモデルが外部のナレッジベースやデータベースから情報を取得し、本来知り得なかった答えを生成できるようにする高度な技術です。

まるで、質問の答えを直接知らないとしても、外部データから専門的に必要な情報を引き出してくるスマートアシスタントのようなものです。

1. ユーザーのクエリ入力：

まず、ユーザーがRAGシステムを稼働するチャットボットに質問を投げかけます。

たとえば、「COVID-19の症状は何ですか？」という質問です。

2. 外部データベースからの検索：

モデルは医学雑誌、健康サイト、臨床データベースなどの接続された外部ナレッジベースやデータベースを検索し、検索フェーズを開始します。ユーザーのクエリに関連するデータと情報のみを抽出します。

3. データ処理・フィルタリング・生成：

取得されたデータは処理・フィルタリングされ、重要な情報を抽出し、関係のないデータは排除されます。AIモデルは、取得されたデータとユーザークエリの文脈を統合して回答を生成します。

COVID-19の症状に関するクエリの場合、RAGは発熱、咳、呼吸困難といった一般的な症状を列挙した応答を生成するだけでなく、モデルの訓練時には存在しなかった最新の医学論文の情報を含めることもでき、より高品質な回答を提供できます。

4. 応答の送信：

生成された応答はチャットボットのインターフェースを通じてユーザーに提示されます。

このように、RAGはモデルが訓練を通じてデータを「吸収」することなく、外部データを使用してAIのクエリに応答できるようにします。

RAG技術はますます成熟しており、私たちの研究資料では、RAGが生成する回答の質が訓練済みモデルを上回ることを示しています。https://arxiv.org/pdf/2311.05903.pdf

2）RAGの重要性

RAGは次のような理由からますます重要になってきます：

モデルの訓練は技術的・専門的な作業であり、通常コストが高く、誰もがそのスキルやリソースを持っているわけではありません。
多くのデータ（機密データ、独自データなど）の所有者は、自分たちが完全に所有していない、あるいは制御できないモデルにデータをさらすことに不安を感じるでしょう。

あなたも気づく重要な点があります：

RAGの枠組みのもとでは、アプリ開発者、モデル製作者、データ所有者が協力し、ユーザーのクエリに対する回答にそれぞれ貢献できます。

つまり、公正な状況下で、各関係者はその貢献に対して公平な報酬を得るべきです。

しかし現時点では、関係者の独立性や所有権を損なうことなくこれを実現する簡単な方法は存在しません。（ちなみに、この問題が約1年前にKIPの構築を始めた直接のきっかけでした）。

これが「収益分配の問題（revenue problem）」です。

3）RAGと中央集権型AIにおける「収益分配の問題」

ある主体がAIの価値創造における3つの要素すべて（アプリ開発者、モデル製作者、データ所有者）を所有している状況を想像してみてください。この場合、ユーザーから徴収した支払いを他者間で再分配する必要はなく、内部で会計処理が可能です。

しかし逆に、AIの価値創造の3要素すべてを単一の主体が持つことを認めないとすれば、さまざまな分野のAI価値創造に関わる役割間での収益分配の問題を解決しなければなりません。

「収益分配の問題」を解決しない限り、アプリ開発者、モデル製作者、データ所有者はそれぞれの独立性と取引の自由を持続することはできません。

しかし、AI業界における独占はすでに始まっています。

以下は、OpenAIの独占について私たちの見解です：

OpenAIは明らかにGPT-4のような強力なクローズドソースモデルを持っており、これらはインターネット上で長年にわたり公開されてきた私たちの知識やコンテンツで訓練されています。これにより、ChatGPTのようなアプリやユーザーが作成したGPTに燃料を供給しています。
彼らは著作権保護措置（自社プラットフォーム上で著作権保護データをアップロードした人が訴えられた場合、法的費用を負担すると約束）を通じて、ユーザーが法的リスクを気にせず大胆にデータを閉鎖型プラットフォームにアップロードするよう促しています。
OpenAIが中央集権的でクローズドソースのWeb2プラットフォームであることを考えると、アップロードされたデータ（ChatGPTでもGPTアプリでも）はアップロード者に本当に帰属しているのかを真剣に問うべきです。
以上のこと、および彼らが保有する既存のモデル、あらゆるデータへの無制限な「スクレイピング」、著作権保護策、巨額の資金準備金を考えれば、OpenAIはこれまでに存在した中で最も貪欲な「データ掃除機」と言えるかもしれません。彼らはモデルのニーズを満たすために、絶えずデータとリソースを吸い込んでいます。

これらすべての要素（およびハードウェア調達のために調達した70億ドル）を総合すると、何らかの対策を講じなければ、AI業界が1社または数社によって完全に独占されるのは避けられないでしょう。

前述の理由から、私たちはAI業界の独占は人類にとって好ましくないと確信しており、これから積極的に独占からの脱却策を考えていきます。

4）分散型RAGの意義

RAGは、AIの価値創造における3つの核心的要素（アプリ開発者、モデル製作者、データ所有者）すべてに関与しています。

したがって、分散型RAGのフレームワークを構築することは、KIPにとって本質的にAIの価値創造を分散的に制御する枠組みを構築することに他なりません。これにより、すべての価値創造者にフェアな競争環境を提供し、AIの独占から脱却することが可能になります。

私たちは、AIが効率的に機能し、多数の小規模・大規模クリエイターが共同で作り上げる結晶となることを可能にします。その過程で、特定の大企業がすべてのコア機能を一手に握る必要はありません。

そのため、まずRAGの分散化を妨げる3つの基本的な課題を解決します：

1. 所有権：

アプリ開発者、モデル製作者、データ所有者が、ERC-3525半同質トークン（Semi-Fungible Tokens）の形式でWeb3上の「取引エンティティ」を構築することで、簡単に安全にWeb3にコンテンツを公開できるようにします。これにより、各々がオンチェーンでデジタル財産権を証明できるようになります。

2. オンチェーン／オフチェーン接続：

オフチェーンとオンチェーンの相互作用を円滑にし、アプリ開発者、モデル製作者、データ所有者が自由に簡単に相互に接続できるオープンな環境を提供します。

3. 貨幣化：

各AI価値創造者の貢献を記録・計算し、自動的な収益分配と引き出しを行うための汎用フレームワークを提供します。