Phá rã khung AI: Từ tác nhân thông minh đến khám phá phi tập trung

2025.01.08

Chia sẻ đến

Tuyển chọn TechFlowTuyển chọn TechFlow

Phá rã khung AI: Từ tác nhân thông minh đến khám phá phi tập trung

Khung sườn đơn giản hóa quá trình xây dựng Agent đồng thời cung cấp một số tổ hợp chức năng phức tạp, trong tương lai vẫn sẽ chiếm ưu thế, từ đó hình thành nên một nền kinh tế sáng tạo Web3 thú vị hơn so với GPT Store.

2025.01.08 - 11:09:19

Chuyên sâu báo cáo Web3

Tác giả: Zeke, Nhà nghiên cứu tại YBB Capital

Lời mở đầu

Trong các bài viết trước đó, chúng tôi đã nhiều lần thảo luận về hiện trạng AI Meme và triển vọng phát triển tương lai của AI Agent. Tuy nhiên, tốc độ phát triển và mức độ biến đổi nhanh chóng của mảng AI Agent khiến người ta khó lòng theo kịp. Trong vòng chưa đầy hai tháng kể từ khi "Terminal of Truth" khởi động mùa Agent, câu chuyện kết hợp giữa AI và Crypto gần như thay đổi mỗi tuần. Gần đây, sự chú ý của thị trường lại đổ dồn vào các dự án thuộc nhóm “khung sườn” (framework), được dẫn dắt bởi yếu tố công nghệ. Chỉ trong vài tuần qua, phân nhánh này đã xuất hiện nhiều dự án trở thành黑马 với vốn hóa vượt 100 triệu thậm chí lên tới hàng tỷ USD. Đồng thời, loại hình dự án này cũng hình thành một mô hình phát hành tài sản mới: phát hành token dựa trên kho mã nguồn GitHub; các Agent xây dựng trên khung sườn cũng có thể tiếp tục phát hành token riêng. Khung sườn làm nền tảng, Agent là lớp trên. Dù bề ngoài giống một nền tảng phát hành tài sản, thực chất đây là một mô hình hạ tầng đặc trưng cho thời đại AI đang dần nổi lên. Chúng ta nên đánh giá xu hướng mới này ra sao? Bài viết này sẽ bắt đầu từ phần giới thiệu khung sườn, kết hợp suy nghĩ cá nhân để lý giải điều gì mà AI framework thực sự mang lại cho Crypto.

I. Khung sườn là gì?

Theo định nghĩa, AI framework là một công cụ hoặc nền tảng phát triển cơ bản, tích hợp sẵn một bộ mô-đun, thư viện và công cụ tiền xây dựng nhằm đơn giản hóa quá trình tạo ra các mô hình AI phức tạp. Những framework này thường bao gồm chức năng xử lý dữ liệu, huấn luyện mô hình và đưa ra dự đoán. Nói đơn giản hơn, bạn có thể hiểu framework chính là hệ điều hành thời đại AI, tương tự như Windows, Linux trên máy tính để bàn hay iOS và Android trên thiết bị di động. Mỗi framework đều có ưu điểm và hạn chế riêng, nhà phát triển có thể tự do lựa chọn theo nhu cầu cụ thể.

Mặc dù thuật ngữ "AI framework" trong lĩnh vực Crypto vẫn còn khá mới mẻ, nhưng nếu xét về nguồn gốc, kể từ Theano ra đời năm 2010 thì lịch sử phát triển của AI framework đã gần trọn 14 năm. Trong cộng đồng AI truyền thống, dù là học thuật hay công nghiệp, hiện đã có rất nhiều framework trưởng thành để lựa chọn, ví dụ như TensorFlow của Google, Pytorch của Meta, PaddlePaddle của Baidu, MagicAnimate của ByteDance — mỗi cái đều nổi bật ở những kịch bản ứng dụng khác nhau.

Các dự án framework hiện xuất hiện trong Crypto được xây dựng nhằm đáp ứng nhu cầu lớn về Agent dưới làn sóng AI hiện nay, sau đó lan rộng sang các mảng khác của Crypto, cuối cùng hình thành các framework chuyên biệt cho từng lĩnh vực nhỏ. Chúng ta hãy lấy vài framework chủ lưu trong cộng đồng crypto hiện nay làm ví dụ để làm rõ thêm nhận định này.

1.1 Eliza

Đầu tiên là Eliza của ai16z, framework này là một nền tảng mô phỏng đa Agent, chuyên dùng để tạo, triển khai và quản lý các AI Agent tự chủ. Được phát triển bằng ngôn ngữ TypeScript, ưu điểm của nó là khả năng tương thích cao và dễ dàng tích hợp API.

Theo tài liệu chính thức, Eliza tập trung chủ yếu vào mạng xã hội, chẳng hạn hỗ trợ tích hợp đa nền tảng. Framework này cung cấp chức năng Discord đầy đủ, hỗ trợ kênh thoại, tự động hóa tài khoản trên X/Twitter, tích hợp Telegram và truy cập API trực tiếp. Về xử lý nội dung phương tiện, nó hỗ trợ đọc và phân tích tài liệu PDF, trích xuất và tóm tắt nội dung liên kết, chuyển giọng nói thành văn bản, xử lý video, phân tích và mô tả hình ảnh, tóm tắt cuộc trò chuyện.

Các trường hợp sử dụng hiện tại của Eliza chủ yếu gồm bốn loại:

1. Ứng dụng trợ lý AI: đại diện hỗ trợ khách hàng, quản trị viên cộng đồng, trợ lý cá nhân;

2. Nhân vật mạng xã hội: người sáng tạo nội dung tự động, bot tương tác, đại diện thương hiệu;

3. Chuyên gia tri thức: trợ lý nghiên cứu, nhà phân tích nội dung, bộ xử lý tài liệu;

4. Nhân vật tương tác: nhân vật đóng vai, cố vấn giáo dục, robot giải trí.

Các mô hình mà Eliza hiện hỗ trợ:

1. Suy luận cục bộ mô hình mã nguồn mở: ví dụ Llama3, Qwen1.5, BERT;

2. Sử dụng API OpenAI cho suy luận dựa trên đám mây;

3. Cấu hình mặc định là Nous Hermes Llama 3.1B;

4. Tích hợp với Claude để xử lý truy vấn phức tạp.

1.2 G.A.M.E

G.A.M.E (Generative Autonomous Multimodal Entities Framework) là framework AI đa phương tiện tự sinh và tự quản do Virtual phát triển, tập trung chủ yếu vào thiết kế NPC thông minh trong trò chơi. Một điểm đặc biệt của framework này là người dùng không cần hoặc chỉ cần kiến thức lập trình thấp cũng có thể sử dụng — theo giao diện thử nghiệm, người dùng chỉ cần điều chỉnh tham số là có thể tham gia thiết kế Agent.

Về kiến trúc dự án, thiết kế cốt lõi của G.A.M.E là thiết kế mô-đun phối hợp nhiều hệ thống con, kiến trúc chi tiết như hình dưới.

1. Agent Prompting Interface: Giao diện tương tác giữa nhà phát triển và framework AI. Qua giao diện này, nhà phát triển có thể khởi tạo một phiên làm việc, đồng thời xác định các tham số như ID phiên, ID agent, ID người dùng, v.v.;

2. Perception Subsystem: Hệ thống cảm nhận chịu trách nhiệm tiếp nhận thông tin đầu vào, tổng hợp rồi gửi đến bộ điều hành lập kế hoạch chiến lược. Nó cũng xử lý phản hồi từ module xử lý hội thoại;

3. Strategic Planning Engine: Bộ điều hành lập kế hoạch chiến lược là phần cốt lõi của toàn bộ framework, chia thành bộ lập kế hoạch cấp cao (High Level Planner) và chính sách cấp thấp (Low Level Policy). Bộ lập kế hoạch cấp cao chịu trách nhiệm đặt mục tiêu dài hạn và lập kế hoạch, còn chính sách cấp thấp chuyển những kế hoạch này thành các bước hành động cụ thể;

4. World Context: Ngữ cảnh thế giới chứa dữ liệu thông tin môi trường, trạng thái thế giới và trạng thái trò chơi, phục vụ giúp Agent hiểu được hoàn cảnh hiện tại;

5. Dialogue Processing Module: Module xử lý hội thoại chịu trách nhiệm xử lý tin nhắn và phản hồi, có thể tạo ra hội thoại hoặc phản ứng làm đầu ra;

6. On Chain Wallet Operator: Người vận hành ví trên chuỗi, có thể liên quan đến ứng dụng công nghệ blockchain, chức năng cụ thể chưa rõ ràng;

7. Learning Module: Module học hỏi thu thập phản hồi để học và cập nhật cơ sở tri thức của Agent;

8. Working Memory: Bộ nhớ tạm lưu trữ thông tin ngắn hạn như hành động gần đây, kết quả và kế hoạch hiện tại của Agent;

9. Long Term Memory Processor: Bộ xử lý bộ nhớ dài hạn chịu trách nhiệm trích xuất thông tin quan trọng về Agent và bộ nhớ tạm, sắp xếp theo các yếu tố như điểm mức độ quan trọng, tính cập nhật và liên quan;

10. Agent Repository: Kho lưu trữ Agent giữ các thuộc tính như mục tiêu, phản xạ, kinh nghiệm và tính cách của Agent;

11. Action Planner: Bộ lập kế hoạch hành động tạo ra kế hoạch hành động cụ thể dựa trên chính sách cấp thấp;

12. Plan Executor: Bộ thực thi kế hoạch chịu trách nhiệm thực hiện kế hoạch hành động do Action Planner tạo ra.

Quy trình hoạt động: Nhà phát triển khởi động Agent qua giao diện nhắc lệnh Agent, hệ thống cảm nhận tiếp nhận đầu vào và truyền đến bộ điều hành lập kế hoạch chiến lược. Bộ điều hành này sử dụng thông tin từ hệ thống bộ nhớ, ngữ cảnh thế giới và kho Agent để lập và thực hiện kế hoạch hành động. Module học hỏi liên tục giám sát kết quả hành động của Agent và điều chỉnh hành vi theo kết quả.

Ứng dụng: Nhìn từ kiến trúc kỹ thuật, framework này tập trung vào quyết định, phản hồi, cảm nhận và tính cách của Agent trong môi trường ảo. Ngoài trò chơi, nó còn phù hợp với Metaverse. Trong danh sách dự án bên dưới của Virtual, có thể thấy đã có rất nhiều dự án áp dụng framework này để xây dựng.

1.3 Rig

Rig là một công cụ mã nguồn mở được viết bằng ngôn ngữ Rust, được thiết kế nhằm đơn giản hóa việc phát triển các ứng dụng mô hình ngôn ngữ lớn (LLM). Thông qua việc cung cấp một giao diện vận hành thống nhất, Rig cho phép nhà phát triển dễ dàng tương tác với nhiều nhà cung cấp dịch vụ LLM (ví dụ OpenAI và Anthropic) cũng như nhiều cơ sở dữ liệu vector (như MongoDB và Neo4j).

Đặc điểm chính:

● Giao diện thống nhất: Dù là nhà cung cấp LLM nào hay loại cơ sở dữ liệu vector nào, Rig đều cung cấp cách truy cập nhất quán, giảm đáng kể độ phức tạp trong việc tích hợp;

● Kiến trúc mô-đun: Bên trong framework sử dụng thiết kế mô-đun, bao gồm các phần then chốt như «lớp trừu tượng hóa nhà cung cấp», «giao diện lưu trữ vector» và «hệ thống Agent thông minh», đảm bảo tính linh hoạt và khả năng mở rộng của hệ thống;

● An toàn kiểu dữ liệu (type safety): Tận dụng đặc tính của Rust để thực hiện thao tác embedding an toàn về mặt kiểu dữ liệu, bảo đảm chất lượng mã và an toàn lúc chạy;

● Hiệu suất cao: Hỗ trợ mô hình lập trình bất đồng bộ, tối ưu hóa khả năng xử lý song song; chức năng ghi log và giám sát tích hợp sẵn hỗ trợ việc bảo trì và khắc phục lỗi.

Quy trình hoạt động: Khi yêu cầu của người dùng đi vào hệ thống Rig, đầu tiên sẽ đi qua «lớp trừu tượng hóa nhà cung cấp», nơi chuẩn hóa sự khác biệt giữa các nhà cung cấp và đảm bảo xử lý lỗi nhất quán. Tiếp theo, ở tầng cốt lõi, Agent thông minh có thể gọi các công cụ khác nhau hoặc truy vấn cơ sở dữ liệu vector để lấy thông tin cần thiết. Cuối cùng, thông qua các cơ chế nâng cao như RAG (Retrieval-Augmented Generation), hệ thống có thể kết hợp việc truy xuất tài liệu và hiểu ngữ cảnh để tạo ra phản hồi chính xác và có ý nghĩa, rồi trả lại cho người dùng.

Ứng dụng: Rig không chỉ phù hợp để xây dựng hệ thống hỏi đáp cần phản hồi nhanh và chính xác, mà còn có thể dùng để tạo công cụ tìm kiếm tài liệu hiệu quả, chatbot hoặc trợ lý ảo có khả năng nhận biết ngữ cảnh, thậm chí hỗ trợ sáng tạo nội dung, tự động tạo văn bản hoặc các dạng nội dung khác theo mẫu dữ liệu đã có.

1.4 ZerePy

ZerePy là một framework mã nguồn mở dựa trên Python, được thiết kế nhằm đơn giản hóa việc triển khai và quản lý AI Agent trên nền tảng X (trước đây là Twitter). Dự án tách ra từ Zerebro, kế thừa các chức năng cốt lõi nhưng được thiết kế theo hướng mô-đun hóa và dễ mở rộng hơn. Mục tiêu của nó là giúp nhà phát triển dễ dàng tạo ra các Agent AI cá nhân hóa và thực hiện nhiều tác vụ tự động cũng như sáng tạo nội dung trên X.

ZerePy cung cấp một giao diện dòng lệnh (CLI), giúp người dùng thuận tiện quản lý và điều khiển các AI Agent đã triển khai «1». Kiến trúc cốt lõi của nó dựa trên thiết kế mô-đun, cho phép nhà phát triển linh hoạt tích hợp các module chức năng khác nhau, ví dụ:

● Tích hợp LLM: ZerePy hỗ trợ các mô hình ngôn ngữ lớn (LLM) của OpenAI và Anthropic, nhà phát triển có thể chọn mô hình phù hợp nhất với ứng dụng của mình. Điều này giúp Agent tạo ra nội dung văn bản chất lượng cao;

● Tích hợp nền tảng X: Framework tích hợp trực tiếp API của X, cho phép Agent đăng bài, trả lời, thích, chia sẻ, v.v.;

● Hệ thống kết nối mô-đun: Hệ thống này cho phép nhà phát triển dễ dàng thêm hỗ trợ cho các nền tảng xã hội hoặc dịch vụ khác, mở rộng chức năng của framework;

● Hệ thống bộ nhớ (kế hoạch tương lai): Mặc dù phiên bản hiện tại có thể chưa triển khai đầy đủ, nhưng mục tiêu thiết kế của ZerePy bao gồm tích hợp hệ thống bộ nhớ, giúp Agent ghi nhớ các tương tác và thông tin ngữ cảnh trước đó, từ đó tạo ra nội dung mạch lạc và cá nhân hóa hơn.

Dù cả ZerePy và Eliza của a16z đều hướng tới việc xây dựng và quản lý AI Agent, nhưng hai dự án này có chút khác biệt về kiến trúc và mục tiêu. Eliza thiên về mô phỏng đa Agent và nghiên cứu AI sâu rộng hơn, còn ZerePy tập trung vào việc đơn giản hóa quy trình triển khai AI Agent trên một nền tảng xã hội cụ thể (X), thiên về ứng dụng thực tiễn và đơn giản hóa.

II. Phiên bản của hệ sinh thái BTC

Thực tế, xét theo lộ trình phát triển, AI Agent có nhiều điểm tương đồng thú vị với hệ sinh thái BTC vào cuối năm 2023 và đầu năm 2024. Đường đi của hệ sinh thái BTC có thể khái quát đơn giản là: BRC20 – Cạnh tranh đa giao thức như Atomical/Rune – L2 của BTC – BTCFi lấy Babylon làm trung tâm. Trong khi đó, AI Agent phát triển nhanh hơn nhờ nền tảng công nghệ AI truyền thống đã trưởng thành, nhưng nhìn chung lộ trình phát triển của nó thực sự có nhiều điểm tương đồng với hệ sinh thái BTC. Tôi khái quát đơn giản như sau: GOAT/ACT – Cạnh tranh giữa các framework Agent dạng Social/Phân tích AI. Về xu hướng, các dự án hạ tầng tập trung vào phi tập trung hóa và bảo mật cho Agent nhiều khả năng sẽ tiếp nối làn sóng framework này, trở thành chủ đề chính ở giai đoạn tiếp theo.

Liệu mảng này có đi theo vết xe đổ của hệ sinh thái BTC, dẫn đến đồng质化 và bong bóng? Tôi cho rằng không hẳn vậy. Trước hết, câu chuyện về AI Agent không nhằm tái hiện lịch sử của các chuỗi hợp đồng thông minh. Thứ hai, dù các dự án framework AI hiện tại có thật sự mạnh về công nghệ hay vẫn dừng ở giai đoạn thuyết trình PowerPoint hay ctrl c + ctrl v, ít nhất chúng đang mở ra một hướng phát triển hạ tầng mới. Nhiều bài viết so sánh framework AI với nền tảng phát hành tài sản, Agent như tài sản. Nhưng so với Launchpad Memecoin hay các giao thức inscription, tôi cho rằng framework AI giống chuỗi công cộng tương lai hơn, còn Agent giống Dapp tương lai hơn.

Trong thế giới Crypto hiện nay, chúng ta có hàng ngàn chuỗi công cộng và hàng chục ngàn Dapp. Trong số đó có các chuỗi phổ thông như BTC, Ethereum và nhiều chuỗi dị cấu khác, còn dạng chuỗi ứng dụng thì đa dạng hơn: chuỗi game, chuỗi lưu trữ, chuỗi Dex. Việc so sánh chuỗi công cộng với AI framework là rất hợp lý, và Dapp cũng có thể đối chiếu tốt với Agent.

Trong kỷ nguyên AI của Crypto, hình thái này rất có thể sẽ tiếp tục phát triển. Cuộc tranh luận tương lai sẽ chuyển từ EVM và chuỗi dị cấu sang tranh luận giữa các framework. Vấn đề hiện tại là làm thế nào để phi tập trung hóa, hay nói cách khác là "chuỗi hóa"? Tôi nghĩ các dự án hạ tầng AI tiếp theo sẽ phát triển thêm từ nền tảng này. Một điểm nữa là: việc đưa lên blockchain có ý nghĩa gì?

III. Ý nghĩa của việc "lên chuỗi"?

Bất kể blockchain kết hợp với điều gì, cuối cùng cũng phải đối mặt với một câu hỏi: Có ý nghĩa không? Trong bài viết năm ngoái, tôi từng chỉ trích GameFi vì đặt nặng hình thức hơn bản chất, hạ tầng phát triển quá sớm. Trong vài bài viết gần đây về AI, tôi cũng bày tỏ nghi ngờ về sự kết hợp AI x Crypto trong lĩnh vực ứng dụng thực tiễn ở thời điểm hiện tại. Dù sao đi nữa, sức hút của câu chuyện ngày càng yếu đối với các dự án truyền thống; vài dự án truyền thống hiếm hoi có biểu hiện giá coin tốt trong năm ngoái cơ bản đều phải sở hữu năng lực tương xứng hoặc vượt trội so với mức giá coin. Vậy AI có thể làm gì cho Crypto? Trước đây tôi nghĩ đến các ý tưởng như Agent thao tác thay để thực hiện ý định, Metaverse, Agent làm nhân viên — tuy hơi tầm thường nhưng có nhu cầu thực tế. Tuy nhiên, những nhu cầu này không nhất thiết phải lên chuỗi hoàn toàn, và về logic kinh doanh cũng không thể khép kín vòng. Trình duyệt Agent nói ở bài trước có thể tạo ra nhu cầu về gắn thẻ dữ liệu, sức mạnh suy luận, v.v., nhưng sự kết hợp này vẫn chưa đủ chặt chẽ, và phần tính toán vẫn nghiêng về tính toán tập trung khi cân nhắc tổng thể nhiều yếu tố.

Nhìn lại con đường thành công của DeFi, DeFi có thể giành được miếng bánh từ tài chính truyền thống là vì có tính tiếp cận cao hơn, hiệu suất tốt hơn, chi phí thấp hơn và bảo mật không cần tin tưởng trung tâm. Nếu suy luận theo hướng này, tôi nghĩ có lẽ vẫn còn vài lý do để ủng hộ việc "chuỗi hóa" Agent.

1. Việc chuỗi hóa Agent có thể giúp giảm chi phí sử dụng, từ đó tăng tính tiếp cận và lựa chọn, cuối cùng phá vỡ độc quyền "cho thuê AI" vốn thuộc về các gã khổng lồ Web2, để người dùng bình thường cũng có thể tham gia?

2. Bảo mật: Theo định nghĩa đơn giản nhất, một AI được gọi là Agent phải có khả năng tương tác với thế giới ảo hoặc thực. Nếu Agent có thể can thiệp vào thế giới thực hay ví ảo của tôi, thì giải pháp bảo mật dựa trên blockchain cũng có thể coi là nhu cầu thiết yếu;

3. Agent có thể tạo ra một hệ thống trò chơi tài chính đặc trưng cho blockchain không? Ví dụ như LP trong AMM, để người bình thường cũng có thể tham gia tạo thị trường tự động; hoặc Agent cần sức mạnh tính toán, gắn thẻ dữ liệu, người dùng có thể đầu tư vào giao thức dưới dạng U khi họ tin tưởng dự án. Hoặc dựa trên các kịch bản ứng dụng khác nhau, Agent có thể tạo ra các trò chơi tài chính mới;

4. DeFi hiện tại chưa đạt được khả năng tương tác hoàn hảo. Nếu Agent tích hợp blockchain có thể thực hiện suy luận minh bạch, có thể truy xuất nguồn gốc, thì có thể hấp dẫn hơn trình duyệt Agent do các tập đoàn Internet truyền thống cung cấp như đã nói ở bài trước.

IV. Sáng tạo?

Các dự án framework trong tương lai cũng sẽ mở ra cơ hội khởi nghiệp tương tự như GPT Store. Hiện tại, việc phát hành một Agent qua framework vẫn khá phức tạp với người dùng thông thường, nhưng tôi tin rằng các framework đơn giản hóa quy trình xây dựng Agent đồng thời cung cấp tổ hợp chức năng phức tạp sẽ chiếm ưu thế trong tương lai, từ đó hình thành một nền kinh tế sáng tạo Web3 thú vị hơn GPT Store.

GPT Store hiện tại vẫn thiên về tính thực dụng trong lĩnh vực truyền thống, phần lớn các ứng dụng phổ biến đều do các công ty Web2 truyền thống tạo ra, còn doanh thu thì thuộc về người sáng tạo độc quyền. Theo giải thích chính thức của OpenAI, chiến lược này chỉ cung cấp hỗ trợ tài chính cho một số nhà phát triển xuất sắc ở Mỹ, với mức trợ cấp nhất định.

Web3 về mặt nhu cầu vẫn còn nhiều khoảng trống cần lấp đầy, hệ thống kinh tế cũng có thể làm cho các chính sách bất công của các gã khổng lồ Web2 trở nên công bằng hơn. Ngoài ra, chúng ta hoàn toàn có thể đưa vào kinh tế cộng đồng để cải thiện Agent tốt hơn. Kinh tế sáng tạo Agent sẽ là cơ hội để người bình thường tham gia, và AI Meme tương lai sẽ thông minh và thú vị hơn nhiều so với các Agent được phát hành trên GOAT hay Clanker.

Tài liệu tham khảo:

1.Lịch sử tiến hóa và xu hướng phát triển của framework AI

2.Bybit：AI Rig Complex （ARC）：Khung sườn Agent AI

3.Deep Value Memetics：So sánh ngang hàng bốn framework Crypto×AI: Tình trạng áp dụng, ưu/nhược điểm, tiềm năng tăng trưởng

4.Tài liệu chính thức Eliza

5.Tài liệu chính thức Virtual

Chào mừng tham gia cộng đồng chính thức TechFlow

Nhóm Telegram:https://t.me/TechFlowDaily

Tài khoản Twitter chính thức:https://x.com/TechFlowPost

Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News

Thêm vào mục ưa thích

Chia sẻ lên mạng xã hội