
Từ Manus và MCP nói về hành trình khám phá AI Agent vượt ranh giới Web3
Tuyển chọn TechFlowTuyển chọn TechFlow

Từ Manus và MCP nói về hành trình khám phá AI Agent vượt ranh giới Web3
AI Agent, như một nhánh quan trọng trong lĩnh vực trí tuệ nhân tạo, đang dần chuyển mình từ khái niệm thành hiện thực và thể hiện tiềm năng ứng dụng lớn trong mọi ngành nghề, đương nhiên cũng bao gồm cả ngành Web3.
Bài viết: pignard.eth, Đội ZAN
Ngày 6 tháng 3, một sản phẩm AI Agent đa năng đầu tiên trên thế giới do công ty khởi nghiệp Trung Quốc Monica phát hành mang tên Manus đã gây bão trên các phương tiện truyền thông công nghệ và mạng xã hội trong nước. Chỉ trong ngày đầu ra mắt, mã mời đã trở thành hàng "hiếm có khó tìm" trên toàn mạng, thậm chí còn được rao bán tới 50.000 tệ trên nền tảng Xianyu. Tuy nhiên, không ít KOL ngành vẫn nhận được mã mời trước thời điểm phát hành và liên tục đăng tải các bài trải nghiệm, phân tích.

Là một sản phẩm AI Agent tổng quát, Manus có khả năng tự chủ hoàn toàn từ khâu lập kế hoạch đến thực thi nhiệm vụ, ví dụ như soạn thảo báo cáo, tạo bảng tính... Nó không chỉ sinh ra ý tưởng mà còn có thể suy nghĩ độc lập và hành động. Với khả năng tư duy độc lập, lập kế hoạch và thực hiện các tác vụ phức tạp, Manus cung cấp kết quả hoàn chỉnh, thể hiện tính phổ quát và năng lực thực thi chưa từng có.
Sự bùng nổ của Manus không chỉ thu hút sự chú ý của ngành mà còn mang lại cảm hứng thiết kế và định hướng sản phẩm quý giá cho các nhà phát triển AI Agent khác. Cùng với sự phát triển nhanh chóng của công nghệ AI, AI Agent – một nhánh quan trọng trong lĩnh vực trí tuệ nhân tạo – đang dần chuyển mình từ khái niệm thành hiện thực và thể hiện tiềm năng ứng dụng lớn lao trong mọi lĩnh vực, tất nhiên bao gồm cả ngành Web3.
Kiến thức nền tảng
AI Agent (tác nhân trí tuệ nhân tạo) là chương trình máy tính có thể tự đưa ra quyết định và thực hiện nhiệm vụ dựa trên môi trường, dữ liệu đầu vào và mục tiêu định sẵn. Các thành phần cốt lõi của AI Agent bao gồm mô hình ngôn ngữ lớn (LLM) đóng vai trò như "bộ não", giúp xử lý thông tin, học hỏi từ tương tác, ra quyết định và hành động; cơ chế quan sát và cảm nhận để nhận biết môi trường; quá trình suy luận, phân tích kết quả quan sát và nội dung bộ nhớ, xem xét các hành động có thể thực hiện; thực thi hành động như phản hồi rõ ràng đối với suy nghĩ và quan sát; cùng với bộ nhớ và truy xuất, lưu trữ kinh nghiệm quá khứ để phục vụ việc học tập.
Các mẫu thiết kế AI Agent bắt nguồn từ ReAct, phát triển theo hai hướng chính: một hướng tập trung vào khả năng lập kế hoạch của AI Agent, bao gồm REWOO, Plan & Execute, LLM Compiler; hướng còn lại nhấn mạnh vào khả năng phản tư, bao gồm Basic Reflection, Reflexion, Self Discover, LATS.

Trong đó, mô hình ReAct là mẫu thiết kế AI Agent sớm nhất và hiện tại cũng là mô hình được áp dụng rộng rãi nhất, vì vậy bài viết sẽ tập trung giới thiệu khái niệm ReAct. ReAct là phương pháp kết hợp giữa suy luận (Reasoning) và hành động (Acting) trong mô hình ngôn ngữ để giải quyết các nhiệm vụ đa dạng về suy luận ngôn ngữ và ra quyết định. Quy trình điển hình của nó được mô tả qua vòng lặp thú vị sau: Suy nghĩ (Thought) → Hành động (Action) → Quan sát (Observation), gọi tắt là chu kỳ TAO.
-
Suy nghĩ: Khi đối mặt với một vấn đề, chúng ta cần suy nghĩ sâu sắc. Quá trình này liên quan đến việc xác định vấn đề, xác định thông tin then chốt và các bước suy luận cần thiết để giải quyết vấn đề.
-
Hành động: Sau khi xác định được hướng suy nghĩ, bước tiếp theo là hành động. Dựa trên suy nghĩ, thực hiện các biện pháp phù hợp hoặc thực hiện nhiệm vụ cụ thể nhằm thúc đẩy tiến trình giải quyết vấn đề.
-
Quan sát: Sau hành động, chúng ta phải quan sát kỹ lưỡng kết quả. Bước này nhằm kiểm tra xem hành động của chúng ta có hiệu quả hay không, liệu đã tiến gần đến câu trả lời hay chưa.
-
Vòng lặp lặp lại
AI Agent cũng có thể được phân loại theo số lượng tác nhân thành Single Agent (tác nhân đơn) và Multi Agent (nhiều tác nhân). Cốt lõi của Single Agent nằm ở sự phối hợp giữa LLM và các công cụ, đồng thời trong quá trình hoàn thành nhiệm vụ, Agent có thể tương tác nhiều lần với người dùng. Multi Agent thì gán cho mỗi Agent một vai trò khác nhau, thông qua sự phối hợp giữa các Agent để hoàn thành các nhiệm vụ phức tạp, tuy nhiên mức độ tương tác với người dùng thường thấp hơn so với Single Agent. Hiện tại, đa số các framework đều tập trung vào kịch bản Single Agent.

Model Context Protocol (MCP) là giao thức mã nguồn mở do Anthropic ra mắt ngày 25 tháng 11 năm 2024, nhằm giải quyết vấn đề kết nối và tương tác giữa LLM và các nguồn dữ liệu bên ngoài. Có thể so sánh LLM như hệ điều hành, MCP như cổng USB, hỗ trợ linh hoạt cắm các dữ liệu và công cụ bên ngoài, sau đó người dùng có thể đọc và sử dụng các dữ liệu và công cụ này.
MCP cung cấp ba khả năng mở rộng cho LLM: Resources (mở rộng kiến thức), Tools (hàm thực thi, gọi hệ thống bên ngoài), Prompts (mẫu gợi ý được viết sẵn). Giao thức MCP sử dụng kiến trúc Client-Server, tầng truyền tải底层 sử dụng giao thức JSON-RPC. Bất kỳ ai cũng có thể phát triển và lưu trữ MCP Server, và có thể ngừng dịch vụ bất cứ lúc nào.

Hiện trạng AI Agent trong Web3
Trong ngành Web3, làn sóng AI Agent đạt đỉnh vào tháng Một năm nay rồi giảm mạnh, vốn hóa thị trường nói chung co lại hơn 90%. Hiện tại, những dự án có tiếng tăm và vốn hóa lớn vẫn là các mô hình khám phá Web3 dựa trên khung AI Agent, bao gồm: "mô hình nền tảng phát hành đại diện bởi Virtuals Protocol", "mô hình DAO đại diện bởi ElizaOS" và "mô hình công ty thương mại đại diện bởi Swarms".
Nền tảng phát hành là nơi cho phép người dùng tạo, triển khai và biến lợi nhuận từ AI Agent, tương tự pump.fun trong lĩnh vực Meme nhưng dành riêng cho AI Agent. Virtuals Protocol hiện là nền tảng phát hành lớn nhất, với hơn 100.000 Agent được phát hành trên nền tảng này, trong đó có AIXBT – "KOL tiền mã hóa" nổi bật được tạo ra trên Virtuals. Virtuals Protocol bao gồm một framework Agent mô-đun gọi là G.A.M.E, định hướng cốt lõi là cung cấp một framework hiệu quả, mở cho các nhà phát triển, giúp việc phát triển và ra mắt AI Agent đơn giản như xây dựng website bằng WordPress.

DAO đại diện cho tổ chức tự trị phi tập trung. ElizaOS (trước đây là ai16z) do @shawmakesmagic sáng lập trên nền tảng daos.fun, ban đầu có ý tưởng sử dụng mô hình AI mô phỏng quyết định đầu tư của quỹ đầu tư nổi tiếng a16z và đồng sáng lập Marc Andreessen, kết hợp với đề xuất của các thành viên DAO để thực hiện đầu tư, sau đó phát triển thành một DAO dành cho các nhà phát triển AI Agent xoay quanh framework Eliza. Framework Eliza được xây dựng bằng TypeScript, cung cấp một nền tảng linh hoạt và mở rộng được cho việc phát triển AI Agent, các Agent này có thể tương tác trên nhiều nền tảng khác nhau đồng thời duy trì tính cách và kiến thức nhất quán.
Swarms do @KyeGomezB, hiện 20 tuổi, khởi xướng vào năm 2022, là một framework Multi Agent cấp doanh nghiệp. Swarms sử dụng việc biên đạo thông minh và hợp tác hiệu quả để giúp nhiều AI Agent phân công, phối hợp như một đội ngũ, từ đó giải quyết nhu cầu vận hành kinh doanh phức tạp. Ban đầu, Swarms chỉ là một dự án AI Agent Web2, theo lời người sáng lập, Swarms đã vận hành hơn 45 triệu tác nhân trong môi trường sản xuất, phục vụ các tổ chức tài chính, bảo hiểm và y tế lớn nhất thế giới. Swarms chính thức chuyển sang Web3 sau khi phát hành token $SWARMS vào tháng 12 năm 2024.
Xét riêng về mô hình kinh tế, hiện tại chỉ có nền tảng phát hành có thể tạo ra vòng khép kín về kinh tế. Lấy Virtuals làm ví dụ:
-
Tạo Agent: Người sáng tạo khởi chạy Agent AI mới trên nền tảng Virtuals;
-
Thiết lập đường cong ràng buộc: Người sáng tạo thanh toán 100 token $VIRTUAL để tạo một đường cong ràng buộc cho token của Agent mới, ghép nối với $VIRTUAL.
-
Tạo nhóm thanh khoản: Khi đạt đến giới hạn đường cong ràng buộc, Agent "tốt nghiệp" và tạo nhóm thanh khoản ghép nối token Agent với token $VIRTUAL, tuân thủ nguyên tắc khởi chạy công bằng không có nội bộ: không pre-mine hay phân bổ nội bộ, tổng cung cố định, thanh khoản bị khóa trong thời gian dài.
Bên cạnh phí phát hành AI Agent, Virtuals còn thu phí giao dịch mỗi khi token Agent được mua bán, đồng thời thu phí suy luận khi AI Agent truy cập LLM thông qua API của Virtuals. Hiện tại cả ElizaOS và Swarms đều đang lên kế hoạch xây dựng nền tảng phát hành riêng.
Tuy nhiên, nền tảng phát hành cũng tồn tại vấn đề: kiểu phát hành tài sản này cần bản thân tài sản được phát hành phải có "sức hút" mới tạo nên vòng xoáy tích cực. Phần lớn các AI Agent được phát hành hiện nay về bản chất đều là Meme, thiếu giá trị nội tại, một khi mất đi sự chú ý của thị trường sẽ nhanh chóng tụt về mức zero. Trong bối cảnh thị trường hiện tại ảm đạm, ngay cả nền tảng phát hành cũng khó thu hút người sáng tạo, do đó mô hình kinh tế thực tế cũng không thể vận hành.
Khám phá MCP trong Web3
Sự xuất hiện của MCP mang đến những hướng đi mới cho AI Agent trong Web3, trực quan nhất là hai hướng sau:
-
Triển khai MCP Server lên mạng blockchain, vừa giải quyết vấn đề điểm đơn của MCP Server vừa đảm bảo khả năng kháng kiểm duyệt;
-
MCP Server có chức năng tương tác với blockchain, ví dụ như thực hiện giao dịch và quản lý DeFi, giảm ngưỡng kỹ thuật.
Hướng thứ nhất đòi hỏi rất cao về hệ thống lưu trữ, khả năng quản lý dữ liệu và tính toán bất đồng bộ của blockchain nền tảng, có thể lựa chọn các blockchain như 0G. 0G là một blockchain AI mô-đun, sở hữu lớp DA có thể mở rộng và lập trình được phù hợp với các dapp AI. Công nghệ mô-đun của nó sẽ tạo ra khả năng tương tác liền mạch giữa các chuỗi, đồng thời đảm bảo an ninh, loại bỏ phân mảnh và tối đa hóa kết nối, xây dựng một hệ sinh thái AI phi tập trung.

Hướng thứ hai tương tự như biến thể DeFAI, nhưng hiện tại backend của DeFAI đều là các công cụ Tool trong Function Call do họ tự đóng gói. UnifAI tạo ra MCP Server DeFAI thống nhất, tránh lãng phí lặp lại. UnifAI là một nền tảng cho phép các Agent AI tự chủ thực hiện các nhiệm vụ trên và ngoài chuỗi trong hệ sinh thái Web3. Nền tảng này bao gồm UniQ tự động hóa nhiệm vụ, thị trường dịch vụ Agent và cơ sở hạ tầng phát hiện công cụ.

Ngoài hai hướng trên, @brucexu_eth – người sáng lập LXDAO và ETHPanda – đã đề xuất một phương án xây dựng mạng khuyến khích người sáng tạo OpenMCP.Network dựa trên Ethereum. MCP Server cần được lưu trữ và cung cấp dịch vụ ổn định, người dùng thanh toán cho nhà cung cấp LLM, nhà cung cấp LLM sau đó phân phối phần thưởng thực tế thông qua mạng lưới đến các MCP Server bị gọi, nhằm duy trì tính bền vững và ổn định cho toàn bộ mạng, kích thích người sáng tạo MCP tiếp tục sáng tạo và cung cấp nội dung chất lượng cao. Mạng lưới này sẽ cần sử dụng hợp đồng thông minh để hiện thực hóa tính tự động, minh bạch, đáng tin cậy và kháng kiểm duyệt của phần thưởng. Chữ ký, xác thực quyền, bảo vệ quyền riêng tư trong quá trình vận hành đều có thể thực hiện bằng ví Ethereum, công nghệ ZK, v.v.

Dù về lý thuyết, sự kết hợp giữa MCP và Web3 có thể tiêm thêm cơ chế tin cậy phi tập trung và lớp khuyến khích kinh tế cho các ứng dụng AI Agent, nhưng hiện tại công nghệ chứng minh kiến thức không (ZKP) vẫn khó xác minh tính xác thực của hành vi Agent, đồng thời mạng lưới phi tập trung vẫn gặp vấn đề về hiệu suất, đây không phải là giải pháp có thể thành công trong ngắn hạn.
Tổng kết
Việc ra mắt Manus đánh dấu một cột mốc quan trọng trong sự phát triển của sản phẩm AI Agent tổng quát. Thế giới Web3 cũng cần một sản phẩm mang tính cột mốc như vậy để phá vỡ nghi ngờ bên ngoài rằng Web3 chỉ toàn quảng bá mà không có tính thực tiễn.
Sự xuất hiện của MCP mang đến những hướng khám phá mới cho AI Agent trong Web3, bao gồm việc triển khai MCP Server lên mạng blockchain, trang bị cho MCP Server khả năng tương tác với blockchain, hoặc xây dựng mạng lưới khuyến khích người sáng tạo MCP Server.
AI là câu chuyện lớn nhất trong lịch sử. Đối với Web3, việc kết hợp với AI là điều tất yếu. Chúng ta vẫn cần giữ vững lòng kiên nhẫn và niềm tin, tiếp tục khám phá.
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News












