Khung AI Agent là mảnh ghép cuối cùng hoàn thiện bức tranh? Làm thế nào để hiểu tính "lưỡng tính sóng-hạt" của khung này?

2025.01.03

Chia sẻ đến

Tuyển chọn TechFlowTuyển chọn TechFlow

Khung AI Agent là mảnh ghép cuối cùng hoàn thiện bức tranh? Làm thế nào để hiểu tính "lưỡng tính sóng-hạt" của khung này?

Đánh giá khung Agent dưới góc nhìn "lưỡng tính sóng-hạt" có lẽ là điều kiện tiên quyết để đảm bảo đi đúng hướng.

2025.01.03 - 07:27:07

AIAgent

Chuyên sâu báo cáo Web3

Đánh giá khung Agent dưới góc nhìn "lưỡng tính sóng-hạt" có lẽ là điều kiện tiên quyết để đảm bảo đi đúng hướng.

Tác giả: Kevin, Nhà nghiên cứu tại BlockBooster

Khung xử lý AI Agent như một mảnh ghép then chốt trong sự phát triển ngành công nghiệp, có thể ẩn chứa tiềm năng kép thúc đẩy ứng dụng công nghệ và trưởng thành hệ sinh thái. Những khung được thị trường bàn tán nhiều gồm: Eliza, Rig, Swarms, ZerePy, v.v. Các khung này thu hút nhà phát triển thông qua kho lưu trữ Github, xây dựng danh tiếng. Giống như việc "phát hành token dưới dạng thư viện", các khung này đồng thời mang hai đặc tính như sóng và hạt – tương tự khái niệm song trùng tính sóng-hạt, các khung Agent vừa có đặc điểm nghiêm túc về ngoại lai hóa (externalities), vừa sở hữu tính chất của Memecoin. Bài viết này sẽ tập trung phân tích "tính song trùng sóng-hạt" của khung xử lý và lý do vì sao khung Agent có thể trở thành mảnh ghép cuối cùng.

Hiệu ứng bên ngoài mà khung Agent mang lại có thể để lại những mầm xanh sau khi bong bóng vỡ tan

Từ khi GOAT ra đời, câu chuyện về Agent ngày càng mạnh mẽ tấn công thị trường, giống như một đại sư võ công, tay trái là "Memecoin", tay phải là "hy vọng ngành", bạn luôn có thể bị đánh bại bởi một trong hai chiêu thức này. Thực tế, các trường hợp sử dụng AI Agent chưa được phân biệt rõ ràng, ranh giới giữa nền tảng, khung xử lý và ứng dụng cụ thể còn mơ hồ, nhưng vẫn có thể phân loại sơ bộ theo xu hướng phát triển của token hoặc giao thức. Tuy nhiên, dựa trên định hướng phát triển của token hay giao thức, chúng ta vẫn có thể chia thành các nhóm sau:

Launchpad: Nền tảng phát hành tài sản. Virtuals Protocol và clanker trên chuỗi Base, Dasha trên chuỗi Solana.
Ứng dụng AI Agent: Lơ lửng giữa Agent và Memecoin, nổi bật ở thiết lập bộ nhớ, ví dụ như GOAT, aixbt, v.v. Những ứng dụng này thường chỉ hoạt động đầu ra đơn chiều với điều kiện đầu vào rất hạn chế.
Động cơ AI Agent: griffain trên chuỗi Solana và Spectre AI trên chuỗi base. griffain có thể tiến hóa từ chế độ đọc/ghi sang chế độ đọc, viết, hành động; Spectre AI là động cơ RAG, tìm kiếm trên chuỗi.
Khung xử lý AI Agent: Với các nền tảng khung, bản thân Agent chính là tài sản, do đó khung xử lý Agent đóng vai trò như một Launchpad phát hành tài sản Agent. Các dự án tiêu biểu hiện nay gồm ai16, Zerebro, ARC và Swarms – đang gây tranh luận dạo gần đây.
Các hướng nhỏ khác: Agent tổng hợp Simmi; Giao thức AgentFi Mode; Agent phản chứng Seraph; API thời gian thực Creator.Bid.

Nếu tiếp tục thảo luận sâu hơn về khung xử lý Agent, ta có thể thấy nó tạo ra hiệu ứng bên ngoài rất lớn. Khác với các blockchain công cộng và giao thức nơi nhà phát triển chỉ có thể chọn môi trường lập trình phù hợp, quy mô tổng thể nhà phát triển toàn ngành không tăng tương ứng tốc độ tăng vốn hóa thị trường. Kho lưu trữ Github là nơi hình thành sự đồng thuận giữa các nhà phát triển Web2 và Web3, việc xây dựng cộng đồng nhà phát triển tại đây mạnh mẽ hơn rất nhiều so với bất kỳ gói "cắm vào dùng ngay" nào do một giao thức riêng lẻ phát triển – sức hấp dẫn và ảnh hưởng đối với nhà phát triển Web2 đều vượt trội.

Bốn khung xử lý được đề cập trong bài viết này đều đã mở mã nguồn: khung Eliza của ai16z đạt 6.200 sao; khung ZerePy của Zerebro đạt 191 sao; khung RIG của ARC đạt 1.700 sao; khung Swarms của Swarms đạt 2.100 sao. Hiện tại, khung Eliza được sử dụng rộng rãi cho nhiều ứng dụng Agent, là khung phủ sóng rộng nhất. Mức độ phát triển của ZerePy chưa cao, chủ yếu tập trung phát triển trên X, chưa hỗ trợ LLM cục bộ hay tích hợp bộ nhớ. RIG có độ khó phát triển tương đối cao nhất, nhưng cho phép nhà phát triển tự do tối đa hóa hiệu suất. Ngoài việc đội ngũ phát triển ra mắt mcs, Swarms chưa có thêm trường hợp sử dụng nào khác, tuy nhiên khả năng tích hợp nhiều khung khác nhau khiến Swarms có không gian tưởng tượng lớn.

Hơn nữa, trong phân loại trên, việc tách biệt động cơ Agent và khung xử lý có thể gây nhầm lẫn. Nhưng tôi cho rằng hai khái niệm này có sự khác biệt. Trước tiên, tại sao gọi là động cơ? So sánh với công cụ tìm kiếm trong đời sống thực là cách hiểu tương đối phù hợp. Khác với các ứng dụng Agent đồng nhất, hiệu suất động cơ Agent vượt trội hơn, nhưng đồng thời được hoàn toàn đóng gói, là một hộp đen điều chỉnh qua API. Người dùng có thể fork để trải nghiệm hiệu suất động cơ Agent, nhưng không thể nắm bắt toàn diện hay tùy biến linh hoạt như với một khung xử lý cơ bản. Mỗi động cơ người dùng giống như tạo một bản sao trên Agent đã được huấn luyện sẵn, chỉ tương tác với bản sao đó. Còn về khung xử lý? Về bản chất, nó được thiết kế để thích nghi với blockchain, vì khi làm khung xử lý Agent, mục đích cuối cùng đều nhằm tích hợp với chuỗi tương ứng — định nghĩa cách thức trao đổi dữ liệu, phương pháp xác minh dữ liệu, kích thước khối, cân bằng giữa đồng thuận và hiệu suất — những điều này mới là mối quan tâm chính của khung xử lý. Còn động cơ thì sao? Chỉ cần tinh chỉnh sâu mô hình theo một hướng nhất định, thiết lập tốt mối quan hệ giữa dữ liệu trao đổi và bộ nhớ là đủ, hiệu suất là tiêu chuẩn đánh giá duy nhất, còn khung xử lý thì không như vậy.

Đánh giá khung xử lý Agent theo góc nhìn "tính song trùng sóng-hạt" có lẽ là tiền đề đảm bảo đi đúng hướng

Trong vòng đời xử lý đầu vào - đầu ra của Agent, cần ba phần. Thứ nhất, mô hình底层 quyết định độ sâu và phương thức suy nghĩ; thứ hai, bộ nhớ là nơi tuỳ chỉnh, sau khi mô hình cơ sở đưa ra kết quả, bộ nhớ sẽ điều chỉnh lại; cuối cùng, thao tác xuất kết quả diễn ra trên các client khác nhau.

Nguồn: @SuhailKakar

Để chứng minh khung xử lý Agent có "tính song trùng sóng-hạt": "sóng" mang đặc điểm của "Memecoin", đại diện cho văn hóa cộng đồng và mức độ hoạt động của nhà phát triển, nhấn mạnh sức hút và khả năng lan tỏa của Agent; "hạt" đại diện cho đặc điểm "kỳ vọng ngành", biểu thị hiệu suất底层, trường hợp sử dụng thực tế và độ sâu kỹ thuật. Tôi sẽ minh họa lần lượt từ hai khía cạnh này, lấy ba khung xử lý và giáo trình phát triển của chúng làm ví dụ:

Khung Eliza kiểu lắp ráp nhanh

1. Thiết lập môi trường

Nguồn: @SuhailKakar

2. Cài đặt Eliza

Nguồn: @SuhailKakar

3. Cấu hình tệp tin

Nguồn: @SuhailKakar

4. Thiết lập tính cách Agent

Nguồn: @SuhailKakar

Khung Eliza nói chung dễ tiếp cận. Nó dựa trên TypeScript – ngôn ngữ quen thuộc với hầu hết nhà phát triển Web và Web3. Khung xử lý gọn nhẹ, không trừu tượng hóa quá mức, giúp nhà phát triển dễ dàng bổ sung chức năng mong muốn. Qua bước 3, ta thấy Eliza hỗ trợ tích hợp đa client, có thể hiểu như một bộ lắp ráp đa nền tảng. Eliza hỗ trợ các nền tảng DC, TG, X,... và nhiều mô hình ngôn ngữ lớn, có thể nhận đầu vào qua mạng xã hội trên, xuất kết quả qua mô hình LLM, đồng thời hỗ trợ quản lý bộ nhớ tích hợp, cho phép nhà phát triển với mọi thói quen nhanh chóng triển khai AI Agent.

Nhờ sự đơn giản của khung xử lý và phong phú về giao diện, Eliza giảm đáng kể rào cản tiếp cận, đạt được tiêu chuẩn giao diện tương đối thống nhất.

Khung ZerePy kiểu dùng một cú nhấp

1. Fork kho lưu trữ ZerePy

Nguồn: https://replit.com/@blormdev/ZerePy?v=1

2. Cấu hình X và GPT

Nguồn: https://replit.com/@blormdev/ZerePy?v=1

3. Thiết lập tính cách Agent

Nguồn: https://replit.com/@blormdev/ZerePy?v=1

Khung Rig kiểu tối ưu hiệu suất

Lấy ví dụ xây dựng Agent RAG (tăng cường truy xuất sinh xuất):

1. Cấu hình môi trường và khóa OpenAI

Nguồn: https://dev.to/0thtachi/build-a-rag-system-with-rig-in-under-100-lines-of-code-4422

2. Thiết lập khách hàng OpenAI và xử lý PDF bằng Chunking

Nguồn: https://dev.to/0thtachi/build-a-rag-system-with-rig-in-under-100-lines-of-code-4422

3. Thiết lập cấu trúc tài liệu và nhúng

Nguồn: https://dev.to/0thtachi/build-a-rag-system-with-rig-in-under-100-lines-of-code-4422

4. Tạo lưu trữ vector và agent RAG

Nguồn: https://dev.to/0thtachi/build-a-rag-system-with-rig-in-under-100-lines-of-code-4422

Rig (ARC) là một framework xây dựng hệ thống AI dựa trên ngôn ngữ Rust, là một công cụ dòng xử lý dành cho LLM, giải quyết các vấn đề tối ưu hiệu suất ở tầng thấp hơn. Nói cách khác, ARC là một "bộ công cụ" cho động cơ AI, cung cấp các dịch vụ hỗ trợ nền tảng như gọi AI, tối ưu hiệu suất, lưu trữ dữ liệu, xử lý ngoại lệ, v.v.

Rig giải quyết vấn đề "gọi", giúp nhà phát triển lựa chọn LLM tốt hơn, tối ưu prompt hiệu quả hơn, quản lý token hiệu quả hơn, cũng như xử lý đồng thời, quản lý tài nguyên, giảm độ trễ... Trọng tâm nằm ở việc làm sao "sử dụng hiệu quả" trong quá trình hợp tác giữa mô hình AI LLM và hệ thống AI Agent.

Rig là một thư viện mã nguồn mở bằng Rust, nhằm đơn giản hóa việc phát triển các ứng dụng chạy bằng LLM (bao gồm cả Agent RAG). Vì mức độ mở của Rig sâu hơn, yêu cầu đối với nhà phát triển cũng cao hơn, đòi hỏi hiểu biết sâu về Rust và Agent. Giáo trình này chỉ là quy trình cấu hình cơ bản nhất cho Agent RAG. RAG nâng cao LLM bằng cách kết hợp với việc truy xuất tri thức bên ngoài. Trong các DEMO khác trên trang web chính thức, ta có thể thấy Rig sở hữu những đặc điểm sau:

Giao diện LLM thống nhất: Hỗ trợ API nhất quán cho nhiều nhà cung cấp LLM khác nhau, đơn giản hóa tích hợp.
Luồng công việc trừu tượng: Các thành phần mô-đun đã được xây dựng sẵn giúp Rig có thể xử lý thiết kế hệ thống AI phức tạp.
Tích hợp lưu trữ vector: Hỗ trợ sẵn lưu trữ vector, cung cấp hiệu suất cao trong các Agent dạng tìm kiếm như Agent RAG.
Nhúng linh hoạt: Cung cấp API dễ sử dụng để xử lý nhúng, giảm độ khó hiểu ngữ nghĩa khi phát triển các Agent dạng tìm kiếm như Agent RAG.

Có thể thấy so với Eliza, Rig cung cấp thêm không gian tối ưu hiệu suất cho nhà phát triển, giúp họ debug và tối ưu hóa việc gọi, phối hợp giữa LLM và Agent tốt hơn. Rig tận dụng hiệu suất mạnh mẽ của Rust, lợi thế về trừu tượng chi phí bằng 0, an toàn bộ nhớ, hiệu suất cao, thao tác LLM độ trễ thấp. Trên tầng底层, nó mang lại độ tự do phong phú hơn.

Khung Swarms kiểu tổ hợp phân rã

Swarms hướng tới cung cấp một framework biên dịch đa Agent ở cấp độ doanh nghiệp và sản xuất, trang web chính thức cung cấp hàng chục workflow và kiến trúc nối tiếp/song song của Agent, ở đây chỉ giới thiệu một phần nhỏ.

Quy trình tuần tự (Sequential Workflow)

Nguồn: https://docs.swarms.world

Kiến trúc Swarm tuần tự xử lý nhiệm vụ theo thứ tự tuyến tính. Mỗi Agent hoàn thành nhiệm vụ trước khi chuyển kết quả sang Agent tiếp theo trong chuỗi. Kiến trúc này đảm bảo xử lý có thứ tự, rất hữu ích khi các nhiệm vụ có phụ thuộc lẫn nhau.

Trường hợp sử dụng:

Mỗi bước trong quy trình làm việc đều phụ thuộc vào bước trước đó, ví dụ dây chuyền lắp ráp hoặc xử lý dữ liệu tuần tự.
Các tình huống yêu cầu nghiêm ngặt về thứ tự thao tác.

Kiến trúc phân cấp:

Nguồn: https://docs.swarms.world

Thực hiện kiểm soát từ trên xuống, với Agent cấp trên điều phối nhiệm vụ giữa các Agent cấp dưới. Các Agent thực hiện đồng thời nhiệm vụ, sau đó phản hồi kết quả vào vòng lặp để tổng hợp cuối cùng. Điều này rất hữu ích cho các nhiệm vụ có thể song song hóa cao.

Kiến trúc bảng tính điện tử:

Nguồn: https://docs.swarms.world

Dùng để quản lý nhóm lớn các Agent làm việc đồng thời. Có thể quản lý hàng ngàn Agent cùng lúc, mỗi Agent chạy trên luồng riêng. Đây là lựa chọn lý tưởng để giám sát đầu ra của quy mô lớn Agent.

Swarms không chỉ là một khung xử lý Agent, mà còn tương thích với các khung Eliza, ZerePy và Rig nêu trên, theo tư tưởng mô-đun, tối đa hóa hiệu suất Agent trong các workflow và kiến trúc khác nhau nhằm giải quyết các vấn đề tương ứng. Ý tưởng và tiến độ cộng đồng phát triển của Swarms đều ổn.

Eliza: Dễ sử dụng nhất, phù hợp với người mới bắt đầu và phát triển mẫu nhanh, đặc biệt phù hợp với tương tác AI trên nền tảng mạng xã hội. Khung xử lý đơn giản, dễ tích hợp và sửa đổi nhanh, phù hợp với các trường hợp không yêu cầu tối ưu hiệu suất quá mức.
ZerePy: Triển khai một cú nhấp, phù hợp phát triển nhanh ứng dụng AI Agent cho nền tảng Web3 và mạng xã hội. Phù hợp ứng dụng AI nhẹ, khung xử lý đơn giản, cấu hình linh hoạt, thích hợp xây dựng và lặp nhanh.
Rig: Tập trung vào tối ưu hiệu suất, đặc biệt nổi bật trong các nhiệm vụ đồng thời cao và hiệu suất cao, phù hợp nhà phát triển cần kiểm soát và tối ưu chi tiết. Khung xử lý khá phức tạp, cần kiến thức Rust nhất định, phù hợp nhà phát triển giàu kinh nghiệm.
Swarms: Phù hợp ứng dụng doanh nghiệp, hỗ trợ hợp tác đa Agent và quản lý nhiệm vụ phức tạp. Khung xử lý linh hoạt, hỗ trợ xử lý song song quy mô lớn, cung cấp nhiều cấu hình kiến trúc, nhưng do độ phức tạp, có thể cần nền tảng kỹ thuật mạnh hơn để áp dụng hiệu quả.

Nhìn chung, Eliza và ZerePy có lợi thế về tính dễ dùng và phát triển nhanh, trong khi Rig và Swarms phù hợp hơn với nhà phát triển chuyên nghiệp hoặc ứng dụng doanh nghiệp cần hiệu suất cao và xử lý quy mô lớn.

Đây chính là lý do khung xử lý Agent mang đặc điểm "hy vọng ngành". Các khung nêu trên vẫn ở giai đoạn sơ khai, điều cấp thiết hiện nay là giành lợi thế tiên phong và xây dựng cộng đồng nhà phát triển sôi động. Việc hiệu suất khung xử lý cao hay thấp, hay có thua kém ứng dụng phổ biến Web2 hay không, không phải là mâu thuẫn chính. Chỉ có những khung xử lý liên tục thu hút nhà phát triển mới có thể chiến thắng cuối cùng, bởi ngành Web3 luôn cần thu hút sự chú ý của thị trường. Dù hiệu suất khung xử lý mạnh đến đâu, cơ bản vững chắc đến mấy, nếu khó dùng khiến không ai quan tâm thì sẽ là bản末 đảo lộn. Trên nền tảng khung xử lý có thể thu hút nhà phát triển, những khung xử lý sở hữu mô hình kinh tế token trưởng thành và đầy đủ hơn sẽ nổi bật lên.

Và việc khung xử lý Agent mang đặc điểm "Memecoin" thì rất dễ hiểu. Các token của khung xử lý nêu trên đều chưa có thiết kế kinh tế token hợp lý, token thiếu trường hợp sử dụng hoặc chỉ có một vài trường hợp đơn lẻ, chưa có mô hình kinh doanh được kiểm chứng, cũng chưa có vòng xoáy token hiệu quả, khung xử lý chỉ là khung xử lý, chưa hoàn thành sự kết hợp hữu cơ với token. Sự tăng giá của token ngoài FOMO ra, khó nhận được hỗ trợ từ cơ bản, không có hào thành đủ sâu để đảm bảo tăng giá trị ổn định và bền vững. Đồng thời, các khung xử lý này bản thân cũng khá thô sơ, giá trị thực tế và vốn hóa hiện tại không tương xứng, do đó mang đậm đặc điểm "Memecoin".

Đáng chú ý, "tính song trùng sóng-hạt" của khung xử lý Agent không phải là điểm yếu, không nên thô bạo hiểu nó như vừa không phải Memecoin thuần túy, lại không có trường hợp dùng token – một thứ nửa vời. Như quan điểm tôi đã nêu trong bài viết trước: Agent nhẹ hóa phủ lên lớp mặt nạ Memecoin mơ hồ, văn hóa cộng đồng và cơ bản sẽ không còn là mâu thuẫn, một con đường phát triển tài sản mới đang dần nổi lên; dù khung xử lý Agent ban đầu tồn tại bong bóng và bất định, nhưng tiềm năng thu hút nhà phát triển và thúc đẩy ứng dụng thực tế không thể xem nhẹ. Tương lai, những khung xử lý sở hữu mô hình kinh tế token hoàn thiện và hệ sinh thái nhà phát triển mạnh mẽ sẽ trở thành trụ cột then chốt trong lĩnh vực này.

Chào mừng tham gia cộng đồng chính thức TechFlow

Nhóm Telegram:https://t.me/TechFlowDaily

Tài khoản Twitter chính thức:https://x.com/TechFlowPost

Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News

Thêm vào mục ưa thích

Chia sẻ lên mạng xã hội

Tác giả

BlockBooster

Khung AI Agent là mảnh ghép cuối cùng hoàn thiện bức tranh? Làm thế nào để hiểu tính "lưỡng tính sóng-hạt" của khung này?

Tuyển chọn TechFlowTuyển chọn TechFlow

Khung AI Agent là mảnh ghép cuối cùng hoàn thiện bức tranh? Làm thế nào để hiểu tính "lưỡng tính sóng-hạt" của khung này?

Hiệu ứng bên ngoài mà khung Agent mang lại có thể để lại những mầm xanh sau khi bong bóng vỡ tan