
ROMA: Bộ khung trung tâm của meta-agent mã nguồn mở
Tuyển chọn TechFlowTuyển chọn TechFlow

ROMA: Bộ khung trung tâm của meta-agent mã nguồn mở
Lõi của ROMA là một cấu trúc được thiết kế cho hệ thống đa tác nhân: một cây nhiệm vụ phân cấp đệ quy.
Tác giả: Sentient China Tiếng Hoa
Giới thiệu ROMA (Recursive Open Meta-Agent)
ROMA (Meta-Agent Mở Đệ Quy) là một khung meta-agent mã nguồn mở nhằm xây dựng các hệ thống đa agent hiệu suất cao. Nó phối hợp nhiều agent và công cụ đơn giản để cùng giải quyết các vấn đề phức tạp.
Hạt nhân của ROMA là một cấu trúc được thiết kế cho hệ thống đa agent: một cây nhiệm vụ phân tầng đệ quy (hierarchical recursive task tree).
Trong hệ thống này, nút chính sẽ chia nhỏ mục tiêu phức tạp thành nhiều nhiệm vụ con, truyền ngữ cảnh xuống các nút con để thực hiện; khi các nhiệm vụ con hoàn thành, kết quả sẽ được tổng hợp ngược trở lại nút chính. Thông qua cơ chế lưu chuyển ngữ cảnh này, ROMA giúp việc xây dựng các agent có khả năng xử lý các nhiệm vụ trung - dài hạn, đa bước trở nên đơn giản và đáng tin cậy.
Ví dụ minh họa
Ví dụ, bạn muốn một agent viết giúp bạn báo cáo về sự khác biệt khí hậu giữa Los Angeles và New York.
Trong ROMA:
-
Nút chính ở tầng trên cùng sẽ chia nhiệm vụ thành nhiều nhiệm vụ con:
Nhiệm vụ con 1: Nghiên cứu khí hậu tại Los Angeles.
Nhiệm vụ con 2: Nghiên cứu khí hậu tại New York.
-
Mỗi nhiệm vụ con có thể gọi các agent chuyên biệt và công cụ như mô hình tìm kiếm AI hoặc API thời tiết.
-
Khi hai nghiên cứu hoàn tất, nút chính sẽ tạo thêm một nhiệm vụ "phân tích so sánh", tổng hợp kết quả thành báo cáo đầy đủ.
Cấu trúc này làm cho việc phân rã nhiệm vụ và tập hợp kết quả trong hệ thống trở nên rõ ràng.
Ưu điểm của ROMA
ROMA giúp việc xây dựng hệ thống đa agent trở nên trực tiếp và minh bạch hơn.
-
Sử dụng đầu vào/đầu ra cấu trúc hóa Pydantic, giúp lưu chuyển ngữ cảnh rõ ràng, truy xuất được;
-
Người phát triển có thể quan sát chính xác quá trình suy luận, thuận tiện cho việc gỡ lỗi, tối ưu prompt và thay thế agent;
-
Tính minh bạch của hệ thống giúp “kỹ thuật ngữ cảnh” có thể lặp nhanh, không phải hoạt động hộp đen;
-
Thiết kế mô-đun cho phép bạn chèn agent, công cụ hoặc mô hình vào bất kỳ nút nào, bao gồm cả agent chuyên biệt dựa trên LLM hoặc khâu “xét duyệt của con người”;
-
Cấu trúc dạng cây tự nhiên hỗ trợ song song hóa, cân bằng giữa tính linh hoạt và hiệu suất cao, phù hợp với các nhiệm vụ lớn và phức tạp.
Xác minh hiệu suất: ROMA Search
Để kiểm chứng hiệu quả của khung, Sentient đã xây dựng ROMA Search — một agent tìm kiếm mạng dựa trên kiến trúc ROMA (không dùng tối ưu lĩnh vực cụ thể).
Trên tập con khó nhất Seal-0 (kiểm tra suy luận đa nguồn phức tạp) trong bộ đánh giá SEALQA, ROMA Search đạt độ chính xác 45,6%, lập kỷ lục mới.
-
Vượt trước Kimi Researcher (36%);
-
Gần gấp đôi Gemini 2.5 Pro (19,8%);
-
Trong các mô hình mã nguồn mở, ROMA Search vượt xa Open Deep Search (8,9%) do chính Sentient phát triển.

Bên cạnh đó, ROMA Search đạt hiệu suất tốt nhất ngành trên FRAMES (suy luận đa bước) và gần mức hàng đầu trên SimpleQA (truy xuất dữ liệu thực tế), thể hiện tính phổ quát mạnh mẽ trên nhiều loại nhiệm vụ.


Tính mở và khả năng mở rộng của ROMA
ROMA hoàn toàn mã nguồn mở và rất dễ mở rộng.
Tìm kiếm chỉ là khởi đầu — bất kỳ ai cũng có thể:
-
Chèn agent mới;
-
Mở rộng khung bằng công cụ tùy chỉnh;
-
Áp dụng ROMA vào các lĩnh vực như phân tích tài chính, báo cáo nghiên cứu khoa học, tạo nội dung sáng tạo.
ROMA cung cấp bộ xương sống trung tâm vững chắc, đột phá thực sự sẽ đến từ cộng đồng xây dựng hệ sinh thái trên nền tảng này.
Tại sao các "nhiệm vụ dài hạn" lại làm khó các agent?
AI đã đạt tiến bộ đáng kể trong các nhiệm vụ đơn bước (như tóm tắt bài viết, viết email, làm toán), nhưng vẫn yếu kém trước các "nhiệm vụ dài hạn" — tức là những mục tiêu cần suy luận đa bước và hành động liên tục.
Vấn đề then chốt nằm ở: tích lũy sai số.
Một mô hình có thể đạt tỷ lệ thành công từng bước lên tới 99%, nhưng khi nó cần thực hiện liền mạch mười thao tác, tỷ lệ thành công tổng thể sẽ giảm mạnh. Một lần ảo giác, một lần đọc sai hoặc mất mát ngữ cảnh đều có thể dẫn đến sụp đổ hoàn toàn.
Vì vậy, việc xây dựng hệ thống có thể ổn định xử lý nhiều nhiệm vụ con, suy luận xuyên nhiều nguồn thông tin là cực kỳ khó khăn.
Để giải quyết vấn đề này, cần vượt qua hai thách thức chính:
-
Thách thức về kiến trúc (Meta-Challenge): Làm thế nào để thiết kế hệ thống có thể thực hiện đáng tin cậy các suy luận dài hạn ngay cả khi sai số tích tụ?
-
Thách thức về nhiệm vụ (Task-Specific Challenge): Với mục tiêu cụ thể, làm thế nào để xác định cách phân rã nhiệm vụ, công cụ, mô hình, prompt và các bước xác minh tối ưu?
Nhiệm vụ tìm kiếm chính là ví dụ lý tưởng:
Nó vốn dĩ mang tính đa bước (tra cứu → đọc → trích xuất → kiểm chứng chéo → tổng hợp) và phụ thuộc vào kiến thức bên ngoài phức tạp, cập nhật theo thời gian thực.
Ví dụ câu hỏi: “Có bao nhiêu phim có kinh phí từ 350 triệu USD trở lên không phải là phim ăn khách nhất năm đó?”
Để trả lời câu hỏi này, agent cần:
-
Phân tích câu hỏi (tìm các phim kinh phí cao → tìm phim ăn khách nhất mỗi năm);
-
Lấy dữ liệu mới nhất từ nhiều nguồn;
-
Suy luận logic trên kết quả;
-
Tổng hợp ra đáp án cuối cùng.

Trong quá trình này, ảo giác, ghép sai, vòng lặp kém hiệu quả đều có thể dẫn đến thất bại. Trong khi đó, các kiến trúc agent truyền thống thường che giấu đường đi suy luận bên trong, khiến việc điều chỉnh và cải thiện vô cùng khó khăn.
Giải pháp của ROMA
ROMA ứng phó thách thức nhiệm vụ dài hạn bằng cách cung cấp cấu trúc hệ thống đệ quy, phân tầng.
Mỗi nhiệm vụ là một “nút”:
-
Có thể thực hiện trực tiếp;
-
Hoặc phân rã thành các nhiệm vụ con;
-
Hoặc tổng hợp kết quả con.
Cấu trúc dạng cây giúp lưu chuyển ngữ cảnh minh bạch, truy vết được, cũng thuận tiện cho việc tối ưu từng tầng.

Trên bộ khung này, người phát triển chỉ cần chọn công cụ, prompt hoặc cơ chế xác minh phù hợp cho từng nút là có thể xây dựng hệ thống đa agent ổn định.
Quy trình thực thi của ROMA (lấy ROMA Search làm ví dụ)
1️⃣ Atomizer (Bộ phân tích) — Xác định độ phức tạp nhiệm vụ
Hệ thống bắt đầu từ nhiệm vụ chính, trước tiên xác định xem nhiệm vụ có thể hoàn thành bởi một agent đơn lẻ hay cần được phân rã thêm.
2️⃣ Planner (Bộ lập kế hoạch) — Phân rã nhiệm vụ con
Nếu nhiệm vụ phức tạp, nút chuyển thành bộ lập kế hoạch, chia mục tiêu thành các nhiệm vụ nhỏ hơn, ví dụ:
-
Tìm các phim có kinh phí ≥ 3,5 tỷ USD;
-
Tìm các phim ăn khách nhất trong các năm tương ứng;
-
Phân tích và tạo danh sách các phim đáp ứng điều kiện.
Mỗi nhiệm vụ con tạo ra một nút con, các nút có thể phụ thuộc lẫn nhau hoặc thực hiện song song.
3️⃣ Executor (Bộ thực thi) — Thực hiện nhiệm vụ con
Khi một nhiệm vụ con đủ đơn giản, nút chuyển thành bộ thực thi, gọi công cụ hoặc mô hình tương ứng (ví dụ API tìm kiếm, mô hình trích xuất thông tin), rồi truyền đầu ra cho nút tiếp theo.
4️⃣ Aggregator (Bộ tổng hợp) — Tổng hợp kết quả
Sau khi tất cả bộ thực thi hoàn thành, nút chính trở thành bộ tổng hợp, tập hợp kết quả, kiểm tra tính nhất quán và tạo ra đáp án cuối cùng.
Sự tham gia của con người (Human-in-the-Loop) và theo dõi giai đoạn (Stage Tracing)
Tại bất kỳ nút nào, con người đều có thể can thiệp để kiểm tra sự thật hoặc bổ sung ngữ cảnh.
ROMA cũng có thể yêu cầu người dùng xác nhận các nhiệm vụ con ở giai đoạn lập kế hoạch, tránh hiểu sai ban đầu.
Ngay cả khi không có can thiệp, hệ thống theo dõi giai đoạn vẫn ghi lại đầy đủ đầu vào và đầu ra của từng nút, giúp người phát triển nhanh chóng xác định lỗi và tối ưu logic.
Khả năng mở rộng của ROMA
Ví dụ trên chỉ minh họa phân rã nhiệm vụ một tầng.
Trong ứng dụng thực tế, ROMA có thể đệ quy nhiều tầng, tạo thành cây nhiệm vụ sâu.
Khi các nhiệm vụ con độc lập, hệ thống tự động thực hiện song song, đạt tính toán hiệu quả với hàng trăm thậm chí hàng ngàn nút.
Đã sẵn sàng tham gia vào tương lai của agent AI chưa?
ROMA Search chỉ là điểm khởi đầu.
Chúng tôi đã công bố mã nguồn hoàn toàn cho ROMA, mời các nhà phát triển toàn cầu cùng khám phá.
-
Nhà phát triển (Builders): Thử xây dựng agent trong ROMA, thay đổi mô hình, kiểm tra khả năng đa phương tiện, hoặc tạo nội dung sinh (như truyện tranh, podcast) và nhiệm vụ phân tích (như báo cáo nghiên cứu).
-
Nhà nghiên cứu (Researchers): Dựa trên ROMA để thúc đẩy nghiên cứu kiến trúc meta-agent. Cơ chế theo dõi giai đoạn minh bạch của nó có thể cung cấp cái nhìn sâu sắc độc đáo về tương tác agent và luồng ngữ cảnh.
Tiến bộ của hệ thống riêng tư phụ thuộc vào một công ty duy nhất; còn sự phát triển của ROMA đến từ trí tuệ tập thể của toàn bộ cộng đồng mã nguồn mở.
Hãy tham gia ngay ROMA:
Kho lưu trữ GitHub:
https://github.com/sentient-agi/ROMA
Video giới thiệu:
https://youtu.be/ghoYOq1bSE4?feature=shared
Tài liệu tham khảo:
¹https://arxiv.org/pdf/2506.01062
²https://moonshotai.github.io/Kimi-Researcher/
Chào mừng tham gia cộng đồng chính thức TechFlow
Nhóm Telegram:https://t.me/TechFlowDaily
Tài khoản Twitter chính thức:https://x.com/TechFlowPost
Tài khoản Twitter tiếng Anh:https://x.com/BlockFlow_News














