
ROMA:開源元智能體的中樞骨架
TechFlow Selected深潮精選

ROMA:開源元智能體的中樞骨架
ROMA 的核心是一種為多智能體系統設計的結構:一個分層遞歸的任務樹。
作者:Sentient China 華語
介紹 ROMA(Recursive Open Meta-Agent)
ROMA(遞歸式開源元智能體)是一個開源的元智能體框架,用於構建高性能的多智能體系統。它通過協調多個簡單的智能體與工具,來共同解決複雜問題。
ROMA 的核心是一種為多智能體系統設計的結構:一個分層遞歸的任務樹(hierarchical recursive task tree)。
在這個體系中,主節點會把複雜目標拆解為多個子任務,將上下文傳遞給子節點執行;當子任務完成後,結果會向上彙總至主節點。通過這種上下文流動機制,ROMA 讓構建能夠處理中長程、多步驟任務的智能體變得簡單可靠。
舉例說明
例如,你希望一個智能體幫你寫一份關於洛杉磯與紐約氣候差異的報告。
在 ROMA 中:
-
頂層主節點會將任務拆分為多個子任務:
子任務1:研究洛杉磯的氣候。
子任務2:研究紐約的氣候。
-
每個子任務可調用專門的智能體與工具,如 AI 搜索模型或天氣 API。
-
當兩項研究完成後,主節點再生成一個“對比分析”任務,將結果彙總成完整報告。
這種結構讓系統的任務分解與結果聚合一目瞭然。
ROMA 的優勢
ROMA 讓多智能體系統的構建更直接、更透明。
-
採用 Pydantic 結構化輸入輸出,使上下文流動清晰、可追溯;
-
開發者可以精確觀察推理過程,便於調試、優化提示詞與替換智能體;
-
系統透明化讓“上下文工程”快速迭代,而非黑箱操作;
-
模塊化設計允許你在任意節點插入智能體、工具或模型,包括基於 LLM 的專用智能體或“人類審核”環節;
-
樹狀架構天然支持並行化,兼顧靈活性與高性能,適合大型複雜任務。
性能驗證:ROMA Search
為驗證框架效能,Sentient 構建了 ROMA Search —— 一個基於 ROMA 架構的網絡搜索智能體(未使用特定領域優化)。
在 SEALQA 基準測試中最具挑戰的子集 Seal-0(測試複雜的多源推理)上,ROMA Search 取得了 45.6% 的準確率,創下新紀錄。
-
領先於前一名 Kimi Researcher(36%);
-
幾乎是 Gemini 2.5 Pro(19.8%) 的兩倍;
-
在開源模型中,ROMA Search 大幅超越由 Sentient 自研的 Open Deep Search(8.9%)。

此外,ROMA Search 在 FRAMES(多步推理) 上達到業界最佳,在 SimpleQA(事實檢索) 上接近頂級水準,顯示其跨任務的強大通用性。


ROMA 的開放性與擴展性
ROMA 完全開源且高度可擴展。
搜索只是開始——任何人都可以:
-
插入新的智能體;
-
使用自定義工具擴展框架;
-
將 ROMA 應用於金融分析、科研報告、創意內容生成等領域。
ROMA 提供了堅實的中樞骨架,真正的突破,將來自於社區在其上構建的生態。
為什麼“長程任務”難倒了智能體
AI 在單步任務上已取得顯著進步(如總結文章、寫郵件、做算術),但面對“長程任務”——即需要多步推理與連續行動的目標——仍顯脆弱。
關鍵問題在於:誤差疊加。
一個模型單步成功率可能高達 99%,但當它需要連貫執行十步操作時,整體成功率會急劇下降。一次幻覺、一次誤讀、或一次上下文丟失,就可能導致全盤崩潰。
因此,構建能夠穩定處理多子任務、跨信息源推理的系統,異常困難。
要解決這類問題,必須攻克兩大挑戰:
-
架構層(Meta-Challenge):如何設計出即使在誤差累積下仍能可靠執行長程推理的系統?
-
任務層(Task-Specific Challenge):針對具體目標,如何確定最佳的任務分解方式、工具、模型、提示詞與驗證步驟?
搜索任務正是理想的案例:
它天然是多步驟的(檢索 → 閱讀 → 提取 → 交叉驗證 → 綜合),且依賴實時、複雜的外部知識。
例如問題:“預算在3.5億美元或以上的電影中,有多少部不是當年票房最高的電影?”
為回答此問題,智能體需:
-
拆解問題(找到高預算電影 → 找到每年的票房冠軍);
-
從多源獲取最新數據;
-
對結果邏輯推理;
-
綜合出最終答案。

在此過程中,幻覺、誤配、循環低效都可能導致失敗。而傳統智能體架構往往隱藏內部推理路徑,使調優與改進十分困難。
ROMA 的解決之道
ROMA 通過提供遞歸、分層的系統結構來應對長程任務挑戰。
每個任務都是一個“節點”:
-
可直接執行;
-
或分解為子任務;
-
或彙總子結果。
樹狀結構讓上下文流動透明可追蹤,也便於逐層優化。

在此骨架上,開發者只需為每個節點選擇合適的工具、提示或驗證機制,就能構建出穩健的多智能體系統。
ROMA 的執行流程(以 ROMA Search 為例)
1️⃣ Atomizer(分析器)——判斷任務複雜度
系統從主任務開始,先判斷該任務是否能由單一智能體完成,或需進一步分解。
2️⃣ Planner(規劃器)——拆解子任務
若任務複雜,節點轉為規劃器,將目標分解為更小的任務,例如:
-
搜索預算 ≥ 3.5 億美元的電影;
-
搜索對應年份票房最高的電影;
-
分析並生成符合條件的電影列表。
每個子任務生成一個子節點,節點間可依賴或並行執行。
3️⃣ Executor(執行器)——執行子任務
當某個子任務足夠簡單時,節點轉為執行器,調用相應工具或模型(如搜索 API、信息抽取模型),再將輸出傳遞給後續節點。
4️⃣ Aggregator(聚合器)——整合結果
所有執行器完成後,主節點變為聚合器,彙總結果、驗證一致性、並生成最終答案。
人類審查(Human-in-the-Loop)與階段追蹤(Stage Tracing)
在任意節點,人類都可介入校驗事實或補充上下文。
ROMA 也可在規劃階段請求用戶確認子任務,避免早期誤解。
即使無人干預,階段追蹤系統也能完整記錄每個節點的輸入輸出,幫助開發者快速定位錯誤、優化邏輯。
ROMA 的可擴展性
上例只展示了單層任務分解。
在實際應用中,ROMA 可遞歸多層,形成深層任務樹。
當子任務間獨立時,系統自動並行執行,實現數百乃至數千節點的高效計算。
準備好參與 AI 智能體的未來了嗎?
ROMA Search 只是起點。
我們已將 ROMA 完全開源,邀請全球開發者共同探索。
-
開發者(Builders):嘗試在 ROMA 中構建智能體,替換模型、測試多模態能力,或創建生成型內容(如漫畫、播客)與分析型任務(如研究報告)。
-
研究者(Researchers):基於 ROMA 推進元智能體架構研究。其透明的階段追蹤機制能提供關於智能體交互與上下文流的獨特洞見。
專有系統的進步依賴單一公司;ROMA 的進化則源自整個開源社區的集體智慧。
立即加入 ROMA:
GitHub 倉庫:
https://github.com/sentient-agi/ROMA
視頻介紹:
https://youtu.be/ghoYOq1bSE4?feature=shared
參考文獻:
¹https://arxiv.org/pdf/2506.01062
²https://moonshotai.github.io/Kimi-Researcher/
歡迎加入深潮 TechFlow 官方社群
Telegram 訂閱群:https://t.me/TechFlowDaily
Twitter 官方帳號:https://x.com/TechFlowPost
Twitter 英文帳號:https://x.com/BlockFlow_News














