今日运势评分

-5

本月运势

戊子月

震荡偏多

庚生水,申金生水
庚不经络织机虚张
申不安床鬼祟入房

解除,扫舍,馀事勿取

诸事不宜

月相

底部反弹

日冲

Powered by RitMEX

ONDO0.39 -7.02%

TRUMP5.13 -2.84%

SUI1.41 -6.36%

TON1.47 -5.35%

TRX0.28 -0.19%

DOGE0.13 -4.73%

XRP1.86 -3.76%

SOL123.63 -4.36%

BNB840.59 -3.63%

ETH2828.56 -4.45%

BTC86008.52 -1.99%

ETH Gas0.36 Gwei

极恐
16

ROMA:开源元智能体的中枢骨架

ROMA 的核心是一种为多智能体系统设计的结构:一个分层递归的任务树。

作者:Sentient China 华语

介绍 ROMA(Recursive Open Meta-Agent)

ROMA(递归式开源元智能体)是一个开源的元智能体框架,用于构建高性能的多智能体系统。它通过协调多个简单的智能体与工具,来共同解决复杂问题。

ROMA 的核心是一种为多智能体系统设计的结构:一个分层递归的任务树(hierarchical recursive task tree

在这个体系中,主节点会把复杂目标拆解为多个子任务,将上下文传递给子节点执行;当子任务完成后,结果会向上汇总至主节点。通过这种上下文流动机制,ROMA 让构建能够处理中长程、多步骤任务的智能体变得简单可靠。

举例说明

例如,你希望一个智能体帮你写一份关于洛杉矶与纽约气候差异的报告。

在 ROMA 中:

  • 顶层主节点会将任务拆分为多个子任务:

子任务1:研究洛杉矶的气候。

子任务2:研究纽约的气候。

  • 每个子任务可调用专门的智能体与工具,如 AI 搜索模型或天气 API。

  • 当两项研究完成后,主节点再生成一个“对比分析”任务,将结果汇总成完整报告。

这种结构让系统的任务分解与结果聚合一目了然。

ROMA 的优势

ROMA 让多智能体系统的构建更直接、更透明。

  • 采用 Pydantic 结构化输入输出,使上下文流动清晰、可追溯;

  • 开发者可以精确观察推理过程,便于调试、优化提示词与替换智能体;

  • 系统透明化让“上下文工程”快速迭代,而非黑箱操作;

  • 模块化设计允许你在任意节点插入智能体、工具或模型,包括基于 LLM 的专用智能体或“人类审核”环节;

  • 树状架构天然支持并行化,兼顾灵活性与高性能,适合大型复杂任务。

性能验证:ROMA Search

为验证框架效能,Sentient 构建了 ROMA Search —— 一个基于 ROMA 架构的网络搜索智能体(未使用特定领域优化)。

在 SEALQA 基准测试中最具挑战的子集 Seal-0(测试复杂的多源推理)上,ROMA Search 取得了 45.6% 的准确率,创下新纪录。

  • 领先于前一名 Kimi Researcher(36%)

  • 几乎是 Gemini 2.5 Pro(19.8%) 的两倍;

  • 在开源模型中,ROMA Search 大幅超越由 Sentient 自研的 Open Deep Search(8.9%)

此外,ROMA Search 在 FRAMES(多步推理) 上达到业界最佳,在 SimpleQA(事实检索) 上接近顶级水准,显示其跨任务的强大通用性。

ROMA 的开放性与扩展性

ROMA 完全开源且高度可扩展。

搜索只是开始——任何人都可以:

  • 插入新的智能体;

  • 使用自定义工具扩展框架;

  • 将 ROMA 应用于金融分析、科研报告、创意内容生成等领域。

ROMA 提供了坚实的中枢骨架,真正的突破,将来自于社区在其上构建的生态。

为什么“长程任务”难倒了智能体

AI 在单步任务上已取得显著进步(如总结文章、写邮件、做算术),但面对“长程任务”——即需要多步推理与连续行动的目标——仍显脆弱。

关键问题在于:误差叠加。

一个模型单步成功率可能高达 99%,但当它需要连贯执行十步操作时,整体成功率会急剧下降。一次幻觉、一次误读、或一次上下文丢失,就可能导致全盘崩溃。

因此,构建能够稳定处理多子任务、跨信息源推理的系统,异常困难。

要解决这类问题,必须攻克两大挑战:

  1. 架构层(Meta-Challenge):如何设计出即使在误差累积下仍能可靠执行长程推理的系统?

  2. 任务层(Task-Specific Challenge):针对具体目标,如何确定最佳的任务分解方式、工具、模型、提示词与验证步骤?

搜索任务正是理想的案例:

它天然是多步骤的(检索 → 阅读 → 提取 → 交叉验证 → 综合),且依赖实时、复杂的外部知识。

例如问题:“预算在3.5亿美元或以上的电影中,有多少部不是当年票房最高的电影?”

为回答此问题,智能体需:

  • 拆解问题(找到高预算电影 → 找到每年的票房冠军);

  • 从多源获取最新数据;

  • 对结果逻辑推理;

  • 综合出最终答案。

在此过程中,幻觉、误配、循环低效都可能导致失败。而传统智能体架构往往隐藏内部推理路径,使调优与改进十分困难。

ROMA 的解决之道

ROMA 通过提供递归、分层的系统结构来应对长程任务挑战。

每个任务都是一个“节点”:

  • 可直接执行;

  • 或分解为子任务;

  • 或汇总子结果。

树状结构让上下文流动透明可追踪,也便于逐层优化。

在此骨架上,开发者只需为每个节点选择合适的工具、提示或验证机制,就能构建出稳健的多智能体系统。

ROMA 的执行流程(以 ROMA Search 为例)

1️⃣ Atomizer(分析器)——判断任务复杂度

系统从主任务开始,先判断该任务是否能由单一智能体完成,或需进一步分解。

2️⃣ Planner(规划器)——拆解子任务

若任务复杂,节点转为规划器,将目标分解为更小的任务,例如:

  • 搜索预算 ≥ 3.5 亿美元的电影;

  • 搜索对应年份票房最高的电影;

  • 分析并生成符合条件的电影列表。

每个子任务生成一个子节点,节点间可依赖或并行执行。

3️⃣ Executor(执行器)——执行子任务

当某个子任务足够简单时,节点转为执行器,调用相应工具或模型(如搜索 API、信息抽取模型),再将输出传递给后续节点。

4️⃣ Aggregator(聚合器)——整合结果

所有执行器完成后,主节点变为聚合器,汇总结果、验证一致性、并生成最终答案。

人类审查(Human-in-the-Loop)与阶段追踪(Stage Tracing)

在任意节点,人类都可介入校验事实或补充上下文。

ROMA 也可在规划阶段请求用户确认子任务,避免早期误解。

即使无人干预,阶段追踪系统也能完整记录每个节点的输入输出,帮助开发者快速定位错误、优化逻辑。

ROMA 的可扩展性

上例只展示了单层任务分解。

在实际应用中,ROMA 可递归多层,形成深层任务树。

当子任务间独立时,系统自动并行执行,实现数百乃至数千节点的高效计算。

准备好参与 AI 智能体的未来了吗?

ROMA Search 只是起点。

我们已将 ROMA 完全开源,邀请全球开发者共同探索。

  • 开发者(Builders):尝试在 ROMA 中构建智能体,替换模型、测试多模态能力,或创建生成型内容(如漫画、播客)与分析型任务(如研究报告)。

  • 研究者(Researchers):基于 ROMA 推进元智能体架构研究。其透明的阶段追踪机制能提供关于智能体交互与上下文流的独特洞见。

专有系统的进步依赖单一公司;ROMA 的进化则源自整个开源社区的集体智慧。

立即加入 ROMA:

GitHub 仓库:

https://github.com/sentient-agi/ROMA

视频介绍:

https://youtu.be/ghoYOq1bSE4?feature=shared

参考文献:

¹https://arxiv.org/pdf/2506.01062

²https://moonshotai.github.io/Kimi-Researcher/

³https://arxiv.org/pdf/2409.12941

https://openai.com/index/introducing-simpleqa/

欢迎加入深潮TechFlow官方社群

Telegram订阅群:https://t.me/TechFlowDaily
Twitter官方账号:https://x.com/TechFlowPost
Twitter英文账号:https://x.com/BlockFlow_News
作者Sentient China 华语@sentient_zh
相关文章
2025.12.17 - 12 小时前
Space 宣布其原生代币 $SPACE 即将公开发售
Space 是首个在 Solana 上提供 10 倍杠杆的交易市场。
2025.12.16 - 前天
Alphabet(谷歌):全景式剖析“全栈 AI 之王”
Alphabet 当前是一个“合理偏贵 / 轻微溢价的优质标的”,已经反映 AI 带来的云的二次增长预期,但尚未进入与基本面完全脱节的严重泡沫区间。
AI
2025.12.04 - 14 天前
从传统做市巨头到预测市场核心做市商,SIG 在加密的前瞻布局
无论是投资还是交易,SIG 总是具有前瞻性。
2025.12.03 - 15 天前
12 个新项目,Solana 官方点名的隐私项目一览
涵盖加密计算、隐私基建、支付与钱包、交易、预测市场以及智能保护等分类。
2025.11.27 - 21 天前
一览 Solana 最新 x402 黑客松五个获奖项目
本次 Solana x402 黑客松展示了 AI 自主支付、模型交易、物联网经济等前沿应用,预示着链上商业模式的全新方向。
2025.11.25 - 23 天前
Grass 持币者会议结束,哪些信息藏着财富密码?
省流:第二轮代币空投,暂定明年上半年。
2025.11.25 - 23 天前
速览 ETHGlobal 布宜诺斯艾利斯黑客松十个获胜项目
涵盖 NFT、DeFi、预测市场等领域。
2025.11.24 - 24 天前
FastLane 推出 shMON:Monad 首个垂直整合型液态质押代币与主网激励体系
shMON 是 Monad 生态中首个真正意义上的垂直整合型液态质押代币。
2025.11.21 - 27 天前
币价、口碑双逆势发展的 Aster 有何突围之道?Aster 2026 核心战略
Aster 正在通过一场链上交易生态重建,在链上金融这条道路上实现真正的行稳致远。
2025.11.20 - 28 天前
最奇怪的 Meme,改个名能跟上隐私叙事吗?
一个出生于 Meme 文化的代币,正试图进化为基础设施。