ROMA: 오픈소스 메타 에이전트의 핵심 골격

2025.11.11

ROMA: 오픈소스 메타 에이전트의 핵심 골격

ROMA의 핵심은 다중 에이전트 시스템을 위해 설계된 구조인 계층적 순환 작업 트리이다.

2025.11.11 - 07:46:10

ROMA

Web3 심층 보도에 집중하고 흐름을 통찰

ROMA의 핵심은 다중 에이전트 시스템을 위해 설계된 구조인 계층적 순환 작업 트리이다.

저자: Sentient China 중국어판

ROMA(Recursive Open Meta-Agent) 소개

ROMA(재귀형 오픈 메타 에이전트)는 고성능 멀티에이전트 시스템을 구축하기 위한 오픈소스 메타 에이전트 프레임워크입니다. 여러 단순한 에이전트와 도구들을 조율하여 복잡한 문제를 공동으로 해결합니다.

ROMA의 핵심은 멀티에이전트 시스템을 위한 구조로, 계층적 재귀형 작업 트리(hierarchical recursive task tree)입니다.

이 아키텍처에서 최상위 노드는 복잡한 목표를 여러 하위 작업으로 분해하고 컨텍스트를 하위 노드에 전달하여 실행하게 합니다. 하위 작업이 완료되면 결과가 다시 상위 노드로 집계됩니다. 이러한 컨텍스트 흐름 메커니즘을 통해 ROMA는 중장기적이고 다단계인 작업을 처리할 수 있는 에이전트를 쉽게 안정적으로 구성할 수 있게 해줍니다.

예시 설명

예를 들어, 로스앤젤레스와 뉴욕의 기후 차이에 관한 보고서 작성을 에이전트에게 요청한다고 가정합시다.

ROMA에서는:

최상위 노드가 이 작업을 다음과 같은 여러 하위 작업으로 분해합니다:

하위 작업 1: 로스앤젤레스의 기후 조사

하위 작업 2: 뉴욕의 기후 조사

각 하위 작업은 AI 검색 모델이나 날씨 API 등 전문적인 에이전트와 도구를 호출할 수 있습니다.
두 조사 작업이 완료되면 최상위 노드는 "비교 분석" 작업을 생성하여 결과를 통합해 완전한 보고서를 만듭니다.

이러한 구조는 시스템의 작업 분해 및 결과 집계 과정을 명확하게 보여줍니다.

ROMA의 장점

ROMA는 멀티에이전트 시스템의 구축을 더욱 직관적이고 투명하게 만들어 줍니다.

Pydantic을 사용한 구조화된 입출력으로 컨텍스트 흐름을 명확하고 추적 가능하게 합니다.
개발자는 추론 과정을 정확히 관찰할 수 있어 디버깅, 프롬프트 최적화, 에이전트 교체가 용이합니다.
시스템의 투명성 덕분에 "컨텍스트 엔지니어링"을 반복적으로 신속히 개선할 수 있고 블랙박스 방식이 아닙니다.
모듈화 설계로 인해 임의의 노드에 에이전트, 도구, 모델을 삽입할 수 있으며, LLM 기반 전문 에이전트나 '인간 검토' 단계도 포함됩니다.
트리 구조는 본질적으로 병렬 처리를 지원하며 유연성과 고성능을 모두 갖추어 대규모 복잡 작업에 적합합니다.

성능 검증: ROMA Search

프레임워크의 성능을 검증하기 위해 Sentient는 특정 분야 최적화 없이 ROMA 아키텍처 기반의 웹 검색 에이전트인 ROMA Search를 구축했습니다.

SEALQA 벤치마크 테스트의 가장 어려운 서브셋인 Seal-0(다중 소스 복합 추론 평가)에서 ROMA Search는 45.6%의 정확도를 기록하며 새로운 기록을 달성했습니다.

그 전 순위였던 Kimi Researcher(36%)를 앞섰습니다.
Gemini 2.5 Pro(19.8%)의 거의 두 배에 달합니다.
오픈소스 모델 중에서는 Sentient 자체가 개발한 Open Deep Search(8.9%)를 크게 능가합니다.

또한 ROMA Search는 FRAMES(다단계 추론)에서 업계 최고 수준을 달성했으며, SimpleQA(사실 검색)에서는 최상위 수준에 근접해 다양한 작업에 걸친 강력한 일반화 능력을 보여줍니다.

ROMA의 개방성과 확장성

ROMA는 완전히 오픈소스이며 매우 높은 확장성을 지닙니다.

검색은 시작일 뿐이며 누구나 다음을 할 수 있습니다:

새로운 에이전트를 삽입할 수 있습니다.
맞춤형 도구를 사용해 프레임워크를 확장할 수 있습니다.
ROMA를 금융 분석, 과학 연구 보고서, 창의적 콘텐츠 생성 등 다양한 분야에 적용할 수 있습니다.

ROMA는 견고한 중심 골격을 제공하지만 진정한 돌파구는 커뮤니티가 위에 구축하는 생태계에서 나올 것입니다.

왜 '장기적 작업(long-term tasks)'이 에이전트에게 어려운가?

AI는 단일 단계 작업(예: 문서 요약, 이메일 작성, 계산 수행 등)에서 큰 진전을 이루었지만, '장기적 작업', 즉 다단계 추론과 연속적인 행동이 필요한 목표에는 여전히 취약합니다.

핵심 문제는: 오류 누적입니다.

모델의 단일 단계 성공률이 99%에 이를 수 있지만, 10단계를 연속해서 실행해야 할 경우 전체 성공률은 급격히 감소합니다. 환각, 잘못된 해석, 또는 컨텍스트 손실 한 번이 전체 실패로 이어질 수 있습니다.

따라서 다수의 하위 작업을 안정적으로 처리하고 다양한 정보 출처에서 추론하는 시스템을 구축하는 것은 매우 어렵습니다.

이러한 문제를 해결하려면 두 가지 주요 과제를 극복해야 합니다:

아키텍처 차원(Meta-Challenge): 오류가 누적되더라도 장기적 추론을 안정적으로 수행할 수 있는 시스템을 어떻게 설계할 것인가?
작업 차원(Task-Specific Challenge): 구체적인 목표에 대해 최적의 작업 분해 방식, 도구, 모델, 프롬프트, 검증 절차는 무엇인가?

검색 작업은 이상적인 사례입니다:

본질적으로 다단계이며(검색 → 읽기 → 추출 → 교차 검증 → 종합), 실시간이며 복잡한 외부 지식에 의존합니다.

예를 들어 질문: "예산이 3.5억 달러 이상인 영화 중 몇 편이 그 해 박스오피스 1위가 아니었는가?"

이 질문에 답하기 위해 에이전트는 다음을 수행해야 합니다:

문제를 분해(고예산 영화 찾기 → 매년 박스오피스 1위 영화 찾기)
다양한 출처에서 최신 데이터 수집
결과에 대한 논리적 추론
최종 답변 종합

이 과정에서 환각, 잘못된 매칭, 비효율적인 반복 등이 실패로 이어질 수 있으며, 기존 에이전트 아키텍처는 내부 추론 경로를 숨겨 최적화와 개선이 매우 어렵습니다.

ROMA의 해결책

ROMA는 재귀적, 계층적 시스템 구조를 제공함으로써 장기적 작업의 도전에 대응합니다.

각 작업은 하나의 "노드"입니다:

직접 실행 가능
하위 작업으로 분해 가능
하위 결과를 집계 가능

트리 구조는 컨텍스트 흐름을 투명하고 추적 가능하게 만들며, 각 계층별 최적화도 용이하게 합니다.

이 골격 위에서 개발자는 각 노드에 적절한 도구, 프롬프트, 검증 메커니즘을 선택하기만 하면 견고한 멀티에이전트 시스템을 구축할 수 있습니다.

ROMA의 실행 흐름(Roma Search 예시)

1️⃣ Atomizer(분석기) — 작업 복잡도 판단

시스템은 주 작업부터 시작하여 해당 작업이 단일 에이전트로 완수 가능한지, 혹은 추가 분해가 필요한지를 먼저 판단합니다.

2️⃣ Planner(계획기) — 하위 작업 분해

작업이 복잡하면 노드는 계획기로 전환되어 목표를 더 작은 작업들로 분해합니다. 예를 들어:

예산 ≥ 3.5억 달러 영화 검색
해당 연도 박스오피스 1위 영화 검색
조건에 맞는 영화 목록 분석 및 생성

각 하위 작업은 하위 노드를 생성하며, 노드 간 의존성 또는 병렬 실행이 가능합니다.

3️⃣ Executor(실행기) — 하위 작업 실행

특정 하위 작업이 충분히 단순하면 노드는 실행기로 전환되어 검색 API, 정보 추출 모델 등 해당 도구나 모델을 호출한 후 출력을 후속 노드에 전달합니다.

4️⃣ Aggregator(집계기) — 결과 통합

모든 실행기가 완료되면 최상위 노드는 집계기로 전환되어 결과를 종합하고 일관성을 검증한 후 최종 답변을 생성합니다.

인간 개입(Human-in-the-Loop)과 단계 추적(Stage Tracing)

임의의 노드에서 인간이 사실 확인이나 컨텍스트 보완을 위해 개입할 수 있습니다.

ROMA는 계획 단계에서 사용자에게 하위 작업을 확인받도록 요청할 수도 있어 초기 오해를 방지합니다.

인간 개입이 없더라도 단계 추적 시스템은 각 노드의 입력과 출력을 완전히 기록하여 개발자가 오류를 신속히 식별하고 논리를 최적화할 수 있도록 돕습니다.

ROMA의 확장성

위 예시는 단일 계층의 작업 분해만 보여줍니다.

실제 응용에서는 ROMA가 다계층적으로 재귀되며 깊은 작업 트리를 형성할 수 있습니다.

하위 작업 간 독립성이 있을 경우 시스템은 자동으로 병렬 실행하여 수백에서 수천 개의 노드까지 효율적으로 계산할 수 있습니다.

AI 에이전트의 미래에 참여할 준비가 되셨나요?

ROMA Search는 단지 시작일 뿐입니다.

우리는 이미 ROMA를 완전히 오픈소스화하여 전 세계 개발자들이 함께 탐구하도록 초대합니다.

개발자(Builders): ROMA 안에서 에이전트를 구축해 보세요. 모델을 교체하거나, 멀티모달 기능을 테스트하거나, 콘텐츠 생성형 작업(만화, 팟캐스트 등)과 분석형 작업(연구 보고서 등)을 만들어 보세요.
연구자(Researchers): ROMA를 기반으로 메타 에이전트 아키텍처 연구를 발전시키세요. 투명한 단계 추적 메커니즘은 에이전트 상호작용과 컨텍스트 흐름에 대한 독보적인 통찰을 제공합니다.

폐쇄형 시스템의 발전은 단일 회사에 의존하지만, ROMA의 진화는 전체 오픈소스 커뮤니티의 집단 지혜에서 비롯됩니다.

지금 바로 ROMA에 참여하세요:

GitHub 저장소:

https://github.com/sentient-agi/ROMA

영상 소개:

https://youtu.be/ghoYOq1bSE4?feature=shared

참고 문헌:

¹https://arxiv.org/pdf/2506.01062

²https://moonshotai.github.io/Kimi-Researcher/

³https://arxiv.org/pdf/2409.12941

⁴ https://openai.com/index/introducing-simpleqa/

TechFlow 공식 커뮤니티에 오신 것을 환영합니다