ROMA：开源元智能体的中枢骨架

2025.11.11

Partager vers

TechFlow SélectionTechFlow Sélection

ROMA：开源元智能体的中枢骨架

Le cœur de ROMA est une structure conçue pour les systèmes multi-agents : un arbre de tâches hiérarchique et récursif.

2025.11.11 - 07:46:10

ROMA

Dédié à des analyses Web3 approfondies

Le cœur de ROMA est une structure conçue pour les systèmes multi-agents : un arbre de tâches hiérarchique et récursif.

Auteur : Sentient China Chinois

Présentation de ROMA (Recursive Open Meta-Agent)

ROMA (Meta-agent récursif ouvert) est un cadre open source pour la construction de systèmes multi-agents haute performance. Il coordonne plusieurs agents simples et outils afin de résoudre collectivement des problèmes complexes.

Le cœur de ROMA repose sur une structure conçue pour les systèmes multi-agents : un arbre de tâches hiérarchique et récursif.

Dans ce système, le nœud principal décompose un objectif complexe en plusieurs sous-tâches, transmet le contexte aux nœuds fils pour exécution ; une fois les sous-tâches terminées, les résultats remontent vers le nœud principal. Grâce à ce mécanisme de flux de contexte, ROMA rend simple et fiable la création d'agents capables de gérer des tâches longues et multi-étapes.

Exemple illustratif

Par exemple, vous souhaitez qu’un agent rédige pour vous un rapport sur les différences climatiques entre Los Angeles et New York.

Dans ROMA :

Le nœud racine divise la tâche en plusieurs sous-tâches :

Sous-tâche 1 : Étudier le climat de Los Angeles.

Sous-tâche 2 : Étudier le climat de New York.

Chaque sous-tâche peut appeler un agent spécialisé ou un outil, tel qu’un modèle de recherche IA ou une API météo.
Une fois les deux études terminées, le nœud principal crée une tâche de « comparaison et analyse », combinant les résultats en un rapport complet.

Cette structure rend clairement visibles la décomposition des tâches et l’agrégation des résultats.

Avantages de ROMA

ROMA rend la construction de systèmes multi-agents plus directe et transparente.

Utilisation d’entrées/sorties structurées via Pydantic, assurant un flux de contexte clair et traçable ;
Les développeurs peuvent observer précisément le processus de raisonnement, faciliter le débogage, optimiser les prompts et remplacer les agents ;
La transparence du système permet une itération rapide de l’« ingénierie de contexte », sans opacité ni boîte noire ;
La conception modulaire permet d’insérer des agents, outils ou modèles à tout nœud, y compris des agents spécialisés basés sur LLM ou une étape de « validation humaine » ;
L’architecture en arbre supporte naturellement le parallélisme, alliant flexibilité et hautes performances, adaptée aux tâches complexes et volumineuses.

Validation des performances : ROMA Search

Pour évaluer l’efficacité du cadre, Sentient a développé ROMA Search — un agent de recherche web basé sur l’architecture ROMA (sans optimisation spécifique à un domaine).

Sur Seal-0, le sous-ensemble le plus difficile du benchmark SEALQA (testant le raisonnement complexe à partir de multiples sources), ROMA Search atteint une précision de 45,6 %, établissant un nouveau record.

Devançant Kimi Researcher (36 %) ;
Presque deux fois meilleur que Gemini 2.5 Pro (19,8 %) ;
Dépassant largement dans le monde open source Open Deep Search (8,9 %), également développé par Sentient.

En outre, ROMA Search atteint le meilleur niveau industriel sur FRAMES (raisonnement multi-étapes) et s’approche des meilleurs résultats sur SimpleQA (recherche factuelle), démontrant sa forte généralisation à travers différentes tâches.

Ouverture et extensibilité de ROMA

ROMA est entièrement open source et hautement extensible.

La recherche n’est qu’un début — chacun peut :

Insérer de nouveaux agents ;
Étendre le cadre avec des outils personnalisés ;
Appliquer ROMA à l’analyse financière, aux rapports scientifiques, à la génération de contenus créatifs, etc.

ROMA fournit un squelette central solide. La véritable percée viendra de l’écosystème construit par la communauté.

Pourquoi les « tâches longues » sont-elles difficiles pour les agents ?

L’IA a fait des progrès significatifs sur les tâches unitaires (comme résumer un article, rédiger un e-mail ou faire un calcul), mais reste fragile face aux « tâches longues » — celles nécessitant un raisonnement et des actions en plusieurs étapes.

Le problème clé : l’accumulation d’erreurs.

Un modèle peut réussir une étape avec 99 % de probabilité, mais si dix étapes doivent être exécutées consécutivement, la probabilité de succès global chute drastiquement. Une hallucination, une mauvaise interprétation ou une perte de contexte peut entraîner un échec total.

Il est donc extrêmement difficile de construire des systèmes stables capables de gérer plusieurs sous-tâches et de raisonner à partir de sources multiples.

Résoudre ce problème implique de relever deux défis majeurs :

Niveau architecture (Meta-défi) : Comment concevoir un système capable d’exécuter de façon fiable un raisonnement long même en présence d’erreurs cumulées ?
Niveau tâche (Défi spécifique) : Pour un objectif donné, comment définir la meilleure décomposition de tâches, les outils, modèles, prompts et étapes de vérification ?

La recherche constitue un cas idéal :

Elle est naturellement multi-étapes (recherche → lecture → extraction → vérification croisée → synthèse) et dépend de connaissances externes complexes et en temps réel.

Par exemple, la question : « Parmi les films dont le budget est supérieur ou égal à 350 millions de dollars, combien ne sont pas le film le plus rentable de leur année ? »

Pour y répondre, un agent doit :

Décomposer la question (trouver les films à haut budget → identifier les films les plus rentables chaque année) ;
Obtenir des données actualisées à partir de plusieurs sources ;
Effectuer un raisonnement logique sur les résultats ;
Synthétiser la réponse finale.

Au cours de ce processus, des hallucinations, erreurs d’appariement ou boucles inefficaces peuvent provoquer un échec. Les architectures traditionnelles d’agents masquent souvent le chemin de raisonnement interne, rendant le réglage et l’amélioration très difficiles.

La solution proposée par ROMA

ROMA répond au défi des tâches longues grâce à une structure système récursive et hiérarchique.

Chaque tâche est un « nœud » :

Peut être exécutée directement ;
Ou décomposée en sous-tâches ;
Ou agréger les résultats des sous-tâches.

La structure en arbre rend le flux de contexte transparent et traçable, facilitant l’optimisation étape par étape.

Sur ce squelette, les développeurs n’ont plus qu’à choisir pour chaque nœud les bons outils, prompts ou mécanismes de vérification pour construire un système multi-agents robuste.

Flux d’exécution de ROMA (exemple avec ROMA Search)

1️⃣ Atomizer (Analyseur) — Évaluer la complexité de la tâche

Le système commence par la tâche principale, évaluant si elle peut être accomplie par un seul agent ou doit être décomposée.

2️⃣ Planner (Planificateur) — Décomposer les sous-tâches

Si la tâche est complexe, le nœud devient planificateur et décompose l’objectif en tâches plus petites, par exemple :

Rechercher les films dont le budget ≥ 350 M$ ;
Rechercher les films les plus rentables chaque année correspondante ;
Analyser et générer la liste des films répondant aux critères.

Chaque sous-tâche crée un nœud fils, pouvant s’exécuter en parallèle ou en dépendance.

3️⃣ Executor (Exécuteur) — Exécuter les sous-tâches

Lorsqu’une sous-tâche est suffisamment simple, le nœud devient exécuteur, appelant l’outil ou modèle approprié (API de recherche, modèle d’extraction d’information), puis transmettant le résultat au nœud suivant.

4️⃣ Aggregator (Agrégateur) — Rassembler les résultats

Une fois tous les exécuteurs terminés, le nœud principal devient agrégateur, consolidant les résultats, vérifiant leur cohérence et produisant la réponse finale.

Intervention humaine (Human-in-the-Loop) et suivi d’étape (Stage Tracing)

À tout moment, un humain peut intervenir pour vérifier des faits ou enrichir le contexte.

ROMA peut aussi demander confirmation à l’utilisateur pendant la phase de planification, évitant ainsi les malentendus précoces.

Même sans intervention, le système de suivi d’étape enregistre intégralement les entrées et sorties de chaque nœud, aidant les développeurs à localiser rapidement les erreurs et à optimiser la logique.

Extensibilité de ROMA

L’exemple ci-dessus montre une seule couche de décomposition.

En pratique, ROMA peut s’imbriquer récursivement sur plusieurs niveaux, formant un arbre profond.

Quand les sous-tâches sont indépendantes, le système les exécute automatiquement en parallèle, permettant un calcul efficace jusqu’à des centaines, voire milliers de nœuds.

Prêt à participer à l’avenir des agents IA ?

ROMA Search n’est qu’un point de départ.

Nous avons rendu ROMA entièrement open source et invitons les développeurs du monde entier à explorer ensemble.

Développeurs (Builders) : Essayez de construire des agents dans ROMA, remplacez les modèles, testez des capacités multimodales, ou créez des contenus génératifs (bandes dessinées, podcasts) et des tâches analytiques (rapports de recherche).
Chercheurs (Researchers) : Utilisez ROMA pour avancer la recherche sur les architectures meta-agents. Son mécanisme transparent de suivi d’étape offre des perspectives uniques sur les interactions entre agents et le flux de contexte.

Les progrès des systèmes propriétaires dépendent d’une seule entreprise ; l’évolution de ROMA découle de la sagesse collective de toute la communauté open source.

Rejoignez dès maintenant ROMA :

Dépôt GitHub :

https://github.com/sentient-agi/ROMA

Présentation vidéo :

https://youtu.be/ghoYOq1bSE4?feature=shared

Références :

¹https://arxiv.org/pdf/2506.01062

²https://moonshotai.github.io/Kimi-Researcher/

³https://arxiv.org/pdf/2409.12941

⁴ https://openai.com/index/introducing-simpleqa/

Bienvenue dans la communauté officielle TechFlow

Groupe Telegram :https://t.me/TechFlowDaily

Compte Twitter officiel :https://x.com/TechFlowPost

Compte Twitter anglais :https://x.com/BlockFlow_News

Lien original

Ajouter aux favoris

Partager sur les réseaux sociaux

Auteur

Sentient China 华语

@sentient_zh

ROMA：开源元智能体的中枢骨架

TechFlow SélectionTechFlow Sélection

ROMA：开源元智能体的中枢骨架

Présentation de ROMA (Recursive Open Meta-Agent)

Pourquoi les « tâches longues » sont-elles difficiles pour les agents ?

Prêt à participer à l’avenir des agents IA ?

Articles connexes

Rapport d’étude du projet FIGHT (FIGHT)

Quelles sont les opportunités incontournables sur Berachain au début de la nouvelle année ?

Les introductions en bourse (IPO) mondiales potentielles de 2026

Après avoir atteint un TVL de 1 milliard de dollars, la narration autour de l’« USDT à rendement » USDD fait-elle son entrée sur la table principale des stablecoins ?

40 heures consacrées à une étude approfondie de Clawdbot : voici la vérité que les tweets ne vous révèlent pas.

De « outil » à « économie collaborative » : pourquoi la généralisation des robots auprès des consommateurs nécessite-t-elle OpenMind ?

Rapport sur le projet SKR (Solana Mobile Seeker)

Airdrop de 40 millions de dollars américains, incitation Binance de 1 USD pour le token USD, le rendement annuel peut-il dépasser 20 % ?

Année après année, 40 événements, 700 millions de spectateurs : comment Fight.ID conduit les compétitions mondiales vers le Web3 ?

Analyse de BREV (Brevis) : une couche de calcul modulaire pilotée par des preuves à connaissance nulle

Brèves 7x24h
Plus>

TechFlow Sélection
Plus>

ROMA：开源元智能体的中枢骨架

TechFlow SélectionTechFlow Sélection

ROMA：开源元智能体的中枢骨架

Présentation de ROMA (Recursive Open Meta-Agent)

Pourquoi les « tâches longues » sont-elles difficiles pour les agents ?

Prêt à participer à l’avenir des agents IA ?

Articles connexes

Rapport d’étude du projet FIGHT (FIGHT)

Quelles sont les opportunités incontournables sur Berachain au début de la nouvelle année ?

Les introductions en bourse (IPO) mondiales potentielles de 2026

Après avoir atteint un TVL de 1 milliard de dollars, la narration autour de l’« USDT à rendement » USDD fait-elle son entrée sur la table principale des stablecoins ?

40 heures consacrées à une étude approfondie de Clawdbot : voici la vérité que les tweets ne vous révèlent pas.

De « outil » à « économie collaborative » : pourquoi la généralisation des robots auprès des consommateurs nécessite-t-elle OpenMind ?

Rapport sur le projet SKR (Solana Mobile Seeker)

Airdrop de 40 millions de dollars américains, incitation Binance de 1 USD pour le token USD, le rendement annuel peut-il dépasser 20 % ?

Année après année, 40 événements, 700 millions de spectateurs : comment Fight.ID conduit les compétitions mondiales vers le Web3 ?

Analyse de BREV (Brevis) : une couche de calcul modulaire pilotée par des preuves à connaissance nulle

Brèves 7x24hPlus>

TechFlow SélectionPlus>

De « outil » à « économie collaborative » : pourquoi la généralisation des robots auprès des consommateurs nécessite-t-elle OpenMind ?

Brèves 7x24h
Plus>

TechFlow Sélection
Plus>