ROMA: 오픈 소스 메타 에이전트의 중추

Published on

November 12, 2025

September 9, 2025

Read time:

6 mins

Tl;dr:

소개합니다 ROMA (리커시브 오픈 메타 에이전트): 고성능 다중 에이전트 시스템 구축을 위한 오픈 소스 메타 에이전트 프레임워크입니다.ROMA는 간단한 에이전트와 도구를 조정하여 복잡한 문제를 해결합니다.핵심은 ROMA는 다중 에이전트 시스템을 위한 구조를 제공합니다.: 상위 노드가 복잡한 목표를 하위 작업으로 나누고 하위 노드에 컨텍스트로 전달한 다음 결과가 다시 위로 흐르면 컨텍스트에서 솔루션을 집계하는 계층적 재귀 작업 트리입니다.ROMA는 컨텍스트 흐름의 이러한 구조를 지정함으로써 여러 단계가 필요한 중장기 작업을 안정적으로 처리하는 에이전트를 간단하게 구축할 수 있도록 합니다.

‍

예를 들어 LA와 뉴욕의 기후 차이에 대한 보고서를 작성해 줄 에이전트가 필요할 수 있습니다.상위 노드는 이를 특정 하위 작업으로 나눌 수 있습니다. 하위 작업 1은 LA의 기후를 조사하고, 하위 작업 2는 AI 검색 모델이나 날씨 API와 같은 전문 에이전트와 도구를 활용하여 뉴욕의 기후를 조사합니다.두 하위 작업이 모두 완료되면 상위 노드는 두 도시 간의 기후 차이를 분석하는 최종 비교 작업을 생성한 다음 이 결과를 종합적인 보고서로 집계합니다.

‍

ROMA를 사용하면 고성능 멀티 에이전트 시스템을 간단하게 구축할 수 있습니다.구조화된 Pydantic 입력 및 출력을 통해 컨텍스트의 흐름은 투명하고 완전히 추적 가능합니다..빌더는 추론이 어떻게 전개되는지 정확히 확인할 수 있으므로 간편한 디버깅, 신속한 개선, 에이전트 교체가 가능합니다.이러한 투명성은 블랙박스 시스템과 달리 컨텍스트 엔지니어링에서 빠른 반복을 가능하게 합니다.또한 ROMA의 모듈식 설계는 다음을 의미합니다. 모든 에이전트, 도구 또는 모델을 연결할 수 있습니다. 특수 LLM 기반 에이전트에서 휴먼 인 더 루프 체크포인트에 이르기까지 노드 수준에서.또한 트리 기반 구조는 자연스럽게 병렬화를 촉진하여 크고 까다로운 문제에 유연성과 고성능을 모두 제공합니다.

‍

프레임워크의 효율성을 입증하기 위해 도메인별 최적화를 활용하지 않고 ROMA 아키텍처를 활용하는 인터넷 검색 에이전트인 ROMA Search를 구축했습니다. 복잡한 다중 소스 추론을 테스트하는 Seal-0으로 알려진 SEALQA 벤치마크의 까다로운 하위 집합에서 ROMA Search는 45.6% 의 정확도를 달성하여 최첨단 시스템으로 자리 잡았습니다..이는 36% 의 정확도로 이전 최고 성능의 키미 리서치를 능가하며, 제미니 2.5 프로의 19.8% 의 성능을 두 배 이상 높여줍니다.오픈 소스 모델 중에서 ROMA Search는 8.9% 의 정확도를 달성하는 차상위 시스템인 오픈 딥 서치 (역시 Sentient에서 제작함) 보다 월등히 뛰어난 성능을 보입니다.
‍

ROMA 서치, 최첨단 기술 구현 퍼포먼스 온 프레임 (다단계 추론) 및 SimpleQA (사실적 지식 검색) 에 대한 최신 결과를 제공하여 다양한 유형의 검색 문제에서 시스템의 효율성을 보여줍니다.

가장 중요한 것은 ROMA는 오픈 소스이며 설계상 확장이 가능합니다..검색은 시작에 불과합니다. 누구나 새로운 상담원을 영입하거나, 사용자 지정 도구를 사용하여 프레임워크를 확장하거나, 재무 분석에서 창의적인 콘텐츠 생성에 이르는 다양한 영역에 맞게 프레임워크를 조정할 수 있습니다.ROMA는 중추를 제공합니다. 진정한 혁신은 커뮤니티가 그 위에 구축한 것에서 비롯됩니다.

롱 호라이즌 태스크가 에이전트를 방해하는 이유

AI는 단일 단계 작업에서 놀라운 발전을 이루었습니다.모델에게 기사 요약, 짧은 이메일 쓰기, 수학 문제 풀기 등을 요청하면 성공하는 경우가 많습니다.하지만 목표 달성을 위해 많은 단계나 추론 또는 조치가 필요한 장기 작업, 즉 장기 작업을 잘 수행하는 에이전트를 구축하는 데에는 여전히 어려움이 있습니다.

문제는 오류가 복잡하다는 것입니다.AI는 어느 한 단계에서든 99% 의 신뢰성을 가질 수 있지만 10단계를 함께 연결하면 성공 확률이 급격히 떨어집니다.단 한 번의 환각, 잘못 적용된 지침, 문맥 상실 등이 전체 프로세스를 망칠 수 있습니다.이러한 취약성 때문에 상담원은 여러 하위 작업에 걸쳐있고 여러 소스에서 추론해야 하는 작업을 처리하기가 특히 어렵습니다.

‍

이러한 취약성을 해결하려면 밀접하게 연결된 두 가지 문제를 해결해야 합니다.

메타 챌린지 (아키텍처): 다음과 같은 에이전트 시스템을 어떻게 설계할 수 있을까요? 확실하게 복잡한 오류에도 불구하고 장기 추론을 실행하시겠습니까?
작업별 과제 (인스턴스화): 구체적인 목표를 감안할 때 이 특정 에이전트를 강력하고 정확하게 만드는 분해, 도구, 모델, 프롬프트 및 검증 단계는 무엇입니까?

‍

검색은 두 가지 문제를 동시에 해결하기 때문에 훌륭한 사례 연구입니다.기본적으로 다단계 (검색 → 읽기 → 추출 → 교차 확인 → 합성) 이며 최신 실제 지식과 밀접하게 연결되어 있습니다.다음과 같은 질문을 생각해 보십시오. “순예산이 3억 5천만 달러 이상인 영화 수는 몇 편이었습니까? 아니 개봉 연도 중 가장 높은 수익을 올린 영화는?”이에 답하기 위해 에이전트는 반드시 다음을 수행해야 합니다.

검색어를 여러 부분으로 나눕니다 (비싼 영화 찾기, 수년 동안 가장 높은 수익을 올린 영화 찾기).
여러 소스에서 최신 데이터를 수집합니다.
쿼리 로직을 만족시키는 결과에 대한 이유
깔끔하고 최종적인 답을 종합하세요.

이 비교적 간단한 쿼리에도 많은 실패 지점이 있습니다. 모델이 환각을 일으키거나, 계절을 잘못 정렬하거나, 비효율적으로 반복될 수 있기 때문입니다.설상가상으로 기존 에이전트 프레임워크는 내부 추론을 숨기는 경우가 많아 이를 개선하거나 조정하기가 어렵습니다.

‍

견고한 메타 에이전트 아키텍처로 메타 문제를 해결하면 작업별 과제는 올바른 도구 및 에이전트 선택, 효과적인 프롬프트 작성, 대상 사용자 검사 추가 등 현명한 인스턴스화 선택을 내리는 것으로 축소됩니다.또한 아키텍처를 통해 단계 간 컨텍스트 흐름에 대한 투명성이 제공되면 이러한 선택을 훨씬 쉽게 구체화하고 개선할 수 있습니다.이것이 바로 ROMA의 역할입니다.

ROMA의 아키텍처: 목표에서 결과까지

ROMA는 에이전트 시스템에 재귀적이고 계층적인 구조를 제공하여 장기적인 문제를 해결합니다.모든 작업은 노드로 표현되며, 노드는 직접 실행하거나, 하위 작업으로 나누거나, 하위 작업의 결과를 집계할 수 있습니다.이러한 트리 구조 덕분에 컨텍스트의 흐름을 명확하고 추적 가능하며 쉽게 조정할 수 있습니다.이러한 백본을 갖추고 있으면 각 노드에 적합한 도구, 프롬프트 또는 검증 전략을 선택하기만 하면 강력한 에이전트를 구축할 수 있습니다.

‍

ROMA Search가 위의 예를 어떻게 해결하는지 살펴보겠습니다.참고로 각 노드 유형 (아토마이저, 플래너, 실행기, 애그리게이터) 은 ROMA 전체에서 공유됩니다.각 단계의 프롬프트, 에이전트 및 도구는 ROMA Search에만 해당됩니다.

‍

노드 유형 간 노드 진행 방식ROMA는 각 노드가 동일한 의사 결정 로직을 거치므로 (플래너로서) 프로세스에 더 많은 노드가 생성될 수 있기 때문에 재귀적입니다.

‍

1: 분무기 — 과제 평가.

프로세스는 기본 목표 노드에서 시작됩니다.ROMA의 분무기 단계는 작업이 단일 에이전트가 완료할 수 있을 만큼 간단한지, 아니면 세분화해야 하는지를 결정합니다.

‍

2: 플래너 — 하위 작업으로 분해.

여기서 목표는 복잡하므로 노드는 다음과 같습니다. 플래너.목표를 더 간단한 부분으로 나눕니다.

순 제작 예산이 3억 5천만 달러 이상인 영화를 검색하고 제목, 예산 및 개봉 연도를 기록하세요.
최고 예산 영화 목록 (2000-현재) 이 포함된 각 개봉 연도에 대해 세계에서 가장 높은 수익을 올린 영화를 검색하고 타이틀과 총 수익을 확인하세요.
수집된 데이터를 분석하여 원하는 영화 목록을 컴파일합니다.

각 하위 작업은 하위 작업이 됩니다. 분무기 노드.참고로 이 아이들은 순차적으로 종속 (이후의 하위 작업은 이전 출력에 의존합니다).ROMA는 작업 및 형제 자매 트리를 생성합니다. 종속적이거나 독립적일 수 있음유연성을 유지하면서 컨텍스트 엔지니어링을 위한 명확한 구조를 제공합니다.

‍

3: 실행자 — 하위 작업 수행.

Atomizer가 하위 작업이 직접 실행할 수 있을 만큼 간단하다고 판단하면 노드는 집행자.실행자는 적절한 도구/에이전트 (예: 검색 API, 추출 모델) 를 호출한 다음 출력을 다음 종속 하위 작업에 전달합니다.마지막 하위 작업은 결과를 상위 작업에 반환합니다.

‍

4: 애그리게이터 — 결과를 결합합니다.

모든 Executor가 완료되면 상위 노드는 애그리게이터.하위 출력을 수집하고, 일관성을 검증하고, 최종 해답을 종합합니다. 이 경우에는 쿼리의 제약 조건을 충족하는 영화 목록을 정리합니다.

‍

휴먼 인 더 루프 및 스테이지 트레이싱

인간은 어느 노드에서든 사실을 확인하거나 컨텍스트를 추가할 수 있습니다. 이는 특히 환각이나 격차가 발생할 가능성이 높은 매우 긴 작업에 유용합니다.ROMA는 계획을 세운 후 사용자에게 하위 작업을 확인하도록 요청하여 오해를 조기에 찾아낼 수도 있습니다.사람의 개입 없이도 스테이지 트레이싱 (모든 노드의 입력/출력 보기) 오류를 진단하고 빠르게 반복하는 데 필요한 투명성과 제어 기능을 제공합니다.

‍

추가 확장

우리는 예제를 그대로 유지했습니다. 단일 하위 작업 계층 노드가 어떻게 동작하는지 보여줍니다.실제로 ROMA는 다음과 같이 확장됩니다. 많은 레이어 복잡한 목표를 위한 재귀, 심층적인 태스크 트리 형성형제 노드가 다음과 같은 경우 독립적입니다, ROMA가 그들을 실행합니다 병렬로 너무 큰 일자리와 수백 또는 수천 개의 노드 빨리 지내세요.

AI 에이전트의 미래를 구축할 준비가 되셨나요?

ROMA 서치는 시작에 불과합니다.가능성의 한계를 뛰어넘을 수 있도록 오픈 소스와 확장이 가능하도록 만들었습니다.

건축업자용: ROMA에서 빌딩 에이전트 실험을 시작하세요.다양한 에이전트를 교체하고, 멀티모달 기능을 테스트하거나, 프롬프트를 사용자 지정하여 만화나 팟캐스트와 같은 창의적인 콘텐츠부터 연구 보고서와 같은 분석 작업까지 무엇이든 만들 수 있는 에이전트를 만드세요.
연구원용: ROMA의 기반을 구축하여 분야를 발전시키십시오.당사의 투명한 단계 추적은 상담원 상호작용과 컨텍스트 흐름에 대한 통찰력을 제공하므로 차세대 메타 에이전트 아키텍처를 개발하는 데 적합합니다.

독점 시스템이 단일 회사의 속도로 발전하는 동안 ROMA는 전체 커뮤니티의 공동 노력과 함께 발전합니다. 지금 ROMA를 시작하세요:

- 깃허브 리포지토리: https://github.com/sentient-agi/ROMA

- 비디오 프레젠테이션: https://youtu.be/ghoYOq1bSE4?feature=shared

‍

참고 문헌

¹ https://arxiv.org/pdf/2506.01062
² https://moonshotai.github.io/Kimi-Researcher/
³ https://arxiv.org/pdf/2409.12941
⁴ https://openai.com/index/introducing-simpleqa/

‍