OpenManus 핵심 저자 공유: 에이전트 프레임워크를 3시간 만에 완성하는 방법!

에이전트(지능형 신체) 기술이 이번 주에 전례 없는 속도로 기술 세계를 휩쓸고 있으며, 이러한 붐의 이면에는 추론 모델링 기능의 비약적인 발전이 있습니다.

3월 5일 저녁, 마누스는 인터넷을 순식간에 뜨겁게 달군 강력한 데모로 멋진 데뷔전을 치렀습니다. 불과 이틀 후, 국내 팀인 DeepWisdom이 MetaGPT 와 CAMEL AI는 각각 오픈소스 프로젝트인 OpenManus와 OWL을 출시하여 빠르게 Manus 의 핵심 기능은 다시 한 번 웹과 GitHub 커뮤니티에 불을 지피며 폭넓고 깊은 토론을 불러일으켰습니다.

특히 주목할 만한 점은 오랫동안 축적된 MetaGPT의 기술력을 갖춘 OpenManus 팀이 단 한 시간 만에 핵심 시스템 구축을 완료하고 단 3시간 만에 프로젝트를 온라인에 올렸다는 점입니다. 이러한 놀라운 속도 덕분에 OpenManus는 깃허브에서 10,000개 이상의 별을 획득했을 뿐만 아니라 업계 안팎의 주목을 받게 되었습니다.

3월 8일 오전에는 오픈마누스 팀의 핵심 멤버 3명을 초청하여 오픈마누스의 기술 구현 원리를 분석하고 에이전트 기술의 향후 발전 방향에 대해 심도 있는 공유 세션을 진행했습니다.

세 명의 게스트는 모두 에이전트 분야의 선임 전문가로, MetaGPT 논문(ICLR 2024 구두)과 데이터 인터프리터 논문의 제1저자이자 AFLOW 논문(ICLR 2025 구두)의 저자 중 한 명인 사이렌 홍은 TPAMI, ICLR 등 최고 국제 학술대회에서 연구 결과를 여러 차례 발표해왔습니다, 그의 연구 결과는 TPAMI, ICLR 및 기타 최고 국제 학회 및 저널에 게재되었습니다. 오픈마누스의 핵심 개발자인 리앙 신빙. Jinyu Xiang은 OpenManus의 공동 저자이자 AFlow와 SPO의 첫 번째 저자입니다.

세 게스트는 공유를 통해 에이전트 기술의 미래 방향과 업계가 직면한 과제에 대해 다음과 같은 미래지향적인 생각을 제시했습니다:

대규모 언어 모델(LLM)의 기능이 계속 성장함에 따라 에이전트 애플리케이션의 성공률은 많은 영역에서 크게 증가할 것이며, 특히 단일 모델이 뛰어난 솔루션 기능을 입증한 QA 퀴즈, HumanEval 코드 숙련도 평가, MBPP 파이썬 프로그래밍 문제와 같이 비교적 표준화된 작업에서 크게 증가할 것입니다.
그러나 복잡한 머신러닝 작업, 코드 버그 수정, 사용자에게 효과적인 답변을 제공하기 위해 여러 정보를 통합해야 하는 검색 조합 문제 등 복잡하고 롱테일 효과가 있는 현실 세계의 문제들이 많이 있습니다. 이러한 문제들은 특히 모델 '착각' 문제를 해결하는 데 있어 상담원 성능을 개선하기 위해 여전히 상당한 기술 혁신이 필요합니다.
에이전트의 작업 계획 능력은 모델 자체의 능력 향상과 외부 아키텍처의 도움에 따라 달라집니다. 보다 정교한 아키텍처 설계는 에이전트가 복잡한 작업을 더 잘 이해하고 분해하는 데 도움이 될 수 있습니다.
상담원이 사용할 수 있는 도구가 다양해짐에 따라 상담원이 동일한 작업에 직면했을 때 유사한 기능을 가진 수많은 도구 중에서 정확한 결정을 내리고 가장 적합한 도구를 선택하며 잘못된 선택을 피하는 것이 새로운 기술적 과제가 될 것입니다.
에이전트 메모리 관리의 핵심 문제는 비용과 효율성 사이에서 균형을 찾는 방법입니다. 전체 메모리 정보를 직접 사용하면 현재 모델에서도 처리할 수 있지만 처리 시간과 비용이 크게 증가하여 성능 저하가 아닌 사용자 경험에 심각한 영향을 미칩니다.
현재 메모리 관리 문제를 해결하기 위한 효과적인 접근 방식은 다중 지능형 바디 아키텍처 또는 도구 지원 전략을 채택하는 것입니다. 예를 들어, OpenManus와 같은 프레임워크는 일반적으로 계획 도구를 사용하여 작업 계획을 미리 생성하고, 복잡한 작업을 여러 하위 작업으로 분해하여 각 하위 작업 간에 메모리를 불완전하게 공유하며, 작업이 실행된 후 프로세스를 요약하거나 압축하여 계산 비용을 줄입니다.
벤치마크 테스트에서는 에이전트가 작업을 올바르게 완료했는지 여부를 명확하게 확인할 수 있지만, 실제 애플리케이션 시나리오에서 작업을 완료하는 에이전트의 정확도나 품질을 정량적으로 평가하는 것은 여전히 어려운 과제입니다.
에이전트 상용화의 핵심은 고도로 개인화된 기능을 제공하는 등 실제 시나리오에서 작업과 사용자의 요구를 극대화하는 것이며, 이는 사용자가 에이전트를 계속 사용하도록 유도할 수 있는 유일한 방법입니다.
많은 앱 개발자들이 다음과 같이 적극적으로 탐색하고 있습니다. 토큰 엔지니어링 수준에서 캐싱 메커니즘이나 메모리 압축 기술과 같은 소비 최적화 체계를 통해 각 API 호출에 전달해야 하는 컨텍스트의 길이를 최소화하고 비용을 절감할 수 있습니다.
향후에는 여러 소형 모델의 기능을 통합하여 대형 모델과 비슷하거나 그 이상의 결과를 달성하고 추론 속도, 토큰 소비 및 비용에서 상당한 이점을 얻을 수 있을 것으로 예상됩니다.

다음은 이 공유의 내용에 대한 자세한 설명입니다.

01 하룻밤 사이에 깃허브 히트, 오픈마누스의 기술 패스트레인

"3월 6일 오후 5시 직후 그룹 회의가 끝난 후, 샹진유는 몇 가지 핵심 단계를 거치면 마누스의 효과를 재현할 수 있을 것이라고 제안했습니다."

오픈마누스 프로젝트를 시작하게 된 계기를 회상하며 량신빙은 "마누스의 데모 영상을 처음 봤을 때 부드러운 인터랙션 경험에 깊은 인상을 받았다"고 말했습니다. 그는 마누스의 데모 영상을 처음 봤을 때 영상 속 부드러운 상호작용 경험에 깊은 인상을 받았고, 마누스가 단일 지능 시스템이어야 한다고 직관적으로 판단했습니다. "단일 지능이 어떻게 이렇게 뛰어난 결과를 얻을 수 있으며, 어떻게 작업을 계획하고 실현할 수 있을까요? 저에게는 매우 충격적이었습니다."

이어진 대화에서 팀은 인상적인 사용자 경험을 제공하는 범용 AI 스마트 바디 제품인 마누스의 기술적 솔루션을 탐색하기 시작했습니다. 그러나 기술적인 관점에서 볼 때, 마누스는 사실 업계에서 합의된 여러 핵심 기반 기술을 영리하게 통합한 제품입니다. 궁극적으로 연구팀은 마누스가 여러 지능의 작업을 조율하기 위해 외부 계획 메커니즘을 사용한다고 추론했습니다.

저녁 식사 후 오픈마누스 개발이 공식적으로 시작되었고 전체 과정은 약 3시간 정도 걸렸습니다. "그 당시에는 OpenManus가 이렇게 빨리 인기를 끌 것이라고는 예상하지 못했습니다." 리앙 신빙은 인정합니다.

마누스 다중 지능 아키텍처 설명: 계획과 실행의 섬세한 시너지 효과

마누스의 핵심은 다중 지능 시스템 아키텍처입니다. 먼저 사용자 요구 사항을 PlanningTool 계획 도구를 사용하여 작업을 세분화하여 여러 개의 선형 하위 작업으로 구성된 세부 계획을 생성합니다. 그런 다음 시스템은 각 하위 작업을 순차적으로 실행하고 가장 적합한 에이전트에게 동적으로 할당하여 하위 작업을 수행합니다. ReAct 작업을 완료하기 위해 지속적으로 도구를 호출하는 주기적(이유와 행동) 모델입니다.

기획 역량과 도구 사용 역량은 마누스의 두 가지 기둥입니다. 마누스가 다중 인텔리전스 프레임워크에 PlanningTool 계획 도구를 도입한 혁신은 매우 중요했습니다. SWEBench 코드 역량 평가에서 Claude-3.7 모델의 획기적인 성과에서 알 수 있듯이, 성능 향상은 부분적으로는 모델 자체의 발전과 부분적으로는 보다 효과적인 작업 계획으로 인한 것이며, MetaGPT 팀의 데이터 인터프리터 프로젝트에 대한 이전 연구에서는 계획이 현실 세계의 복잡한 문제를 해결하는 데 중요하고 효과적이라는 것을 보여주었습니다. 데이터 인터프리터 프로젝트에 대한 MetaGPT 팀의 이전 연구에서도 계획이 현실 세계의 복잡한 문제를 해결하는 데 매우 중요하고 효과적이라는 사실이 밝혀졌습니다. 그 결과, 다중 지능 및 단일 지능 프레임워크에 계획 기능을 통합하는 것이 에이전트 기술 개발의 중요한 방향이 되었습니다.

팀은 마누스가 다음과 같이 사용한 것으로 추측합니다. Claude 모델과 자체 사후 교육 모델, 엔지니어링 수준에서의 여러 최적화를 통해 다양한 시나리오에서 툴을 사용할 수 있는 능력을 크게 향상시켰습니다.

OpenManus 디자인 철학: 미니멀리즘, 플러그성 및 강력한 계획 기능

OpenManus의 디자인 컨셉은 "미니멀리즘"과 "플러그형"이라는 두 가지 키워드로 요약할 수 있습니다. 리앙 신빙에 따르면 초기 디자인 컨셉은 플러그 가능한 도구와 프롬프트의 유연한 조합을 통해 매우 단순한 에이전트 프레임워크를 구축하여 에이전트의 다양한 기능을 구현하는 것이었습니다. 이 아이디어를 바탕으로 팀은 완전한 에이전트 미니 프레임워크를 빠르게 개발했습니다.

프롬프트 안내와 도구 사용은 리액트 에이전트의 효과를 결정하는 핵심 요소입니다. OpenManus에서 프롬프트는 에이전트의 전반적인 행동 로직을 제어하고, 도구는 에이전트의 작업 공간을 정의합니다. 이 두 가지가 함께 작동하여 ReAct 에이전트를 완벽하게 정의합니다. OpenManus 팀은 ReAct 에이전트 외에도 보다 구조화된 방식으로 도구를 선택하고 실행할 수 있는 함수 호출 기술을 기반으로 한 경량 ToolCall 에이전트를 구현했습니다. 오픈마누스는 툴콜 에이전트를 기반으로 구축되었습니다.

"플러그형" 설계는 뛰어난 유연성과 확장성을 제공하여 개발자가 서로 다른 시나리오의 툴을 결합하여 새로운 에이전트를 빠르게 만들 수 있습니다. 개발자는 서로 다른 시나리오의 도구를 자유롭게 결합하여 새로운 에이전트를 빠르게 만들 수 있으며, 도구의 정의는 매우 쉽고 복잡한 내부 로직을 작성할 필요 없이 에이전트의 작업 공간(도구)만 수정하면 되며, 도구 자체는 잘 결합할 수 있어야 하며, OpenManus는 추상화 계층을 보다 간결하고 명확하게 만드는 것을 목표로 합니다. 다양한 도구 세트를 제공하고 여러 에이전트가 다양한 도구 조합을 유연하게 장착할 수 있도록 지원함으로써 OpenManus는 다양한 애플리케이션 시나리오에서 그 기능을 쉽게 확장할 수 있습니다.

계획 기능도 중요합니다. OpenManus는 기획 도구를 통해 작업을 세분화하여 현실의 복잡성을 효과적으로 해결할 수 있도록 함으로써 Manus의 기획 강점을 기반으로 합니다.

OpenManus 워크플로: 동적 태스킹 및 협업 실행

OpenManus의 워크플로는 명확하고 효율적입니다. 사용자 요청을 받으면 시스템은 먼저 PlanningTool을 사용해 선형 하위 작업이 포함된 계획을 생성하고 이 계획을 마크다운 파일에 기록합니다. 그런 다음 OpenManus는 계획을 파싱하고 각 하위 작업을 차례로 꺼냅니다. 각 하위 작업이 실행되면 시스템은 다양한 유형의 작업을 처리할 수 있는 다양한 툴셋을 갖추고 해당 작업을 처리하는 데 가장 적합한 에이전트에게 작업을 동적으로 할당합니다.

에이전트의 동적 할당은 OpenManus의 가장 큰 특징 중 하나입니다. 이 유연한 할당 메커니즘을 통해 시스템은 작업의 특정 요구와 상황에 따라 작업을 실행하는 데 가장 적합한 에이전트를 선택할 수 있으므로 작업 처리의 효율성과 품질이 향상됩니다. 현재 OpenManus는 정규식 매칭을 사용하여 상담원에게 작업을 할당합니다. 특정 에이전트에 작업을 매칭할 수 없는 경우에는 기본적으로 구성된 에이전트를 사용하여 작업을 실행합니다.

향후에는 작업과 에이전트 간 할당을 처리하기 위해 대규모 언어 모델(LLM)을 도입하는 방안도 고려하고 있습니다. 하지만 모든 작업 실행에 대해 의도 인식 및 에이전트 할당에 LLM을 사용하면 계산 비용과 지연 시간이 늘어날 것입니다.

OpenManus의 미래: 지속적인 최적화 및 커뮤니티 구축

OpenManus의 성능과 사용자 경험을 더욱 개선하기 위해 팀은 다음과 같은 우선순위를 두고 작업할 계획입니다:

향상된 계획 기능: PlanningTool은 보다 복잡한 작업 세분화 및 계획 시나리오를 처리할 수 있도록 지속적으로 최적화되고 있습니다.
표준화된 리뷰 도입: GAIA/TAU-Bench/SWE-Bench와 같은 업계 벤치마킹 세트는 OpenManus의 성능을 지속적으로 평가하고 최적화하는 데 사용됩니다.
확장 모델 적응: Claude-3-5에서 다음과 같이 확장된 모델 지원 DeepSeek V2.5 및 더 많은 모델을 통해 저비용 애플리케이션 시나리오를 최적화할 수 있습니다.
컨테이너화된 배포 지원: OpenManus의 설치와 사용을 간소화하여 사용자의 진입 장벽을 낮춥니다.
풍부한 샘플 라이브러리: 보다 실용적인 예제와 성공 및 실패에 대한 심층 분석이 추가되어 사용자가 OpenManus를 더 잘 이해하고 사용할 수 있도록 도와줍니다.
프론트엔드 및 백엔드 개발: 사용자 친화적인 웹 UI 인터페이스를 개발하여 사용자 상호 작용 경험을 향상시킵니다.
RAG 모듈 통합: 검색 증강 생성(RAG) 모듈을 통합하여 에이전트에 외부 지식 기반을 제공함으로써 지식 습득 및 추론 능력을 향상시킬 수 있습니다.

리앙 신빙은 마누스가 제품 상호 작용에서 매우 훌륭한 성과를 거두었으며 배울 점이 많다고 말했습니다. 현재 OpenManus의 효과는 아직 상대적으로 제한적이며 팀은 특수 효과 튜닝을 수행하지 않았습니다.

오픈마누스의 초기 목표는 오리지널 마누스와 동일한 결과를 달성하는 것입니다. 장기적으로는 대규모 오픈 소스 커뮤니티에 의존하여 지속적으로 최적화하는 것이 목표입니다. 컴퓨터 컴퓨터 사용, 브라우저 사용, 계획 사용과 같은 핵심 기능과 도구 호출 기능은 OpenManus를 더 높은 수준의 인텔리전스로 이끌고 있습니다.

02 MetaGPT 팀: 수년간의 기술 강수량, 마누스를 복제하는 데 3시간이 걸렸습니다.

사이렌 홍: "사실 우리 팀은 AI 시나리오를 위한 자동화 및 지능형 바디 프레임워크 분야에서 다년간의 기술 경험을 축적해 왔습니다."

MetaGPT 팀은 오랫동안 에이전트 기술 연구와 오픈소스에 전념해 왔으며, 지난 2년 동안 팀의 연구 결과를 지속적으로 오픈소스화하여 수준 높은 학술 논문과 기술 보고서를 작성하고 커뮤니티에 적극적으로 기여해 왔습니다. 이러한 결과는 다음과 같습니다:

MetaGPT: 다중 지능 협업의 핵심 아이디어를 제시하는 선구적인 다중 지능 메타프로그래밍 프레임워크입니다.
데이터 인터프리터: 데이터 분석 분야에서 LLM의 큰 잠재력을 보여주는 강력한 데이터 과학 에이전트입니다.
AFlow: 에이전트 조합을 자동으로 탐색하고 최적화할 수 있는 자동화된 에이전트 워크플로 생성 프레임워크입니다.
사실: 컨텍스트 재작성 기술로 다중 팩트 검색의 정확도를 효과적으로 개선합니다.
SELA: 자동화된 머신 러닝을 위한 트리 검색 기능이 강화된 LLM 에이전트로 AutoML 성능을 크게 개선합니다.
자체 감독 프롬프트 최적화: 프롬프트 엔지니어링의 효율성과 효과를 개선하는 자체 감독 프롬프트 최적화 방법입니다.
SPO(https://www.modelscope.cn/studios/AI-ModelScope/SPO): 샘플이 적거나 명시적인 채점이 없는 시나리오를 위한 오픈 소스 단서 단어 최적화 도구입니다.
마르코프 LLM 테스트 시간 확장을 위한 생각의 원자: 마르코프 의사 결정 프로세스에서 LLM 추론을 향상시키는 생각의 원자 접근법.

MetaGPT 프레임워크: 다중 지능 협업을 위한 초석

2023년에 오픈소스화된 MetaGPT 프레임워크는 다중 지능 메타프로그래밍 분야의 선구자로, 당시의 대규모 모델이 범용 작업에서는 견고함을 입증했지만 인간 사회의 복잡한 문제를 효과적으로 해결하려면 문제를 원자적으로 분해하고 인간의 문제 해결 습관에 더 부합하는 프로세스에 통합해야 한다고 생각했습니다.

"표준 운영 절차(SOP)라는 개념에 익숙하실 것입니다. 서로 다른 역할에 SOP를 할당하고 각 역할의 전문성과 도구 기능을 활용하면 복잡한 문제에 대한 대규모 모델의 성능을 크게 향상시킬 수 있습니다." 이어서 홍 사이렌은 "MetaGPT 프레임워크는 이러한 개념에 기반하여 SOP가 내장된 다중 지능체 아키텍처를 제안하며, 지능의 메타러닝 또는 메타프로그래밍 기능을 실현하는 것을 목표로 합니다."라고 설명합니다.

이 접근 방식은 HumanEval 및 MBPP와 같은 벤치마크에서 상당한 개선을 달성하여 당시의 GPT-4 모델을 능가했으며, MetaGPT 팀은 클래식 2048 미니 게임 및 스네이크 게임과 같은 일반적인 소프트웨어 개발 시나리오에서 이 아이디어를 검증하기도 했습니다. MetaGPT의 전반적인 성공률은 같은 기간의 다른 오픈 소스 프레임워크보다 훨씬 높습니다.

데이터 인터프리터: 데이터 과학의 지능형 비서

MetaGPT 프레임워크와 인텔리전스 설계를 기반으로 팀은 특히 머신러닝이나 데이터 모델링 문제를 해결할 때 인텔리전스에도 보다 강력한 계획 기능과 도구 사용이 필요하다는 사실을 깨달았습니다.

한편으로, 머신 러닝/데이터 모델링 프로세스는 종종 대규모 모델의 기능으로 계획될 수 있으며, 이는 작업 실행 및 구현에 더 집중할 수 있습니다. 반면에 대규모 표 형식의 데이터로 작업할 때는 대규모 모델의 컨텍스트 길이 제한으로 인해 모든 데이터를 직접 입력할 수 없습니다. 따라서 인텔리전스가 코드 형식을 통해 데이터와 상호 작용할 수 있도록 해야 합니다. 이러한 고려 사항을 바탕으로 MetaGPT 팀은 2023년 하반기에 혁신적인 데이터 인터프리터로 계획 기능과 도구 사용 기능을 탐색하기 시작했습니다.

존재 Devin 이와 같은 프로젝트가 널리 주목을 받던 시기에 MetaGPT 팀은 데이터 모델링/머신 러닝과 같은 작업에서 데이터 인터프리터가 주니어 데이터 분석가 수준에 도달했다는 사실을 발견했습니다. 사용자는 데이터 인터프리터에 데이터를 제공하기만 하면 데이터 전처리부터 NLP/CV 모델 학습까지 복잡한 AI 작업을 독립적으로 완료할 수 있습니다.

SELA: 상담원 디버깅 및 피드백 기능 향상

데이터 인터프리터의 성능을 더욱 향상시키기 위해 MetaGPT 팀은 지능의 디버깅 기능과 실험 결과에 대한 피드백 메커니즘을 강화할 필요성을 느꼈습니다. 이를 위해 팀은 'SELA'라는 작품을 개발했습니다. SELA는 데이터 인터프리터 위에 몬테카를로 트리 검색(MCTS) 방식을 도입하여 지능이 자율적인 실험을 통해 머신러닝을 수행할 수 있도록 합니다. 작업 최적화, 추론 과정의 다양성 탐색, 실행 결과의 피드백을 바탕으로 전략 및 솔루션 단계를 조정하여 전반적인 작업 성능을 크게 향상시킵니다.

SELA를 통해 머신 러닝 작업에 대한 데이터 인터프리터의 기능이 크게 향상되어 자동화된 머신 러닝(AutoML) 도구와 비슷한 수준에 도달했으며, 당시 최고의 오픈 소스 프로젝트(예: AIDE)를 능가하는 성능을 발휘했습니다.

AFlow: 자동화된 상담원 워크플로 생성

한편 MetaGPT 팀은 몬테카를로 트리 검색(MCTS) 기술을 기반으로 대규모 모델의 추론 능력을 개선하기 위한 연구도 진행하여 AFlow 작업을 개발했습니다. 고정된 SOP를 가진 솔루션과 달리 AFlow는 다양한 작업에 가장 적합한 솔루션 플로우를 자동으로 검색할 수 있습니다.

에이플로우의 혁신은 다양한 문제에 대한 솔루션을 개선하는 방법으로, 에이플로우의 목표는 시스템이 문제의 피드백을 기반으로 최적의 지능 조합(토폴로지)을 탐색하고 궁극적으로 미리 규모를 설정할 필요 없이 문제를 해결하기 위한 지능 조합을 보다 역동적으로 만드는 것입니다.

AFlow는 문제 원자화를 위한 검색 공간을 정의하고 몬테카를로 방법을 사용하여 다중 지능의 조합 토폴로지를 탐색하고 최적화합니다. 이 작업은 6개의 데이터 세트 모두에서 SOTA(최첨단) 결과를 달성했으며, ICLR 2025에서 구두로 인정받아 기술 리더십을 입증했습니다.

사실: 에이전트의 메모리 관리 기능 향상

MetaGPT 팀은 또한 지능형 신체의 문제 해결 단계가 늘어날수록 메모리(기억)의 용량도 증가한다는 사실을 발견했습니다. 따라서 문제 해결 과정 전반에 걸쳐 지능형 객체의 맥락 정보를 효과적으로 관리하는 방법이 시급한 과제가 되었습니다.

이를 위해 연구팀은 다중 바늘 찾기 메커니즘을 통해 대규모 모델의 사실 찾기 정확도를 향상시키는 'FACT'라는 연구를 발표하고, 질의응답(QA) 작업에서 유의미한 결과를 보여주고 있습니다. 이 연구는 NAACL에서도 인정받았습니다.

또한 작년 9월경 MetaGPT 팀은 SWE-Bench 코드 역량 평가 플랫폼도 살펴봤습니다. 그 결과 코드 복구와 같은 문제에서 에이전트는 컴퓨터 사용 능력뿐만 아니라 파일 찾기 및 찾기 능력에 의존해야 하며, 도구 사용 및 계획 능력에 대한 요구도 더 높다는 사실을 발견했습니다. 이러한 복잡한 추론 과정의 긴 사슬을 해결하기 위해 많은 연구 노력에서 다중 지능 접근 방식을 사용했습니다. 그 결과, MetaGPT 팀은 OpenManus 코드의 기초가 되는 SWE-Bench 작업에 파일 위치 및 파일 찾기 기능을 추가하고 최적화했습니다. OpenManus 코드를 살펴보면 많은 도구가 코드 복구 및 위치와 관련되어 있음을 알 수 있습니다.

SPO: 단서 단어 최적화를 위한 강력한 도구

SPO는 단서 단어 최적화를 위한 강력한 도구 세트입니다. 대규모 데이터 세트가 필요한 기존의 최적화 방법과 달리 SPO는 정확한 평점을 구할 수 없거나 데이터 세트가 제한적인 시나리오에 적합합니다. 예를 들어, 샤오홍슈의 카피를 작성하거나 SEO 최적화를 수행할 때 사용자는 만족스러운 샘플 수가 적을 수 있으며, SPO는 이러한 제한된 샘플 조건에서 효과적인 단서 단어 최적화를 수행할 수 있습니다. 이 도구는 오픈 소스로 제공되었으며, 중국의 Magic Hitch 플랫폼과 Hugging Face에서 좋은 사용자 피드백을 받았습니다.

AOT: 정보 추론의 원동력이 되는 원자적 사고

AOT(원자적 사고) 접근 방식은 주로 독해를 위해 서로 다른 지문의 정보를 통합하는 등 질문과 답변 정보 추론 및 통합 작업에 사용됩니다. 이 작업은 지금까지 35만 건의 조회수를 기록했으며, 향후 정보 처리 기능을 더욱 강화하기 위해 MetaGPT 프레임워크에 통합될 예정입니다.

03 에이전트의 현실적인 도전: 10가지 핵심 이슈의 해부학

Q1: 대규모 모델링 기능이 개선된 후 복잡한 문제를 완전히 해결할 수 있나요?

사이렌 홍: "대규모 모델의 기능이 향상되면서 많은 문제를 해결하는 성공률이 높아진 것은 사실이지만, 문제 자체가 사라지지는 않습니다." 예를 들어 QA Q&A, HumanEval, MBPP와 같이 비교적 표준화된 단일 기능 코드 생성 문제에서는 이제 단일 모델로도 매우 우수한 성능을 발휘할 수 있습니다.

작년부터 올해까지 이러한 문제에 대한 대규모 모델의 성공률은 실제 적용 수준에 근접했습니다. 그러나 동시에 인간 사회에는 머신러닝, 코드 수정, 사용자에게 결과를 제공하기 전에 결과의 조합을 검색해야 하는 문제 등 롱테일 효과가 있는 매우 복잡한 문제가 여전히 많이 존재한다는 사실에 주목해야 합니다. 이러한 분야는 특히 모델 '착시' 문제를 해결하는 데 있어 대규모 모델의 성능을 개선하기 위해 여전히 많은 기술 혁신이 필요합니다.

Q2: 대규모 모델 기능 향상과 에이전트 기술의 발전 사이에는 어떤 관계가 있나요?

샹 진위: "에이전트와 대규모 모델은 수직적 또는 직교적 관계를 가질 수 있습니다. 프레임워크 자체의 향상은 모델 기능의 향상으로 인해 더 많은 기능을 얻을 수 있으며, 이 둘은 상충되지 않습니다."

에이전트 프레임워크는 더 많은 도구로 확장하여 대규모 모델이 실제 세계 또는 더 넓은 환경과 상호 작용할 수 있도록 지원합니다. 동시에 대규모 모델 자체의 발전으로 추론 및 계획 기능이 향상됩니다. 이 둘은 서로 함께 사용하거나 독립적으로 개발할 수 있습니다.

"이 관계는 상충하는 것이 아니라 상호 보완적인 관계입니다." 샹진위는 결론을 내렸습니다.

Q3. 현재 파운데이션 에이전트 모델의 개발 수준은 어느 정도인가요?

샹 진위: "최근에는 재단 에이전트 모델 범주에 정확히 속하지는 않지만 관련 연구 작업을 수행하고 있습니다."

그는 코드베이스 복구 문제 해결을 목표로 하는 SWE-GYM 프로젝트에서 Pan Jiayi 팀이 시도한 시도에 대해 언급했습니다. 이들은 Claude 또는 GPT-4o 기반 모델을 실행한 후 생성된 데이터를 사용했으며, Openhands와 같은 프레임워크의 도움을 받아 에이전트 작동 중에 궤적 데이터를 수집했습니다. 궤적 데이터에는 성공 사례와 실패 사례가 모두 포함되어 있습니다. 수집된 궤적 데이터를 재사용하여 Qwen 오픈 소스 모델을 학습시켰으며, 이 학습 후 Qwen 모델의 코드 복구 기능이 크게 향상되었음을 관찰했습니다. 연구의 세부 사항은 논문에 자세히 설명되어 있으며 이 연구는 견고하고 신뢰할 수 있습니다.

"현재 이러한 유형의 작업을 일반화할 때 어려운 점은 예를 들어 SWE-Bench 평가에서는 작업이 올바르게 완료되었는지 명시적으로 판단할 수 있지만, 실제 적용 시나리오에서는 소설이나 농담을 쓰는 등 많은 경우 작업 완료의 정확성이나 품질을 정량적으로 평가하기가 매우 어렵다는 점입니다." 샹진유는 "실제 업무 시나리오에서와 마찬가지로 인턴과 선임 직원이 동시에 과제를 완료하고 그 성과를 평가해야 할 때 객관적으로 판단하기가 매우 어렵고 많은 주관적인 비즈니스 로직과 기준에 따라 결정해야 하는 경우가 많습니다. 이러한 개방형 과제에서 평가 피드백을 자동으로 설계하는 것도 앞으로 우리가 탐구해야 할 중요한 방향입니다."

Q4. 에이전트의 기획 역량 발전은 대규모 모델 자체에 크게 좌우되나요?

샹 진위: "현재 계획의 발전은 한편으로는 모델 자체의 능력 향상에 달려 있으며, 다른 한편으로는 외부 구조의 도움, 즉 에이전트 수준에서 계획을 지원하기 위해 더 복잡한 구조를 포함시키는 것과 분리할 수 없습니다." 예를 들어, 생각의 나무(TOT, 사고의 나무)에 대한 초기 연구는 추가 구조를 도입하여 작업 추론 중 모델의 성능을 크게 향상시켰습니다. 계획 영역에서도 외부 구조 보조와 관련된 유사한 연구 작업이 존재합니다.

Q5. 에이전트용 외부 툴을 사용할 때 어려운 점은 무엇인가요?

신빙 량: "현재 오픈마누스에서는 클라우드 컴퓨터와 브라우저와 같은 기존의 오픈소스 도구를 주로 사용하고 있습니다. 브라우저 사용에 대한 다른 팀의 연구 결과, 이 두 가지 도구만으로도 기본적으로 많은 작업을 수행할 수 있으며, 초기에 마누스의 프로토타입을 형성했습니다."

또한 "에이전트가 도구를 사용하고 싶지만 현재 그러한 도구가 없는 경우"에 대한 질문에 대해 리앙은 향후 에이전트가 자체적으로 도구를 만들 수 있는 기능을 추가할 가능성도 구상하고 있다고 말했습니다. "에이전트가 작업을 완료하기 위해 도구가 필요할 때 현재 환경에 적합한 도구가 없는 경우 에이전트가 직접 도구를 만들어 사용할 수 있습니다. 이렇게 하면 에이전트의 역량이 더욱 강화될 것입니다."

사이렌 홍: "대규모 모델이나 에이전트를 위한 툴을 사용하는 것 자체가 새로운 것은 아니라고 생각합니다. 하지만 툴의 수가 점차 늘어나면서 비슷한 기능을 가진 툴이 많을 경우 에이전트가 동일한 작업을 해결할 때 어떻게 정확한 의사 결정을 내리고 가장 적합한 툴을 선택하며 의사 결정 오류를 피할 수 있을까 하는 기술적 어려움이 생깁니다."

또한 표준화된 도구 인터페이스를 사용하는 대신 사용자 지정 도구를 사용하는 경우, 도구의 매개변수가 합리적이거나 명확하게 정의되지 않아 대규모 모델이 도구 호출에 대한 결정을 내리는 데 오류가 발생하기 쉽고, 이는 결국 도구 구현의 효율성에 영향을 미칠 수 있다는 또 다른 문제에 직면할 수 있습니다. 이는 도구 사용 체인에서 해결해야 할 주요 문제입니다.

"또 다른 어려움은 도구 자체의 선택과 사용뿐만 아니라 많은 세부 정보가 포함될 수 있는 컨텍스트입니다. 예를 들어 사용자가 여러 웹 페이지를 동시에 열면 에이전트가 이러한 페이지의 정보와 데이터(예: 특정 이력서의 시간, 다른 웹 페이지에 언급된 이벤트의 시작 시간)를 통합하여 최종 결과를 생성할 때 혼동되거나 부정확할 수 있습니다. 에이전트가 도구를 사용할 때 이러한 세부 정보를 정확하게 처리하도록 하는 방법도 실제 적용에서 집중해야 할 문제입니다." 홍시루이는 덧붙였습니다.

Q6. MCP와 같은 프로토콜이 도구 사용 측면에서 주류가 될까요?

Liang Xinbing: "MCP 프로토콜은 이제 주류가 되어가고 있습니다."

도구 사용 능력은 실제로 모델 자체의 도구 사용 능력 여부에 따라 달라집니다. 일부 모델은 도구 사용 능력이 없거나 취약할 수 있으므로 도구 사용의 효과가 제한될 수 있습니다. 따라서 툴링 프로토콜의 인기는 모델 자체의 강력한 툴링 능력과 밀접한 관련이 있습니다.

Q7. 대규모 컨텍스트(메모리 관리)를 처리할 때 에이전트의 발전된 점과 어려운 점은 무엇인가요?

사이렌 홍: "지금쯤이면 이미 MemoryGPT나 오픈 소스 프로젝트 Mem0와 같은 관련 연구 작업에 대해 알고 계실 텐데요, 두 프로젝트 모두 에이전트의 긴 컨텍스트와 메모리 관리를 위한 일부 최적화 및 처리 방법을 갖추고 있습니다."

예를 들어, MemoryGPT는 특정 길이의 컨텍스트를 요약하는데, 이는 매우 단순하지만 효과적인 사고 방식이며, Mem0은 메모리 삭제, 메모리 업데이트 및 추가와 같은 작업을 포함하는 메모리 업데이트 프로세스에서 도구를 적극적으로 사용합니다.

"현재 에이전트가 복잡하고 긴 범위의 작업을 처리할 때(예: 정보량이 매우 긴 웹 페이지를 탐색할 때) 컨텍스트를 압축하여 메모리에 저장하고 압축 후 중요한 정보가 수정되거나 생략되지 않도록 하는 것은 어려운 문제입니다." 사이렌 홍은 "일부 초기 연구에서는 시간이나 작업 단계에 따라 메모리가 사라지는 것으로 나타났습니다."라고 지적합니다.

반면에 인간의 기억에는 의미적 정보에 대한 기억뿐만 아니라 도구를 사용하여 생성되는 절차적 기억, 사건과 관련된 관계에 대한 기억 등 다양한 유형이 있습니다. 학계에서도 각기 다른 기억 유형에 맞게 최적화되어 있습니다.

위의 논의는 단일 에이전트의 메모리 관리에 관한 것입니다. 그러나 다중 지능형 시스템에서는 메모리를 더 능숙하게 사용할 수 있습니다. 메모리를 어느 정도 분리하는 것 외에도 문제 해결 과정에서 다른 에이전트가 생성한 메모리를 재사용하여 특정 작업을 처리하는 자신의 경험을 향상시킬 수 있습니다. 또한 에이전트는 그룹의 문제 해결 경험을 재사용하도록 진화하여 결국 일종의 그룹 지능을 형성할 수 있습니다.

신빙 량: "메모리 관리의 핵심 문제는 비용입니다." 메모리 관리를 고려하지 않고 압축이나 처리를 하지 않고 전체 메모리를 직접 사용하면 현재의 대규모 모델을 계속 처리할 수 있지만 이로 인해 발생하는 문제는 성능 저하가 아니라 처리 시간과 비용이 크게 증가하여 사용자 경험에 심각한 영향을 미칩니다.

따라서 메모리 관리 문제는 엔지니어링 수준에서의 최적화와 관련이 있습니다. 이미 많은 기업이나 조직에서 메모리 관리 솔루션을 최적화하기 위해 노력하고 있습니다.

"현재 메모리 관리 문제를 해결하기 위한 한 가지 접근 방식은 다중 지능 또는 도구 지원 접근 방식을 사용하는 것입니다. 예를 들어 OpenManus와 같은 프레임워크에서는 일반적으로 계획 도구에서 작업 계획을 먼저 생성하고, 복잡한 작업을 여러 하위 작업으로 세분화하여 각 하위 작업 간에 메모리를 불완전하게 공유하며, 작업이 실행된 후 프로세스를 요약하거나 압축합니다."라고 설명합니다. 리앙 신빙은 이렇게 설명합니다.

Q8. 에이전트는 궁극적으로 지상에서의 상용화 측면에서 무엇과 경쟁하게 되나요?

사이렌 홍: "개인화 기능을 포함하여 실제 시나리오에서 작업과 효과를 최대한 활용하는 것이 가장 중요하다고 생각합니다." 현재 학계에서 진행되고 있는 SWEBench, GAIA 또는 기타 에이전트 테스트 작업 등 많은 연구 노력은 여전히 작업 성공률이 제한적입니다. 상대적으로 작은 작업 표준을 실제 비즈니스 시나리오에 적용하면 다양한 사용자와 다양한 난이도 문제에 직면했을 때 현재의 에이전트 성공률은 여전히 상당히 제한적입니다.

"따라서 프로그래밍 작업이든 데이터 수집 및 보고서 생성 작업이든 다양한 사용자 문제와 시나리오를 최대한 활용하고 성공률을 만족스러운 수준으로 높이며 에이전트가 오늘날 사람들이 기대하는 작업을 수행할 수 있다는 것을 진정으로 깨닫게 된다면 사용자들은 계속해서 에이전트를 일상적인 비서이자 도구로 사용할 것이라고 믿습니다. " 홍시루이는 이렇게 강조했습니다.

Q9. 현재 마누스, 오픈마누스 등의 에이전트 비용이 높은데 어떻게 하면 비용을 더 낮추고 효율성을 높일 수 있나요?

사이렌 홍: "첫째, 저희를 포함한 많은 애플리케이션 공급업체가 토큰 소비를 최적화하고 있습니다. 캐싱이나 메모리 압축 기술을 통한 엔지니어링 수준에서든, 각 API 호출의 컨텍스트 길이를 최소화하는 것이 목표이며, 이는 애플리케이션 수준에서 지속적인 최적화의 방향입니다."

"또한, 앞으로는 특정 특정 노드나 도구의 사용 기능을 최적화하는 데 초점을 맞춰 기존 데이터를 기반으로 미세 조정 또는 강화 학습을 위해 다수의 소규모 모델을 배포할 가능성이 높습니다. 여러 소규모 모델의 기능을 통합함으로써 대규모 모델을 완성하거나 심지어 능가할 수 있을 것으로 예상됩니다. 이는 추론 속도, 토큰 소비 및 비용 측면에서 상당한 비용 이점으로 이어질 수 있습니다." 사이렌 홍이 덧붙였습니다.

Q10. 다중 지능의 비즈니스 전망을 어떻게 평가할 수 있나요?

사이렌 홍: "첫째, 코드 생성 분야에서는 단일 에이전트와 다중 지능체 시스템 모두 더 빨리 상용화될 것으로 예상됩니다."

"프로그래밍 수준은 평균이지만 기본적인 개념은 이해하는 많은 사용자들이 개인 웹사이트나 간단한 애플리케이션을 직접 구축하고자 할 때 전문가나 대형 모델의 도움을 필요로 한다는 사실을 발견했습니다. 사용자가 직접 대형 모델을 사용할 경우 여러 차례의 상호 작용과 지루한 디버깅 프로세스가 필요할 수 있습니다. 하지만 제품화된 인텔리전스 시스템을 사용하면 이 과정이 훨씬 쉬워집니다. 사용자는 이후 요구 사항 변경을 포함하더라도 15분에서 30분 정도만 투자하면 만족스러운 웹사이트나 애플리케이션을 빠르게 얻을 수 있습니다."

"따라서 사용자의 실제 요구를 효과적으로 해결한다는 측면에서 다중지능의 비즈니스 전망은 명확하고 강력하다고 생각하며, 코드 생성 역시 현재 에이전트 기술이 더 잘 해결할 수 있는 시나리오입니다. 현재 사용자들의 지불 의향도 비교적 높은 편입니다." 홍시루이는 결론을 내렸습니다.

04 에이전트 상용화: 코드 생성으로 새로운 지평을 열다

Q1. 다중 지능 제품인 MGX에 대해 간단히 소개해 주세요.

사이렌 홍: "MetaGPT에 대해 잘 알고 있는 사람이라면 다음과 같이 이해할 것입니다. MGX 여러 지능이 동시에 온라인에서 협업하여 사용자가 문제를 해결할 수 있도록 도와주는 제품입니다. 사용자는 다음과 같이 사용하기만 하면 됩니다. ChatGPT 요구 사항이 입력되는 즉시 강력한 인텔리전스가 작업을 분해하여 여러 인텔리전스에 배포하여 실행합니다."

"현재 전체 제품은 코드 생성 분야에 초점을 맞추고 있습니다. 예를 들어 사용자가 개인 웹사이트, 게임 또는 데이터 분석 애플리케이션 등을 만들고자 하는 경우, 저희의 지능형 바디는 해당 작업을 매우 잘 수행할 수 있습니다. 개발 과정에서 사용자는 프론트엔드 프로젝트의 스타일, 타이포그래피 또는 레이아웃을 조정하는 등 언제든지 요구 사항을 수정할 수 있으며, 이러한 작업도 인공지능이 자연스럽게 수행할 수 있어 개발 비용을 크게 절감할 수 있습니다."라고 설명합니다.

마누스나 오픈마누스와 같은 제품과 달리 MGX는 자동 배포 기능이 있습니다. 개발 프로세스 중에 소프트웨어가 자동으로 배포되며 사용자는 실시간으로 결과를 미리 보고 조정할 수 있습니다. 또한 MGX 제품의 각 인텔리전스에는 앞서 언급한 컴퓨터 도구 호출, 브라우저 도구 호출, 계획 및 코드 실행 기능이 있습니다.

"내부적으로 디자인이나 데이터 시각화 효과에 대한 미적 평가도 모색하고 있으며, 향후에는 대형 모델이나 에이전트가 생성된 페이지나 데이터 대시보드가 사용자의 기대와 미적 기준에 부합하는지 평가하는 방법을 학습할 수 있도록 해당 벤치마크를 만들 수도 있습니다." 홍시루이는 이렇게 밝혔습니다.

다음은 MGX로 생성된 웹사이트의 몇 가지 예입니다:

개인 웹사이트:

https://alex-portfolio-yhx5c3-v1.mgx.world/
https://photographer-portfolio-myuf2t-v1.mgx.world

개인 블로그:

https://personal-blog-v7amdv-v2.mgx.world
https://cute-cartoon-blog-p58801-v1.mgx.world

개인 명함:

https://portfolio-dveerm-v1.mgx.world
https://emma-anderson-homepage-8rnqm6-v1.mgx.world

Q2. MGX DEV는 새로운 에이전트 유형에 대한 후속 조치를 취할 예정인가요?

사이렌 홍: "MGX는 앞으로도 새로운 에이전트 유형을 계속 추가할 예정입니다. 현재 내부적으로 사용자 에이전트라는 새로운 유형의 인텔리전스를 실험하고 있습니다." 사용자 프로젝트가 배포되면 바로 실행되지 않거나 결함이 발생하여 빈 페이지가 생기는 등 프로젝트 배포의 영향을 적극적으로 감지하여 페이지의 스크린샷을 찍고 웹페이지와 적극적으로 상호작용하며 생성된 소프트웨어의 타당성과 실행 가능성을 테스트한 다음 개발을 담당하는 다른 지능에 알려 수정하여 프로젝트를 보다 완벽하게 완료합니다. "또한 내부적으로 디자인이나 데이터 시각화 효과의 미적 평가를 위한 벤치마크를 설정하여 에이전트가 페이지나 데이터 대시보드의 품질과 미적 성능이 기대에 부합하는지 여부를 판단할 수 있습니다." 홍 사이렌은 덧붙였습니다.