Manus와 같은 범용 작업 인텔리전스는 어떻게 작동하나요?

Manus와 같은 일반 작업 지능은 사용자의 의도를 이해하고 복잡한 작업을 분해하여 목표를 달성하기 위해 협력함으로써 인간의 문제 해결 능력을 모방하도록 설계되었으며, Manus의 핵심은 다중 에이전트 기반 아키텍처로, 사용자가 제안한 일반 작업에 대해 여러 지능형 에이전트가 함께 작업할 수 있도록 합니다. 워크플로는 다음과 같은 주요 단계로 요약할 수 있습니다:

의도 인식: 사용자 니즈 파악의 첫 단계

지능형 작업 실행의 출발점은 사용자의 요구 사항을 정확하게 이해하는 것입니다. 마누스의 의도 인식 모듈은 먼저 텍스트 명령어와 같은 사용자의 입력을 받습니다. 그런 다음 시스템은 입력에 대해 필요한 의도 인식 및 키워드 추출을 수행합니다. 예를 들어 사용자가 "일본 여행을 가고 싶은데 여행 계획이 필요해요"라고 입력하면, 마누스는 "일본 여행" 키워드를 파싱하여 작업 유형을 "" 여행"으로 식별합니다.

사용자가 보다 일반적인 요구사항을 입력해 시스템이 사용자의 의도를 정확하게 파악하기 어려운 경우, 마누스는 안내 전략을 채택하고 사용자와 여러 차례 대화를 통해 요구사항의 세부 사항을 단계별로 명확히 설명합니다. 또한 사용자의 의도를 보다 포괄적으로 파악하기 위해 사용자가 문서, 사진 및 기타 다양한 정보를 의도 인식을 위한 보조 자료로 업로드할 수 있도록 지원합니다.

작업 초기화: 격리된 실행 환경 구축하기

사용자의 의도를 정확하게 파악한 후 마누스는 작업 초기화 단계에 들어갑니다. 시스템은 식별된 작업 키워드(예: '일본 여행')를 사용하여 작업과 관련된 별도의 폴더를 자동으로 생성하고, 이 폴더는 작업 실행 중 모든 중간 결과물과 최종 결과물을 저장하는 데 사용됩니다.

또한 Manus는 각 작업마다 별도의 Docker 컨테이너를 시작하므로 각 작업이 깨끗하고 격리된 환경에서 실행되어 작업 실행의 독립성을 보장하고 다른 작업 간의 간섭을 피할 수 있습니다. 또한 작업이 완료된 후에는 시스템이 자동으로 Docker 컨테이너를 정리하여 시스템을 깨끗하고 효율적으로 유지합니다.

단계별 계획: 복잡한 작업을 해체하는 추론 모델

작업 초기화의 다음 단계는 단계 계획입니다. Manus 마누스는 강력한 추론 모델을 사용해 복잡한 작업을 자동화하는 핵심 요소인 작업을 세부 단계로 세분화합니다. 추론 모델은 의도 인식 결과와 작업에 대한 컨텍스트 정보를 결합하여 큰 목표 작업을 일련의 실행 가능한 하위 작업으로 지능적으로 세분화합니다.

예를 들어 '일본 여행 계획'이라는 요구 사항에 대해 추론 모델은 이를 '일본 여행 팁 검색', '항공권 및 호텔 정보 확인' 등의 여러 단계로 세분화할 수 있습니다, "세부 여행 준비하기" 등 여러 단계로 나눌 수 있습니다. 분할된 단계의 정보는 아래의 작업 폴더에 기록됩니다. [todo.md](https://t.co/tYosIUPa9o) 파일을 생성하여 후속 작업의 실행을 안내하는 구조화된 작업 목록을 만들 수 있습니다.

작업 실행: 효율적인 운영을 위한 멀티 에이전트 협업

작업 실행 단계는 마누스의 핵심 작업입니다. 시스템은 [todo.md](https://t.co/tYosIUPa9o) 파일에 마크다운 형식의 작업 목록이 포함되어 있습니다.[ ] 는 수행할 작업을 나타냅니다.[x] 이면 완료된 작업을 나타냅니다.

마누스의 작업 스케줄링 센터 또는 메인 스레드는 실행할 작업을 하나씩 읽고 작업 컨텍스트 정보와 함께 소위 "함수 호출"을 시작합니다. 여기서 '함수 호출'이란 실제로 시스템이 작업 요구사항에 따라 미리 정의된 함수 모듈, 즉 다양한 종류의 에이전트를 호출하는 것을 의미합니다. Manus에는 검색 에이전트, 코드 에이전트, 데이터 분석 에이전트 등 다양한 에이전트가 내장되어 있으며, 각 에이전트는 특정 유형의 작업에 중점을 두고 있습니다.

'함수 호출' 결과에 따라 Manus는 해당 에이전트가 작업을 실행하도록 스케줄링하고, 실행 중 에이전트가 생성한 검색 결과, 코드 파일, 분석 보고서 등의 콘텐츠 상품은 Docker 컨테이너의 작업 폴더에 기록하여 데이터의 통합 관리 및 저장을 달성합니다. 에이전트는 데이터의 통합 관리 및 저장을 위해 Docker 컨테이너의 작업 폴더에 기록됩니다. 작업이 실행된 후 메인 스레드는 작업 폴더의 [todo.md](https://t.co/tYosIUPa9o) 파일을 열고 완료된 작업을 표시한 후 모든 단계가 완료될 때까지 목록의 다음 작업으로 이동합니다.

요약: 결과 출력 및 사용자 피드백 수집

(공동) 실패(학생) [todo.md](https://t.co/tYosIUPa9o) 파일의 모든 작업이 완료로 표시되면 Manus는 최종 요약 단계로 들어갑니다. 메인 스레드는 작업을 실행하는 동안 생성된 모든 콘텐츠 제품을 통합하고 체계화하여 사용자의 초기 요구 사항에 따라 최종 구조화된 결과물을 형성합니다.

작업의 최종 결과는 문서, 코드, 이미지, 링크 등 다양한 형태로 제공되며 사용자가 열람하거나 다운로드할 수 있도록 제공됩니다. 시스템 성능과 사용자 경험을 지속적으로 최적화하기 위해 Manus는 완료된 작업의 품질과 최종 결과에 대한 사용자 만족도도 수집하여 후속 반복 및 업그레이드를 위한 귀중한 참고 자료를 제공합니다.

검색 에이전트 워크플로 설명: 사람의 브라우징 행동 모방하기

마누스 솔루션의 핵심은 작업을 실행하는 에이전트의 설계와 메인 스레드의 스케줄링 프로세스에 있습니다. 검색 에이전트를 예로 들어 '일본 여행 계획'과 같은 작업의 실행 단계를 더 깊이 이해하면 Manus의 작동 방식을 더 잘 이해할 수 있습니다.

키워드 추출 및 검색: 검색 에이전트는 먼저 '일본 여행'과 같은 키워드 정보를 얻은 후 Google과 같은 타사 API를 호출하여 검색 요청을 시작하여 10~20개의 관련 검색 결과를 얻습니다.
시뮬레이션 웹 브라우징: 검색 에이전트는 사용자가 웹 페이지를 탐색하는 동작을 시뮬레이션합니다. 검색 결과의 첫 번째 링크를 '클릭'하고 헤드리스 브라우저 기술을 사용하여 웹 페이지의 콘텐츠를 탐색하고 웹 페이지의 텍스트를 캡처하고 웹 페이지의 스크린샷을 찍어 시각적 정보를 얻습니다.(참고: 헤드리스 브라우저는 그래픽 사용자 인터페이스 없이 실행되는 브라우저로, 일반적으로 웹 조작 및 데이터 크롤링을 자동화하는 데 사용됩니다.)
멀티모달 정보 추출: 다음으로 검색 에이전트는 멀티모달 입력을 지원하는 모델을 호출합니다*(참고: 멀티모달 모델은 텍스트, 이미지 등과 같은 여러 유형의 데이터를 동시에 처리할 수 있습니다).상담원은 현재 작업 요건과 웹 페이지 정보를 입력으로 삼아 현재 조회한 웹 페이지에서 유효한 정보를 추출합니다(예: 웹 페이지 콘텐츠에 여행 계획 요건을 충족하는 결과가 포함되어 있는지 확인). 현재 웹 페이지에 정보가 충분하지 않은 경우 상담원은 다음 작업도 수행합니다.웹 페이지 구조 분석하기* 를 눌러 유용한 정보를 포함할 수 있는 다음 버튼 요소를 찾아 반환합니다.
반복적 정보 수집: 검색 에이전트는 사용자의 클릭과 스크롤을 시뮬레이션하여 추가 웹 콘텐츠 및 시각적 정보를 얻습니다. 이 프로세스는 수집된 정보가 작업 요구 사항을 충족할 때까지 여러 번 반복됩니다.
콘텐츠 저장: 마지막으로 검색 에이전트는 수집된 모든 정보를 작업 폴더에 저장하여 후속 단계에 대한 데이터 지원을 제공합니다.

검색 에이전트의 핵심은 웹 페이지를 탐색하는 사용자의 실제 행동을 시뮬레이션하여 사람처럼 인터넷의 방대한 정보에서 필요한 정보를 정확하게 찾아 추출할 수 있도록 하는 것입니다. 헤드리스 브라우저와 멀티모달 모델의 적용은 이 목표를 달성하기 위한 핵심 기술 지원입니다.

코드 에이전트 및 데이터 분석 에이전트: 코드 작업 및 데이터 분석 간소화

검색 에이전트에 비해 코드 에이전트와 데이터 분석 에이전트는 비교적 간단하지만 똑같이 효율적인 워크플로우를 가지고 있습니다.

코드 에이전트는 주로 코드 생성 및 실행을 담당합니다. 코드 작성 작업을 받으면 코드 에이전트는 작업 요구 사항에 따라 Python 코드 또는 HTML 코드와 같은 로컬 코드 파일을 생성하고 생성된 코드를 파일에 작성합니다. 데이터 분석 작업의 경우 코드 에이전트는 Python 코드를 생성하고, 결과 프레젠테이션의 경우 시각적 프레젠테이션을 위한 HTML 코드를 생성할 수 있습니다. 그런 다음 코드 에이전트는 시스템 호출을 통해 코드를 실행하고 결과를 작업 폴더에 저장합니다. 사용자가 코드가 어떻게 실행되는지 쉽게 확인할 수 있도록 마누스는 HTML 파일의 내용을 미리 볼 수 있는 코드 미리 보기 서비스도 제공합니다.

데이터 분석 에이전트는 데이터 처리 및 분석 작업에 중점을 둡니다. 워크플로는 코드 에이전트와 비슷하지만 데이터 분석 에이전트는 데이터 분석 로직의 구현과 데이터 인사이트 마이닝에 더 중점을 둔다는 점이 가장 큰 차이점입니다.

향후 전망: 지속적으로 진화하는 멀티 에이전트 인텔리전스

Manus는 범용 작업 인텔리전스 분야에서 강력한 역량을 입증했지만, 이러한 멀티 에이전트 제품에는 여전히 개선의 여지가 많습니다.

첫째, 위임 종속성 관리 영역에서는 현재 [todo.md](https://t.co/tYosIUPa9o) 작업의 작업은 보다 선형적인 종속성을 보여줍니다. 향후에는 DAG(방향성 비순환 그래프)를 도입할 수 있습니다. (참고: 작업 종속성 및 실행 순서를 표현하는 그래픽 모델인 방향성 비순환 그래프(DAG)를 사용하면 보다 복잡한 작업 흐름을 표현할 수 있습니다. 를 사용하여 더 복잡하고 유연한 작업 종속성을 구현하여 더 복잡한 실제 시나리오 요구 사항에 대응할 수 있습니다.

둘째, 작업 실행의 정확성과 신뢰성 측면에서 작업 결과를 자동으로 평가하고 판단 할 수있는 자동화 된 테스트 에이전트를 도입하여 특정 단계의 등급이 너무 낮 으면 시스템이 이전 작업 노드로 돌아가 해당 단계를 다시 실행하여 작업의 자동 수정 및 최적화를 달성 할 수 있습니다.

또한 인간과 컴퓨터의 협업 모드가 융합되는 것도 중요한 발전입니다. Manus는 완전 자동화와 사용자 개입의 하이브리드 모드를 허용할 수 있습니다. 예를 들어, 어떤 단계가 수행된 후 시스템이 먼저 사용자에게 피드백을 요청하고 사용자가 일정 시간 내에 피드백을 제공하지 않으면 자동으로 계속 실행하여 자동화와 유연성 사이의 최적의 균형을 찾을 수 있습니다.

요약 및 과제

전반적으로 마누스는 엔지니어링 구현에 있어 상당한 진전을 이루었으며, 전반적인 상호작용 경험은 다른 유사 제품과 비교했을 때 우위에 있습니다. 그러나 기술적인 관점에서 볼 때, 마누스는 여전히 기본 모델의 기능에 크게 의존하고 있습니다. 마누스는 의도 인식을 위해 경량 모델을 사용하는 반면, 작업 계획 및 추론은 다음에 의존할 것으로 추측됩니다. DeepSeek-R1 이러한 대규모 언어 모델. 이미지 인식 및 코드 생성을 위해 Claude-3.7-Sonnet과 같은 고급 모델도 마누스가 선택한 기술입니다.

높은 토큰 마누스와 같은 애플리케이션이 인기를 끌기 위해서는 비용 관리가 핵심 과제가 될 것입니다. 앞으로 토큰 비용을 효과적으로 절감하고 작업 실행 정확도와 사용자 만족도를 향상시키는 방법은 마누스를 포함한 모든 멀티 에이전트 제품이 지속적으로 탐구하고 최적화해야 할 핵심 방향이 될 것입니다. 마누스가 대규모로 사용되어 시장에서 널리 인정받을 수 있을지는 더 많은 실제 적용 사례를 통해 지켜봐야 할 것입니다.