Как работают интеллекты общего назначения, такие как Manus?

Ответы ИИОпубликовано 10 месяцев назад Круг обмена ИИ

Интеллектуальные системы для решения общих задач, такие как Manus, призваны имитировать способность человека решать проблемы, понимая намерения пользователя, разбирая сложные задачи и работая вместе для достижения целей. Основой Manus является многоагентная архитектура, которая позволяет нескольким интеллектуальным агентам работать вместе над общими задачами, предложенными пользователем. Рабочий процесс можно свести к следующим ключевым этапам:

Распознавание намерений: первый шаг к пониманию потребностей пользователей

Отправной точкой для интеллектуального выполнения задач является точное понимание потребностей пользователя; модуль распознавания намерений Manus сначала принимает входные данные пользователя, например, текстовую инструкцию. Затем система выполняет распознавание намерений и извлечение ключевых слов из введенного текста. Например, если пользователь вводит "Я хочу поехать в Японию и мне нужен план поездки", Manus выделит ключевое слово "japan-trip" и определит тип задачи как " путешествие".

Если пользователь вводит более общее требование и системе сложно точно определить его намерение, Manus использует стратегию руководства и инициирует несколько раундов диалога с пользователем, чтобы шаг за шагом уточнить детали требования. Кроме того, система поддерживает загрузку документов, фотографий и другой разнообразной информации в качестве вспомогательных материалов для распознавания намерений, чтобы более полно понять намерения пользователя.

Инициализация задачи: создание изолированной среды выполнения

Точно уловив намерение пользователя, Manus переходит к этапу инициализации задачи. Система использует идентифицированные ключевые слова задачи, например "japan-trip", для автоматического создания отдельной папки, связанной с задачей, которая будет использоваться для хранения всех промежуточных продуктов и конечных результатов во время выполнения задачи.

Более того, Manus запускает отдельный Docker-контейнер для каждой задачи, что обеспечивает изоляцию, то есть каждая задача выполняется в чистом и изолированном окружении, гарантируя независимость выполнения задач и исключая вмешательство между различными задачами. Система также автоматически очищает Docker-контейнер после завершения задач, обеспечивая чистоту и эффективность системы.

Пошаговое планирование: модели рассуждений для решения сложных задач

Следующим шагом в инициализации задачи является планирование шагов, которое заключается в следующем Манус Manus использует мощную модель рассуждений для разбиения задач на подробные шаги, что является ключевым компонентом автоматизации сложных задач. Модель умозаключений интеллектуально разбивает большую целевую задачу на ряд исполняемых подзадач, комбинируя результаты распознавания намерений и контекстную информацию о задаче.

Например, для требования "планирование путешествия по Японии" модель вывода может разбить его на несколько шагов, таких как "поиск советов по путешествию по Японии", "проверка информации о рейсах и отелях", "Сделать подробные приготовления к поездке" и так далее. Информация о разбитых шагах будет записана в папку задачи под именем [todo.md](https://t.co/tYosIUPa9o) файл, чтобы сформировать структурированный список задач, который направляет выполнение последующих задач.

Выполнение задач: многоагентное взаимодействие для эффективной работы

Фаза выполнения задачи - это основная работа Manus. Система преодолевает [todo.md](https://t.co/tYosIUPa9o) файл, содержащий список задач в формате Markdown.[ ] указывает на задачу, которую необходимо выполнить.[x] тогда он представляет собой выполненное задание.

Центр планирования задач Manus, или, как его еще называют, главный поток, поочередно считывает задания, подлежащие выполнению, и инициирует так называемый "вызов функции", комбинируя информацию о контексте задачи. Под "вызовом функции" здесь подразумевается, что система вызывает предопределенные функциональные блоки, то есть различные виды агентов, в соответствии с требованиями задачи. В Manus есть множество встроенных агентов, таких как агент поиска, агент кода, агент анализа данных и т. д. Каждый агент ориентирован на выполнение определенного типа задач.

На основании результата "вызова функции" Manus назначает соответствующего агента для выполнения задачи, а любые продукты, созданные агентом в процессе выполнения, такие как результаты поиска, файлы кода, отчеты об анализе и т. д., записываются в папку задач контейнера Docker для достижения единого управления и хранения данных. Агент записывается в папку задач контейнера Docker, чтобы обеспечить единое управление и хранение данных. После выполнения задачи главный поток обновляет папку [todo.md](https://t.co/tYosIUPa9o) файл, отметьте выполненное задание и переходите к следующему заданию в списке, пока все шаги не будут выполнены.

Подведение итогов: вывод результатов и сбор отзывов пользователей

(coll.) провалить (студента) [todo.md](https://t.co/tYosIUPa9o) После того как все задания в файле будут отмечены как выполненные, Manus переходит к финальному этапу обобщения. Основной поток консолидирует и систематизирует все контентные продукты, созданные в ходе выполнения заданий, чтобы сформировать окончательный структурированный результат в соответствии с исходными требованиями пользователя.

Итоговые результаты выполнения заданий будут представлены в различных формах, таких как документы, код, изображения, ссылки и т. д., и будут доступны пользователям для просмотра или загрузки. Для постоянной оптимизации производительности системы и удобства пользователей Manus также собирает информацию об удовлетворенности пользователей качеством выполненных заданий и конечными результатами, предоставляя ценные рекомендации для последующих итераций и обновлений.

Объяснение работы поискового агента: имитация поведения человека при просмотре веб-страниц

Суть решения Manus заключается в дизайне агента, выполняющего задания, и процесса планирования главного потока. Если взять в качестве примера поисковый агент, то более глубокое понимание шагов его выполнения для таких задач, как "план путешествия по Японии", поможет нам лучше понять, как работает Manus.

Извлечение ключевых слов и поиск: Агент поиска сначала получает информацию о ключевом слове, например "japan-trip", и вызывает API стороннего производителя, например Google, чтобы инициировать поисковый запрос и получить 10-20 релевантных результатов поиска.
Имитация просмотра веб-страниц: поисковый агент имитирует поведение пользователя, просматривающего веб-страницу. Он "нажимает" на первую ссылку в результатах поиска, использует технологию безголового браузера для просмотра содержимого веб-страницы, захватывает текст веб-страницы и делает снимок экрана веб-страницы для получения визуальной информации.(Примечание: Безголовый браузер - это браузер, который работает без графического интерфейса пользователя и обычно используется для автоматизации веб-манипуляций и сбора данных).
Мультимодальное извлечение информации: Далее поисковый агент будет вызывать модели, поддерживающие мультимодальный ввод данных* (Примечание: мультимодальные модели способны одновременно обрабатывать несколько типов данных, таких как текст, изображения и т. д.).Принимая в качестве входных данных текущие требования задачи и информацию о веб-странице, агент извлекает достоверную информацию из текущей просматриваемой веб-страницы, например, определяет, содержит ли содержимое веб-страницы результаты, удовлетворяющие требованиям плана поездки. Если на текущей веб-странице недостаточно информации, агент такжеАнализ структуры веб-страницы* для поиска и возврата следующего элемента кнопки, который может содержать полезную информацию.
Итеративный сбор информации: поисковый агент имитирует нажатия и прокрутки пользователя, чтобы получить дополнительный веб-контент и визуальную информацию. Этот процесс повторяется несколько раз, пока собранная информация не будет соответствовать требованиям задачи.
Сохранение содержимого: Наконец, SEARCH AGENT сохраняет всю собранную информацию в папке задач, чтобы обеспечить поддержку данных для последующих шагов.

Суть работы поискового агента заключается в имитации реального поведения пользователей, просматривающих веб-страницы, что позволяет ему точно находить и извлекать нужную информацию из огромного количества информации в Интернете, подобно человеку. Применение безголовых браузеров и мультимодальных моделей является ключевой технической поддержкой для достижения этой цели.

Агент кода и агент анализа данных: оптимизация задач кода и анализа данных

По сравнению с агентом поиска, агент кода и агент анализа данных имеют относительно простой, но одинаково эффективный рабочий процесс.

Агент кода в основном отвечает за генерацию и выполнение кода. При получении задания на написание кода агент кода создает локальный файл кода, например, кода Python или HTML, в соответствии с требованиями задачи, и записывает сгенерированный код в этот файл. Для задач анализа данных кодовый агент может генерировать Python-код, а для представления результатов - HTML-код для визуального представления. Затем кодовый агент выполняет код через системные вызовы и сохраняет результаты в папке задачи. Чтобы пользователям было проще увидеть, как выполняется код, Manus также предоставляет сервис предварительного просмотра кода для предварительного просмотра содержимого HTML-файла.

Агент анализа данных фокусируется на задачах обработки и анализа данных. Его рабочий процесс похож на работу агента кода, но главное отличие в том, что агент анализа данных больше сосредоточен на реализации логики анализа данных и извлечении информации.

Перспективы будущего: непрерывно развивающийся мультиагентный интеллект

Несмотря на то, что компания Manus продемонстрировала значительные возможности в области интеллекта задач общего назначения, в таких мультиагентных продуктах еще много места для совершенствования.

Во-первых, в области управления зависимостями от мандатов в настоящее время [todo.md](https://t.co/tYosIUPa9o) Задачи в задании показывают более линейные зависимости. В будущем могут быть введены DAG (направленные ациклические графы) (Примечание: DAG, Directed Acyclic Graph, графическая модель для представления зависимостей и последовательностей выполнения задач, позволяет представлять более сложные потоки задач). для обеспечения более сложных и гибких зависимостей между задачами в соответствии с более сложными требованиями реальных сценариев.

Во-вторых, с точки зрения точности и надежности выполнения задания, можно внедрить автоматизированный тестовый агент, который способен автоматически оценивать и оценивать результаты выполнения задания, и если рейтинг определенного шага слишком низок, система может вернуться к предыдущему узлу задания и повторно выполнить соответствующий шаг, чтобы добиться автоматической коррекции и оптимизации задания.

Кроме того, важным моментом является сближение режимов взаимодействия человека и компьютера. manus может обеспечить гибридные режимы полной автоматизации и вмешательства пользователя. Например, после выполнения шага система может сначала запросить обратную связь от пользователя, а если он не даст обратную связь в течение определенного периода времени, то автоматически продолжит работу, таким образом находя оптимальный баланс между автоматизацией и гибкостью.

Резюме и проблемы

В целом, Manus добился значительного прогресса в инженерной реализации, и его общий опыт взаимодействия выгодно отличается от других подобных продуктов. Однако с технической точки зрения Manus по-прежнему в значительной степени зависит от возможностей базовой модели. Предполагается, что Manus может использовать облегченные модели для распознавания намерений, в то время как планирование задач и рассуждения могут опираться на DeepSeek-R1 Такие крупномасштабные языковые модели. Для распознавания образов и генерации кода передовые модели, такие как Claude-3.7-Sonnet, также являются предпочтительной технологией Manus.

высокий жетон Потребление показывает, что контроль затрат станет ключевой проблемой для популярности таких приложений, как Manus. В будущем эффективное снижение затрат на токены, повышение точности выполнения задач и удовлетворенности пользователей станет ключевым направлением, которое должны продолжать исследовать и оптимизировать все мультиагентные продукты, включая Manus. Сможет ли Manus использоваться в больших масштабах и получить широкое признание на рынке, еще предстоит увидеть в более практических приложениях.