Автор ядра OpenManus делится опытом: как завершить работу над фреймворком Agent за три часа!

Новости ИИОпубликовано 1 год назад Круг обмена ИИ

55.5K 00

На этой неделе технология агентов (интеллектуальных тел) пронеслась по миру технологий с небывалой скоростью, и за этим бумом стоит скачок в возможностях моделирования рассуждений.

Вечером 5 марта Manus дебютировала с мощной демоверсией, мгновенно всколыхнувшей интернет. Всего два дня спустя отечественная команда DeepWisdom MetaGPT и CAMEL AI запустили проекты с открытым исходным кодом OpenManus и OWL, быстро повторив Манус основные функции, вновь всколыхнули интернет-сообщество и сообщество GitHub, вызвав широкое и глубокое обсуждение.

Особенно примечательно, что команда OpenManus, обладающая богатым техническим опытом MetaGPT, завершила создание ядра системы всего за один час и вывела проект в онлайн всего за три часа. Такая потрясающая скорость не только помогла OpenManus набрать более 10 000 звезд на GitHub, но и привлекла к нему внимание как внутри индустрии, так и за ее пределами.

Утром 8 марта JQF пригласил трех основных членов команды OpenManus для проведения углубленной сессии обмена опытом, целью которой было проанализировать принципы технической реализации OpenManus и обсудить будущие тенденции развития технологии Agent.

Все три гостя - ведущие эксперты в области агентостроения: Сирен Хонг, первый автор доклада MetaGPT (ICLR 2024 Oral) и доклада Data Interpreter, а также один из авторов доклада AFLOW (ICLR 2025 Oral), результаты исследований которого неоднократно публиковались на ведущих международных научных конференциях, таких как TPAMI и ICLR, Результаты его исследований были опубликованы в TPAMI, ICLR и других ведущих международных конференциях и журналах. Лян Синьбин - основной разработчик OpenManus. Цзинюй Сян является соавтором OpenManus и первым автором AFlow и SPO.

В своем выступлении три гостя высказали следующие перспективные мысли о будущем направлении развития технологии Agent, а также о задачах, стоящих перед отраслью:

По мере роста возможностей больших языковых моделей (Large Language Models, LLM), процент успешного применения агентов во многих областях значительно возрастет, особенно в относительно стандартных задачах, таких как викторины QA, оценка уровня владения кодом HumanEval и задачи программирования на MBPP Python, где одна модель продемонстрировала отличные возможности решения.
Однако в реальном мире существует большое количество сложных задач с длинным хвостом, таких как сложные задачи машинного обучения, исправление ошибок в коде и комбинаторика поиска, требующая интеграции множества информации для предоставления эффективных ответов пользователям. Эти проблемы все еще требуют значительных технологических инноваций для повышения производительности агентов, особенно при решении проблем "иллюзии" модели.
Прогресс Агента в способности планировать задачи зависит как от улучшения собственных возможностей модели, так и от помощи внешней архитектуры. Более сложный архитектурный дизайн может помочь Агентам лучше понимать и декомпозировать сложные задачи.
С ростом разнообразия инструментов, доступных агентам, новой технической задачей станет предоставление агентам возможности принимать точные решения из большого количества инструментов с похожими функциями при решении одной и той же задачи, выбирать наиболее подходящий инструмент и избегать неправильного выбора.
Основная проблема управления памятью для агентов заключается в том, как найти баланс между стоимостью и эффективностью. Прямое использование полной информации о памяти, хотя и может быть обработано текущими моделями, приводит к значительному увеличению времени и стоимости обработки, что серьезно сказывается на пользовательском опыте, а не на снижении производительности.
В настоящее время эффективным подходом к решению проблемы управления памятью является использование архитектуры с несколькими интеллектуальными телами или стратегии, основанной на использовании инструментов. Например, такие фреймворки, как OpenManus, обычно используют инструменты планирования для предварительной генерации плана задачи, декомпозиции сложной задачи на несколько подзадач с неполным разделением памяти между каждой подзадачей, а также обобщения или сжатия процесса после выполнения задачи, что позволяет снизить вычислительные затраты.
Хотя в бенчмарках мы можем четко определить, правильно ли агент выполнил задание, количественная оценка точности или качества выполнения задания агентом в реальных сценариях применения остается сложной задачей.
Ключом к коммерциализации агента является максимальное удовлетворение задач и потребностей пользователей в реальных сценариях, включая предоставление высоко персонализированной функциональности, которая является единственным способом привлечь пользователей к дальнейшему использованию агента.
Большое количество разработчиков приложений активно изучают Токен Схемы оптимизации потребления, такие как механизмы кэширования или методы сжатия памяти на инженерном уровне, чтобы минимизировать длину контекста, который необходимо передавать для каждого вызова API, и снизить затраты.
Ожидается, что в будущем, объединив возможности множества малых моделей, можно будет достичь результатов, сравнимых или даже превосходящих результаты больших моделей, и получить значительные преимущества в скорости вывода, потреблении Token и стоимости.

Ниже приводится подробное объяснение содержания этого раздела.

01 Ночной хит GitHub, технический фастлейн OpenManus

Лян Синьбин: "После собрания группы 6 марта, сразу после 17:00, Сян Цзинюй предположил, что, предприняв несколько ключевых шагов, мы сможем повторить эффект Мануса".

Вспоминая о возможности начать проект OpenManus, Лян Синьбин сказал: "Когда он впервые увидел демонстрационное видео Manus, он был впечатлен плавностью взаимодействия. Когда он впервые увидел демонстрационный ролик Manus, он был впечатлен плавностью взаимодействия в ролике и интуитивно решил, что Manus должен быть системой с одним интеллектом. "Как один разумный организм может достичь таких превосходных результатов, как он планирует и реализует задачи? Это меня очень шокирует".

В ходе последовавшего разговора команда начала изучать техническое решение для Manus, универсального продукта с искусственным интеллектом для тела, обладающего впечатляющим пользовательским опытом. Однако с технической точки зрения Manus на самом деле представляет собой продуманную интеграцию многих основных фундаментальных технологий, которые были согласованы в отрасли. В итоге команда пришла к выводу, что в Manus используется внешний механизм планирования для координации работы нескольких интеллектов.

После ужина разработка OpenManus была официально запущена, и весь процесс занял около трех часов. "В то время мы не ожидали, что OpenManus так быстро станет популярным". признается Лян Синьбин.

Мультиинтеллектуальная архитектура "Манус": деликатная синергия планирования и исполнения

Основой Manus является архитектура мультиинтеллектуальной системы. Она начинается с декомпозиции требований пользователя с помощью инструмента планирования PlanningTool, который генерирует детальный план с множеством линейных подзадач. Затем система последовательно выполняет каждую подзадачу и динамически назначает ее наиболее подходящему агенту, который выполняет подзадачу, используя ReAct Циклическая модель (Reason and Act), которая постоянно требует от инструмента выполнения задачи.

Возможности планирования и возможности использования инструментов - два столпа компании Manus. Инновация компании Manus, связанная с внедрением инструмента планирования PlanningTool в Multi-Intelligence Framework, сыграла решающую роль. Как показал прорыв модели Claude-3.7 в оценке компетентности кода SWEBench, улучшение производительности частично связано с развитием самой модели, а частично - с более эффективным планированием задач, а предыдущие исследования команды MetaGPT в проекте Data Interpreter показали, что планирование является критическим и эффективным для решения сложных проблем в реальном мире. Предыдущие исследования команды MetaGPT в рамках проекта Data Interpreter также показали, что планирование очень важно и эффективно для решения сложных задач в реальном мире. В результате интеграция возможностей планирования в многоинтеллектуальные и даже одноинтеллектуальные структуры стала важным направлением в развитии технологии агентов.

Команда предполагает, что Манус мог использовать Клод модель в сочетании с собственной посттренинговой моделью и рядом оптимизаций на инженерном уровне, что значительно улучшает возможности использования инструмента в различных сценариях.

Философия дизайна OpenManus: минимализм, возможность подключения и мощные возможности планирования

Концепцию дизайна OpenManus можно обобщить ключевыми словами "минималистский" и "подключаемый". По словам Лян Синьбиня, первоначальная концепция дизайна заключалась в создании чрезвычайно простого фреймворка Агента, с помощью гибкой комбинации подключаемых Инструментов и Подсказок, чтобы реализовать различные функции Агента. Основываясь на этой идее, команда быстро разработала полноценный мини-фреймворк Агента.

Подсказки и использование инструментов - ключевые факторы, определяющие эффективность работы агента ReAct. В OpenManus Prompt отвечает за управление общей поведенческой логикой агента, а Tools определяет пространство действий агента. Поверх ReAct Agent команда OpenManus реализовала легкий ToolCall Agent, основанный на технологии Function Call, который позволяет выбирать и выполнять инструменты более структурированным образом. OpenManus построен на основе ToolCall Agent.

Подключаемый" дизайн обеспечивает большую гибкость и расширяемость, позволяя разработчикам комбинировать Инструменты из разных сценариев для быстрого создания новых Агентов. Разработчики могут быстро создавать новые Агенты, свободно комбинируя Инструменты из разных сценариев, и определение Инструментов очень просто, не нужно писать сложную внутреннюю логику, достаточно просто изменить пространство действий Агента (Инструменты), а сами Инструменты должны обладать хорошей комбинируемостью, и OpenManus стремится сделать слой абстракции более лаконичным и понятным. Предоставляя богатый набор инструментов и поддерживая возможность гибкого оснащения нескольких Агентов различными комбинациями инструментов, OpenManus позволяет легко расширять свои возможности в различных сценариях применения.

Возможности планирования также очень важны. OpenManus опирается на сильные стороны планирования Manus, позволяя декомпозировать задачи с помощью PlanningTool для эффективного решения сложных задач в реальном мире.

Рабочий процесс OpenManus: динамическая постановка задач и совместное выполнение

Рабочий процесс OpenManus понятен и эффективен. Получив запрос пользователя, система сначала использует PlanningTool для создания плана с линейными подзадачами и записывает его в файл в формате markdown. Затем OpenManus разбирает план и поочередно выполняет каждую подзадачу. По мере выполнения каждой подзадачи система динамически назначает задачу агенту, наиболее подходящему для ее выполнения, оснащенному различным набором инструментов для работы с разными типами задач.

Динамическое распределение агентов - одна из главных особенностей OpenManus. Этот гибкий механизм распределения позволяет системе выбирать наиболее подходящего агента для выполнения задания в соответствии с конкретными потребностями и контекстом задачи, что повышает эффективность и качество обработки заданий. В настоящее время OpenManus использует сопоставление регулярных выражений для назначения задач агентам. Если задача не может быть соотнесена с определенным агентом, она будет выполнена с помощью сконфигурированного по умолчанию агента.

В будущем команда OpenManus также рассматривает возможность внедрения большой языковой модели (Large Language Model, LLM) для распределения задач между агентами. Однако использование LLM для распознавания намерений и назначения агента для каждого выполнения задачи, несомненно, увеличит вычислительные затраты и задержки.

Будущее OpenManus: постоянная оптимизация и развитие сообщества

Для дальнейшего улучшения производительности и пользовательского опыта OpenManus команда планирует работать над следующими приоритетами:

Расширенные возможности планирования: PlanningTool постоянно оптимизируется для работы с более сложными сценариями декомпозиции задач и планирования.
Внедрение стандартизированных обзоров: для постоянной оценки и оптимизации производительности OpenManus используются отраслевые наборы бенчмарков, такие как GAIA/TAU-Bench/SWE-Bench.
Расширенная адаптация модели: расширяет поддержку модели от Клода-3-5 до DeepSeek V2.5 и многие другие модели для оптимизации сценариев применения недорогих устройств.
Возможность контейнерного развертывания: упрощает установку и использование OpenManus, снижая барьер входа для пользователей.
Богатая библиотека примеров: добавлено больше практических примеров и подробных анализов успехов и неудач, чтобы помочь пользователям лучше понять и использовать OpenManus.
Front-end и back-end разработка: разработка удобного интерфейса веб-интерфейса для улучшения взаимодействия с пользователями.
RAG Интеграция модулей: Интеграция модуля Retrieval Augmentation Generation (RAG) для предоставления агенту внешней базы знаний, чтобы расширить его возможности получения знаний и рассуждений.

Лян Синьбин отметил, что Manus проделал очень хорошую работу по взаимодействию с продуктами, и у него есть чему поучиться. В настоящее время эффект от OpenManus все еще относительно ограничен, и команда не проводила специальной настройки эффекта.

Первоначальной целью OpenManus является достижение тех же результатов, что и у оригинального Manus. В долгосрочной перспективе команда надеется опираться на большое сообщество разработчиков с открытым исходным кодом, чтобы постоянно оптимизировать Компьютер Основные возможности, такие как "Использование компьютера", "Использование браузера" и "Использование планирования", а также возможности вызова инструментов, выводят OpenManus на более высокий уровень развития интеллекта.

02 Команда MetaGPT: годы технических осадков, три часа на воспроизведение Manus.

Siren Hong: "На самом деле, наша команда накопила многолетний технический опыт в области автоматизации и создания интеллектуальных корпусов для сценариев искусственного интеллекта".

Команда MetaGPT давно привержена идее исследования технологии агентов и открытого исходного кода, и в последние два года она продолжает открывать результаты своих исследований, формирует высококачественные научные статьи и технические отчеты, активно содействуя сообществу. К таким результатам относятся:

MetaGPT: новаторская система метапрограммирования для мультиинтеллекта, в которой изложена основная идея сотрудничества мультиинтеллектов.
Data Interpreter: мощный агент для работы с данными, демонстрирующий огромный потенциал LLM в области анализа данных.
AFlow: автоматизированная система генерации рабочих процессов агентов, позволяющая автоматически исследовать и оптимизировать комбинации агентов.
ФАКТ: Технология переписывания контекста, которая эффективно повышает точность многофакторного поиска.
SELA: агент LLM для автоматизированного машинного обучения с расширенным древовидным поиском, значительно повышающий производительность AutoML.
Самостоятельная оптимизация подсказок: метод самостоятельной оптимизации подсказок, который повышает эффективность и результативность разработки подсказок.
SPO (https://www.modelscope.cn/studios/AI-ModelScope/SPO): инструмент оптимизации слов для подсказок с открытым исходным кодом для сценариев с небольшим количеством образцов или без явной оценки.
Atom of Thoughts for Markov LLM Test-Time Scaling: Atom of Thoughts Approach to Enhance LLM Reasoning in Markov Decision Processes.

Система MetaGPT: краеугольный камень для сотрудничества нескольких разведок

Фреймворк MetaGPT, открытый в 2023 году, стал пионером в области метапрограммирования мультиинтеллекта. Команда MetaGPT считала, что, хотя крупномасштабные модели того времени демонстрировали надежность в решении задач общего назначения, для эффективного решения сложных проблем в человеческом обществе все равно потребуется атомарная разборка проблем и включение их в процесс, более соответствующий человеческим привычкам решения проблем.

"Возможно, вы знакомы с концепцией стандартных операционных процедур (СОП). Назначая СОПы на различные роли и используя опыт и инструментальные возможности каждой роли, мы можем значительно повысить производительность больших моделей при решении сложных задач". Фреймворк MetaGPT основан на этой концепции и предлагает архитектуру мультиинтеллектуального тела со встроенными СОПами, направленную на реализацию возможностей метаобучения или метапрограммирования интеллектов", - объясняет Сирен Хонг.

Этот подход позволил добиться значительных улучшений в таких бенчмарках, как HumanEval и MBPP, превзойдя тогдашнюю модель GPT-4. Команда MetaGPT также подтвердила эту идею в некоторых типичных сценариях разработки программного обеспечения, таких как классическая мини-игра 2048 и игра Snake. Общий показатель успешности MetaGPT значительно выше, чем у других фреймворков с открытым исходным кодом за тот же период.

Интерпретатор данных: интеллектуальный помощник в науке о данных

Опираясь на фреймворк MetaGPT и дизайн интеллектов, команда поняла, что интеллектам также требуются более надежные возможности планирования и использования инструментов, особенно при решении задач машинного обучения или моделирования данных.

С одной стороны, процессы машинного обучения/моделирования данных часто можно планировать с учетом возможностей больших моделей, что позволяет больше сосредоточиться на выполнении и реализации задач. С другой стороны, при работе с большими табличными данными невозможно напрямую ввести все данные из-за ограничения длины контекста больших моделей. Поэтому интеллектам необходимо взаимодействовать с данными через кодовые формы. Исходя из этих соображений, команда MetaGPT начала изучать возможности планирования и использования инструментов во второй половине 2023 года с нововведения Data Interpreter.

существовать Девин В период, когда проекты, подобные этому, привлекали широкое внимание, команда MetaGPT обнаружила, что Data Interpreter достиг уровня младшего аналитика данных в таких задачах, как моделирование данных/машинное обучение. Пользователю достаточно предоставить данные Data Interpreter, и он может самостоятельно выполнять сложные задачи ИИ - от предварительной обработки данных до обучения NLP/CV-моделей.

SELA: Расширение возможностей отладки агентов и обратной связи

Для дальнейшего улучшения работы Data Interpreter команде MetaGPT потребовалось расширить возможности отладки интеллекта и механизм обратной связи с результатами экспериментов. Для этого команда разработала работу под названием "SELA". SELA представляет метод поиска по дереву Монте-Карло (MCTS) поверх Data Interpreter, что позволяет интеллектуальному организму проводить машинное обучение посредством автономных экспериментов Оптимизация задач, изучение разнообразия в процессе рассуждений, корректировка стратегий и шагов решения на основе обратной связи от результатов выполнения, что значительно повышает общую производительность задачи.

Благодаря SELA возможности Data Interpreter в задачах машинного обучения были значительно улучшены, достигнув уровня, сравнимого с инструментами автоматического машинного обучения (AutoML) и превосходящего лучшие проекты с открытым исходным кодом того времени (например, AIDE).

AFlow: автоматизированная генерация рабочих процессов агентов

Тем временем команда MetaGPT также исследовала возможность улучшения способности рассуждения больших моделей на основе технологии Monte Carlo Tree Search (MCTS) и разработала работу AFlow. В отличие от решений с фиксированными СОПами, AFlow способен автоматически искать наиболее подходящий поток решений для различных задач.

Инновация AFlow заключается в том, как улучшить решение различных проблем. AFlow стремится дать системе возможность исследовать оптимальную комбинацию интеллектов (топологию) на основе обратной связи с проблемой, и в конечном итоге сделать комбинацию интеллектов для решения проблемы более динамичной, а масштаб не должен быть предопределен.

AFlow исследует и оптимизирует комбинаторную топологию множественных интеллектов, определяя пространство поиска для атомизации задач и используя методы Монте-Карло. Эта работа достигла результатов SOTA (State-of-the-art) на всех шести наборах данных и была признана ICLR 2025 как Oral, что является свидетельством ее технологического лидерства.

ФАКТ: Расширение возможностей агента по управлению памятью

Команда MetaGPT также заметила, что с увеличением количества шагов решения задач интеллектуальным телом увеличивается и объем его памяти (Memory). Поэтому актуальным становится вопрос о том, как эффективно управлять контекстной информацией разумного тела на протяжении всего процесса решения проблемы.

Для этого команда представляет работу под названием "FACT", которая повышает точность больших моделей при поиске фактов с помощью механизма поиска с несколькими иглами и показывает значительные результаты в задачах "вопрос-ответ" (QA). Эта работа также была принята NAACL.

Кроме того, примерно в сентябре прошлого года команда MetaGPT также изучила платформу оценки возможностей кода SWE-Bench. Они обнаружили, что в таких проблемах, как ремонт кода, агенты должны полагаться на поиск и нахождение файлов, а также на возможности использования компьютера, в то же время предъявляя повышенные требования к возможностям использования инструментов и планирования. Многие исследователи использовали многоинтеллектуальный подход для решения таких длинных цепочек сложных процессов рассуждений. В результате команда MetaGPT также добавила и оптимизировала возможности поиска и расположения файлов в задачах SWE-Bench, которые легли в основу кода OpenManus. Взглянув на код OpenManus, можно обнаружить, что многие из инструментов связаны с восстановлением и поиском кода.

SPO: мощный инструмент для оптимизации слов подсказки

SPO - это мощный набор инструментов для оптимизации слов подсказок. В отличие от традиционных методов оптимизации, требующих больших наборов данных, SPO подходит для сценариев, в которых нет точных оценок или наборы данных ограничены. Например, при написании копий Xiaohongshu или SEO-оптимизации у пользователей может быть лишь небольшое количество удовлетворительных образцов. SPO способен эффективно оптимизировать слова подсказки в условиях ограниченного количества образцов. Инструмент был открыт и получил хорошие отзывы пользователей на платформе Magic Hitch и Hugging Face в Китае.

AOT: Атомарное мышление подпитывает информационные рассуждения

Подход AOT (Atomic Thinking) в основном используется для рассуждений о вопросах и ответах, а также для задач интеграции, таких как интеграция информации из разных отрывков для понимания прочитанного. На данный момент эта работа набрала 350 000 просмотров и в будущем будет интегрирована во фреймворк MetaGPT для дальнейшего расширения его возможностей по обработке информации.

03 Реальные проблемы агентов: анатомия десяти основных вопросов

Вопрос 1: Можно ли полностью решить сложные проблемы после улучшения возможностей крупномасштабного моделирования?

Сирен Хонг: "Действительно, процент успешного решения многих проблем увеличивается по мере роста возможностей более крупных моделей, но сами проблемы никуда не исчезают". Например, в относительно стандартизированных задачах генерации однофункционального кода, таких как QA Q&A, HumanEval и MBPP, одна модель теперь может работать очень хорошо.

С прошлого по нынешний год уровень успешности крупномасштабных моделей для решения этих задач приблизился к уровню реальных приложений. В то же время следует отметить, что в человеческом обществе все еще существует большое количество чрезвычайно сложных проблем с эффектом длинного хвоста, включая машинное обучение, исправление кода и проблемы, требующие поиска комбинаций результатов, прежде чем они станут доступны пользователям. Эти области все еще требуют большого количества технологических инноваций для повышения производительности крупномасштабных моделей, особенно в решении проблем "иллюзии" модели.

Вопрос 2: Какова связь между улучшением возможностей крупномасштабных моделей и развитием технологии агентов?

Сян Цзинюй: "Агент и крупномасштабная модель могут иметь вертикальные или ортогональные отношения. Усовершенствование самого фреймворка получит больше функциональности благодаря расширению возможностей модели, и эти два аспекта не противоречат друг другу".

Агентский фреймворк позволяет большим моделям взаимодействовать с физическим миром или более широкой средой, расширяя их с помощью дополнительных инструментов. В то же время развитие самих больших моделей повышает их способность к рассуждениям и планированию. Эти два направления могут использоваться как совместно, так и разрабатываться независимо друг от друга.

"Эти отношения скорее дополняют друг друга, чем противоречат друг другу". заключил Сян Цзинюй.

Q3. Каков текущий уровень развития модели Foundation Agent Model?

Сян Цзинюй: "Недавно мне довелось следить за некоторыми смежными исследованиями, хотя они, возможно, не совсем относятся к категории Foundation Agent Model".

Он упомянул о попытках команды Пань Цзяи в проекте SWE-GYM, направленном на решение проблемы восстановления кодовой базы. Они использовали данные, полученные после запуска моделей на основе Claude или GPT-4o, и собирали траекторные данные во время работы агента с помощью таких фреймворков, как Openhands. Траекторные данные содержат как успешные, так и неудачные случаи. Собранные траекторные данные были использованы для обучения модели Qwen с открытым исходным кодом, и было замечено, что после этого обучения возможности модели Qwen по исправлению кода значительно улучшились. Детали исследования подробно описаны в статье, а само исследование является надежным и достоверным.

"Сложность обобщения этого вида работы заключается в том, что, например, при оценке в SWE-Bench мы можем однозначно судить о правильности выполнения задания, но в реальных сценариях применения во многих случаях очень сложно количественно оценить точность или качество выполнения задания (например, при написании романа или шутки)". Сян Цзинюй отметил: "Как и в реальных рабочих сценариях, когда стажеров и старших сотрудников просят выполнить задание одновременно и оценивают их работу, на самом деле очень сложно судить объективно и приходится опираться на множество субъективных бизнес-логик и критериев. Подобная автоматическая разработка оценочной обратной связи при выполнении открытых заданий также является важным направлением, которое мы будем изучать в будущем".

Q4. Зависит ли прогресс агента в развитии возможностей планирования в значительной степени от самой крупномасштабной модели?

Сян Цзинюй: "Текущий прогресс в планировании, с одной стороны, зависит от улучшения собственных возможностей модели, а с другой - не может быть отделен от помощи внешних структур, т. е. включения более сложных структур на уровне агента для помощи в планировании". Например, ранние работы над "деревьями мышления" (TOT, thinking trees) значительно повысили производительность моделей во время рассуждений о задачах за счет введения дополнительной структуры. Аналогичная исследовательская работа, связанная со вспомогательными внешними структурами, существует и в области планирования.

Q5. Какие трудности возникают при использовании внешних инструментов для Агента?

Синьбин Лян: "В настоящее время в OpenManus мы по-прежнему используем в основном некоторые существующие инструменты с открытым исходным кодом, такие как Cloud Computer и Browser. Исследования других команд по использованию Browser показали, что эти два инструмента в одиночку могут в принципе выполнить множество задач, и они изначально сформировали прототип Manus".

Кроме того, отвечая на вопрос "если агент хочет использовать инструмент, но в настоящее время такого инструмента не существует", Лян сказал, что команда также предполагает возможность добавления в будущем возможности, позволяющей агентам самостоятельно создавать инструменты. "Когда агенту нужен инструмент для выполнения задачи, он может создать и использовать его самостоятельно, если в текущей среде нет подходящего инструмента. Это еще больше расширит возможности агента".

Сирена Хонг: "Я думаю, что использование инструментов для больших моделей или Агентов само по себе не является чем-то новым. Однако с постепенным увеличением количества инструментов возникают технические трудности: если существует большое количество инструментов со схожими функциями, как Агент может принимать точные решения, выбирать наиболее подходящий инструмент и избегать ошибок при решении одной и той же задачи?"

Кроме того, если вместо стандартизированного интерфейса инструмента используется пользовательский инструмент, можно столкнуться с другой проблемой: параметры инструмента не будут разумно или четко определены, что приведет к тому, что большие модели будут склонны к ошибкам при выработке решений по вызову инструмента, что, в свою очередь, повлияет на эффективность его применения. Это ключевые вопросы, которые необходимо решить в цепочке использования инструмента.

"Еще одна сложность заключается в том, что речь идет не только о выборе и использовании самого инструмента, но и о контексте, который может содержать большое количество подробной информации. Например, когда пользователь открывает несколько веб-страниц одновременно, информация и данные на этих страницах (например, время на конкретном резюме, время начала события, упомянутого на другой веб-странице) могут быть запутанными или неверными, когда Агент интегрирует их для получения конечного результата. Как обеспечить точную обработку агентом этой подробной информации при использовании инструмента - это тоже проблема, на которой необходимо сосредоточиться в практическом применении". добавил Хонг Сируи.

Вопрос 6. Станут ли такие протоколы, как MCP, основными с точки зрения использования инструментов?

Лян Синьбин: "Протокол MCP становится все более популярным".

Способность использовать инструмент фактически зависит от того, обладает ли сама модель хорошей способностью использовать инструмент. Поскольку некоторые модели могут не обладать способностью использовать инструменты или быть слабыми в этом отношении, их эффективность в использовании инструментов будет ограничена. Поэтому популярность протоколов использования инструментов тесно связана с сильными возможностями использования инструментов самими моделями.

Q7. Каковы некоторые достижения и трудности для агента при работе с массивными контекстами (управление памятью)?

Сирен Хонг: "К настоящему времени вы, возможно, уже знаете о некоторых смежных исследованиях, таких как MemoryGPT или проект с открытым исходным кодом Mem0, в которых есть некоторые оптимизации и обработки для более длинных контекстов и управления памятью для агентов".

Например, MemoryGPT обобщает контексты определенной длины, что является очень простым, но эффективным способом мышления, а Mem0 активно использует инструменты в процессе обновления памяти, включающем такие операции, как удаление памяти, обновление памяти и добавление.

"В настоящее время для агентов является сложной проблемой сжатие контекста и сохранение его в памяти при решении сложных задач с большим расстоянием (например, при просмотре веб-страниц, которые могут быть очень длинными с точки зрения информации) и обеспечение того, чтобы критическая информация не была изменена или пропущена после сжатия". Сирен Хонг отмечает, что "некоторые ранние работы показали, что память исчезает со временем или с выполнением задач".

С другой стороны, существуют различные виды человеческой памяти, не только память на семантическую информацию, но и процедурная память, формируемая при использовании инструментов, а также память на связанные с событиями отношения. Академики также оптимизировали разные типы памяти по отдельности.

Выше говорилось об управлении памятью для одного агента. В многоинтеллектуальной системе, однако, память можно использовать более умело. Помимо определенной изоляции воспоминаний, человек хотел бы повторно использовать воспоминания, созданные другими Агентами в процессе решения проблем, чтобы повысить свой собственный опыт в решении конкретных задач. Кроме того, Агенты могут эволюционировать, чтобы повторно использовать опыт решения проблем в группе, в конечном итоге формируя своего рода групповой интеллект.

Синьбин Лян: "Основная проблема управления памятью - это стоимость". Если не принимать во внимание управление памятью, без сжатия и какой-либо обработки, а использовать всю память напрямую, то современные крупномасштабные модели все еще могут быть обработаны, но проблема, к которой это приводит, заключается не в снижении производительности, а в значительном увеличении времени обработки и стоимости, что серьезно влияет на пользовательский опыт.

Таким образом, проблема управления памятью предполагает оптимизацию на инженерном уровне. Уже существует ряд компаний и организаций, которые пытаются оптимизировать решения по управлению памятью.

"Один из современных подходов к решению проблемы управления памятью заключается в использовании многоинтеллектуального или инструментального подхода. Например, в таких фреймворках, как OpenManus, план задачи обычно сначала генерируется инструментом планирования, который разбивает сложную задачу на множество подзадач с неполным разделением памяти между каждой подзадачей и обобщает или сжимает процесс после выполнения задачи". пояснил Лян Синьбин.

Q8. С чем в конечном итоге будет конкурировать Agent в плане коммерциализации на местах?

Сирен Хонг: "Я считаю, что самое главное - это добиться максимального эффекта от задач и эффектов в реальных сценариях, включая функции персонализации". Многие текущие исследования в академических кругах, будь то SWEBench, GAIA или другие задачи тестирования агентов, все еще имеют ограниченные показатели успешности задач. Если этот относительно небольшой стандарт задач применить к реальным бизнес-сценариям, то текущий показатель успешности Агента все равно будет весьма ограниченным в условиях различных пользователей и проблем разной сложности.

"Поэтому, будь то задача программирования или задача сбора данных и создания отчетов, если мы сможем сделать все возможное для широкого спектра пользовательских проблем и сценариев, повысить процент успеха до удовлетворительного уровня и действительно понять, что Агент способен выполнять действия, которые люди ожидают сегодня, я верю, что пользователи будут продолжать использовать Агента в качестве помощника и инструмента в своей повседневной жизни". " подчеркнул Хонг Си Руи.

Q9. Текущая стоимость Manus, OpenManus и других агентов высока, как мы можем еще больше снизить стоимость и повысить эффективность?

Сирен Хонг: "Во-первых, многие производители приложений, включая нас самих, оптимизируют потребление Token. Будь то на инженерном уровне с помощью кэширования или методов сжатия памяти, цель состоит в том, чтобы минимизировать длину контекста каждого вызова API, и это направление постоянной оптимизации на уровне приложений".

"Кроме того, в будущем, скорее всего, люди будут развертывать большое количество небольших моделей для тонкой настройки или обучения с усилением на основе имеющихся данных, уделяя особое внимание оптимизации возможностей использования определенных узлов или инструментов. Ожидается, что благодаря объединению возможностей множества небольших моделей они смогут превзойти или даже превзойти большие модели. Это может привести к значительным преимуществам с точки зрения скорости вычислений, потребления токенов и расходов". добавил Сирен Хонг.

Q10. Как мы можем оценить перспективы мультиинтеллекта для бизнеса?

Siren Hong: "Во-первых, мы считаем, что в области генерации кодов как одноагентные, так и многоинтеллектуальные системы тел будут коммерчески жизнеспособны раньше".

"Мы обнаружили, что большое количество пользователей, которые имеют средний уровень программирования, но понимают некоторые базовые понятия, испытывают большую потребность в помощи интеллигенции или больших моделей, когда хотят самостоятельно создать персональный сайт или простое приложение. Если пользователи используют большие модели напрямую, это может потребовать многократного взаимодействия и утомительного процесса отладки. Но с продуктивной системой интеллектов этот процесс значительно упрощается. Пользователям может потребоваться всего 15 минут или полчаса, даже с учетом последующих изменений требований, чтобы быстро получить удовлетворительный веб-сайт или приложение".

"Поэтому я думаю, что бизнес-перспективы мультиинтеллигенции очевидны и сильны с точки зрения действительно эффективного решения актуальных потребностей пользователей, а генерация кода - это также сценарий, который технология Agent в настоящее время способна решить лучше. В настоящее время готовность пользователей платить в этом отношении также относительно высока". заключил Хонг Сируи.

04 Коммерциализация агентов: генерация кода занимает лидирующие позиции

Вопрос 1. Не могли бы вы кратко представить MGX, продукт для мультиразведки?

Сирена Хонг: "Если вы знакомы с MetaGPT, вы поймете, что MGX Это продукт, в котором несколько интеллектов одновременно работают в режиме онлайн, помогая пользователям решать проблемы. Пользователям просто нужно использовать его как ChatGPT Как только будет введено требование, мощный интеллект разберет задачу и распределит ее по разным интеллектам для выполнения".

"В настоящее время весь продукт сфокусирован на области генерации кода. Например, если пользователь хочет создать персональный сайт, игру или приложение для анализа данных и т. д., наш интеллект справится с этой задачей очень хорошо. В процессе разработки пользователь может в любой момент изменить свои требования, например, скорректировать стиль, типографику или макет фронт-энд проекта, что наш интеллект также способен сделать естественным образом, что значительно снижает стоимость разработки".

В отличие от таких продуктов, как Manus и OpenManus, MGX обладает возможностями автоматического развертывания. В процессе разработки программное обеспечение развертывается автоматически, а пользователи могут просматривать и корректировать результаты в режиме реального времени. Кроме того, каждый из интеллектов в продукте MGX имеет упомянутые ранее вызовы компьютерных инструментов, вызовы инструментов браузера, а также возможности планирования и выполнения кода.

"Мы также изучаем эстетическую оценку дизайна или эффектов визуализации данных внутри компании, и в будущем мы можем создать соответствующий бенчмарк, чтобы помочь крупным моделям или агентам научиться оценивать, соответствуют ли созданные страницы или панели данных ожиданиям пользователей и эстетическим стандартам". рассказал Хонг Сируи.

Ниже приведены примеры веб-сайтов, созданных MGX:

Персональный сайт:

https://alex-portfolio-yhx5c3-v1.mgx.world/
https://photographer-portfolio-myuf2t-v1.mgx.world

Личный блог:

https://personal-blog-v7amdv-v2.mgx.world
https://cute-cartoon-blog-p58801-v1.mgx.world

Личные визитные карточки:

https://portfolio-dveerm-v1.mgx.world
https://emma-anderson-homepage-8rnqm6-v1.mgx.world

Q2. Будет ли MGX DEV разрабатывать новые типы агентов?

Siren Hong: "MGX продолжит добавлять новые типы агентов в будущем. В настоящее время мы проводим внутренние эксперименты с новым типом интеллекта под названием User Agent". Когда пользовательский проект будет развернут, он может не запускаться напрямую или иметь дефекты, приводящие к появлению пустых страниц и т. д. User Agent будет активно обнаруживать эффект развертывания проекта, например, делать скриншоты страницы, активно взаимодействовать с веб-страницей, проверять целесообразность и исполняемость созданного программного обеспечения, а затем уведомлять другие интеллекты, ответственные за разработку, чтобы исправить это, чтобы завершить проект более идеально. "Кроме того, мы можем внутренне осаждать эталоны для эстетической оценки дизайна или эффектов визуализации данных, позволяя Агенту определять, соответствует ли качество и эстетические характеристики страницы или панели данных ожиданиям". добавил Хонг Сирен.

Новости ИИ

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

Маленькая модель, большая мощь: QwQ-32B с параметрами 1/20 для борьбы с полнокровным DeepSeek-R1

Новости ИИ

1 год назад

046.4K

Ali Bailian предоставляет API QwQ-32B бесплатно, и каждый день им могут воспользоваться 1 миллион токенов!

Новости ИИ # Бесплатная большая модель API

1 год назад

066.9K

Держите ИИ на нижней границе, "мальчик, похоронивший фотографию", причастен к делу о задержании человека! Эти трюки научат вас определять подлинность фотографий

Новости ИИ

1 год назад

040.7K

22 лучших генератора 3D-моделей с искусственным интеллектом: превращайте текст, изображения в 3D-модели за считанные секунды

Новости ИИ

1 год назад

088.1K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

Нет комментариев...

Автор ядра OpenManus делится опытом: как завершить работу над фреймворком Agent за три часа!

01 Ночной хит GitHub, технический фастлейн OpenManus

02 Команда MetaGPT: годы технических осадков, три часа на воспроизведение Manus.

03 Реальные проблемы агентов: анатомия десяти основных вопросов

04 Коммерциализация агентов: генерация кода занимает лидирующие позиции

Cursor, Windsurf и Cline: 8 обязательных плагинов для MCP

Cline запускает "Банк памяти": попрощайтесь с амнезией ИИ-помощника и никогда не теряйте контекст проекта

Похожие статьи

Маленькая модель, большая мощь: QwQ-32B с параметрами 1/20 для борьбы с полнокровным DeepSeek-R1

Ali Bailian предоставляет API QwQ-32B бесплатно, и каждый день им могут воспользоваться 1 миллион токенов!

Держите ИИ на нижней границе, "мальчик, похоронивший фотографию", причастен к делу о задержании человека! Эти трюки научат вас определять подлинность фотографий

22 лучших генератора 3D-моделей с искусственным интеллектом: превращайте текст, изображения в 3D-модели за считанные секунды

Нет комментариев

Последние коллекции

Последние статьи

Автор ядра OpenManus делится опытом: как завершить работу над фреймворком Agent за три часа!

01 Ночной хит GitHub, технический фастлейн OpenManus

02 Команда MetaGPT: годы технических осадков, три часа на воспроизведение Manus.

03 Реальные проблемы агентов: анатомия десяти основных вопросов

04 Коммерциализация агентов: генерация кода занимает лидирующие позиции

Cursor, Windsurf и Cline: 8 обязательных плагинов для MCP

Cline запускает "Банк памяти": попрощайтесь с амнезией ИИ-помощника и никогда не теряйте контекст проекта

Похожие статьи

Маленькая модель, большая мощь: QwQ-32B с параметрами 1/20 для борьбы с полнокровным DeepSeek-R1

Ali Bailian предоставляет API QwQ-32B бесплатно, и каждый день им могут воспользоваться 1 миллион токенов!

Держите ИИ на нижней границе, "мальчик, похоронивший фотографию", причастен к делу о задержании человека! Эти трюки научат вас определять подлинность фотографий

22 лучших генератора 3D-моделей с искусственным интеллектом: превращайте текст, изображения в 3D-модели за считанные секунды

Нет комментариев

Избранные инструменты искусственного интеллекта

Последние коллекции

Последние статьи