OpenManus-RL: тонкая настройка больших моделей для улучшения интеллектуального рассуждения и принятия решений

Последние ресурсы по искусственному интеллектуОбновлено 10 месяцев назад Круг обмена ИИ

Общее введение

OpenManus-RL - это сотрудничество между UIUC-Ulab и MetaGPT Проект с открытым исходным кодом, совместно разработанный командой сообщества OpenManus и размещенный на GitHub, улучшает возможности рассуждений и принятия решений больших языковых моделей (LLM) интеллекта с помощью методов обучения с подкреплением (RL), исследуя новые методы настройки, основанные на опыте таких моделей, как Deepseek-R1 и QwQ-32B. Команда регулярно публикует информацию о прогрессе, обеспечивая полную прозрачность кода, наборов данных и результатов тестирования, а также поддерживает проверку результатов в таких бенчмарках, как GAIA, AgentBench, WebShop, OSWorld и других. Проект призывает разработчиков со всего мира предоставлять код, наборы данных или вычислительные ресурсы для совместного создания эффективной экосистемы для разработки "умных" тел.

До сих пор создание открытых источников Манус С последним кусочком головоломки MetaGPT действительно идет к цели... Но... MGX Натуральные могут быть покрыты Манус При всех возможностях воспроизведение с открытым исходным кодом - это действительно свинство.

Список функций

Интеллектуальное построение среды тела: Обеспечивает онлайновую настройку RL для инструментов конфигурирования среды "умного тела".
Сбор данных о траектории движения: Подключение таких моделей, как Deepseek-R1 и QwQ-32B, для сбора поведенческих данных при выполнении сложных задач.
Поддержка тюнинга RL: Методы обучения с подкреплением для поддержки индивидуального интеллектуального поведения тела.
Интеграция бенчмаркинга: Встроенный WebShop, GAIA, OSWorld, AgentBench и другие тестовые среды.
стратегия диверсификации: Интеграция стратегий RL, таких как Tree-of-Thoughts, Monte Carlo Tree Search.
Сотрудничество с сообществом: Предоставление кода, наборов данных и т.д. разрешено, и значительные участники могут стать соавторами статьи.
Обмен информацией о проделанной работе в режиме реального времени: Демонстрация процесса настройки RL и результатов с помощью динамических обновлений.

Использование помощи

Процесс установки

OpenManus-RL прост в установке и подходит для пользователей с базовыми знаниями Python. Ниже приведены подробные шаги:

1. Создание среды Conda

Чтобы избежать конфликтов зависимостей, рекомендуется использовать Conda:

conda create -n openmanus-rl python=3.10  
conda activate openmanus-rl

Предварительные условия: необходимо установить Conda, которую можно загрузить с сайтаОфициальный сайт АнакондыСкачать.
После активации терминал отображает(openmanus-rl).

2. Клонирование проектов

Убедитесь, что Git установлен (проверьте:git --versionЕсли вы не установили программное обеспечение, вы можете загрузить его с сайтаgit-scm.(Скачать):

git clone https://github.com/OpenManus/OpenManus-RL.git  
cd OpenManus-RL

Загрузите код и перейдите в каталог проекта.

3. Установка зависимостей

Выполните его в корневом каталоге проекта:

pip install -r requirements.txt

Если загрузка идет медленно, воспользуйтесь домашним зеркалом:

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

Инструменты визуализации требуют дополнительной установки:

pip install matplotlib numpy

4. Модели конфигурации и наборы данных

Контролируемая тонкая настройка (SFT): Укажите модель и набор данных:

python -m openmanus_rl.sft --model_name_or_path Qwen/Qwen2.5-1.5B-Instruct --dataset_name CharlieDreemur/OpenManus-RL

Настройка обучения с применением подкрепления (GRPO): Настройте функцию вознаграждения:

python -m openmanus_rl.grpo --model_name_or_path Qwen/Qwen2.5-1.5B-Instruct --dataset_name CharlieDreemur/OpenManus-RL-GRPO --reward_funcs accuracy format tag_count

Набор данных доступен по адресуОбнимая лицоПолучите.

5. Запуск проекта

Один графический процессор, на котором работает SFT:

python -m openmanus_rl.sft --output_dir data/sft-output

Мульти-GPU под управлением GRPO (требуется настройка)zero3.yaml):

accelerate launch --config_file=configs/accelerate_configs/zero3.yaml openmanus_rl/grpo.py --output_dir data/grpo-output

Основные функции

Интеллектуальное построение среды тела

процедура::
1. быть в движенииpython -m openmanus_rl.sftСоздайте базовое окружение.
2. Изменение файлов конфигурации (например, целей миссии или функций вознаграждения).
3. осуществлятьpython -m openmanus_rl.grpoНачните настройку.
Сценарии использования: Настройка интеллектуальной среды тела для решения конкретных задач (например, принятия решений о покупках).

Сбор данных и тестирование

процедура::
1. Модель конфигурации (например, Deepseek-R1):

python -m openmanus_rl.grpo --model_name_or_path Deepseek-R1

Запустите тест:--benchmark GAIAРезультаты сохраняются вdata/Каталог.

Сценарии использования: Анализ эффективности интеллекта в сложных задачах.

Операции настройки RL

процедура::
1. Запустите режим GRPO:

python -m openmanus_rl.grpo --reward_funcs accuracy

Просмотр журналов тренировок, моделей, сохраненных вdata/grpo-output.

Сценарии использования: Оптимизация интеллектуального поведения тела, например, повышение успешности покупки в WebShop.

Вклад в развитие сообщества

процедура::
1. Форк проекта на ваш личный аккаунт GitHub.
2. Местная модификация и подчинение:

git add .  
git commit -m "优化RL策略"  
git push origin main

Подайте запрос на получение, или свяжитесь с нами по электронной почтеkunlunz2@illinois.edu.

Сценарии использования: Вносить новые алгоритмы и наборы данных и участвовать в разработке основных направлений.

Основные функции

Поддержка тюнинга RL

Как это работает: Запустите GRPO, указав функцию вознаграждения (например.accuracy), процесс обучения отображается в журнале в реальном времени, а по завершении модель сохраняется в указанном каталоге.
эффект: Интеллектуальные тела могут адаптировать свое поведение к задаче, например, оптимизировать выполнение мультимодальных задач в OSWorld.

Интеграция бенчмаркинга

Как это работает: Бегиpython -m openmanus_rl.grpo --benchmark AgentBenchСистема автоматически генерирует отчеты о количестве успешных попыток, времени отклика и т. д.
эффект: Предоставьте количественные показатели, чтобы помочь разработчикам сравнить производительность модели.

стратегия диверсификации

Как это работает: Выберите политику в файле конфигурации (например.Tree-of-Thoughts), выполните команду tuning, чтобы проверить эффект.
эффект: Повышение способности интеллектуалов к рассуждениям в задачах долгосрочного планирования.

OpenManus-RL использует эти функции, чтобы помочь пользователям быстро начать работу. Проект также предоставляет группу сообщества (см. GitHub "Community Group"), к которой вы можете присоединиться, чтобы общаться с разработчиками и получать самую свежую информацию.