OpenManus-RL: тонкая настройка больших моделей для улучшения интеллектуального рассуждения и принятия решений
Общее введение
OpenManus-RL - это сотрудничество между UIUC-Ulab и MetaGPT Проект с открытым исходным кодом, совместно разработанный командой сообщества OpenManus и размещенный на GitHub, улучшает возможности рассуждений и принятия решений больших языковых моделей (LLM) интеллекта с помощью методов обучения с подкреплением (RL), исследуя новые методы настройки, основанные на опыте таких моделей, как Deepseek-R1 и QwQ-32B. Команда регулярно публикует информацию о прогрессе, обеспечивая полную прозрачность кода, наборов данных и результатов тестирования, а также поддерживает проверку результатов в таких бенчмарках, как GAIA, AgentBench, WebShop, OSWorld и других. Проект призывает разработчиков со всего мира предоставлять код, наборы данных или вычислительные ресурсы для совместного создания эффективной экосистемы для разработки "умных" тел.
До сих пор создание открытых источников Манус С последним кусочком головоломки MetaGPT действительно идет к цели... Но... MGX Натуральные могут быть покрыты Манус При всех возможностях воспроизведение с открытым исходным кодом - это действительно свинство.

Список функций
- Интеллектуальное построение среды тела: Обеспечивает онлайновую настройку RL для инструментов конфигурирования среды "умного тела".
- Сбор данных о траектории движения: Подключение таких моделей, как Deepseek-R1 и QwQ-32B, для сбора поведенческих данных при выполнении сложных задач.
- Поддержка тюнинга RL: Методы обучения с подкреплением для поддержки индивидуального интеллектуального поведения тела.
- Интеграция бенчмаркинга: Встроенный WebShop, GAIA, OSWorld, AgentBench и другие тестовые среды.
- стратегия диверсификации: Интеграция стратегий RL, таких как Tree-of-Thoughts, Monte Carlo Tree Search.
- Сотрудничество с сообществом: Предоставление кода, наборов данных и т.д. разрешено, и значительные участники могут стать соавторами статьи.
- Обмен информацией о проделанной работе в режиме реального времени: Демонстрация процесса настройки RL и результатов с помощью динамических обновлений.
Использование помощи
Процесс установки
OpenManus-RL прост в установке и подходит для пользователей с базовыми знаниями Python. Ниже приведены подробные шаги:
1. Создание среды Conda
Чтобы избежать конфликтов зависимостей, рекомендуется использовать Conda:
conda create -n openmanus-rl python=3.10
conda activate openmanus-rl
- Предварительные условия: необходимо установить Conda, которую можно загрузить с сайтаОфициальный сайт АнакондыСкачать.
- После активации терминал отображает
(openmanus-rl)
.
2. Клонирование проектов
Убедитесь, что Git установлен (проверьте:git --version
Если вы не установили программное обеспечение, вы можете загрузить его с сайтаgit-scm.(Скачать):
git clone https://github.com/OpenManus/OpenManus-RL.git
cd OpenManus-RL
- Загрузите код и перейдите в каталог проекта.
3. Установка зависимостей
Выполните его в корневом каталоге проекта:
pip install -r requirements.txt
- Если загрузка идет медленно, воспользуйтесь домашним зеркалом:
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
- Инструменты визуализации требуют дополнительной установки:
pip install matplotlib numpy
4. Модели конфигурации и наборы данных
- Контролируемая тонкая настройка (SFT): Укажите модель и набор данных:
python -m openmanus_rl.sft --model_name_or_path Qwen/Qwen2.5-1.5B-Instruct --dataset_name CharlieDreemur/OpenManus-RL
- Настройка обучения с применением подкрепления (GRPO): Настройте функцию вознаграждения:
python -m openmanus_rl.grpo --model_name_or_path Qwen/Qwen2.5-1.5B-Instruct --dataset_name CharlieDreemur/OpenManus-RL-GRPO --reward_funcs accuracy format tag_count
- Набор данных доступен по адресуОбнимая лицоПолучите.
5. Запуск проекта
- Один графический процессор, на котором работает SFT:
python -m openmanus_rl.sft --output_dir data/sft-output
- Мульти-GPU под управлением GRPO (требуется настройка)
zero3.yaml
):
accelerate launch --config_file=configs/accelerate_configs/zero3.yaml openmanus_rl/grpo.py --output_dir data/grpo-output
Основные функции
Интеллектуальное построение среды тела
- процедура::
- быть в движении
python -m openmanus_rl.sft
Создайте базовое окружение. - Изменение файлов конфигурации (например, целей миссии или функций вознаграждения).
- осуществлять
python -m openmanus_rl.grpo
Начните настройку.
- быть в движении
- Сценарии использования: Настройка интеллектуальной среды тела для решения конкретных задач (например, принятия решений о покупках).
Сбор данных и тестирование
- процедура::
- Модель конфигурации (например, Deepseek-R1):
python -m openmanus_rl.grpo --model_name_or_path Deepseek-R1
- Запустите тест:
--benchmark GAIA
Результаты сохраняются вdata/
Каталог.
- Сценарии использования: Анализ эффективности интеллекта в сложных задачах.
Операции настройки RL
- процедура::
- Запустите режим GRPO:
python -m openmanus_rl.grpo --reward_funcs accuracy
- Просмотр журналов тренировок, моделей, сохраненных в
data/grpo-output
.
- Сценарии использования: Оптимизация интеллектуального поведения тела, например, повышение успешности покупки в WebShop.
Вклад в развитие сообщества
- процедура::
- Форк проекта на ваш личный аккаунт GitHub.
- Местная модификация и подчинение:
git add .
git commit -m "优化RL策略"
git push origin main
- Подайте запрос на получение, или свяжитесь с нами по электронной почте
kunlunz2@illinois.edu
.
- Сценарии использования: Вносить новые алгоритмы и наборы данных и участвовать в разработке основных направлений.
Основные функции
Поддержка тюнинга RL
- Как это работает: Запустите GRPO, указав функцию вознаграждения (например.
accuracy
), процесс обучения отображается в журнале в реальном времени, а по завершении модель сохраняется в указанном каталоге. - эффект: Интеллектуальные тела могут адаптировать свое поведение к задаче, например, оптимизировать выполнение мультимодальных задач в OSWorld.
Интеграция бенчмаркинга
- Как это работает: Беги
python -m openmanus_rl.grpo --benchmark AgentBench
Система автоматически генерирует отчеты о количестве успешных попыток, времени отклика и т. д. - эффект: Предоставьте количественные показатели, чтобы помочь разработчикам сравнить производительность модели.
стратегия диверсификации
- Как это работает: Выберите политику в файле конфигурации (например.
Tree-of-Thoughts
), выполните команду tuning, чтобы проверить эффект. - эффект: Повышение способности интеллектуалов к рассуждениям в задачах долгосрочного планирования.
OpenManus-RL использует эти функции, чтобы помочь пользователям быстро начать работу. Проект также предоставляет группу сообщества (см. GitHub "Community Group"), к которой вы можете присоединиться, чтобы общаться с разработчиками и получать самую свежую информацию.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...