OpenManus-RL: тонкая настройка больших моделей для улучшения интеллектуального рассуждения и принятия решений

Общее введение

OpenManus-RL - это сотрудничество между UIUC-Ulab и MetaGPT Проект с открытым исходным кодом, совместно разработанный командой сообщества OpenManus и размещенный на GitHub, улучшает возможности рассуждений и принятия решений больших языковых моделей (LLM) интеллекта с помощью методов обучения с подкреплением (RL), исследуя новые методы настройки, основанные на опыте таких моделей, как Deepseek-R1 и QwQ-32B. Команда регулярно публикует информацию о прогрессе, обеспечивая полную прозрачность кода, наборов данных и результатов тестирования, а также поддерживает проверку результатов в таких бенчмарках, как GAIA, AgentBench, WebShop, OSWorld и других. Проект призывает разработчиков со всего мира предоставлять код, наборы данных или вычислительные ресурсы для совместного создания эффективной экосистемы для разработки "умных" тел.

До сих пор создание открытых источников Манус С последним кусочком головоломки MetaGPT действительно идет к цели... Но... MGX Натуральные могут быть покрыты Манус При всех возможностях воспроизведение с открытым исходным кодом - это действительно свинство.

OpenManus-RL:微调大模型强化智能体推理与决策能力

 

Список функций

  • Интеллектуальное построение среды тела: Обеспечивает онлайновую настройку RL для инструментов конфигурирования среды "умного тела".
  • Сбор данных о траектории движения: Подключение таких моделей, как Deepseek-R1 и QwQ-32B, для сбора поведенческих данных при выполнении сложных задач.
  • Поддержка тюнинга RL: Методы обучения с подкреплением для поддержки индивидуального интеллектуального поведения тела.
  • Интеграция бенчмаркинга: Встроенный WebShop, GAIA, OSWorld, AgentBench и другие тестовые среды.
  • стратегия диверсификации: Интеграция стратегий RL, таких как Tree-of-Thoughts, Monte Carlo Tree Search.
  • Сотрудничество с сообществом: Предоставление кода, наборов данных и т.д. разрешено, и значительные участники могут стать соавторами статьи.
  • Обмен информацией о проделанной работе в режиме реального времени: Демонстрация процесса настройки RL и результатов с помощью динамических обновлений.

Использование помощи

Процесс установки

OpenManus-RL прост в установке и подходит для пользователей с базовыми знаниями Python. Ниже приведены подробные шаги:

1. Создание среды Conda

Чтобы избежать конфликтов зависимостей, рекомендуется использовать Conda:

conda create -n openmanus-rl python=3.10  
conda activate openmanus-rl
  • Предварительные условия: необходимо установить Conda, которую можно загрузить с сайтаОфициальный сайт АнакондыСкачать.
  • После активации терминал отображает(openmanus-rl).

2. Клонирование проектов

Убедитесь, что Git установлен (проверьте:git --versionЕсли вы не установили программное обеспечение, вы можете загрузить его с сайтаgit-scm.(Скачать):

git clone https://github.com/OpenManus/OpenManus-RL.git  
cd OpenManus-RL
  • Загрузите код и перейдите в каталог проекта.

3. Установка зависимостей

Выполните его в корневом каталоге проекта:

pip install -r requirements.txt
  • Если загрузка идет медленно, воспользуйтесь домашним зеркалом:
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
  • Инструменты визуализации требуют дополнительной установки:
pip install matplotlib numpy

4. Модели конфигурации и наборы данных

  • Контролируемая тонкая настройка (SFT): Укажите модель и набор данных:
python -m openmanus_rl.sft --model_name_or_path Qwen/Qwen2.5-1.5B-Instruct --dataset_name CharlieDreemur/OpenManus-RL
  • Настройка обучения с применением подкрепления (GRPO): Настройте функцию вознаграждения:
python -m openmanus_rl.grpo --model_name_or_path Qwen/Qwen2.5-1.5B-Instruct --dataset_name CharlieDreemur/OpenManus-RL-GRPO --reward_funcs accuracy format tag_count

5. Запуск проекта

  • Один графический процессор, на котором работает SFT:
python -m openmanus_rl.sft --output_dir data/sft-output
  • Мульти-GPU под управлением GRPO (требуется настройка)zero3.yaml):
accelerate launch --config_file=configs/accelerate_configs/zero3.yaml openmanus_rl/grpo.py --output_dir data/grpo-output

Основные функции

Интеллектуальное построение среды тела

  • процедура::
    1. быть в движенииpython -m openmanus_rl.sftСоздайте базовое окружение.
    2. Изменение файлов конфигурации (например, целей миссии или функций вознаграждения).
    3. осуществлятьpython -m openmanus_rl.grpoНачните настройку.
  • Сценарии использования: Настройка интеллектуальной среды тела для решения конкретных задач (например, принятия решений о покупках).

Сбор данных и тестирование

  • процедура::
    1. Модель конфигурации (например, Deepseek-R1):
python -m openmanus_rl.grpo --model_name_or_path Deepseek-R1
  1. Запустите тест:--benchmark GAIAРезультаты сохраняются вdata/Каталог.
  • Сценарии использования: Анализ эффективности интеллекта в сложных задачах.

Операции настройки RL

  • процедура::
    1. Запустите режим GRPO:
python -m openmanus_rl.grpo --reward_funcs accuracy
  1. Просмотр журналов тренировок, моделей, сохраненных вdata/grpo-output.
  • Сценарии использования: Оптимизация интеллектуального поведения тела, например, повышение успешности покупки в WebShop.

Вклад в развитие сообщества

  • процедура::
    1. Форк проекта на ваш личный аккаунт GitHub.
    2. Местная модификация и подчинение:
git add .  
git commit -m "优化RL策略"  
git push origin main
  1. Подайте запрос на получение, или свяжитесь с нами по электронной почтеkunlunz2@illinois.edu.
  • Сценарии использования: Вносить новые алгоритмы и наборы данных и участвовать в разработке основных направлений.

Основные функции

Поддержка тюнинга RL

  • Как это работает: Запустите GRPO, указав функцию вознаграждения (например.accuracy), процесс обучения отображается в журнале в реальном времени, а по завершении модель сохраняется в указанном каталоге.
  • эффект: Интеллектуальные тела могут адаптировать свое поведение к задаче, например, оптимизировать выполнение мультимодальных задач в OSWorld.

Интеграция бенчмаркинга

  • Как это работает: Бегиpython -m openmanus_rl.grpo --benchmark AgentBenchСистема автоматически генерирует отчеты о количестве успешных попыток, времени отклика и т. д.
  • эффект: Предоставьте количественные показатели, чтобы помочь разработчикам сравнить производительность модели.

стратегия диверсификации

  • Как это работает: Выберите политику в файле конфигурации (например.Tree-of-Thoughts), выполните команду tuning, чтобы проверить эффект.
  • эффект: Повышение способности интеллектуалов к рассуждениям в задачах долгосрочного планирования.

OpenManus-RL использует эти функции, чтобы помочь пользователям быстро начать работу. Проект также предоставляет группу сообщества (см. GitHub "Community Group"), к которой вы можете присоединиться, чтобы общаться с разработчиками и получать самую свежую информацию.

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...