OpenManus-RL: ajuste de grandes modelos para mejorar el razonamiento corporal inteligente y la toma de decisiones

Introducción general

OpenManus-RL es una colaboración entre UIUC-Ulab y la MetaGPT Este proyecto de código abierto, desarrollado conjuntamente por el equipo OpenManus de la comunidad y alojado en GitHub, mejora las capacidades de razonamiento y toma de decisiones de las inteligencias de grandes modelos lingüísticos (LLM) mediante técnicas de aprendizaje por refuerzo (RL), explorando nuevos métodos de ajuste basados en la experiencia de modelos como Deepseek-R1 y QwQ-32B. El equipo hace públicos los avances de forma periódica, con total transparencia del código, los conjuntos de datos y los resultados de las pruebas, y apoya la validación de los resultados en puntos de referencia como GAIA, AgentBench, WebShop y OSWorld, entre otros. El proyecto anima a desarrolladores de todo el mundo a aportar código, conjuntos de datos o recursos informáticos para construir conjuntamente un ecosistema eficiente de desarrollo de cuerpos inteligentes.

Hasta ahora, la construcción de código abierto Manus Con la última pieza del rompecabezas en su sitio, MetaGPT va a por todas... Pero... MGX Natural puede cubrirse Manus Con todas las posibilidades, la reproducción en código abierto es, en efecto, a cuestas.

OpenManus-RL:微调大模型强化智能体推理与决策能力

 

Lista de funciones

  • Construcción inteligente del entorno corporal: Proporciona el ajuste RL en línea de la herramienta de configuración del entorno Smartbody.
  • Recogida de datos de la trayectoriaConecta modelos como Deepseek-R1 y QwQ-32B para recopilar datos sobre el comportamiento en tareas complejas.
  • Soporte RL Tuning: Métodos de aprendizaje por refuerzo para apoyar un comportamiento corporal inteligente personalizado.
  • Integración de la evaluación comparativa: WebShop, GAIA, OSWorld, AgentBench y otros entornos de prueba incorporados.
  • estrategia de diversificaciónIntegración de estrategias de RL como Tree-of-Thoughts, Monte Carlo Tree Search.
  • Colaboración comunitariaSe permite la presentación de código, conjuntos de datos, etc., y los colaboradores importantes pueden convertirse en coautores del artículo.
  • Compartir los progresos en tiempo realDemostrar el proceso de ajuste RL y los resultados mediante actualizaciones dinámicas.

Utilizar la ayuda

Proceso de instalación

OpenManus-RL es fácil de instalar y adecuado para usuarios con conocimientos básicos de Python. A continuación se detallan los pasos a seguir:

1. Creación del entorno Conda

Para evitar conflictos de dependencias, se recomienda Conda:

conda create -n openmanus-rl python=3.10  
conda activate openmanus-rl
  • Requisitos previos: Conda debe estar instalado y puede descargarse de la páginaPágina oficial de AnacondaDescargar.
  • Tras la activación, el terminal muestra(openmanus-rl).

2. Clonación de proyectos

Asegúrese de que Git está instalado (comprobar:git --versionSi no instala el software, puede descargarlo de la páginagit-scm.(Descargar):

git clone https://github.com/OpenManus/OpenManus-RL.git  
cd OpenManus-RL
  • Descargue el código y vaya al directorio del proyecto.

3. Instalación de dependencias

Ejecútelo en el directorio raíz del proyecto:

pip install -r requirements.txt
  • Si la descarga es lenta, utiliza una réplica doméstica:
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
  • Las herramientas de visualización requieren una instalación adicional:
pip install matplotlib numpy

4. Modelos de configuración y conjuntos de datos

  • Ajuste fino supervisado (SFT)Especifique el modelo y el conjunto de datos:
python -m openmanus_rl.sft --model_name_or_path Qwen/Qwen2.5-1.5B-Instruct --dataset_name CharlieDreemur/OpenManus-RL
  • Ajuste del aprendizaje por refuerzo (GRPO)Configura la función de recompensa:
python -m openmanus_rl.grpo --model_name_or_path Qwen/Qwen2.5-1.5B-Instruct --dataset_name CharlieDreemur/OpenManus-RL-GRPO --reward_funcs accuracy format tag_count
  • El conjunto de datos está disponible enCara abrazadaConsíguelo.

5. Ejecución del proyecto

  • Una sola GPU ejecutando SFT:
python -m openmanus_rl.sft --output_dir data/sft-output
  • Multi-GPU ejecutando GRPO (requiere configuración)zero3.yaml):
accelerate launch --config_file=configs/accelerate_configs/zero3.yaml openmanus_rl/grpo.py --output_dir data/grpo-output

Funciones principales

Construcción inteligente del entorno corporal

  • procedimiento::
    1. estar en movimientopython -m openmanus_rl.sftGenerar el entorno base.
    2. Modificar los archivos de configuración (por ejemplo, los objetivos de la misión o las funciones de recompensa).
    3. llevar a cabopython -m openmanus_rl.grpoEmpieza a afinar.
  • Escenarios de uso: Personalización del entorno del cuerpo inteligente para tareas específicas (por ejemplo, decisiones de compra).

Recogida de datos y pruebas

  • procedimiento::
    1. Modelo de configuración (por ejemplo, Deepseek-R1):
python -m openmanus_rl.grpo --model_name_or_path Deepseek-R1
  1. Haz la prueba:--benchmark GAIALos resultados se guardan endata/Catálogo.
  • Escenarios de uso: Análisis del rendimiento de las inteligencias en tareas complejas.

Operaciones de ajuste RL

  • procedimiento::
    1. Ejecuta el modo GRPO:
python -m openmanus_rl.grpo --reward_funcs accuracy
  1. Ver registros de entrenamiento, modelos guardados endata/grpo-output.
  • Escenarios de uso: Optimización del comportamiento corporal inteligente, por ejemplo, mejorando el éxito de la compra en la tienda web.

Contribuciones comunitarias

  • procedimiento::
    1. Abre el proyecto en tu cuenta personal de GitHub.
    2. Modificación local y presentación:
git add .  
git commit -m "优化RL策略"  
git push origin main
  1. Envíe una Pull Request, o póngase en contacto por correo electrónicokunlunz2@illinois.edu.
  • Escenarios de usoContribuir con nuevos algoritmos o conjuntos de datos y participar en el desarrollo del núcleo.

Funciones destacadas

Soporte RL Tuning

  • Cómo funcionaEjecuta GRPO, especificando la función de recompensa (p. ej.accuracy), el proceso de entrenamiento muestra un registro en tiempo real y el modelo se guarda en un directorio especificado al finalizar.
  • efectoLos cuerpos inteligentes pueden adaptar su comportamiento a la tarea, por ejemplo, optimizando el rendimiento de tareas multimodales en OSWorld.

Integración de la evaluación comparativa

  • Cómo funciona: Ejecutarpython -m openmanus_rl.grpo --benchmark AgentBenchEl sistema genera automáticamente informes sobre los índices de éxito, los tiempos de respuesta, etc.
  • efectoProporcionar métricas cuantitativas para ayudar a los desarrolladores a comparar el rendimiento de los modelos.

estrategia de diversificación

  • Cómo funciona: Seleccione la política en el archivo de configuración (p. ej.Tree-of-Thoughts), ejecute el comando de ajuste para comprobar el efecto.
  • efecto: Mejora de la capacidad de razonamiento de Intelligentsia en tareas de planificación a largo plazo.

OpenManus-RL utiliza estas características para ayudar a los usuarios a empezar rápidamente. El proyecto también ofrece un grupo comunitario (véase GitHub "Community Group"), al que puede unirse para comunicarse con los desarrolladores y obtener la información más reciente.

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...