OpenManus-RL: ajuste de grandes modelos para mejorar el razonamiento corporal inteligente y la toma de decisiones
Últimos recursos sobre IAActualizado hace 5 meses Círculo de intercambio de inteligencia artificial 2K 00
Introducción general
OpenManus-RL es una colaboración entre UIUC-Ulab y la MetaGPT Este proyecto de código abierto, desarrollado conjuntamente por el equipo OpenManus de la comunidad y alojado en GitHub, mejora las capacidades de razonamiento y toma de decisiones de las inteligencias de grandes modelos lingüísticos (LLM) mediante técnicas de aprendizaje por refuerzo (RL), explorando nuevos métodos de ajuste basados en la experiencia de modelos como Deepseek-R1 y QwQ-32B. El equipo hace públicos los avances de forma periódica, con total transparencia del código, los conjuntos de datos y los resultados de las pruebas, y apoya la validación de los resultados en puntos de referencia como GAIA, AgentBench, WebShop y OSWorld, entre otros. El proyecto anima a desarrolladores de todo el mundo a aportar código, conjuntos de datos o recursos informáticos para construir conjuntamente un ecosistema eficiente de desarrollo de cuerpos inteligentes.
Hasta ahora, la construcción de código abierto Manus Con la última pieza del rompecabezas en su sitio, MetaGPT va a por todas... Pero... MGX Natural puede cubrirse Manus Con todas las posibilidades, la reproducción en código abierto es, en efecto, a cuestas.

Lista de funciones
- Construcción inteligente del entorno corporal: Proporciona el ajuste RL en línea de la herramienta de configuración del entorno Smartbody.
- Recogida de datos de la trayectoriaConecta modelos como Deepseek-R1 y QwQ-32B para recopilar datos sobre el comportamiento en tareas complejas.
- Soporte RL Tuning: Métodos de aprendizaje por refuerzo para apoyar un comportamiento corporal inteligente personalizado.
- Integración de la evaluación comparativa: WebShop, GAIA, OSWorld, AgentBench y otros entornos de prueba incorporados.
- estrategia de diversificaciónIntegración de estrategias de RL como Tree-of-Thoughts, Monte Carlo Tree Search.
- Colaboración comunitariaSe permite la presentación de código, conjuntos de datos, etc., y los colaboradores importantes pueden convertirse en coautores del artículo.
- Compartir los progresos en tiempo realDemostrar el proceso de ajuste RL y los resultados mediante actualizaciones dinámicas.
Utilizar la ayuda
Proceso de instalación
OpenManus-RL es fácil de instalar y adecuado para usuarios con conocimientos básicos de Python. A continuación se detallan los pasos a seguir:
1. Creación del entorno Conda
Para evitar conflictos de dependencias, se recomienda Conda:
conda create -n openmanus-rl python=3.10
conda activate openmanus-rl
- Requisitos previos: Conda debe estar instalado y puede descargarse de la páginaPágina oficial de AnacondaDescargar.
- Tras la activación, el terminal muestra
(openmanus-rl)
.
2. Clonación de proyectos
Asegúrese de que Git está instalado (comprobar:git --version
Si no instala el software, puede descargarlo de la páginagit-scm.(Descargar):
git clone https://github.com/OpenManus/OpenManus-RL.git
cd OpenManus-RL
- Descargue el código y vaya al directorio del proyecto.
3. Instalación de dependencias
Ejecútelo en el directorio raíz del proyecto:
pip install -r requirements.txt
- Si la descarga es lenta, utiliza una réplica doméstica:
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
- Las herramientas de visualización requieren una instalación adicional:
pip install matplotlib numpy
4. Modelos de configuración y conjuntos de datos
- Ajuste fino supervisado (SFT)Especifique el modelo y el conjunto de datos:
python -m openmanus_rl.sft --model_name_or_path Qwen/Qwen2.5-1.5B-Instruct --dataset_name CharlieDreemur/OpenManus-RL
- Ajuste del aprendizaje por refuerzo (GRPO)Configura la función de recompensa:
python -m openmanus_rl.grpo --model_name_or_path Qwen/Qwen2.5-1.5B-Instruct --dataset_name CharlieDreemur/OpenManus-RL-GRPO --reward_funcs accuracy format tag_count
- El conjunto de datos está disponible enCara abrazadaConsíguelo.
5. Ejecución del proyecto
- Una sola GPU ejecutando SFT:
python -m openmanus_rl.sft --output_dir data/sft-output
- Multi-GPU ejecutando GRPO (requiere configuración)
zero3.yaml
):
accelerate launch --config_file=configs/accelerate_configs/zero3.yaml openmanus_rl/grpo.py --output_dir data/grpo-output
Funciones principales
Construcción inteligente del entorno corporal
- procedimiento::
- estar en movimiento
python -m openmanus_rl.sft
Generar el entorno base. - Modificar los archivos de configuración (por ejemplo, los objetivos de la misión o las funciones de recompensa).
- llevar a cabo
python -m openmanus_rl.grpo
Empieza a afinar.
- estar en movimiento
- Escenarios de uso: Personalización del entorno del cuerpo inteligente para tareas específicas (por ejemplo, decisiones de compra).
Recogida de datos y pruebas
- procedimiento::
- Modelo de configuración (por ejemplo, Deepseek-R1):
python -m openmanus_rl.grpo --model_name_or_path Deepseek-R1
- Haz la prueba:
--benchmark GAIA
Los resultados se guardan endata/
Catálogo.
- Escenarios de uso: Análisis del rendimiento de las inteligencias en tareas complejas.
Operaciones de ajuste RL
- procedimiento::
- Ejecuta el modo GRPO:
python -m openmanus_rl.grpo --reward_funcs accuracy
- Ver registros de entrenamiento, modelos guardados en
data/grpo-output
.
- Escenarios de uso: Optimización del comportamiento corporal inteligente, por ejemplo, mejorando el éxito de la compra en la tienda web.
Contribuciones comunitarias
- procedimiento::
- Abre el proyecto en tu cuenta personal de GitHub.
- Modificación local y presentación:
git add .
git commit -m "优化RL策略"
git push origin main
- Envíe una Pull Request, o póngase en contacto por correo electrónico
kunlunz2@illinois.edu
.
- Escenarios de usoContribuir con nuevos algoritmos o conjuntos de datos y participar en el desarrollo del núcleo.
Funciones destacadas
Soporte RL Tuning
- Cómo funcionaEjecuta GRPO, especificando la función de recompensa (p. ej.
accuracy
), el proceso de entrenamiento muestra un registro en tiempo real y el modelo se guarda en un directorio especificado al finalizar. - efectoLos cuerpos inteligentes pueden adaptar su comportamiento a la tarea, por ejemplo, optimizando el rendimiento de tareas multimodales en OSWorld.
Integración de la evaluación comparativa
- Cómo funciona: Ejecutar
python -m openmanus_rl.grpo --benchmark AgentBench
El sistema genera automáticamente informes sobre los índices de éxito, los tiempos de respuesta, etc. - efectoProporcionar métricas cuantitativas para ayudar a los desarrolladores a comparar el rendimiento de los modelos.
estrategia de diversificación
- Cómo funciona: Seleccione la política en el archivo de configuración (p. ej.
Tree-of-Thoughts
), ejecute el comando de ajuste para comprobar el efecto. - efecto: Mejora de la capacidad de razonamiento de Intelligentsia en tareas de planificación a largo plazo.
OpenManus-RL utiliza estas características para ayudar a los usuarios a empezar rápidamente. El proyecto también ofrece un grupo comunitario (véase GitHub "Community Group"), al que puede unirse para comunicarse con los desarrolladores y obtener la información más reciente.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...