OpenManus-RL: ajuste de grandes modelos para mejorar el razonamiento corporal inteligente y la toma de decisiones

Últimos recursos sobre IAActualizado hace 10 meses Círculo de intercambio de inteligencia artificial

42.1K 00

Introducción general

OpenManus-RL es una colaboración entre UIUC-Ulab y la MetaGPT Este proyecto de código abierto, desarrollado conjuntamente por el equipo OpenManus de la comunidad y alojado en GitHub, mejora las capacidades de razonamiento y toma de decisiones de las inteligencias de grandes modelos lingüísticos (LLM) mediante técnicas de aprendizaje por refuerzo (RL), explorando nuevos métodos de ajuste basados en la experiencia de modelos como Deepseek-R1 y QwQ-32B. El equipo hace públicos los avances de forma periódica, con total transparencia del código, los conjuntos de datos y los resultados de las pruebas, y apoya la validación de los resultados en puntos de referencia como GAIA, AgentBench, WebShop y OSWorld, entre otros. El proyecto anima a desarrolladores de todo el mundo a aportar código, conjuntos de datos o recursos informáticos para construir conjuntamente un ecosistema eficiente de desarrollo de cuerpos inteligentes.

Hasta ahora, la construcción de código abierto Manus Con la última pieza del rompecabezas en su sitio, MetaGPT va a por todas... Pero... MGX Natural puede cubrirse Manus Con todas las posibilidades, la reproducción en código abierto es, en efecto, a cuestas.

Lista de funciones

Construcción inteligente del entorno corporal: Proporciona el ajuste RL en línea de la herramienta de configuración del entorno Smartbody.
Recogida de datos de la trayectoriaConecta modelos como Deepseek-R1 y QwQ-32B para recopilar datos sobre el comportamiento en tareas complejas.
Soporte RL Tuning: Métodos de aprendizaje por refuerzo para apoyar un comportamiento corporal inteligente personalizado.
Integración de la evaluación comparativa: WebShop, GAIA, OSWorld, AgentBench y otros entornos de prueba incorporados.
estrategia de diversificaciónIntegración de estrategias de RL como Tree-of-Thoughts, Monte Carlo Tree Search.
Colaboración comunitariaSe permite la presentación de código, conjuntos de datos, etc., y los colaboradores importantes pueden convertirse en coautores del artículo.
Compartir los progresos en tiempo realDemostrar el proceso de ajuste RL y los resultados mediante actualizaciones dinámicas.

Utilizar la ayuda

Proceso de instalación

OpenManus-RL es fácil de instalar y adecuado para usuarios con conocimientos básicos de Python. A continuación se detallan los pasos a seguir:

1. Creación del entorno Conda

Para evitar conflictos de dependencias, se recomienda Conda:

conda create -n openmanus-rl python=3.10  
conda activate openmanus-rl

Requisitos previos: Conda debe estar instalado y puede descargarse de la páginaPágina oficial de AnacondaDescargar.
Tras la activación, el terminal muestra(openmanus-rl).

2. Clonación de proyectos

Asegúrese de que Git está instalado (comprobar:git --versionSi no instala el software, puede descargarlo de la páginagit-scm.(Descargar):

git clone https://github.com/OpenManus/OpenManus-RL.git  
cd OpenManus-RL

Descargue el código y vaya al directorio del proyecto.

3. Instalación de dependencias

Ejecútelo en el directorio raíz del proyecto:

pip install -r requirements.txt

Si la descarga es lenta, utiliza una réplica doméstica:

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

Las herramientas de visualización requieren una instalación adicional:

pip install matplotlib numpy

4. Modelos de configuración y conjuntos de datos

Ajuste fino supervisado (SFT)Especifique el modelo y el conjunto de datos:

python -m openmanus_rl.sft --model_name_or_path Qwen/Qwen2.5-1.5B-Instruct --dataset_name CharlieDreemur/OpenManus-RL

Ajuste del aprendizaje por refuerzo (GRPO)Configura la función de recompensa:

python -m openmanus_rl.grpo --model_name_or_path Qwen/Qwen2.5-1.5B-Instruct --dataset_name CharlieDreemur/OpenManus-RL-GRPO --reward_funcs accuracy format tag_count

El conjunto de datos está disponible enCara abrazadaConsíguelo.

5. Ejecución del proyecto

Una sola GPU ejecutando SFT:

python -m openmanus_rl.sft --output_dir data/sft-output

Multi-GPU ejecutando GRPO (requiere configuración)zero3.yaml):

accelerate launch --config_file=configs/accelerate_configs/zero3.yaml openmanus_rl/grpo.py --output_dir data/grpo-output

Funciones principales

Construcción inteligente del entorno corporal

procedimiento::
1. estar en movimientopython -m openmanus_rl.sftGenerar el entorno base.
2. Modificar los archivos de configuración (por ejemplo, los objetivos de la misión o las funciones de recompensa).
3. llevar a cabopython -m openmanus_rl.grpoEmpieza a afinar.
Escenarios de uso: Personalización del entorno del cuerpo inteligente para tareas específicas (por ejemplo, decisiones de compra).

Recogida de datos y pruebas

procedimiento::
1. Modelo de configuración (por ejemplo, Deepseek-R1):

python -m openmanus_rl.grpo --model_name_or_path Deepseek-R1

Haz la prueba:--benchmark GAIALos resultados se guardan endata/Catálogo.

Escenarios de uso: Análisis del rendimiento de las inteligencias en tareas complejas.

Operaciones de ajuste RL

procedimiento::
1. Ejecuta el modo GRPO:

python -m openmanus_rl.grpo --reward_funcs accuracy

Ver registros de entrenamiento, modelos guardados endata/grpo-output.

Escenarios de uso: Optimización del comportamiento corporal inteligente, por ejemplo, mejorando el éxito de la compra en la tienda web.

Contribuciones comunitarias

procedimiento::
1. Abre el proyecto en tu cuenta personal de GitHub.
2. Modificación local y presentación:

git add .  
git commit -m "优化RL策略"  
git push origin main

Envíe una Pull Request, o póngase en contacto por correo electrónicokunlunz2@illinois.edu.

Escenarios de usoContribuir con nuevos algoritmos o conjuntos de datos y participar en el desarrollo del núcleo.

Funciones destacadas

Soporte RL Tuning

Cómo funcionaEjecuta GRPO, especificando la función de recompensa (p. ej.accuracy), el proceso de entrenamiento muestra un registro en tiempo real y el modelo se guarda en un directorio especificado al finalizar.
efectoLos cuerpos inteligentes pueden adaptar su comportamiento a la tarea, por ejemplo, optimizando el rendimiento de tareas multimodales en OSWorld.

Integración de la evaluación comparativa

Cómo funciona: Ejecutarpython -m openmanus_rl.grpo --benchmark AgentBenchEl sistema genera automáticamente informes sobre los índices de éxito, los tiempos de respuesta, etc.
efectoProporcionar métricas cuantitativas para ayudar a los desarrolladores a comparar el rendimiento de los modelos.

estrategia de diversificación

Cómo funciona: Seleccione la política en el archivo de configuración (p. ej.Tree-of-Thoughts), ejecute el comando de ajuste para comprobar el efecto.
efecto: Mejora de la capacidad de razonamiento de Intelligentsia en tareas de planificación a largo plazo.

OpenManus-RL utiliza estas características para ayudar a los usuarios a empezar rápidamente. El proyecto también ofrece un grupo comunitario (véase GitHub "Community Group"), al que puede unirse para comunicarse con los desarrolladores y obtener la información más reciente.

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Ajuste del modelo grande

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

Puestos relacionados

TattooAI: generador de imágenes de tatuajes por IA, ¡diseña tatuajes personalizados online!

Últimos recursos sobre IA # AI Control de estilo de imagen

Hace 1 año

043.3K

FaceSwapper: sitio web gratuito de intercambio de rostros con inteligencia artificial, intercambio de rostros de una o varias fotos y vídeos.

Últimos recursos sobre IA # AI Cambia la cara y vístete # AI video face swap

hace 10mos

070.3K

AIFlowy - Plataforma de desarrollo de aplicaciones empresariales de IA de código abierto

Últimos recursos sobre IA

hace 7mos

031.5K

Consenso: un excelente motor de búsqueda de trabajos académicos

Últimos recursos sobre IA # Herramienta de búsqueda de IA # AI Herramientas educativas # Tesis

Hace 1 año

044.8K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

OpenManus-RL: ajuste de grandes modelos para mejorar el razonamiento corporal inteligente y la toma de decisiones

Introducción general

Lista de funciones

Utilizar la ayuda

Proceso de instalación

1. Creación del entorno Conda

2. Clonación de proyectos

3. Instalación de dependencias

4. Modelos de configuración y conjuntos de datos

5. Ejecución del proyecto

Funciones principales

Construcción inteligente del entorno corporal

Recogida de datos y pruebas

Operaciones de ajuste RL

Contribuciones comunitarias

Funciones destacadas

Soporte RL Tuning

Integración de la evaluación comparativa

estrategia de diversificación

ANUS: un marco de IA de código abierto para la automatización de tareas y la colaboración multiagente

Eino: marco de desarrollo de aplicaciones Big Model Golang de código abierto de ByteDance

Puestos relacionados

TattooAI: generador de imágenes de tatuajes por IA, ¡diseña tatuajes personalizados online!

FaceSwapper: sitio web gratuito de intercambio de rostros con inteligencia artificial, intercambio de rostros de una o varias fotos y vídeos.

AIFlowy - Plataforma de desarrollo de aplicaciones empresariales de IA de código abierto

Consenso: un excelente motor de búsqueda de trabajos académicos

Sin comentarios

Últimas colecciones

Últimos artículos

OpenManus-RL: ajuste de grandes modelos para mejorar el razonamiento corporal inteligente y la toma de decisiones

Introducción general

Lista de funciones

Utilizar la ayuda

Proceso de instalación

1. Creación del entorno Conda

2. Clonación de proyectos

3. Instalación de dependencias

4. Modelos de configuración y conjuntos de datos

5. Ejecución del proyecto

Funciones principales

Construcción inteligente del entorno corporal

Recogida de datos y pruebas

Operaciones de ajuste RL

Contribuciones comunitarias

Funciones destacadas

Soporte RL Tuning

Integración de la evaluación comparativa

estrategia de diversificación

ANUS: un marco de IA de código abierto para la automatización de tareas y la colaboración multiagente

Eino: marco de desarrollo de aplicaciones Big Model Golang de código abierto de ByteDance

Puestos relacionados

TattooAI: generador de imágenes de tatuajes por IA, ¡diseña tatuajes personalizados online!

FaceSwapper: sitio web gratuito de intercambio de rostros con inteligencia artificial, intercambio de rostros de una o varias fotos y vídeos.

AIFlowy - Plataforma de desarrollo de aplicaciones empresariales de IA de código abierto

Consenso: un excelente motor de búsqueda de trabajos académicos

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos