Aprendizagem pessoal com IA
e orientação prática
Espelho de desenho CyberKnife

OpenManus-RL: ajuste fino de modelos grandes para aprimorar o raciocínio e a tomada de decisões de corpos inteligentes

Este artigo foi atualizado em 2025-03-10 18:56, parte do conteúdo é sensível ao tempo, se for inválido, por favor, deixe uma mensagem!

Introdução geral

O OpenManus-RL é uma colaboração entre o UIUC-Ulab e o MetaGPT Um projeto de código aberto desenvolvido em conjunto pela equipe OpenManus da comunidade e hospedado no GitHub, o projeto aprimora os recursos de raciocínio e tomada de decisão de inteligências de modelo de linguagem grande (LLM) por meio de técnicas de aprendizagem por reforço (RL), explorando novos métodos de ajuste com base na experiência de modelos como Deepseek-R1 e QwQ-32B. A equipe torna o progresso público regularmente, com total transparência de código, conjuntos de dados e resultados de testes, além de apoiar a validação de resultados em benchmarks como GAIA, AgentBench, WebShop, OSWorld e outros. O projeto incentiva os desenvolvedores de todo o mundo a contribuírem com códigos, conjuntos de dados ou recursos computacionais para a criação conjunta de um ecossistema eficiente para o desenvolvimento de corpos inteligentes.

Até o momento, a criação de código aberto Manus Com a última peça do quebra-cabeça no lugar, o MetaGPT está realmente se esforçando... Mas... MGX Natural pode ser coberto Manus Com todos os recursos, a reprodução de código aberto está de fato pegando carona.

OpenManus-RL: modelos de ajuste fino para aprimorar a conclusão de tarefas corporais inteligentes-1

 

Lista de funções

  • Construção de ambiente corporal inteligenteRL: Fornece ajuste de RL on-line da ferramenta de configuração do ambiente Smartbody.
  • Coleta de dados de trajetóriaConecte modelos como o Deepseek-R1 e o QwQ-32B para coletar dados comportamentais de tarefas complexas.
  • Suporte ao RL TuningMétodos de aprendizagem por reforço para apoiar o comportamento personalizado de corpos inteligentes.
  • Integração de BenchmarkingWebShop integrado, GAIA, OSWorld, AgentBench e outros ambientes de teste.
  • estratégia de diversificaçãoIntegração de estratégias de RL, como Tree-of-Thoughts, Monte Carlo Tree Search.
  • Colaboração comunitáriaEnvio de código, conjuntos de dados, etc. é permitido, e colaboradores importantes podem se tornar coautores do artigo.
  • Compartilhamento do progresso em tempo realDemonstrar o processo de ajuste de RL e os resultados por meio de atualizações dinâmicas.

Usando a Ajuda

Processo de instalação

O OpenManus-RL é fácil de instalar e adequado para usuários com conhecimento básico de Python. Veja a seguir as etapas detalhadas:

1. criação do ambiente Conda

Para evitar conflitos de dependência, recomenda-se o Conda:

conda create -n openmanus-rl python=3.10
conda activate openmanus-rl
  • Pré-requisitos: O Conda precisa ser instalado e pode ser baixado do siteSite oficial do AnacondaFaça o download.
  • Após a ativação, o terminal exibe(openmanus-rl).

2. clonagem de projetos

Certifique-se de que o Git esteja instalado (verifique:git --versãoSe você não instalar o software, poderá baixá-lo no sitegit-scm.(Download):

git clone https://github.com/OpenManus/OpenManus-RL.git
cd OpenManus-RL
  • Faça o download do código e vá para o diretório do projeto.

3. instalação de dependências

Execute-o no diretório raiz do projeto:

pip install -r requirements.txt
  • Se o download estiver lento, use um espelho doméstico:
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
  • As ferramentas de visualização exigem instalação adicional:
pip install matplotlib numpy

4. modelos de configuração e conjuntos de dados

  • Ajuste fino supervisionado (SFT)Especifique o modelo e o conjunto de dados:
python -m openmanus_rl.sft --model_name_or_path Qwen/Qwen2.5-1.5B-Instruct --dataset_name CharlieDreemur/OpenManus-RL
  • Ajuste do aprendizado por reforço (GRPO)Configure a função de recompensa:
python -m openmanus_rl.grpo --model_name_or_path Qwen/Qwen2.5-1.5B-Instruct --dataset_name CharlieDreemur/OpenManus-RL-GRPO --reward_ funcs accuracy format tag_count

5. executar o projeto

  • GPU única executando SFT:
python -m openmanus_rl.sft --output_dir data/sft-output
  • GRPO com várias GPUs em execução (configuração necessária)zero3.yaml):
accelerate launch --config_file=configs/accelerate_configs/zero3.yaml openmanus_rl/grpo.py --output_dir data/grpo-output

Funções principais

Construção de ambiente corporal inteligente

  • procedimento::
    1. estar em movimentopython -m openmanus_rl.sftGerar o ambiente básico.
    2. Modificar arquivos de configuração (por exemplo, objetivos de missão ou funções de recompensa).
    3. realizarpython -m openmanus_rl.grpoIniciar o ajuste.
  • Cenários de usoPersonalização do ambiente do corpo inteligente para tarefas específicas (por exemplo, decisões de compras).

Coleta de dados e testes

  • procedimento::
    1. Modelo de configuração (por exemplo, Deepseek-R1):
python -m openmanus_rl.grpo --model_name_or_path Deepseek-R1
  1. Execute o teste:-benchmark GAIAOs resultados são salvos emdados/Catálogo.
  • Cenários de usoAnálise do desempenho das inteligências em tarefas complexas: Análise do desempenho das inteligências em tarefas complexas.

Operações de ajuste de RL

  • procedimento::
    1. Executar o modo GRPO:
python -m openmanus_rl.grpo --reward_funcs accuracy
  1. Visualizar registros de treinamento, modelos salvos emdata/grpo-output.
  • Cenários de usoOtimização do comportamento inteligente do corpo, por exemplo, melhorando o sucesso da compra na WebShop.

Contribuições da comunidade

  • procedimento::
    1. Faça o fork do projeto em uma conta pessoal do GitHub.
    2. Modificação e envio local:
git add .
git commit -m "Otimizar a estratégia de RL"
git push origin main
  1. Envie uma Pull Request ou entre em contato por e-mailkunlunz2@illinois.edu.
  • Cenários de usoContribua com novos algoritmos ou conjuntos de dados e participe do desenvolvimento principal.

Funções em destaque

Suporte ao RL Tuning

  • Como funcionaGRPO: execute o GRPO, especificando a função de recompensa (por exemploprecisão), o processo de treinamento exibe um registro em tempo real e o modelo é salvo em um diretório específico após a conclusão.
  • efeitoCorpos inteligentes podem adaptar seu comportamento à tarefa, por exemplo, otimizando o desempenho de tarefas multimodais no OSWorld.

Integração de Benchmarking

  • Como funciona: Executarpython -m openmanus_rl.grpo --benchmark AgentBenchSe o sistema for usado, ele gera automaticamente relatórios sobre taxas de sucesso, tempos de resposta, etc.
  • efeitoFornecimento de métricas quantitativas para ajudar os desenvolvedores a comparar o desempenho do modelo.

estratégia de diversificação

  • Como funcionaPolítica de configuração: Selecione a política no arquivo de configuração (por exemploÁrvore de pensamentos), execute o comando de ajuste para testar o efeito.
  • efeitoIntelligentsia: Aprimorando a capacidade de raciocínio da Intelligentsia em tarefas de planejamento de longo prazo.

O OpenManus-RL usa esses recursos para ajudar os usuários a começar rapidamente. O projeto também oferece um grupo da comunidade (consulte "Grupo da comunidade" no GitHub), no qual você pode participar para se comunicar com os desenvolvedores e obter as informações mais recentes.


CDN1
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " OpenManus-RL: ajuste fino de modelos grandes para aprimorar o raciocínio e a tomada de decisões de corpos inteligentes

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil