AI个人学习
和实操指南
阿里绘蛙

OpenManus-RL:微调大模型强化智能体推理与决策能力

本文于 2025-03-10 18:56 更新,部分内容具有时效性,如有失效,请留言

综合介绍

OpenManus-RL是由UIUC-Ulab与 MetaGPT 社区的OpenManus团队联合开发的开源项目,托管于GitHub。该项目通过强化学习(RL)技术提升大型语言模型(LLM)智能体的推理与决策能力,基于Deepseek-R1、QwQ-32B等模型的经验,探索新的调优方法。团队定期公开进展,代码、数据集和测试结果完全透明,支持在GAIA、AgentBench、WebShop、OSWorld等基准测试中验证效果。项目鼓励全球开发者贡献代码、数据集或计算资源,共同构建一个高效的智能体开发生态。

至此,打造开源 Manus 最后一块短板也补全了,MetaGPT 还真是下死手...不过 MGX 天然可以覆盖 Manus 所有能力,开源复现的确是捎带手的事。

OpenManus-RL:微调模型以强化智能体任务完成能力-1

 

功能列表

  • 智能体环境搭建:提供在线RL调优的智能体环境配置工具。
  • 轨迹数据收集:连接Deepseek-R1、QwQ-32B等模型,收集复杂任务的行为数据。
  • RL调优支持:支持定制化智能体行为的强化学习方法。
  • 基准测试集成:内置WebShop、GAIA、OSWorld、AgentBench等测试环境。
  • 多样化策略:集成Tree-of-Thoughts、Monte Carlo Tree Search等RL策略。
  • 社区协作:允许提交代码、数据集等,重要贡献者可成为论文共同作者。
  • 实时进展分享:通过动态更新展示RL调优过程与成果。

使用帮助

安装流程

OpenManus-RL的安装简单,适合具备Python基础的用户。以下是详细步骤:

1. 创建Conda环境

为避免依赖冲突,建议使用Conda:

conda create -n openmanus-rl python=3.10  
conda activate openmanus-rl
  • 前置条件:需安装Conda,可从Anaconda官网下载。
  • 激活后,终端显示(openmanus-rl)

2. 克隆项目

确保已安装Git(检查:git --version,未安装可从git-scm.com下载):

git clone https://github.com/OpenManus/OpenManus-RL.git  
cd OpenManus-RL
  • 下载代码并进入项目目录。

3. 安装依赖

在项目根目录执行:

pip install -r requirements.txt
  • 若下载慢,可用国内镜像:
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
  • 可视化工具需额外安装:
pip install matplotlib numpy

4. 配置模型与数据集

  • 监督微调(SFT):指定模型和数据集:
python -m openmanus_rl.sft --model_name_or_path Qwen/Qwen2.5-1.5B-Instruct --dataset_name CharlieDreemur/OpenManus-RL
  • 强化学习调优(GRPO):配置奖励函数:
python -m openmanus_rl.grpo --model_name_or_path Qwen/Qwen2.5-1.5B-Instruct --dataset_name CharlieDreemur/OpenManus-RL-GRPO --reward_funcs accuracy format tag_count

5. 运行项目

  • 单GPU运行SFT:
python -m openmanus_rl.sft --output_dir data/sft-output
  • 多GPU运行GRPO(需配置zero3.yaml):
accelerate launch --config_file=configs/accelerate_configs/zero3.yaml openmanus_rl/grpo.py --output_dir data/grpo-output

主要功能操作流程

智能体环境搭建

  • 操作步骤
    1. 运行python -m openmanus_rl.sft生成基础环境。
    2. 修改配置文件(如任务目标或奖励函数)。
    3. 执行python -m openmanus_rl.grpo开始调优。
  • 使用场景:为特定任务(如购物决策)定制智能体环境。

数据收集与测试

  • 操作步骤
    1. 配置模型(如Deepseek-R1):
python -m openmanus_rl.grpo --model_name_or_path Deepseek-R1
  1. 运行测试:--benchmark GAIA,结果保存至data/目录。
  • 使用场景:分析智能体在复杂任务中的表现。

RL调优操作

  • 操作步骤
    1. 运行GRPO模式:
python -m openmanus_rl.grpo --reward_funcs accuracy
  1. 查看训练日志,模型保存至data/grpo-output
  • 使用场景:优化智能体行为,如提升WebShop购买成功率。

社区贡献

  • 操作步骤
    1. Fork项目至个人GitHub账户。
    2. 本地修改并提交:
git add .  
git commit -m "优化RL策略"  
git push origin main
  1. 提交Pull Request,或邮件联系kunlunz2@illinois.edu
  • 使用场景:贡献新算法或数据集,参与核心开发。

特色功能详解

RL调优支持

  • 如何操作:运行GRPO,指定奖励函数(如accuracy),训练过程显示实时日志,完成后模型保存至指定目录。
  • 效果:智能体能根据任务调整行为,例如在OSWorld中优化多模态任务表现。

基准测试集成

  • 如何操作:运行python -m openmanus_rl.grpo --benchmark AgentBench,系统自动生成成功率、响应时间等报告。
  • 效果:提供量化指标,帮助开发者对比模型性能。

多样化策略

  • 如何操作:在配置文件中选择策略(如Tree-of-Thoughts),运行调优命令测试效果。
  • 效果:提升智能体在长程规划任务中的推理能力。

OpenManus-RL通过以上功能帮助用户快速上手。项目还提供社区群组(见GitHub“Community Group”),加入后可与开发者交流,获取最新资讯。


CDN1
未经允许不得转载:首席AI分享圈 » OpenManus-RL:微调大模型强化智能体推理与决策能力

首席AI分享圈

首席AI分享圈专注于人工智能学习,提供全面的AI学习内容、AI工具和实操指导。我们的目标是通过高质量的内容和实践经验分享,帮助用户掌握AI技术,一起挖掘AI的无限潜能。无论您是AI初学者还是资深专家,这里都是您获取知识、提升技能、实现创新的理想之地。

联系我们
zh_CN简体中文