本文于 2025-03-10 18:56 更新,部分内容具有时效性,如有失效,请留言
综合介绍
OpenManus-RL是由UIUC-Ulab与 MetaGPT 社区的OpenManus团队联合开发的开源项目,托管于GitHub。该项目通过强化学习(RL)技术提升大型语言模型(LLM)智能体的推理与决策能力,基于Deepseek-R1、QwQ-32B等模型的经验,探索新的调优方法。团队定期公开进展,代码、数据集和测试结果完全透明,支持在GAIA、AgentBench、WebShop、OSWorld等基准测试中验证效果。项目鼓励全球开发者贡献代码、数据集或计算资源,共同构建一个高效的智能体开发生态。
至此,打造开源 Manus 最后一块短板也补全了,MetaGPT 还真是下死手...不过 MGX 天然可以覆盖 Manus 所有能力,开源复现的确是捎带手的事。
功能列表
- 智能体环境搭建:提供在线RL调优的智能体环境配置工具。
- 轨迹数据收集:连接Deepseek-R1、QwQ-32B等模型,收集复杂任务的行为数据。
- RL调优支持:支持定制化智能体行为的强化学习方法。
- 基准测试集成:内置WebShop、GAIA、OSWorld、AgentBench等测试环境。
- 多样化策略:集成Tree-of-Thoughts、Monte Carlo Tree Search等RL策略。
- 社区协作:允许提交代码、数据集等,重要贡献者可成为论文共同作者。
- 实时进展分享:通过动态更新展示RL调优过程与成果。
使用帮助
安装流程
OpenManus-RL的安装简单,适合具备Python基础的用户。以下是详细步骤:
1. 创建Conda环境
为避免依赖冲突,建议使用Conda:
conda create -n openmanus-rl python=3.10
conda activate openmanus-rl
- 前置条件:需安装Conda,可从Anaconda官网下载。
- 激活后,终端显示
(openmanus-rl)
。
2. 克隆项目
确保已安装Git(检查:git --version
,未安装可从git-scm.com下载):
git clone https://github.com/OpenManus/OpenManus-RL.git
cd OpenManus-RL
- 下载代码并进入项目目录。
3. 安装依赖
在项目根目录执行:
pip install -r requirements.txt
- 若下载慢,可用国内镜像:
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
- 可视化工具需额外安装:
pip install matplotlib numpy
4. 配置模型与数据集
- 监督微调(SFT):指定模型和数据集:
python -m openmanus_rl.sft --model_name_or_path Qwen/Qwen2.5-1.5B-Instruct --dataset_name CharlieDreemur/OpenManus-RL
- 强化学习调优(GRPO):配置奖励函数:
python -m openmanus_rl.grpo --model_name_or_path Qwen/Qwen2.5-1.5B-Instruct --dataset_name CharlieDreemur/OpenManus-RL-GRPO --reward_funcs accuracy format tag_count
- 数据集可从Huggingface获取。
5. 运行项目
- 单GPU运行SFT:
python -m openmanus_rl.sft --output_dir data/sft-output
- 多GPU运行GRPO(需配置
zero3.yaml
):
accelerate launch --config_file=configs/accelerate_configs/zero3.yaml openmanus_rl/grpo.py --output_dir data/grpo-output
主要功能操作流程
智能体环境搭建
- 操作步骤:
- 运行
python -m openmanus_rl.sft
生成基础环境。 - 修改配置文件(如任务目标或奖励函数)。
- 执行
python -m openmanus_rl.grpo
开始调优。
- 运行
- 使用场景:为特定任务(如购物决策)定制智能体环境。
数据收集与测试
- 操作步骤:
- 配置模型(如Deepseek-R1):
python -m openmanus_rl.grpo --model_name_or_path Deepseek-R1
- 运行测试:
--benchmark GAIA
,结果保存至data/
目录。
- 使用场景:分析智能体在复杂任务中的表现。
RL调优操作
- 操作步骤:
- 运行GRPO模式:
python -m openmanus_rl.grpo --reward_funcs accuracy
- 查看训练日志,模型保存至
data/grpo-output
。
- 使用场景:优化智能体行为,如提升WebShop购买成功率。
社区贡献
- 操作步骤:
- Fork项目至个人GitHub账户。
- 本地修改并提交:
git add .
git commit -m "优化RL策略"
git push origin main
- 提交Pull Request,或邮件联系
kunlunz2@illinois.edu
。
- 使用场景:贡献新算法或数据集,参与核心开发。
特色功能详解
RL调优支持
- 如何操作:运行GRPO,指定奖励函数(如
accuracy
),训练过程显示实时日志,完成后模型保存至指定目录。 - 效果:智能体能根据任务调整行为,例如在OSWorld中优化多模态任务表现。
基准测试集成
- 如何操作:运行
python -m openmanus_rl.grpo --benchmark AgentBench
,系统自动生成成功率、响应时间等报告。 - 效果:提供量化指标,帮助开发者对比模型性能。
多样化策略
- 如何操作:在配置文件中选择策略(如
Tree-of-Thoughts
),运行调优命令测试效果。 - 效果:提升智能体在长程规划任务中的推理能力。
OpenManus-RL通过以上功能帮助用户快速上手。项目还提供社区群组(见GitHub“Community Group”),加入后可与开发者交流,获取最新资讯。