はじめに
OpenManus-RLは、UIUC-Ulabと、UIUC-Ulabの間のコラボレーションです。 メタGPT コミュニティのOpenManusチームによって共同開発され、GitHub上でホストされているオープンソースプロジェクトであるこのプロジェクトは、強化学習(RL)技術を通じて大規模言語モデル(LLM)インテリジェンスの推論および意思決定能力を向上させ、Deepseek-R1やQwQ-32Bなどのモデルの経験に基づいた新しいチューニング方法を探求しています。チームは定期的に進捗を公開し、コード、データセット、テスト結果を完全に透明化し、GAIA、AgentBench、WebShop、OSWorldなどのベンチマークで結果の検証をサポートしている。このプロジェクトは、スマートボディ開発のための効率的なエコシステムを共同で構築するために、世界中の開発者がコード、データセット、または計算資源を提供することを奨励している。
これまでのところ、オープンソースの構築 マヌス パズルの最後の1ピースが揃ったことで、MetaGPTは本当に頑張っている...。しかし... MGX ナチュラルをカバーできる マヌス すべての機能を備えたオープンソースの再生産は、まさにおんぶにだっこだ。
機能一覧
- インテリジェントなボディ環境構築スマートボディ環境設定ツールのオンラインRLチューニングを提供。
- 軌道データ収集Deepseek-R1やQwQ-32Bなどのモデルを接続し、複雑なタスクの行動データを収集する。
- RLチューニング・サポートカスタマイズされたインテリジェントな身体行動をサポートする強化学習法。
- ベンチマーキングの統合WebShop、GAIA、OSWorld、AgentBench、その他のテスト環境を内蔵しています。
- 多角化戦略Tree-of-Thoughts、モンテカルロ木探索のようなRL戦略の統合。
- 地域社会との協力コード、データセットなどの提出は認められ、重要な貢献者は論文の共著者となることができる。
- リアルタイムの進捗状況共有RL のチューニング・プロセスとダイナミック・アップデートによる結果を示す。
ヘルプの使用
設置プロセス
OpenManus-RLはインストールが簡単で、基本的なPythonの知識を持つユーザーに適しています。以下はその詳細な手順です:
1.コンダ環境の構築
依存関係の衝突を避けるため、Condaを推奨する:
conda create -n openmanus-rl python=3.10
conda openmanus-rl を起動する
- 前提条件:Condaがインストールされている必要があり、以下のサイトからダウンロードできる。アナコンダ公式サイトダウンロード
- 起動後、端末には次のように表示されます。
(openmanus-rl)
.
2.プロジェクトのクローン化
Gitがインストールされていることを確認する(チェックする:git --バージョン
ソフトウェアをインストールしない場合は、次のサイトからダウンロードできます。git-scm。(ダウンロード):
git clone https://github.com/OpenManus/OpenManus-RL.git
cd OpenManus-RL
- コードをダウンロードし、プロジェクト・ディレクトリに移動する。
3.依存関係のインストール
プロジェクトのルート・ディレクトリで実行する:
pip install -r requirements.txt
- ダウンロードが遅い場合は、国内のミラーを利用する:
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
- 視覚化ツールは、追加のインストールが必要です:
pip install matplotlib numpy
4.構成モデルとデータセット
- スーパーバイズド・ファイン・チューニング(SFT)モデルとデータセットを指定する:
python -m openmanus_rl.sft --model_name_or_path Qwen/Qwen2.5-1.5B-Instruct --dataset_name CharlieDreemur/OpenManus-RL
- 強化学習チューニング(GRPO)報酬機能の設定
python -m openmanus_rl.grpo --model_name_or_path Qwen/Qwen2.5-1.5B-Instruct --dataset_name CharlieDreemur/OpenManus-RL-GRPO --reward_精度形式 タグ数
- データセットはハギングフェイスゲットだ。
5.プロジェクトの実行
- SFTを実行するシングルGPU:
python -m openmanus_rl.sft --output_dir data/sft-output
- GRPOを実行するマルチGPU(要設定)
zero3.yaml
):
加速起動 --config_file=configs/accelerate_configs/zero3.yaml openmanus_rl/grpo.py --output_dir data/grpo-output
主な機能
インテリジェントなボディ環境構築
- 手続き::
- うごきだす
python -m openmanus_rl.sft
ベース環境を生成する。 - 設定ファイル(ミッション目標や報酬関数など)を変更する。
- はこびだす
python -m openmanus_rl.grpo
チューニングを開始する。
- うごきだす
- 使用シナリオ特定のタスク(例:買い物の決定)のために知的身体環境をカスタマイズする。
データ収集とテスト
- 手続き::
- コンフィギュレーション・モデル(例:Deepseek-R1):
python -m openmanus_rl.grpo --model_name_or_path ディープシークR1
- テストを実行する:
--GAIAベンチマーク
結果はデータ
カタログ
- 使用シナリオ複雑なタスクにおける知能のパフォーマンスを分析する。
RLチューニング・オペレーション
- 手続き::
- GRPOモードを実行する:
python -m openmanus_rl.grpo --reward_funcs 精度
- トレーニングログを見る
data/grpo出力
.
- 使用シナリオ例えば、ウェブショップでの購入を成功に導くなど。
地域貢献
- 手続き::
- プロジェクトを個人のGitHubアカウントにフォークする。
- 現地での修正と提出:
git add .
git commit -m "RL戦略の最適化"
git push origin main
- プルリクエストの提出、または電子メールでのお問い合わせ
kunlunz2@illinois.edu
.
- 使用シナリオ新しいアルゴリズムやデータセットを提供し、コア開発に参加する。
注目の機能
RLチューニング・サポート
- 仕組みGRPOを実行し、報酬関数を指定する。
精度
)、トレーニングプロセスはリアルタイムのログを表示し、完了するとモデルは指定されたディレクトリに保存される。 - 効果例えば、OSWorldにおけるマルチモーダルなタスクパフォーマンスを最適化する。
ベンチマーキングの統合
- 仕組み走る
python -m openmanus_rl.grpo --benchmark AgentBench
このシステムは、成功率や応答時間などのレポートを自動的に作成する。 - 効果開発者がモデルのパフォーマンスを比較できるように、定量的な指標を提供します。
多角化戦略
- 仕組み: コンフィギュレーション・ファイルでポリシーを選択します。
思考の木
)、チューニングコマンドを実行し、その効果をテストする。 - 効果長期計画タスクにおけるインテリジェンシアの推論能力の向上。
OpenManus-RLは、ユーザーがすぐに使い始められるようにこれらの機能を使用しています。このプロジェクトはコミュニティグループも提供しており(GitHub "Community Group "を参照)、参加することで開発者とコミュニケーションをとったり、最新の情報を得ることができます。