OpenManus-RL: 大規模モデルの微調整による知的身体推論と意思決定の強化

42.9K 00

はじめに

OpenManus-RLは、UIUC-Ulabと、UIUC-Ulabの間のコラボレーションです。メタGPT コミュニティのOpenManusチームによって共同開発され、GitHub上でホストされているオープンソースプロジェクトであるこのプロジェクトは、強化学習（RL）技術を通じて大規模言語モデル（LLM）インテリジェンスの推論および意思決定能力を向上させ、Deepseek-R1やQwQ-32Bなどのモデルの経験に基づいた新しいチューニング方法を探求しています。チームは定期的に進捗を公開し、コード、データセット、テスト結果を完全に透明化し、GAIA、AgentBench、WebShop、OSWorldなどのベンチマークで結果の検証をサポートしている。このプロジェクトは、スマートボディ開発のための効率的なエコシステムを共同で構築するために、世界中の開発者がコード、データセット、または計算資源を提供することを奨励している。

これまでのところ、オープンソースの構築マヌスパズルの最後の1ピースが揃ったことで、MetaGPTは本当に頑張っている...。しかし... MGX ナチュラルをカバーできるマヌスすべての機能を備えたオープンソースの再生産は、まさにおんぶにだっこだ。

機能一覧

インテリジェントなボディ環境構築スマートボディ環境設定ツールのオンラインRLチューニングを提供。
軌道データ収集Deepseek-R1やQwQ-32Bなどのモデルを接続し、複雑なタスクの行動データを収集する。
RLチューニング・サポートカスタマイズされたインテリジェントな身体行動をサポートする強化学習法。
ベンチマーキングの統合WebShop、GAIA、OSWorld、AgentBench、その他のテスト環境を内蔵しています。
多角化戦略Tree-of-Thoughts、モンテカルロ木探索のようなRL戦略の統合。
地域社会との協力コード、データセットなどの提出は認められ、重要な貢献者は論文の共著者となることができる。
リアルタイムの進捗状況共有RL のチューニング・プロセスとダイナミック・アップデートによる結果を示す。

ヘルプの使用

設置プロセス

OpenManus-RLはインストールが簡単で、基本的なPythonの知識を持つユーザーに適しています。以下はその詳細な手順です：

1.コンダ環境の構築

依存関係の衝突を避けるため、Condaを推奨する：

conda create -n openmanus-rl python=3.10  
conda activate openmanus-rl

前提条件：Condaがインストールされている必要があり、以下のサイトからダウンロードできる。アナコンダ公式サイトダウンロード
起動後、端末には次のように表示されます。(openmanus-rl).

2.プロジェクトのクローン化

Gitがインストールされていることを確認する（チェックする：git --versionソフトウェアをインストールしない場合は、次のサイトからダウンロードできます。git-scm。(ダウンロード）：

git clone https://github.com/OpenManus/OpenManus-RL.git  
cd OpenManus-RL

コードをダウンロードし、プロジェクト・ディレクトリに移動する。

3.依存関係のインストール

プロジェクトのルート・ディレクトリで実行する：

pip install -r requirements.txt

ダウンロードが遅い場合は、国内のミラーを利用する：

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

視覚化ツールは、追加のインストールが必要です：

pip install matplotlib numpy

4.構成モデルとデータセット

スーパーバイズド・ファイン・チューニング（SFT）モデルとデータセットを指定する：

python -m openmanus_rl.sft --model_name_or_path Qwen/Qwen2.5-1.5B-Instruct --dataset_name CharlieDreemur/OpenManus-RL

強化学習チューニング（GRPO）報酬機能の設定

python -m openmanus_rl.grpo --model_name_or_path Qwen/Qwen2.5-1.5B-Instruct --dataset_name CharlieDreemur/OpenManus-RL-GRPO --reward_funcs accuracy format tag_count

データセットはハギングフェイスゲットだ。

5.プロジェクトの実行

SFTを実行するシングルGPU：

python -m openmanus_rl.sft --output_dir data/sft-output

GRPOを実行するマルチGPU（要設定）zero3.yaml):

accelerate launch --config_file=configs/accelerate_configs/zero3.yaml openmanus_rl/grpo.py --output_dir data/grpo-output

主な機能

インテリジェントなボディ環境構築

手続き::
1. うごきだすpython -m openmanus_rl.sftベース環境を生成する。
2. 設定ファイル（ミッション目標や報酬関数など）を変更する。
3. はこびだすpython -m openmanus_rl.grpoチューニングを開始する。
使用シナリオ特定のタスク（例：買い物の決定）のために知的身体環境をカスタマイズする。

データ収集とテスト

手続き::
1. コンフィギュレーション・モデル（例：Deepseek-R1）：

python -m openmanus_rl.grpo --model_name_or_path Deepseek-R1

テストを実行する：--benchmark GAIA結果はdata/カタログ

使用シナリオ複雑なタスクにおける知能のパフォーマンスを分析する。

RLチューニング・オペレーション

手続き::
1. GRPOモードを実行する：

python -m openmanus_rl.grpo --reward_funcs accuracy

トレーニングログを見るdata/grpo-output.

使用シナリオ例えば、ウェブショップでの購入を成功に導くなど。

地域貢献

手続き::
1. プロジェクトを個人のGitHubアカウントにフォークする。
2. 現地での修正と提出：

git add .  
git commit -m "优化RL策略"  
git push origin main

プルリクエストの提出、または電子メールでのお問い合わせkunlunz2@illinois.edu.

使用シナリオ新しいアルゴリズムやデータセットを提供し、コア開発に参加する。

注目の機能

RLチューニング・サポート

仕組みGRPOを実行し、報酬関数を指定する。accuracy)、トレーニングプロセスはリアルタイムのログを表示し、完了するとモデルは指定されたディレクトリに保存される。
効果例えば、OSWorldにおけるマルチモーダルなタスクパフォーマンスを最適化する。

ベンチマーキングの統合

仕組み走るpython -m openmanus_rl.grpo --benchmark AgentBenchこのシステムは、成功率や応答時間などのレポートを自動的に作成する。
効果開発者がモデルのパフォーマンスを比較できるように、定量的な指標を提供します。

多角化戦略

仕組み: コンフィギュレーション・ファイルでポリシーを選択します。Tree-of-Thoughts)、チューニングコマンドを実行し、その効果をテストする。
効果長期計画タスクにおけるインテリジェンシアの推論能力の向上。

OpenManus-RLは、ユーザーがすぐに使い始められるようにこれらの機能を使用しています。このプロジェクトはコミュニティグループも提供しており（GitHub "Community Group "を参照）、参加することで開発者とコミュニケーションをとったり、最新の情報を得ることができます。

FreeFlo:イメージキュー指導インスピレーションライブラリの作成

最新のAIリソース # AI画像生成エイド

1年前

037.5K

Cloudflare WorkerベースのAI画像生成スクリプト

9ヶ月前

047.4K

E2M: 複数のファイル形式をMarkdownに変換し、簡単に統一されたドキュメントフォーマットを実現する

1年前

043.5K

VideoSeal: ビデオ著作権を保護する高度なオープンソースビデオ隠し透かし埋め込み・抽出ツール

1年前

040.5K

コメントなし

コメントに参加するにはログインが必要です！

今すぐログイン

コメントはありません

OpenManus-RL: 大規模モデルの微調整による知的身体推論と意思決定の強化

はじめに

機能一覧

ヘルプの使用

設置プロセス

1.コンダ環境の構築

2.プロジェクトのクローン化

3.依存関係のインストール

4.構成モデルとデータセット

5.プロジェクトの実行

主な機能

インテリジェントなボディ環境構築

データ収集とテスト

RLチューニング・オペレーション

地域貢献

注目の機能

RLチューニング・サポート

ベンチマーキングの統合

多角化戦略

ANUS：タスク自動化とマルチエージェント・コラボレーションのためのオープンソースAIフレームワーク

Eino: ByteDanceのオープンソースGolangビッグモデル・アプリケーション開発フレームワーク

関連記事

FreeFlo:イメージキュー指導インスピレーションライブラリの作成

Cloudflare WorkerベースのAI画像生成スクリプト

E2M: 複数のファイル形式をMarkdownに変換し、簡単に統一されたドキュメントフォーマットを実現する

VideoSeal: ビデオ著作権を保護する高度なオープンソースビデオ隠し透かし埋め込み・抽出ツール

コメントなし

最新コレクション

最新記事

OpenManus-RL: 大規模モデルの微調整による知的身体推論と意思決定の強化

はじめに

機能一覧

ヘルプの使用

設置プロセス

1.コンダ環境の構築

2.プロジェクトのクローン化

3.依存関係のインストール

4.構成モデルとデータセット

5.プロジェクトの実行

主な機能

インテリジェントなボディ環境構築

データ収集とテスト

RLチューニング・オペレーション

地域貢献

注目の機能

RLチューニング・サポート

ベンチマーキングの統合

多角化戦略

ANUS：タスク自動化とマルチエージェント・コラボレーションのためのオープンソースAIフレームワーク

Eino: ByteDanceのオープンソースGolangビッグモデル・アプリケーション開発フレームワーク

関連記事

FreeFlo:イメージキュー指導インスピレーションライブラリの作成

Cloudflare WorkerベースのAI画像生成スクリプト

E2M: 複数のファイル形式をMarkdownに変換し、簡単に統一されたドキュメントフォーマットを実現する

VideoSeal: ビデオ著作権を保護する高度なオープンソースビデオ隠し透かし埋め込み・抽出ツール

コメントなし

厳選されたAIツール

最新コレクション

最新記事