AIパーソナル・ラーニング
と実践的なガイダンス
資源推薦1

Open-Reasoner-Zero:オープンソースの大規模推論強化学習トレーニングプラットフォーム

はじめに

Open-Reasoner-Zeroは強化学習(RL)研究に特化したオープンソースプロジェクトで、GitHub上のOpen-Reasoner-Zeroチームによって開発されています。効率的でスケーラブルかつ使いやすい学習フレームワークを提供することで、人工知能(AI)分野、特に一般人工知能(AGI)に向けた研究プロセスを加速することを目的としている。このプロジェクトはQwen2.5モデル(7Bおよび32Bパラメータバージョン)をベースとし、OpenRLHF、vLLM、DeepSpeed、Rayなどの技術を組み合わせて、完全なソースコード、学習データ、モデルの重みを提供する。特筆すべきは、DeepSeek-R1-Zeroの30分の1以下の学習ステップで同レベルの性能を達成し、リソースの効率的な利用を実証している点である。このプロジェクトはMITライセンスに基づき、ユーザーが自由に使用・変更できるため、研究者や開発者の共同研究に最適である。

Open-Reasoner-Zero: オープンソース大規模推論強化学習訓練プラットフォーム-1


 

機能一覧

  • 効率的な集中学習トレーニングGPUを最大限に活用し、1つのコントローラでトレーニングとジェネレーションをサポートします。
  • 完全なオープンソースリソースこのモデルはシンプルで使いやすいツールで、57kの高品質なトレーニングデータ、ソースコード、パラメータ設定、モデルの重みを提供する。
  • 高性能モデルのサポートQwen2.5-7BとQwen2.5-32Bをベースとし、優れた推論性能を提供。
  • 柔軟な研究枠組みモジュール式の設計のため、研究者は実験を容易に適応させ、拡張することができます。
  • Dockerのサポートトレーニング環境の複製性を確保するためにDockerfileを提供する。
  • パフォーマンス評価ツールGPQA Diamondのパフォーマンス比較など、ベンチマークデータや評価結果のプレゼンテーションが含まれています。

 

ヘルプの使用

設置プロセス

Open-Reasoner-Zeroを使用するには、ある程度の技術的知識が必要です。 以下は、LinuxまたはUnixライクなシステムで実行するのに適した、詳細なインストールと操作のガイドです。

環境準備

  1. 基本的な依存関係のインストール::
    • Git、Python 3.8+、NVIDIA GPUドライバー(CUDAサポートが必要)がシステムにインストールされていることを確認してください。
    • トレーニング環境を迅速にデプロイするために、Docker(推奨バージョン20.10以上)をインストールします。
    sudo apt update
    sudo apt install git python3-pip docker.io
  1. プロジェクト・ウェアハウスのクローン::
    • ターミナルで以下のコマンドを実行し、プロジェクトをローカルにダウンロードする:
    git clone https://github.com/Open-Reasoner-Zero/Open-Reasoner-Zero.git
    cd Open-Reasoner-Zero
    
  2. Dockerで環境を設定する::
    • このプロジェクトは、トレーニング環境の構築を容易にするDockerfileを提供する。
    • プロジェクトのルート・ディレクトリで実行する:
    docker build -t open-reasoner-zero -f docker/Dockerfile .
    
    • ビルドが完了したら、コンテナを起動する:
    docker run -it --gpus all open-reasoner-zero bash
    
    • これにより、必要な依存関係がプリインストールされた、GPUをサポートするコンテナ環境に入ります。
  3. 依存関係の手動インストール(オプション)::
    • Dockerを使用していない場合は、依存関係を手動でインストールできる:
    pip install -r requirements.txt
    
    • OpenRLHF、vLLM、DeepSpeed、および Ray がインストールされていることを確認してください。

機能 操作の流れ

1.トレーニングモデル
  • トレーニングデータの準備::
    • このプロジェクトには、以下の場所にある57kの高品質なトレーニングデータが含まれている。 データ フォルダー
    • カスタムデータが必要な場合は、ドキュメントの指示に従ってフォーマットを整理し、置き換えてください。
  • プライミングトレーニング::
    • コンテナまたはローカル環境で以下のコマンドを実行する:
    python train.py --model Qwen2.5-7B --data-path ./データ
    
    • パラメータの説明
      • ---モデル例:Qwen2.5-7B、Qwen2.5-32B)。
      • --データパストレーニングデータのパスを指定する。
    • トレーニングログはマスターノード端末に表示され、進捗状況を簡単に確認することができます。
2.パフォーマンス評価
  • ベンチマークテストの実行::
    • 提供された評価スクリプトを使用して、モデルの性能を比較する:
    python evaluate.py --model Qwen2.5-32B --benchmark gpqa_diamond
    
    • 出力は、GPQA Diamondなどのベンチマークにおけるモデルの精度を示す。
  • 評価レポートを見る::
    • このプロジェクトには、パフォーマンスとトレーニング時間のスケーリングを示すチャート(図1や図2など)が含まれています。 諸注意 フォルダーから探す。
3.修正と拡張
  • 調整パラメーター::
    • コンパイラ config.yaml ファイルで、学習率やバッチサイズなどのハイパーパラメータを変更する。
    学習率:0.0001
    バッチサイズ: 16
    
  • 新機能の追加::
    • このプロジェクトはモジュール式で、次のようなことが可能です。 ソース フォルダに新しいモジュールを追加します。例えば、新しいデータ前処理スクリプトを追加します:
    # custom_preprocess.py
    def preprocess_data(input_file).
    #カスタムロジック
    パス
    

取り扱い上の注意

  • ハードウェア要件Qwen2.5-32B トレーニングをサポートするには、最低 24GB のビデオメモリを搭載した GPU(NVIDIA A100 など)を推奨します。
  • ログ監視トレーニング中は端末の電源を入れたままにしておき、いつでもログをチェックして問題を解決してください。
  • 地域支援質問はGitHubのIssuesか、hanqer@stepfun.com。

実践例

Qwen2.5-7Bに基づいてモデルをトレーニングしたいとします:

  1. Dockerコンテナに入る。
  2. うごきだす python train.py --model Qwen2.5-7B --data-path ./データ.
  3. 数時間待ち(ハードウェアによって異なる)、終了したら実行する。 python evaluate.py --model Qwen2.5-7B --benchmark gpqa_diamond.
  4. 出力を見て、パフォーマンスの向上を確認する。

これらの手順により、ユーザーは実験の再現や新機能の開発など、Open-Reasoner-Zeroをすぐに使い始めることができ、効率的に作業を進めることができます。

コンテンツ2
無断転載を禁じます:チーフAIシェアリングサークル " Open-Reasoner-Zero:オープンソースの大規模推論強化学習トレーニングプラットフォーム

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語