はじめに
Hugging FaceのOpen R1プロジェクトは、完全にオープンソースのDeepSeek-R1複製プロジェクトであり、R1パイプラインの欠けている部分を構築し、誰もがそれを複製して構築できるようにすることを目的としています。Open R1プロジェクトの目標は、ベースモデルから強化学習チューニングモデルまで、多段階のトレーニングプロセスを通じてR1パイプラインを再現する完全なプロセスを実証することです。プロジェクトには、詳細なインストール方法と使用方法が含まれており、コミュニティへの貢献とコラボレーションをサポートしている。
私たちはまず ディープシーク-R1 このテクニカルレポートは、大きく3つのステップに分けられる:
ステップ 1: DeepSeek-R1 から高品質のコーパスを抽出して、R1-Distill モデルを複製します。
ステップ2:レプリケーション ディープシーク R1-Zeroを作るための純粋な強化学習(RL)プロセス。そのためには、数学、推論、コードのための新たな大規模データセットを照合する必要があるかもしれない。
ステップ3:多段階学習により、ベースモデルからRLチューニングモデルへ移行できることを示す。
機能一覧
- モデルトレーニングGRPOおよびSFTトレーニングメソッドを含む、トレーニングモデルのスクリプトを提供します。
- モデリング評価モデルの性能を評価するスクリプトを提供し、R1ベンチマークをサポートします。
- データ作成Distilabelを使って合成データを生成するスクリプト。
- 多段階トレーニングベースモデルから強化学習チューニングまで、多段階の学習プロセスを示す。
- 地域貢献コミュニティメンバーがデータセットやモデルの改良に貢献できるようサポートする。
ヘルプの使用
設置プロセス
- Python仮想環境の作成::
conda create -n openr1 python=3.11
conda openr1 をアクティブにする
- vLLMのインストール::
pip install vllm==0.6.6.post1
これは同時にPyTorch v2.5.1をインストールします。vLLMバイナリとの互換性のために、このバージョンを使うようにしてください。
- プロジェクトの依存関係をインストールする::
pip install -e ".[dev]"
- Hugging FaceとWeights and Biasesのアカウントにログイン::
huggingface-cli ログイン
wandbログイン
- Git LFSのインストール::
sudo apt-get install git-lfs
使用ガイドライン
- トレーニングモデル::
- GRPOを使ってモデルをトレーニングする:
python src/open_r1/grpo.py --dataset
- SFTを使用してモデルをトレーニングする:
python src/open_r1/sft.py --dataset .
- アセスメントモデル::
python src/open_r1/evaluate.py --model --benchmark
- 合成データの生成::
python src/open_r1/generate.py --model --output <出力パス
- 多段階トレーニング::
- ステップ1:R1-Distillモデルを複製する:
バッシュ
python src/open_r1/distill.py --corpus .
- ステップ2:純粋なRLパイプラインを複製する:
バッシュ
python src/open_r1/rl_pipeline.py --dataset
- ステップ3:ベースモデルからRLチューニングへ:
バッシュ
python src/open_r1/multi_stage_training.py --model
- ステップ1:R1-Distillモデルを複製する:
寄付ガイドライン
- プロジェクト・フォークGitHubの自分のアカウントにプロジェクトをフォークする。
- クローンプロジェクト::
git clone https://github.com//open-r1.git
- 新しいブランチの作成::
git checkout -b new-feature
- 変更を提出する::
git add .
git commit -m "新機能の追加"
git push origin new-feature
- プルリクエストの作成GitHub に変更を記載した Pull Request を提出する。