AIパーソナル・ラーニング
と実践的なガイダンス
讯飞绘镜

オープンR1:ハグする顔がDeepSeek-R1のトレーニングプロセスを再現

はじめに

Hugging FaceのOpen R1プロジェクトは、完全にオープンソースのDeepSeek-R1複製プロジェクトであり、R1パイプラインの欠けている部分を構築し、誰もがそれを複製して構築できるようにすることを目的としています。Open R1プロジェクトの目標は、ベースモデルから強化学習チューニングモデルまで、多段階のトレーニングプロセスを通じてR1パイプラインを再現する完全なプロセスを実証することです。プロジェクトには、詳細なインストール方法と使用方法が含まれており、コミュニティへの貢献とコラボレーションをサポートしている。

私たちはまず ディープシーク-R1 このテクニカルレポートは、大きく3つのステップに分けられる:


ステップ 1: DeepSeek-R1 から高品質のコーパスを抽出して、R1-Distill モデルを複製します。

ステップ2:レプリケーション ディープシーク R1-Zeroを作るための純粋な強化学習(RL)プロセス。そのためには、数学、推論、コードのための新たな大規模データセットを照合する必要があるかもしれない。

ステップ3:多段階学習により、ベースモデルからRLチューニングモデルへ移行できることを示す。

Open R1:Hugging Face 复现 DeepSeek-R1 的训练过程-1

 

機能一覧

  • モデルトレーニングGRPOおよびSFTトレーニングメソッドを含む、トレーニングモデルのスクリプトを提供します。
  • モデリング評価モデルの性能を評価するスクリプトを提供し、R1ベンチマークをサポートします。
  • データ作成Distilabelを使って合成データを生成するスクリプト。
  • 多段階トレーニングベースモデルから強化学習チューニングまで、多段階の学習プロセスを示す。
  • 地域貢献コミュニティメンバーがデータセットやモデルの改良に貢献できるようサポートする。

 

ヘルプの使用

設置プロセス

  1. Python仮想環境の作成::
   conda create -n openr1 python=3.11
conda activate openr1
  1. vLLMのインストール::
   pip install vllm==0.6.6.post1

これは同時にPyTorch v2.5.1をインストールします。vLLMバイナリとの互換性のために、このバージョンを使うようにしてください。

  1. プロジェクトの依存関係をインストールする::
   pip install -e ".[dev]"
  1. Hugging FaceとWeights and Biasesのアカウントにログイン::
   huggingface-cli login
wandb login
  1. Git LFSのインストール::
   sudo apt-get install git-lfs

使用ガイドライン

  1. トレーニングモデル::
    • GRPOを使ってモデルをトレーニングする:
     python src/open_r1/grpo.py --dataset <dataset_path>
    
    • SFTを使用してモデルをトレーニングする:
     python src/open_r1/sft.py --dataset <dataset_path>
    
  2. アセスメントモデル::
   python src/open_r1/evaluate.py --model <model_path> --benchmark <benchmark_name>
  1. 合成データの生成::
   python src/open_r1/generate.py --model <model_path> --output <output_path>
  1. 多段階トレーニング::
    • ステップ1:R1-Distillモデルを複製する: bash
      python src/open_r1/distill.py --corpus <corpus_path>
    • ステップ2:純粋なRLパイプラインを複製する: bash
      python src/open_r1/rl_pipeline.py --dataset <dataset_path>
    • ステップ3:ベースモデルからRLチューニングへ: bash
      python src/open_r1/multi_stage_training.py --model <model_path>

寄付ガイドライン

  1. プロジェクト・フォークGitHubの自分のアカウントにプロジェクトをフォークする。
  2. クローンプロジェクト::
   git clone https://github.com/<your_username>/open-r1.git
  1. 新しいブランチの作成::
   git checkout -b new-feature
  1. 変更を提出する::
   git add .
git commit -m "Add new feature"
git push origin new-feature
  1. プルリクエストの作成GitHub に変更を記載した Pull Request を提出する。
無断転載を禁じます:チーフAIシェアリングサークル " オープンR1:ハグする顔がDeepSeek-R1のトレーニングプロセスを再現
ja日本語