AIパーソナル・ラーニング
と実践的なガイダンス

オープンR1:ハグする顔がDeepSeek-R1のトレーニングプロセスを再現

はじめに

Hugging FaceのOpen R1プロジェクトは、完全にオープンソースのDeepSeek-R1複製プロジェクトであり、R1パイプラインの欠けている部分を構築し、誰もがそれを複製して構築できるようにすることを目的としています。Open R1プロジェクトの目標は、ベースモデルから強化学習チューニングモデルまで、多段階のトレーニングプロセスを通じてR1パイプラインを再現する完全なプロセスを実証することです。プロジェクトには、詳細なインストール方法と使用方法が含まれており、コミュニティへの貢献とコラボレーションをサポートしている。

私たちはまず ディープシーク-R1 このテクニカルレポートは、大きく3つのステップに分けられる:


ステップ 1: DeepSeek-R1 から高品質のコーパスを抽出して、R1-Distill モデルを複製します。

ステップ2:レプリケーション ディープシーク R1-Zeroを作るための純粋な強化学習(RL)プロセス。そのためには、数学、推論、コードのための新たな大規模データセットを照合する必要があるかもしれない。

ステップ3:多段階学習により、ベースモデルからRLチューニングモデルへ移行できることを示す。

Open R1: ハグする顔がDeepSeek-R1-1のトレーニング過程を再現する

 

機能一覧

  • モデルトレーニングGRPOおよびSFTトレーニングメソッドを含む、トレーニングモデルのスクリプトを提供します。
  • モデリング評価モデルの性能を評価するスクリプトを提供し、R1ベンチマークをサポートします。
  • データ作成Distilabelを使って合成データを生成するスクリプト。
  • 多段階トレーニングベースモデルから強化学習チューニングまで、多段階の学習プロセスを示す。
  • 地域貢献コミュニティメンバーがデータセットやモデルの改良に貢献できるようサポートする。

 

ヘルプの使用

設置プロセス

  1. Python仮想環境の作成::
   conda create -n openr1 python=3.11
conda openr1 をアクティブにする
  1. vLLMのインストール::
   pip install vllm==0.6.6.post1

これは同時にPyTorch v2.5.1をインストールします。vLLMバイナリとの互換性のために、このバージョンを使うようにしてください。

  1. プロジェクトの依存関係をインストールする::
   pip install -e ".[dev]"
  1. Hugging FaceとWeights and Biasesのアカウントにログイン::
   huggingface-cli ログイン
wandbログイン
  1. Git LFSのインストール::
   sudo apt-get install git-lfs

使用ガイドライン

  1. トレーニングモデル::
    • GRPOを使ってモデルをトレーニングする:
     python src/open_r1/grpo.py --dataset
    
    • SFTを使用してモデルをトレーニングする:
     python src/open_r1/sft.py --dataset .
    
  2. アセスメントモデル::
   python src/open_r1/evaluate.py --model  --benchmark
  1. 合成データの生成::
   python src/open_r1/generate.py --model  --output <出力パス
  1. 多段階トレーニング::
    • ステップ1:R1-Distillモデルを複製する: バッシュ
      python src/open_r1/distill.py --corpus .
    • ステップ2:純粋なRLパイプラインを複製する: バッシュ
      python src/open_r1/rl_pipeline.py --dataset
    • ステップ3:ベースモデルからRLチューニングへ: バッシュ
      python src/open_r1/multi_stage_training.py --model

寄付ガイドライン

  1. プロジェクト・フォークGitHubの自分のアカウントにプロジェクトをフォークする。
  2. クローンプロジェクト::
   git clone https://github.com//open-r1.git
  1. 新しいブランチの作成::
   git checkout -b new-feature
  1. 変更を提出する::
   git add .
git commit -m "新機能の追加"
git push origin new-feature
  1. プルリクエストの作成GitHub に変更を記載した Pull Request を提出する。
無断転載を禁じます:チーフAIシェアリングサークル " オープンR1:ハグする顔がDeepSeek-R1のトレーニングプロセスを再現

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語