Open R1 : Un visage étreint reproduit le processus de formation de DeepSeek-R1

Introduction générale

Le projet Open R1 de Hugging Face est un projet de réplication DeepSeek-R1 entièrement open-source qui vise à construire les pièces manquantes du pipeline R1 afin que tout le monde puisse les reproduire et s'en inspirer. Le projet est conçu pour être simple et consiste principalement en des scripts pour l'entraînement et l'évaluation de modèles ainsi que pour la génération de données synthétiques. Le projet est conçu pour être simple et consiste principalement en des scripts pour l'entraînement et l'évaluation des modèles ainsi que pour la génération de données synthétiques. L'objectif du projet Open R1 est de démontrer le processus complet de reproduction du pipeline R1 à travers un processus d'entraînement en plusieurs étapes, du modèle de base jusqu'au modèle d'ajustement par apprentissage par renforcement. Le projet comprend des instructions d'installation et d'utilisation détaillées, et soutient les contributions et la collaboration de la communauté.

Nous allons commencer par Profondeur de l'eau-R1 Le rapport technique sert de guide, qui peut être divisé en trois étapes principales :

Étape 1 : Reproduire le modèle R1-Distill en extrayant un corpus de haute qualité de DeepSeek-R1.

Étape 2 : Réplication DeepSeek Processus d'apprentissage par renforcement pur (RL) pour créer R1-Zéro. Cela peut nécessiter la collecte de nouveaux ensembles de données à grande échelle pour les mathématiques, l'inférence et le code.

Étape 3 : Démontrer que nous pouvons passer d'un modèle de base à un modèle optimisé par RL grâce à un apprentissage en plusieurs étapes.

Open R1:Hugging Face 复现 DeepSeek-R1 的训练过程

 

Liste des fonctions

  • formation au modèleLe site Web de l'Institut de la formation professionnelle (IFP) : il fournit des scripts pour les modèles de formation, y compris les méthodes de formation GRPO et SFT.
  • évaluation de la modélisationLe système d'information sur les modèles : fournit des scripts pour évaluer la performance des modèles et soutient l'analyse comparative des modèles R1.
  • Génération de données: Scripts permettant de générer des données synthétiques à l'aide de Distilabel.
  • Formation en plusieurs étapesLes résultats de l'apprentissage par renforcement : Démonstration d'un processus de formation en plusieurs étapes, du modèle de base à l'ajustement de l'apprentissage par renforcement.
  • Contributions communautairesLes membres de la communauté peuvent contribuer aux ensembles de données et à l'amélioration des modèles.

 

Utiliser l'aide

Processus d'installation

  1. Création d'un environnement virtuel Python: :
   conda create -n openr1 python=3.11
conda activate openr1
  1. Installation de vLLM: :
   pip install vllm==0.6.6.post1

Cela installera PyTorch v2.5.1 en même temps, assurez-vous d'utiliser cette version pour la compatibilité avec les binaires vLLM.

  1. Installer les dépendances du projet: :
   pip install -e ".[dev]"
  1. Connexion aux comptes Hugging Face et Weights and Biases: :
   huggingface-cli login
wandb login
  1. Installation de Git LFS: :
   sudo apt-get install git-lfs

Lignes directrices pour l'utilisation

  1. Modèles de formation: :
    • Utiliser le GRPO pour entraîner le modèle :
     python src/open_r1/grpo.py --dataset <dataset_path>
    
    • Utiliser SFT pour entraîner le modèle :
     python src/open_r1/sft.py --dataset <dataset_path>
    
  2. modèle d'évaluation: :
   python src/open_r1/evaluate.py --model <model_path> --benchmark <benchmark_name>
  1. Générer des données synthétiques: :
   python src/open_r1/generate.py --model <model_path> --output <output_path>
  1. Formation en plusieurs étapes: :
    • Étape 1 : Reproduire le modèle R1-Distill : bash
      python src/open_r1/distill.py --corpus <corpus_path>
    • Étape 2 : Reproduire le pipeline RL pur : bash
      python src/open_r1/rl_pipeline.py --dataset <dataset_path>
    • Étape 3 : Du modèle de base au réglage RL : bash
      python src/open_r1/multi_stage_training.py --model <model_path>

Lignes directrices relatives aux contributions

  1. Fourchette du projet: vous pouvez télécharger le projet sur votre propre compte sur GitHub.
  2. projet de clonage: :
   git clone https://github.com/<your_username>/open-r1.git
  1. Création d'une nouvelle branche: :
   git checkout -b new-feature
  1. Soumettre des modifications: :
   git add .
git commit -m "Add new feature"
git push origin new-feature
  1. Création d'une Pull RequestLes changements apportés à l'application : Soumettre une Pull Request sur GitHub en décrivant les changements apportés.
© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...