Open R1 : Un visage étreint reproduit le processus de formation de DeepSeek-R1

Dernières ressources sur l'IAPosté il y a 8 mois Cercle de partage de l'IA

22.5K 00

Introduction générale

Le projet Open R1 de Hugging Face est un projet de réplication DeepSeek-R1 entièrement open-source qui vise à construire les pièces manquantes du pipeline R1 afin que tout le monde puisse les reproduire et s'en inspirer. Le projet est conçu pour être simple et consiste principalement en des scripts pour l'entraînement et l'évaluation de modèles ainsi que pour la génération de données synthétiques. Le projet est conçu pour être simple et consiste principalement en des scripts pour l'entraînement et l'évaluation des modèles ainsi que pour la génération de données synthétiques. L'objectif du projet Open R1 est de démontrer le processus complet de reproduction du pipeline R1 à travers un processus d'entraînement en plusieurs étapes, du modèle de base jusqu'au modèle d'ajustement par apprentissage par renforcement. Le projet comprend des instructions d'installation et d'utilisation détaillées, et soutient les contributions et la collaboration de la communauté.

Nous allons commencer par Profondeur de l'eau-R1 Le rapport technique sert de guide, qui peut être divisé en trois étapes principales :

Étape 1 : Reproduire le modèle R1-Distill en extrayant un corpus de haute qualité de DeepSeek-R1.

Étape 2 : Réplication DeepSeek Processus d'apprentissage par renforcement pur (RL) pour créer R1-Zéro. Cela peut nécessiter la collecte de nouveaux ensembles de données à grande échelle pour les mathématiques, l'inférence et le code.

Étape 3 : Démontrer que nous pouvons passer d'un modèle de base à un modèle optimisé par RL grâce à un apprentissage en plusieurs étapes.

Open R1：Hugging Face 复现 DeepSeek-R1 的训练过程

Liste des fonctions

formation au modèleLe site Web de l'Institut de la formation professionnelle (IFP) : il fournit des scripts pour les modèles de formation, y compris les méthodes de formation GRPO et SFT.
évaluation de la modélisationLe système d'information sur les modèles : fournit des scripts pour évaluer la performance des modèles et soutient l'analyse comparative des modèles R1.
Génération de données: Scripts permettant de générer des données synthétiques à l'aide de Distilabel.
Formation en plusieurs étapesLes résultats de l'apprentissage par renforcement : Démonstration d'un processus de formation en plusieurs étapes, du modèle de base à l'ajustement de l'apprentissage par renforcement.
Contributions communautairesLes membres de la communauté peuvent contribuer aux ensembles de données et à l'amélioration des modèles.

Utiliser l'aide

Processus d'installation

Création d'un environnement virtuel Python: :

   conda create -n openr1 python=3.11
conda activate openr1

Installation de vLLM: :

   pip install vllm==0.6.6.post1

Cela installera PyTorch v2.5.1 en même temps, assurez-vous d'utiliser cette version pour la compatibilité avec les binaires vLLM.

Installer les dépendances du projet: :

   pip install -e ".[dev]"

Connexion aux comptes Hugging Face et Weights and Biases: :

   huggingface-cli login
wandb login

Installation de Git LFS: :

   sudo apt-get install git-lfs

Lignes directrices pour l'utilisation

Modèles de formation: :
- Utiliser le GRPO pour entraîner le modèle :
```
 python src/open_r1/grpo.py --dataset <dataset_path>
```
- Utiliser SFT pour entraîner le modèle :
```
 python src/open_r1/sft.py --dataset <dataset_path>
```
modèle d'évaluation: :

   python src/open_r1/evaluate.py --model <model_path> --benchmark <benchmark_name>

Générer des données synthétiques: :

   python src/open_r1/generate.py --model <model_path> --output <output_path>

Formation en plusieurs étapes: :
- Étape 1 : Reproduire le modèle R1-Distill : bash python src/open_r1/distill.py --corpus <corpus_path>
- Étape 2 : Reproduire le pipeline RL pur : bash python src/open_r1/rl_pipeline.py --dataset <dataset_path>
- Étape 3 : Du modèle de base au réglage RL : bash python src/open_r1/multi_stage_training.py --model <model_path>

Lignes directrices relatives aux contributions

Fourchette du projet: vous pouvez télécharger le projet sur votre propre compte sur GitHub.
projet de clonage: :

   git clone https://github.com/<your_username>/open-r1.git

Création d'une nouvelle branche: :

   git checkout -b new-feature

Soumettre des modifications: :

   git add .
git commit -m "Add new feature"
git push origin new-feature

Création d'une Pull RequestLes changements apportés à l'application : Soumettre une Pull Request sur GitHub en décrivant les changements apportés.

Dernières ressources sur l'IA # AI Java Open Source Projecct

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

Kokoro WebGPU : un service de synthèse vocale pour les opérations hors ligne dans les navigateurs

Il y a 7 mois

024.3K

Whisk : téléchargez plusieurs images et mélangez les thèmes, les scènes et les styles pour créer des œuvres d'art uniques !

Dernières ressources sur l'IA # AI Image Style Control

Il y a 3 mois

020.4K

VBDeepSeek : un outil open source pour générer du matériel d'étude de mots pour la 4e année à l'aide de DeepSeek

Dernières ressources sur l'IA # AI Java Open Source Projecct # Outils pédagogiques AI

Il y a 7 mois

020.1K

Llama Tutor：提供个性化辅导的AI工具，基于 Llama 3.1 构建的开源 AI 个人助教项目

Llama Tutor : un outil d'IA pour fournir un tutorat personnalisé, un projet de tuteur personnel d'IA open source construit sur Llama 3.1

Dernières ressources sur l'IA # AI Java Open Source Projecct # Outils pédagogiques AI

Il y a 10 mois

018K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

Open R1 : Un visage étreint reproduit le processus de formation de DeepSeek-R1

Introduction générale

Liste des fonctions

Utiliser l'aide

Processus d'installation

Lignes directrices pour l'utilisation

Lignes directrices relatives aux contributions

Open Operator : effectuer des opérations automatisées dans les navigateurs en nuage grâce à l'intelligence artificielle

TinyZero : une réplique à faible coût de l'effet épiphanique de DeepSeeK-R1 Zero

Articles connexes

Kokoro WebGPU : un service de synthèse vocale pour les opérations hors ligne dans les navigateurs

Whisk : téléchargez plusieurs images et mélangez les thèmes, les scènes et les styles pour créer des œuvres d'art uniques !

VBDeepSeek : un outil open source pour générer du matériel d'étude de mots pour la 4e année à l'aide de DeepSeek

Llama Tutor : un outil d'IA pour fournir un tutorat personnalisé, un projet de tuteur personnel d'IA open source construit sur Llama 3.1

Pas de commentaires

Dernières collections

Derniers articles

Open R1 : Un visage étreint reproduit le processus de formation de DeepSeek-R1

Introduction générale

Liste des fonctions

Utiliser l'aide

Processus d'installation

Lignes directrices pour l'utilisation

Lignes directrices relatives aux contributions

Open Operator : effectuer des opérations automatisées dans les navigateurs en nuage grâce à l'intelligence artificielle

TinyZero : une réplique à faible coût de l'effet épiphanique de DeepSeeK-R1 Zero

Articles connexes

Kokoro WebGPU : un service de synthèse vocale pour les opérations hors ligne dans les navigateurs

Whisk : téléchargez plusieurs images et mélangez les thèmes, les scènes et les styles pour créer des œuvres d'art uniques !

VBDeepSeek : un outil open source pour générer du matériel d'étude de mots pour la 4e année à l'aide de DeepSeek

Llama Tutor : un outil d'IA pour fournir un tutorat personnalisé, un projet de tuteur personnel d'IA open source construit sur Llama 3.1

Pas de commentaires

Outils d'IA sélectionnés

Dernières collections

Derniers articles