Open R1: Cara abrazada reproduce el proceso de entrenamiento de DeepSeek-R1

Introducción general

El proyecto Open R1 de Hugging Face es un proyecto de réplica de DeepSeek-R1 totalmente de código abierto que pretende construir las piezas que faltan del pipeline R1 para que todo el mundo pueda replicarlas y basarse en ellas. El objetivo del proyecto Open R1 es demostrar el proceso completo de reproducción del canal R1 a través de un proceso de entrenamiento en varias etapas, desde el modelo base hasta el modelo de ajuste de aprendizaje por refuerzo. El proyecto incluye instrucciones detalladas de instalación y uso, y apoya las contribuciones y la colaboración de la comunidad.

Vamos a empezar con DeepSeek-R1 El informe técnico sirve de guía, que puede desglosarse a grandes rasgos en tres pasos principales:

Paso 1: Replicar el modelo R1-Distill extrayendo un corpus de alta calidad de DeepSeek-R1.

Paso 2: Replicación DeepSeek Proceso de aprendizaje por refuerzo (RL) puro para crear R1-Cero. Esto puede requerir la recopilación de nuevos conjuntos de datos a gran escala para matemáticas, inferencia y código.

Paso 3: Demostrar que podemos pasar de un modelo base a un modelo ajustado mediante RL a través de un entrenamiento multietapa.

Open R1:Hugging Face 复现 DeepSeek-R1 的训练过程

 

Lista de funciones

  • formación de modelos: Proporciona secuencias de comandos para modelos de formación, incluidos los métodos de formación GRPO y SFT.
  • evaluación de modelosPermite evaluar el rendimiento de los modelos y la evaluación comparativa de R1.
  • Generación de datosScripts para generar datos sintéticos con Distilabel.
  • Formación en varias etapasDemostración de un proceso de entrenamiento en varias etapas, desde el modelo base hasta el ajuste del aprendizaje por refuerzo.
  • Contribuciones comunitariasApoyo a los miembros de la comunidad para que aporten conjuntos de datos y mejoras de los modelos.

 

Utilizar la ayuda

Proceso de instalación

  1. Creación de un entorno virtual Python::
   conda create -n openr1 python=3.11
conda activate openr1
  1. Instalación de vLLM::
   pip install vllm==0.6.6.post1

Esto instalará PyTorch v2.5.1 al mismo tiempo, asegúrese de utilizar esta versión para la compatibilidad con los binarios vLLM.

  1. Instalar las dependencias del proyecto::
   pip install -e ".[dev]"
  1. Entrar en las cuentas Hugging Face y Weights and Biases::
   huggingface-cli login
wandb login
  1. Instalación de Git LFS::
   sudo apt-get install git-lfs

Normas de uso

  1. Modelos de formación::
    • Utilice GRPO para entrenar el modelo:
     python src/open_r1/grpo.py --dataset <dataset_path>
    
    • Utilice SFT para entrenar el modelo:
     python src/open_r1/sft.py --dataset <dataset_path>
    
  2. modelo de evaluación::
   python src/open_r1/evaluate.py --model <model_path> --benchmark <benchmark_name>
  1. Generar datos sintéticos::
   python src/open_r1/generate.py --model <model_path> --output <output_path>
  1. Formación en varias etapas::
    • Paso 1: Reproducir el modelo R1-Distill: bash
      python src/open_r1/distill.py --corpus <corpus_path>
    • Paso 2: Reproducir la canalización RL pura: bash
      python src/open_r1/rl_pipeline.py --dataset <dataset_path>
    • Paso 3: Del modelo base al ajuste RL: bash
      python src/open_r1/multi_stage_training.py --model <model_path>

Directrices de contribución

  1. Proyecto Horquillabifurca el proyecto en tu propia cuenta de GitHub.
  2. proyecto de clonación::
   git clone https://github.com/<your_username>/open-r1.git
  1. Crear una nueva sucursal::
   git checkout -b new-feature
  1. Enviar cambios::
   git add .
git commit -m "Add new feature"
git push origin new-feature
  1. Creación de una Pull RequestEnvíe una Pull Request en GitHub describiendo los cambios realizados.
© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...