Open R1: Cara abrazada reproduce el proceso de entrenamiento de DeepSeek-R1
Últimos recursos sobre IAPublicado hace 7 meses Círculo de intercambio de inteligencia artificial 3.2K 00
Introducción general
El proyecto Open R1 de Hugging Face es un proyecto de réplica de DeepSeek-R1 totalmente de código abierto que pretende construir las piezas que faltan del pipeline R1 para que todo el mundo pueda replicarlas y basarse en ellas. El objetivo del proyecto Open R1 es demostrar el proceso completo de reproducción del canal R1 a través de un proceso de entrenamiento en varias etapas, desde el modelo base hasta el modelo de ajuste de aprendizaje por refuerzo. El proyecto incluye instrucciones detalladas de instalación y uso, y apoya las contribuciones y la colaboración de la comunidad.
Vamos a empezar con DeepSeek-R1 El informe técnico sirve de guía, que puede desglosarse a grandes rasgos en tres pasos principales:
Paso 1: Replicar el modelo R1-Distill extrayendo un corpus de alta calidad de DeepSeek-R1.
Paso 2: Replicación DeepSeek Proceso de aprendizaje por refuerzo (RL) puro para crear R1-Cero. Esto puede requerir la recopilación de nuevos conjuntos de datos a gran escala para matemáticas, inferencia y código.
Paso 3: Demostrar que podemos pasar de un modelo base a un modelo ajustado mediante RL a través de un entrenamiento multietapa.

Lista de funciones
- formación de modelos: Proporciona secuencias de comandos para modelos de formación, incluidos los métodos de formación GRPO y SFT.
- evaluación de modelosPermite evaluar el rendimiento de los modelos y la evaluación comparativa de R1.
- Generación de datosScripts para generar datos sintéticos con Distilabel.
- Formación en varias etapasDemostración de un proceso de entrenamiento en varias etapas, desde el modelo base hasta el ajuste del aprendizaje por refuerzo.
- Contribuciones comunitariasApoyo a los miembros de la comunidad para que aporten conjuntos de datos y mejoras de los modelos.
Utilizar la ayuda
Proceso de instalación
- Creación de un entorno virtual Python::
conda create -n openr1 python=3.11
conda activate openr1
- Instalación de vLLM::
pip install vllm==0.6.6.post1
Esto instalará PyTorch v2.5.1 al mismo tiempo, asegúrese de utilizar esta versión para la compatibilidad con los binarios vLLM.
- Instalar las dependencias del proyecto::
pip install -e ".[dev]"
- Entrar en las cuentas Hugging Face y Weights and Biases::
huggingface-cli login
wandb login
- Instalación de Git LFS::
sudo apt-get install git-lfs
Normas de uso
- Modelos de formación::
- Utilice GRPO para entrenar el modelo:
python src/open_r1/grpo.py --dataset <dataset_path>
- Utilice SFT para entrenar el modelo:
python src/open_r1/sft.py --dataset <dataset_path>
- modelo de evaluación::
python src/open_r1/evaluate.py --model <model_path> --benchmark <benchmark_name>
- Generar datos sintéticos::
python src/open_r1/generate.py --model <model_path> --output <output_path>
- Formación en varias etapas::
- Paso 1: Reproducir el modelo R1-Distill:
bash
python src/open_r1/distill.py --corpus <corpus_path> - Paso 2: Reproducir la canalización RL pura:
bash
python src/open_r1/rl_pipeline.py --dataset <dataset_path> - Paso 3: Del modelo base al ajuste RL:
bash
python src/open_r1/multi_stage_training.py --model <model_path>
- Paso 1: Reproducir el modelo R1-Distill:
Directrices de contribución
- Proyecto Horquillabifurca el proyecto en tu propia cuenta de GitHub.
- proyecto de clonación::
git clone https://github.com/<your_username>/open-r1.git
- Crear una nueva sucursal::
git checkout -b new-feature
- Enviar cambios::
git add .
git commit -m "Add new feature"
git push origin new-feature
- Creación de una Pull RequestEnvíe una Pull Request en GitHub describiendo los cambios realizados.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...