Open R1: Cara abrazada reproduce el proceso de entrenamiento de DeepSeek-R1
Últimos recursos sobre IAPublicado hace 10 meses Círculo de intercambio de inteligencia artificial 39K 00
Introducción general
El proyecto Open R1 de Hugging Face es un proyecto de réplica de DeepSeek-R1 totalmente de código abierto que pretende construir las piezas que faltan del pipeline R1 para que todo el mundo pueda replicarlas y basarse en ellas. El objetivo del proyecto Open R1 es demostrar el proceso completo de reproducción del canal R1 a través de un proceso de entrenamiento en varias etapas, desde el modelo base hasta el modelo de ajuste de aprendizaje por refuerzo. El proyecto incluye instrucciones detalladas de instalación y uso, y apoya las contribuciones y la colaboración de la comunidad.
Vamos a empezar con DeepSeek-R1 El informe técnico sirve de guía, que puede desglosarse a grandes rasgos en tres pasos principales:
Paso 1: Replicar el modelo R1-Distill extrayendo un corpus de alta calidad de DeepSeek-R1.
Paso 2: Replicación DeepSeek Proceso de aprendizaje por refuerzo (RL) puro para crear R1-Cero. Esto puede requerir la recopilación de nuevos conjuntos de datos a gran escala para matemáticas, inferencia y código.
Paso 3: Demostrar que podemos pasar de un modelo base a un modelo ajustado mediante RL a través de un entrenamiento multietapa.

Lista de funciones
- formación de modelos: Proporciona secuencias de comandos para modelos de formación, incluidos los métodos de formación GRPO y SFT.
- evaluación de modelosPermite evaluar el rendimiento de los modelos y la evaluación comparativa de R1.
- Generación de datosScripts para generar datos sintéticos con Distilabel.
- Formación en varias etapasDemostración de un proceso de entrenamiento en varias etapas, desde el modelo base hasta el ajuste del aprendizaje por refuerzo.
- Contribuciones comunitariasApoyo a los miembros de la comunidad para que aporten conjuntos de datos y mejoras de los modelos.
Utilizar la ayuda
Proceso de instalación
- Creación de un entorno virtual Python::
conda create -n openr1 python=3.11
conda activate openr1
- Instalación de vLLM::
pip install vllm==0.6.6.post1
Esto instalará PyTorch v2.5.1 al mismo tiempo, asegúrese de utilizar esta versión para la compatibilidad con los binarios vLLM.
- Instalar las dependencias del proyecto::
pip install -e ".[dev]"
- Entrar en las cuentas Hugging Face y Weights and Biases::
huggingface-cli login
wandb login
- Instalación de Git LFS::
sudo apt-get install git-lfs
Normas de uso
- Modelos de formación::
- Utilice GRPO para entrenar el modelo:
python src/open_r1/grpo.py --dataset <dataset_path>- Utilice SFT para entrenar el modelo:
python src/open_r1/sft.py --dataset <dataset_path> - modelo de evaluación::
python src/open_r1/evaluate.py --model <model_path> --benchmark <benchmark_name>
- Generar datos sintéticos::
python src/open_r1/generate.py --model <model_path> --output <output_path>
- Formación en varias etapas::
- Paso 1: Reproducir el modelo R1-Distill:
bash
python src/open_r1/distill.py --corpus <corpus_path> - Paso 2: Reproducir la canalización RL pura:
bash
python src/open_r1/rl_pipeline.py --dataset <dataset_path> - Paso 3: Del modelo base al ajuste RL:
bash
python src/open_r1/multi_stage_training.py --model <model_path>
- Paso 1: Reproducir el modelo R1-Distill:
Directrices de contribución
- Proyecto Horquillabifurca el proyecto en tu propia cuenta de GitHub.
- proyecto de clonación::
git clone https://github.com/<your_username>/open-r1.git
- Crear una nueva sucursal::
git checkout -b new-feature
- Enviar cambios::
git add .
git commit -m "Add new feature"
git push origin new-feature
- Creación de una Pull RequestEnvíe una Pull Request en GitHub describiendo los cambios realizados.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...




