Open R1: Cara abrazada reproduce el proceso de entrenamiento de DeepSeek-R1

Últimos recursos sobre IAPublicado hace 1 año Círculo de intercambio de inteligencia artificial

72.7K 00

Introducción general

El proyecto Open R1 de Hugging Face es un proyecto de réplica de DeepSeek-R1 totalmente de código abierto que pretende construir las piezas que faltan del pipeline R1 para que todo el mundo pueda replicarlas y basarse en ellas. El objetivo del proyecto Open R1 es demostrar el proceso completo de reproducción del canal R1 a través de un proceso de entrenamiento en varias etapas, desde el modelo base hasta el modelo de ajuste de aprendizaje por refuerzo. El proyecto incluye instrucciones detalladas de instalación y uso, y apoya las contribuciones y la colaboración de la comunidad.

Vamos a empezar con DeepSeek-R1 El informe técnico sirve de guía, que puede desglosarse a grandes rasgos en tres pasos principales:

Paso 1: Replicar el modelo R1-Distill extrayendo un corpus de alta calidad de DeepSeek-R1.

Paso 2: Replicación DeepSeek Proceso de aprendizaje por refuerzo (RL) puro para crear R1-Cero. Esto puede requerir la recopilación de nuevos conjuntos de datos a gran escala para matemáticas, inferencia y código.

Paso 3: Demostrar que podemos pasar de un modelo base a un modelo ajustado mediante RL a través de un entrenamiento multietapa.

Open R1：Hugging Face 复现 DeepSeek-R1 的训练过程

Lista de funciones

formación de modelos: Proporciona secuencias de comandos para modelos de formación, incluidos los métodos de formación GRPO y SFT.
evaluación de modelosPermite evaluar el rendimiento de los modelos y la evaluación comparativa de R1.
Generación de datosScripts para generar datos sintéticos con Distilabel.
Formación en varias etapasDemostración de un proceso de entrenamiento en varias etapas, desde el modelo base hasta el ajuste del aprendizaje por refuerzo.
Contribuciones comunitariasApoyo a los miembros de la comunidad para que aporten conjuntos de datos y mejoras de los modelos.

Utilizar la ayuda

Proceso de instalación

Creación de un entorno virtual Python::

   conda create -n openr1 python=3.11
conda activate openr1

Instalación de vLLM::

   pip install vllm==0.6.6.post1

Esto instalará PyTorch v2.5.1 al mismo tiempo, asegúrese de utilizar esta versión para la compatibilidad con los binarios vLLM.

Instalar las dependencias del proyecto::

   pip install -e ".[dev]"

Entrar en las cuentas Hugging Face y Weights and Biases::

   huggingface-cli login
wandb login

Instalación de Git LFS::

   sudo apt-get install git-lfs

Normas de uso

Modelos de formación::

Utilice GRPO para entrenar el modelo:

 python src/open_r1/grpo.py --dataset <dataset_path>

Utilice SFT para entrenar el modelo:

 python src/open_r1/sft.py --dataset <dataset_path>

modelo de evaluación::

   python src/open_r1/evaluate.py --model <model_path> --benchmark <benchmark_name>

Generar datos sintéticos::

   python src/open_r1/generate.py --model <model_path> --output <output_path>

Formación en varias etapas::
- Paso 1: Reproducir el modelo R1-Distill: bash python src/open_r1/distill.py --corpus <corpus_path>
- Paso 2: Reproducir la canalización RL pura: bash python src/open_r1/rl_pipeline.py --dataset <dataset_path>
- Paso 3: Del modelo base al ajuste RL: bash python src/open_r1/multi_stage_training.py --model <model_path>

Directrices de contribución

Proyecto Horquillabifurca el proyecto en tu propia cuenta de GitHub.
proyecto de clonación::

   git clone https://github.com/<your_username>/open-r1.git

Crear una nueva sucursal::

   git checkout -b new-feature

Enviar cambios::

   git add .
git commit -m "Add new feature"
git push origin new-feature

Creación de una Pull RequestEnvíe una Pull Request en GitHub describiendo los cambios realizados.

Últimos recursos sobre IA # AI Java Proyecto de código abierto

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

De PRD a caso de prueba: una herramienta de IA para convertir documentos de requisitos de productos en casos de prueba

Últimos recursos sobre IA # Herramientas de productividad profesional

hace 11 meses

063.9K

LiveTalking: sistema digital interactivo en tiempo real de código abierto que permite el diálogo síncrono por audio y vídeo.

Últimos recursos sobre IA # AI Java Proyecto de código abierto # AI Digital Man

hace 1 año

0127.2K

Glambase: creación de webcams virtuales en las redes sociales para chatear con los seguidores y monetizarlas (previo pago).

Últimos recursos sobre IA # AI Juego de rol

hace 1 año

051.4K

Mem0: proyecto de código abierto que proporciona una capa de memoria inteligente para asistentes y agentes de inteligencia artificial.

Últimos recursos sobre IA # AI Java Proyecto de código abierto

hace 2 años

072.1K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

Open R1: Cara abrazada reproduce el proceso de entrenamiento de DeepSeek-R1

Introducción general

Lista de funciones

Utilizar la ayuda

Proceso de instalación

Normas de uso

Directrices de contribución

Open Operator: Realización de operaciones automatizadas en navegadores en la nube con inteligencia artificial

TinyZero: una réplica de bajo coste del efecto epifánico de DeepSeeK-R1 Zero

Artículos relacionados

De PRD a caso de prueba: una herramienta de IA para convertir documentos de requisitos de productos en casos de prueba

LiveTalking: sistema digital interactivo en tiempo real de código abierto que permite el diálogo síncrono por audio y vídeo.

Glambase: creación de webcams virtuales en las redes sociales para chatear con los seguidores y monetizarlas (previo pago).

Mem0: proyecto de código abierto que proporciona una capa de memoria inteligente para asistentes y agentes de inteligencia artificial.

Sin comentarios

Últimas colecciones

Últimos artículos

Open R1: Cara abrazada reproduce el proceso de entrenamiento de DeepSeek-R1

Introducción general

Lista de funciones

Utilizar la ayuda

Proceso de instalación

Normas de uso

Directrices de contribución

Open Operator: Realización de operaciones automatizadas en navegadores en la nube con inteligencia artificial

TinyZero: una réplica de bajo coste del efecto epifánico de DeepSeeK-R1 Zero

Artículos relacionados

De PRD a caso de prueba: una herramienta de IA para convertir documentos de requisitos de productos en casos de prueba

LiveTalking: sistema digital interactivo en tiempo real de código abierto que permite el diálogo síncrono por audio y vídeo.

Glambase: creación de webcams virtuales en las redes sociales para chatear con los seguidores y monetizarlas (previo pago).

Mem0: proyecto de código abierto que proporciona una capa de memoria inteligente para asistentes y agentes de inteligencia artificial.

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos