Replicando DeepSeek-R1: 8K ejemplos matemáticos ayudan a pequeños modelos a lograr avances en inferencia mediante aprendizaje por refuerzo

Github. https://github.com/hkust-nlp/simpleRL-reason

 

introducción

复现DeepSeek-R1:8K数学示例助力小型模型通过强化学习实现推理突破

Variaciones dinámicas del entrenamiento Qwen2.5-SimpleRL-Zero partiendo del modelo base Qwen2.5-Math-7B, sin realizar SFT ni utilizar el modelo de recompensa. La precisión y la longitud medias de los puntos de referencia se basan en 8 puntos de referencia de razonamiento matemático complejo. Observamos una reducción de la longitud durante la fase inicial, ya que descubrimos que el modelo base Qwen2.5-Math-7B tiende a generar tanto lenguaje como código en la respuesta, lo que da como resultado una salida larga. Este patrón predeterminado se suprimió rápidamente durante la RL, en la que el modelo aprendió a emitir en un formato más apropiado, y entonces la longitud comenzó a aumentar con regularidad. Después de unos pocos pasos de entrenamiento, también experimentamos lo que el documento DeepSeek-R1 describe como un "momento epifánico", una autorreflexión en la respuesta del modelo.

 

Muchos investigadores están explorando posibles vías para el aprendizaje de modelos de tipo o, como la destilación, el MCTS, los modelos de recompensa basados en procesos y el aprendizaje por refuerzo. Recientemente.DeepSeek-R1responder cantandoKimi-k1.5En el camino hacia este objetivo demostraron una receta extremadamente sencilla para utilizar un algoritmo de RL simple para aprender patrones emergentes de pensamiento encadenado prolongado (CoT) y autorreflexión con resultados sólidos, sin utilizar MCTS ni modelos de recompensa. Sin embargo, sus experimentos se basaron en modelos enormes en una configuración de RL a gran escala. No está claro si modelos más pequeños podrían mostrar un comportamiento similar, cuántos datos se necesitarían y cómo se compararían los resultados cuantitativos con otros métodos. Este blog replica el entrenamiento de DeepSeek-R1-Zero y DeepSeek-R1 en razonamiento matemático complejo, comenzando con Qwen-2.5-Math-7B (el modelo base) y utilizando sólo 8K (consulta, respuesta final) ejemplos del conjunto de datos MATH original para RL con modelado de recompensa basado en reglas. MATH puede mejorar tanto el modelo base 7B sin necesidad de otras señales externas:

Todos los resultados son correctos

AIME 2024MATEMÁTICAS 500AMCMinerva MatemáticasOlimpiadaBenchAvg.
Qwen2.5-Math-7B-Base16.752.452.512.916.430.2
Qwen2.5-Math-7B-Base + 8K MATH SFT3.354.622.532.719.626.5
Qwen-2.5-Matemáticas-7B-Instrucción13.379.850.634.640.743.8
Llama-3.1-70B-Instruct16.764.630.135.331.935.7
rStar-Math-7B26.778.447.5-47.1-
Eurus-2-7B-PRIME26.779.257.838.642.148.9
Qwen2.5-7B-SimpleRL-Cero33.377.262.533.537.648.8
Qwen2.5-7B-SimpleRL26.782.462.539.743.350.9

Qwen2.5-7B-SimpleRL-Zero es un entrenamiento RL simple directamente desde el modelo base, utilizando sólo 8K ejemplos MATH. Consigue casi 20 puntos absolutos de crecimiento de media en comparación con el modelo base. Comparado con Qwen2.5-Math-7B-Base, que utiliza los mismos 8K datos SFT, RL disfruta de una mejor capacidad de generalización, que es 22% superior en términos absolutos.Además, Qwen2.5-7B-SimpleRL-Zero supera a Qwen-2.5-Math-7B-Instruct de media, y se compara favorablemente con el recientemente publicadoEurus-2-7B-PRIMEresponder cantandorStar-Math-7B(También se basan en Qwen-2.5-Math-7B) son aproximadamente equivalentes. Estas líneas de base contienen componentes más complejos, como modelos de recompensa, y utilizan al menos 50 veces más datos avanzados:

Datos comparativos de los distintos métodos

Qwen2.5-Matemáticas-7B-InstrucciónrStar-Math-7BEurus-2-7B-PRIMEQwen2.5-7B-SimpleRL-Cero
Modelo baseQwen2.5-Matemáticas-7BQwen2.5-Matemáticas-7BQwen2.5-Matemáticas-7BQwen2.5-Matemáticas-7B
Datos SFT2,5 millones (código abierto e interno)~7.3 M (MATH, NuminaMath, etc.)230K0
Datos RM618K (interno)~7 k (en casa)00
RMQwen2.5-Math-RM (72B)NingunoEurus-2-7B-SFTNinguno
Datos RL66K consultas × 32 muestras~3.647 M × 16150.000 consultas × 4 muestras8K consultas × 8 muestras

Estamos entusiasmados y sorprendidos por el importante crecimiento conseguido con sólo 8.000 ejemplos de MATH. En particular, **aunque las consultas MATH son mucho más fáciles de realizar que muchos puntos de referencia difíciles como AIME y AMC, esta sencilla formulación RL demuestra un poder de generalización significativo, mejorando el rendimiento en al menos 10 puntos absolutos en comparación con el modelo base. **Este efecto de generalización fácil de seguir es algo que no podríamos haber previsto realizando un entrenamiento SFT estándar en el mismo conjunto de datos. Hemos puesto a disposición de la comunidad el código de entrenamiento y los detalles con la esperanza de que sirva de base para seguir explorando el potencial de la RL para la inferencia.

A continuación, nos sumergiremos en los detalles de nuestra configuración y en lo que ocurre durante este proceso de entrenamiento de RL, como el largo CoT y la aparición de patrones autorreflexivos.

 

Receta sencilla de RL

Al igual que DeepSeek R1, nuestra formulación RL es muy sencilla y no utiliza modelos de recompensa ni técnicas similares a MCTS. Utilizamos el algoritmo PPO con una función de recompensa basada en reglas que asigna recompensas en función del formato y la corrección de las respuestas generadas:

  • Si la respuesta proporciona la respuesta final en el formato especificado y es correcta, se concede una bonificación de +1.
  • Si la respuesta proporciona la respuesta final pero es incorrecta, la recompensa se fija en -0,5.
  • Si la respuesta no proporciona una respuesta definitiva, la recompensa se establece en -1.

La aplicación se basa enOpenRLHF. Nuestros experimentos preliminares muestran que esta función de recompensa ayuda al modelo de estrategia a converger rápidamente para generar respuestas en el formato deseado.

 

Montaje experimental

En nuestros experimentos, aprendimos delQwen2.5-Math-7B-BaseLos modelos se iniciaron y evaluaron en puntos de referencia de razonamiento matemático desafiantes, incluyendo AIME2024, AMC23, GSM8K, MATH-500, Minerva Math y OlympiadBench.El entrenamiento se realizó utilizando aproximadamente 8.000 consultas del conjunto de datos de entrenamiento MATH en los niveles de dificultad 3-5. Realizamos experimentos con las dos configuraciones siguientes según DeepSeek-R1-Zero y DeepSeek-R1, respectivamente:

  • SimpleRL-CeroUtilizamos sólo 8K pares MATH (consulta, respuesta).
  • SimpleRLLos datos de SFT son 8.000 consultas MATH con respuestas extraídas de QwQ-32B-Preview. A continuación, utilizamos los mismos 8K ejemplos MATH para nuestra formulación RL.

 

Parte I: SimpleRL-Zero - Aprendizaje intensivo desde cero

En la sección de introducción hemos informado de los principales resultados de SimpleRL-Zero, que supera a Qwen2.5-Math-7B-Instruct y logra resultados comparables con PRIME y rStar-Math, a pesar de que sólo utiliza 8K ejemplos de MATH. A continuación compartimos la dinámica de entrenamiento y algunos patrones emergentes interesantes.

Dinámica de formación

Incentivos a la formación y duración de la respuesta

复现DeepSeek-R1:8K数学示例助力小型模型通过强化学习实现推理突破

Evaluación de la precisión (pass@1) y la longitud de la respuesta en 8 puntos de referencia

复现DeepSeek-R1:8K数学示例助力小型模型通过强化学习实现推理突破

 

Como se muestra en la figura anterior, la precisión en todas las pruebas de referencia aumenta de forma constante durante el entrenamiento, mientras que la longitud primero disminuye y luego aumenta gradualmente. Tras una investigación más profunda, descubrimos que el modelo base Qwen2.5-Math-7B tiende a generar una gran cantidad de código al principio, lo que puede deberse a la distribución original de los datos de entrenamiento del modelo. Descubrimos que la longitud disminuye primero porque el entrenamiento RL elimina gradualmente este patrón y aprende a razonar en lenguaje ordinario. Después de esto, la longitud de generación empieza a aumentar de nuevo y el patrón autorreflexivo empieza a emerger, como se muestra en el siguiente ejemplo.

La aparición de la autorreflexión

Aproximadamente en el paso 40, observamos que el modelo empieza a generar patrones autorreflexivos, los "momentos epifánicos" del documento DeepSeek-R1. A continuación mostramos un ejemplo.

复现DeepSeek-R1:8K数学示例助力小型模型通过强化学习实现推理突破

 

Parte II: SimpleRL - Aprendizaje intensivo con ejercicios imitativos de calentamiento

Como se ha mencionado anteriormente, hemos calentado con un SFT de pensamiento en cadena prolongado antes de proceder a la RL; el conjunto de datos SFT eran 8K ejemplos MATH con respuestas destiladas de QwQ-32B-Preview. El beneficio potencial de este arranque en frío es que el modelo parte de un modo de pensamiento en cadena prolongado y ya es autorreflexivo, por lo que puede aprender más rápido y mejor durante la fase de RL.

Principales resultados

AIME 2024MATEMÁTICAS 500AMCMinerva MatemáticasOlimpiadaBenchAvg.
Qwen2.5-Math-7B-Base16.752.452.512.916.430.2
Qwen2.5-Math-7B-Base + 8K QwQ destilación16.776.655.034.936.944.0
Eurus-2-7B-PRIME26.779.257.838.642.148.9
Qwen2.5-7B-SimpleRL-Cero36.777.462.534.237.549.7
Qwen2.5-7B-SimpleRL26.782.462.539.743.350.9

En comparación con Qwen2.5-Math-7B-Base + 8K QwQ distillation, el modelo mejoró Qwen2.5-7B-SimpleRL en una media de 6,91 TP3T en términos absolutos antes del entrenamiento RL. Además, Qwen2.5-7B-SimpleRL supera a Eurus-2-7B-PRIME en 3 de las 5 pruebas de referencia y supera a Qwen2.5-7B-SimpleRL-Zero.Aunque los resultados son buenos, nos sorprende un poco que la fase de destilación QwQ no produjera mayores ganancias que la configuración cero, dado que QwQ es un 32B potente modelo de profesor de pensamiento de cadena larga.

Dinámica de formación

Incentivos a la formación y duración de la respuesta

复现DeepSeek-R1:8K数学示例助力小型模型通过强化学习实现推理突破

estado de formación

 

Evaluación de la precisión (pass@1) y la longitud de la respuesta en 8 puntos de referencia

复现DeepSeek-R1:8K数学示例助力小型模型通过强化学习实现推理突破

 

La dinámica de entrenamiento de Qwen2.5-SimpleRL es similar a la de Qwen2.5-SimpleRL-Zero. Curiosamente, seguimos observando una reducción de la longitud al principio de RL, a pesar de nuestro SFT avanzado de pensamiento en cadena de larga duración. Sospechamos que esto se debe a que el patrón de inferencia QwQ destilado no es preferido por los modelos de estrategia pequeña o supera su capacidad. Como resultado, aprende a abandonarlo y desarrolla un nuevo razonamiento largo por su cuenta.

 

observaciones finales

La sencillez es la máxima complejidad.
- Leonardo da Vinci (1452-1519), pintor renacentista italiano

 

Agradecimientos y citas

El algoritmo de aprendizaje por refuerzo que aplicamos se basa enOpenRLHFAmpliado de. Utilizamos elvLLMRealiza inferencias y desarrolla una metodología basada en laQwen2.5-Matemáticasde los scripts de evaluación. En particular, agradecemos a los desarrolladores de DeepSeek-R1 y Kimi-k1.5 sus innovaciones y contribuciones a la comunidad de código abierto.

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...