Reproduction de DeepSeek-R1 : 8 000 exemples mathématiques aident les petits modèles à réaliser des percées en matière d'inférence grâce à l'apprentissage par renforcement

Github. https://github.com/hkust-nlp/simpleRL-reason

 

introductif

复现DeepSeek-R1:8K数学示例助力小型模型通过强化学习实现推理突破

Variations dynamiques de la formation Qwen2.5-SimpleRL-Zero à partir du modèle de base Qwen2.5-Math-7B, sans effectuer de SFT ni utiliser le modèle de récompense. La précision et la longueur moyennes des benchmarks sont basées sur 8 benchmarks de raisonnement mathématique complexe. Nous avons observé une réduction de la longueur au cours de la phase initiale, car nous avons constaté que le modèle de base Qwen2.5-Math-7B a tendance à générer à la fois du langage et du code dans la réponse, ce qui se traduit par des résultats longs. Ce modèle par défaut a été rapidement supprimé au cours du RL, où le modèle a appris à produire une réponse dans un format plus approprié, puis la longueur a commencé à augmenter régulièrement. Après seulement quelques étapes de formation, nous avons également expérimenté ce que le document DeepSeek-R1 décrit comme un "moment d'épiphanie" - une auto-réflexion dans la réponse du modèle.

 

De nombreux chercheurs explorent des voies possibles pour l'apprentissage de modèles de type o tels que la distillation, les SCTM, les modèles de récompense basés sur les processus et l'apprentissage par renforcement. Récemment.Profondeur de l'eau-R1répondre en chantantKimi-k1.5Sur la voie de cet objectif, ils ont démontré une recette extrêmement simple pour utiliser un algorithme RL simple afin d'apprendre des modèles émergents de pensée en chaîne prolongée (CoT) et d'autoréflexion avec de bons résultats, sans utiliser de MCTS ni de modèles de récompense. Cependant, leurs expériences étaient basées sur d'énormes modèles dans une configuration RL à grande échelle. Il n'est pas certain que des modèles plus petits puissent présenter un comportement similaire, ni que la quantité de données nécessaires soit suffisante, ni que les résultats quantitatifs soient comparables à ceux d'autres méthodes. Ce blog reproduit l'entraînement de DeepSeek-R1-Zero et DeepSeek-R1 sur le raisonnement mathématique complexe, en commençant par Qwen-2.5-Math-7B (le modèle de base) et en utilisant seulement 8K (requête, réponse finale) exemples de l'ensemble de données MATH original pour RL avec modélisation de la récompense basée sur des règles.Nous avons été surpris de constater que l'utilisation de seulement 8K Nous avons été surpris de constater que l'utilisation de seulement 8K exemples MATH peut améliorer ce modèle de base 7B dans une telle mesure sans aucun autre signal externe :

Tous les résultats sont conformes à la norme pass@1

AIME 2024MATH 500AMCMinerva MathOlympiadBenchMoyenne.
Qwen2.5-Math-7B-Base16.752.452.512.916.430.2
Qwen2.5-Math-7B-Base + 8K MATH SFT3.354.622.532.719.626.5
Qwen-2.5-Math-7B-Instruct13.379.850.634.640.743.8
Llama-3.1-70B-Instruct16.764.630.135.331.935.7
rStar-Math-7B26.778.447.5-47.1-
Eurus-2-7B-PRIME26.779.257.838.642.148.9
Qwen2.5-7B-SimpleRL-Zero33.377.262.533.537.648.8
Qwen2.5-7B-SimpleRL26.782.462.539.743.350.9

Qwen2.5-7B-SimpleRL-Zero est une formation RL simple directement à partir du modèle de base, en utilisant seulement 8K exemples MATH. Il atteint près de 20 points de croissance absolue en moyenne par rapport au modèle de base. Par rapport à Qwen2.5-Math-7B-Base, qui utilise les mêmes 8K données SFT, RL bénéficie d'une meilleure capacité de généralisation, supérieure de 22% en termes absolus. En outre, Qwen2.5-7B-SimpleRL-Zero surpasse Qwen-2.5-Math-7B-Instruct en moyenne, et se compare favorablement à la nouvelle version de Qwen2.5-Math-7B-Instruct.Eurus-2-7B-PRIMErépondre en chantantrStar-Math-7B(Ils sont également basés sur Qwen-2.5-Math-7B) sont à peu près équivalents. Ces lignes de base contiennent des composants plus complexes, tels que des modèles de récompense, et utilisent au moins 50 fois plus de données avancées :

Données comparatives sur les différentes méthodes

Qwen2.5-Math-7B-InstructrStar-Math-7BEurus-2-7B-PRIMEQwen2.5-7B-SimpleRL-Zero
Modèle de baseQwen2.5-Math-7BQwen2.5-Math-7BQwen2.5-Math-7BQwen2.5-Math-7B
Données SFT2,5 millions d'euros (sources ouvertes et internes)~7.3 M (MATH, NuminaMath, etc.)230K0
Données RM618K (en interne)~7 k (en interne)00
RMQwen2.5-Math-RM (72B)AucunEurus-2-7B-SFTAucun
Données RL66K requêtes × 32 échantillons~3.647 M × 16150K requêtes × 4 échantillons8K requêtes × 8 échantillons

Nous sommes à la fois enthousiastes et surpris par la croissance significative obtenue en utilisant seulement 8 000 exemples MATH. Notamment, **bien que les requêtes MATH soient beaucoup plus faciles à exécuter que de nombreux benchmarks difficiles tels que AIME et AMC, cette simple formulation RL démontre un pouvoir de généralisation significatif, améliorant les performances d'au moins 10 points absolus par rapport au modèle de base. **Cet effet de généralisation facile à suivre est quelque chose que nous n'aurions pas pu prévoir en effectuant une formation SFT standard sur le même ensemble de données. Nous avons entièrement ouvert notre code d'entraînement et ses détails dans l'espoir qu'il serve de cadre de référence puissant à la communauté pour explorer davantage le potentiel du RL pour l'inférence.

Ensuite, nous nous pencherons sur les détails de notre configuration et sur ce qui se passe au cours de ce processus de formation en NR, comme le long CoT et l'émergence de modèles d'autoréflexion.

 

Recette simple de RL

Comme pour DeepSeek R1, notre formulation RL est très simple et n'utilise pas de modèles de récompense ou de techniques de type MCTS. Nous utilisons l'algorithme PPO avec une fonction de récompense basée sur des règles qui attribue des récompenses en fonction du format et de l'exactitude des réponses générées :

  • Si la réponse fournit la réponse finale dans le format spécifié et qu'elle est correcte, un bonus de +1 est attribué.
  • Si la réponse fournit la réponse finale mais est incorrecte, la récompense est fixée à -0,5.
  • Si la réponse n'est pas définitive, la récompense est fixée à -1.

La mise en œuvre est basée surOpenRLHF. Nos expériences préliminaires montrent que cette fonction de récompense aide le modèle stratégique à converger rapidement pour générer des réponses dans le format souhaité.

 

Dispositif expérimental

Dans nos expériences, nous avons appris desQwen2.5-Math-7B-BaseLes modèles ont été lancés et évalués sur des benchmarks de raisonnement mathématique difficiles, notamment AIME2024, AMC23, GSM8K, MATH-500, Minerva Math et OlympiadBench. L'entraînement a été effectué en utilisant environ 8 000 requêtes de l'ensemble de données d'entraînement MATH à des niveaux de difficulté de 3 à 5. Nous avons mené des expériences avec les deux paramètres suivants selon DeepSeek-R1-Zero et DeepSeek-R1, respectivement :

  • SimpleRL-ZéroNous effectuons le RL directement à partir du modèle de base sans effectuer de SFT au préalable. Nous n'utilisons que 8K paires MATH (requête, réponse).
  • SimpleRLLes données SFT sont 8K requêtes MATH avec des réponses distillées à partir de QwQ-32B-Preview. Nous utilisons ensuite les mêmes 8K exemples MATH pour notre formulation RL.

 

Partie I : SimpleRL-Zero - Apprentissage intensif à partir de zéro

Nous avons présenté dans l'introduction les principaux résultats de SimpleRL-Zero, qui surpasse Qwen2.5-Math-7B-Instruct et obtient des résultats comparables à ceux de PRIME et rStar-Math, même s'il n'utilise que 8K exemples MATH. Ci-dessous, nous partageons la dynamique de l'entraînement et quelques modèles émergents intéressants.

Dynamique de formation

Incitations à la formation et longueur de la réponse

复现DeepSeek-R1:8K数学示例助力小型模型通过强化学习实现推理突破

Évaluation de la précision (réussite@1) et de la longueur de la réponse sur 8 points de référence

复现DeepSeek-R1:8K数学示例助力小型模型通过强化学习实现推理突破

 

Comme le montre la figure ci-dessus, la précision de tous les points de référence augmente régulièrement au cours de la formation, tandis que la longueur diminue d'abord, puis augmente progressivement. Après un examen plus approfondi, nous avons constaté que le modèle de base Qwen2.5-Math-7B a tendance à générer une grande quantité de code au début, ce qui peut être dû à la distribution originale des données d'apprentissage du modèle. Nous avons constaté que la longueur diminue d'abord parce que la formation RL élimine progressivement ce modèle et apprend à raisonner en langage ordinaire. Ensuite, la longueur de la génération recommence à augmenter et le modèle d'autoréflexion commence à émerger, comme le montre l'exemple suivant.

L'émergence de l'autoréflexion

Aux alentours de l'étape 40, nous constatons que le modèle commence à générer des modèles d'autoréflexion, les "moments d'épiphanie" de l'article DeepSeek-R1. Nous en montrons un exemple ci-dessous.

复现DeepSeek-R1:8K数学示例助力小型模型通过强化学习实现推理突破

 

Partie II : SimpleRL - Apprentissage intensif avec des exercices d'échauffement imitatifs

Comme indiqué précédemment, nous nous sommes échauffés avec un SFT à réflexion en chaîne de longue durée avant de passer au RL ; l'ensemble de données SFT était constitué de 8K exemples MATH avec des réponses distillées à partir de QwQ-32B-Preview. L'avantage potentiel de ce démarrage à froid est que le modèle part d'un mode de réflexion en chaîne de longue durée et qu'il est déjà autoréflexif, ce qui lui permet d'apprendre plus vite et mieux au cours de la phase de RL.

Principaux résultats

AIME 2024MATH 500AMCMinerva MathOlympiadBenchMoyenne.
Qwen2.5-Math-7B-Base16.752.452.512.916.430.2
Qwen2.5-Math-7B-Base + 8K QwQ distillation16.776.655.034.936.944.0
Eurus-2-7B-PRIME26.779.257.838.642.148.9
Qwen2.5-7B-SimpleRL-Zero36.777.462.534.237.549.7
Qwen2.5-7B-SimpleRL26.782.462.539.743.350.9

Comparé à Qwen2.5-Math-7B-Base + 8K QwQ distillation, le modèle améliore Qwen2.5-7B-SimpleRL d'une moyenne de 6,91 TP3T en termes absolus avant la formation RL. En outre, Qwen2.5-7B-SimpleRL surpasse Eurus-2-7B-PRIME dans 3 des 5 benchmarks et surpasse Qwen2.5-7B-SimpleRL-Zéro. Même si les résultats sont bons, nous sommes un peu surpris que la phase de distillation QwQ n'ait pas produit des gains plus importants que le paramètre zéro, étant donné que QwQ est un modèle d'enseignant de pensée en chaîne longue 32B puissant modèle d'enseignant à longue chaîne de pensée.

Dynamique de formation

Incitations à la formation et longueur de la réponse

复现DeepSeek-R1:8K数学示例助力小型模型通过强化学习实现推理突破

état de la formation

 

Évaluation de la précision (réussite@1) et de la longueur de la réponse sur 8 points de référence

复现DeepSeek-R1:8K数学示例助力小型模型通过强化学习实现推理突破

 

La dynamique de formation de Qwen2.5-SimpleRL est similaire à celle de Qwen2.5-SimpleRL-Zero. Il est intéressant de noter que nous observons toujours une diminution de la longueur au début de RL, malgré notre SFT avancé de réflexion en chaîne à long terme. Nous pensons que cela est dû au fait que le modèle d'inférence QwQ distillé n'est pas préféré par les petits modèles de stratégie ou dépasse leur capacité. Par conséquent, il apprend à l'abandonner et développe un nouveau raisonnement long de son propre chef.

 

remarques finales

La simplicité est l'ultime complexité.
- Léonard de Vinci (1452-1519), peintre italien de la Renaissance

 

Remerciements et citations

L'algorithme d'apprentissage par renforcement que nous avons mis en œuvre est basé surOpenRLHFDéveloppé à partir de. Nous utilisons levLLMEffectue des inférences et développe un algorithme basé sur les données de l'enquête.Qwen2.5-Mathdes scripts d'évaluation. Nous remercions en particulier les développeurs de DeepSeek-R1 et Kimi-k1.5 pour leurs innovations et leurs contributions à la communauté open source.

© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...