Reproduction de DeepSeek-R1 : 8 000 exemples mathématiques aident les petits modèles à réaliser des percées en matière d'inférence grâce à l'apprentissage par renforcement
Github. https://github.com/hkust-nlp/simpleRL-reason
introductif

Variations dynamiques de la formation Qwen2.5-SimpleRL-Zero à partir du modèle de base Qwen2.5-Math-7B, sans effectuer de SFT ni utiliser le modèle de récompense. La précision et la longueur moyennes des benchmarks sont basées sur 8 benchmarks de raisonnement mathématique complexe. Nous avons observé une réduction de la longueur au cours de la phase initiale, car nous avons constaté que le modèle de base Qwen2.5-Math-7B a tendance à générer à la fois du langage et du code dans la réponse, ce qui se traduit par des résultats longs. Ce modèle par défaut a été rapidement supprimé au cours du RL, où le modèle a appris à produire une réponse dans un format plus approprié, puis la longueur a commencé à augmenter régulièrement. Après seulement quelques étapes de formation, nous avons également expérimenté ce que le document DeepSeek-R1 décrit comme un "moment d'épiphanie" - une auto-réflexion dans la réponse du modèle.
De nombreux chercheurs explorent des voies possibles pour l'apprentissage de modèles de type o tels que la distillation, les SCTM, les modèles de récompense basés sur les processus et l'apprentissage par renforcement. Récemment.Profondeur de l'eau-R1répondre en chantantKimi-k1.5Sur la voie de cet objectif, ils ont démontré une recette extrêmement simple pour utiliser un algorithme RL simple afin d'apprendre des modèles émergents de pensée en chaîne prolongée (CoT) et d'autoréflexion avec de bons résultats, sans utiliser de MCTS ni de modèles de récompense. Cependant, leurs expériences étaient basées sur d'énormes modèles dans une configuration RL à grande échelle. Il n'est pas certain que des modèles plus petits puissent présenter un comportement similaire, ni que la quantité de données nécessaires soit suffisante, ni que les résultats quantitatifs soient comparables à ceux d'autres méthodes. Ce blog reproduit l'entraînement de DeepSeek-R1-Zero et DeepSeek-R1 sur le raisonnement mathématique complexe, en commençant par Qwen-2.5-Math-7B (le modèle de base) et en utilisant seulement 8K (requête, réponse finale) exemples de l'ensemble de données MATH original pour RL avec modélisation de la récompense basée sur des règles.Nous avons été surpris de constater que l'utilisation de seulement 8K Nous avons été surpris de constater que l'utilisation de seulement 8K exemples MATH peut améliorer ce modèle de base 7B dans une telle mesure sans aucun autre signal externe :
Tous les résultats sont conformes à la norme pass@1
AIME 2024 | MATH 500 | AMC | Minerva Math | OlympiadBench | Moyenne. | |
---|---|---|---|---|---|---|
Qwen2.5-Math-7B-Base | 16.7 | 52.4 | 52.5 | 12.9 | 16.4 | 30.2 |
Qwen2.5-Math-7B-Base + 8K MATH SFT | 3.3 | 54.6 | 22.5 | 32.7 | 19.6 | 26.5 |
Qwen-2.5-Math-7B-Instruct | 13.3 | 79.8 | 50.6 | 34.6 | 40.7 | 43.8 |
Llama-3.1-70B-Instruct | 16.7 | 64.6 | 30.1 | 35.3 | 31.9 | 35.7 |
rStar-Math-7B | 26.7 | 78.4 | 47.5 | - | 47.1 | - |
Eurus-2-7B-PRIME | 26.7 | 79.2 | 57.8 | 38.6 | 42.1 | 48.9 |
Qwen2.5-7B-SimpleRL-Zero | 33.3 | 77.2 | 62.5 | 33.5 | 37.6 | 48.8 |
Qwen2.5-7B-SimpleRL | 26.7 | 82.4 | 62.5 | 39.7 | 43.3 | 50.9 |
Qwen2.5-7B-SimpleRL-Zero est une formation RL simple directement à partir du modèle de base, en utilisant seulement 8K exemples MATH. Il atteint près de 20 points de croissance absolue en moyenne par rapport au modèle de base. Par rapport à Qwen2.5-Math-7B-Base, qui utilise les mêmes 8K données SFT, RL bénéficie d'une meilleure capacité de généralisation, supérieure de 22% en termes absolus. En outre, Qwen2.5-7B-SimpleRL-Zero surpasse Qwen-2.5-Math-7B-Instruct en moyenne, et se compare favorablement à la nouvelle version de Qwen2.5-Math-7B-Instruct.Eurus-2-7B-PRIMErépondre en chantantrStar-Math-7B(Ils sont également basés sur Qwen-2.5-Math-7B) sont à peu près équivalents. Ces lignes de base contiennent des composants plus complexes, tels que des modèles de récompense, et utilisent au moins 50 fois plus de données avancées :
Données comparatives sur les différentes méthodes
Qwen2.5-Math-7B-Instruct | rStar-Math-7B | Eurus-2-7B-PRIME | Qwen2.5-7B-SimpleRL-Zero | |
---|---|---|---|---|
Modèle de base | Qwen2.5-Math-7B | Qwen2.5-Math-7B | Qwen2.5-Math-7B | Qwen2.5-Math-7B |
Données SFT | 2,5 millions d'euros (sources ouvertes et internes) | ~7.3 M (MATH, NuminaMath, etc.) | 230K | 0 |
Données RM | 618K (en interne) | ~7 k (en interne) | 0 | 0 |
RM | Qwen2.5-Math-RM (72B) | Aucun | Eurus-2-7B-SFT | Aucun |
Données RL | 66K requêtes × 32 échantillons | ~3.647 M × 16 | 150K requêtes × 4 échantillons | 8K requêtes × 8 échantillons |
Nous sommes à la fois enthousiastes et surpris par la croissance significative obtenue en utilisant seulement 8 000 exemples MATH. Notamment, **bien que les requêtes MATH soient beaucoup plus faciles à exécuter que de nombreux benchmarks difficiles tels que AIME et AMC, cette simple formulation RL démontre un pouvoir de généralisation significatif, améliorant les performances d'au moins 10 points absolus par rapport au modèle de base. **Cet effet de généralisation facile à suivre est quelque chose que nous n'aurions pas pu prévoir en effectuant une formation SFT standard sur le même ensemble de données. Nous avons entièrement ouvert notre code d'entraînement et ses détails dans l'espoir qu'il serve de cadre de référence puissant à la communauté pour explorer davantage le potentiel du RL pour l'inférence.
Ensuite, nous nous pencherons sur les détails de notre configuration et sur ce qui se passe au cours de ce processus de formation en NR, comme le long CoT et l'émergence de modèles d'autoréflexion.
Recette simple de RL
Comme pour DeepSeek R1, notre formulation RL est très simple et n'utilise pas de modèles de récompense ou de techniques de type MCTS. Nous utilisons l'algorithme PPO avec une fonction de récompense basée sur des règles qui attribue des récompenses en fonction du format et de l'exactitude des réponses générées :
- Si la réponse fournit la réponse finale dans le format spécifié et qu'elle est correcte, un bonus de +1 est attribué.
- Si la réponse fournit la réponse finale mais est incorrecte, la récompense est fixée à -0,5.
- Si la réponse n'est pas définitive, la récompense est fixée à -1.
La mise en œuvre est basée surOpenRLHF. Nos expériences préliminaires montrent que cette fonction de récompense aide le modèle stratégique à converger rapidement pour générer des réponses dans le format souhaité.
Dispositif expérimental
Dans nos expériences, nous avons appris desQwen2.5-Math-7B-BaseLes modèles ont été lancés et évalués sur des benchmarks de raisonnement mathématique difficiles, notamment AIME2024, AMC23, GSM8K, MATH-500, Minerva Math et OlympiadBench. L'entraînement a été effectué en utilisant environ 8 000 requêtes de l'ensemble de données d'entraînement MATH à des niveaux de difficulté de 3 à 5. Nous avons mené des expériences avec les deux paramètres suivants selon DeepSeek-R1-Zero et DeepSeek-R1, respectivement :
- SimpleRL-ZéroNous effectuons le RL directement à partir du modèle de base sans effectuer de SFT au préalable. Nous n'utilisons que 8K paires MATH (requête, réponse).
- SimpleRLLes données SFT sont 8K requêtes MATH avec des réponses distillées à partir de QwQ-32B-Preview. Nous utilisons ensuite les mêmes 8K exemples MATH pour notre formulation RL.
Partie I : SimpleRL-Zero - Apprentissage intensif à partir de zéro
Nous avons présenté dans l'introduction les principaux résultats de SimpleRL-Zero, qui surpasse Qwen2.5-Math-7B-Instruct et obtient des résultats comparables à ceux de PRIME et rStar-Math, même s'il n'utilise que 8K exemples MATH. Ci-dessous, nous partageons la dynamique de l'entraînement et quelques modèles émergents intéressants.
Dynamique de formation
Incitations à la formation et longueur de la réponse

Évaluation de la précision (réussite@1) et de la longueur de la réponse sur 8 points de référence

Comme le montre la figure ci-dessus, la précision de tous les points de référence augmente régulièrement au cours de la formation, tandis que la longueur diminue d'abord, puis augmente progressivement. Après un examen plus approfondi, nous avons constaté que le modèle de base Qwen2.5-Math-7B a tendance à générer une grande quantité de code au début, ce qui peut être dû à la distribution originale des données d'apprentissage du modèle. Nous avons constaté que la longueur diminue d'abord parce que la formation RL élimine progressivement ce modèle et apprend à raisonner en langage ordinaire. Ensuite, la longueur de la génération recommence à augmenter et le modèle d'autoréflexion commence à émerger, comme le montre l'exemple suivant.
L'émergence de l'autoréflexion
Aux alentours de l'étape 40, nous constatons que le modèle commence à générer des modèles d'autoréflexion, les "moments d'épiphanie" de l'article DeepSeek-R1. Nous en montrons un exemple ci-dessous.

Partie II : SimpleRL - Apprentissage intensif avec des exercices d'échauffement imitatifs
Comme indiqué précédemment, nous nous sommes échauffés avec un SFT à réflexion en chaîne de longue durée avant de passer au RL ; l'ensemble de données SFT était constitué de 8K exemples MATH avec des réponses distillées à partir de QwQ-32B-Preview. L'avantage potentiel de ce démarrage à froid est que le modèle part d'un mode de réflexion en chaîne de longue durée et qu'il est déjà autoréflexif, ce qui lui permet d'apprendre plus vite et mieux au cours de la phase de RL.
Principaux résultats
AIME 2024 | MATH 500 | AMC | Minerva Math | OlympiadBench | Moyenne. | |
---|---|---|---|---|---|---|
Qwen2.5-Math-7B-Base | 16.7 | 52.4 | 52.5 | 12.9 | 16.4 | 30.2 |
Qwen2.5-Math-7B-Base + 8K QwQ distillation | 16.7 | 76.6 | 55.0 | 34.9 | 36.9 | 44.0 |
Eurus-2-7B-PRIME | 26.7 | 79.2 | 57.8 | 38.6 | 42.1 | 48.9 |
Qwen2.5-7B-SimpleRL-Zero | 36.7 | 77.4 | 62.5 | 34.2 | 37.5 | 49.7 |
Qwen2.5-7B-SimpleRL | 26.7 | 82.4 | 62.5 | 39.7 | 43.3 | 50.9 |
Comparé à Qwen2.5-Math-7B-Base + 8K QwQ distillation, le modèle améliore Qwen2.5-7B-SimpleRL d'une moyenne de 6,91 TP3T en termes absolus avant la formation RL. En outre, Qwen2.5-7B-SimpleRL surpasse Eurus-2-7B-PRIME dans 3 des 5 benchmarks et surpasse Qwen2.5-7B-SimpleRL-Zéro. Même si les résultats sont bons, nous sommes un peu surpris que la phase de distillation QwQ n'ait pas produit des gains plus importants que le paramètre zéro, étant donné que QwQ est un modèle d'enseignant de pensée en chaîne longue 32B puissant modèle d'enseignant à longue chaîne de pensée.
Dynamique de formation
Incitations à la formation et longueur de la réponse

état de la formation
Évaluation de la précision (réussite@1) et de la longueur de la réponse sur 8 points de référence

La dynamique de formation de Qwen2.5-SimpleRL est similaire à celle de Qwen2.5-SimpleRL-Zero. Il est intéressant de noter que nous observons toujours une diminution de la longueur au début de RL, malgré notre SFT avancé de réflexion en chaîne à long terme. Nous pensons que cela est dû au fait que le modèle d'inférence QwQ distillé n'est pas préféré par les petits modèles de stratégie ou dépasse leur capacité. Par conséquent, il apprend à l'abandonner et développe un nouveau raisonnement long de son propre chef.
remarques finales
La simplicité est l'ultime complexité.
- Léonard de Vinci (1452-1519), peintre italien de la Renaissance
Remerciements et citations
L'algorithme d'apprentissage par renforcement que nous avons mis en œuvre est basé surOpenRLHFDéveloppé à partir de. Nous utilisons levLLMEffectue des inférences et développe un algorithme basé sur les données de l'enquête.Qwen2.5-Mathdes scripts d'évaluation. Nous remercions en particulier les développeurs de DeepSeek-R1 et Kimi-k1.5 pour leurs innovations et leurs contributions à la communauté open source.
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...