Reproduction de DeepSeek-R1 : 8 000 exemples mathématiques aident les petits modèles à réaliser des percées en matière d'inférence grâce à l'apprentissage par renforcement

Nouvelles de l'IAPosté il y a 7 mois Cercle de partage de l'IA

Github. https://github.com/hkust-nlp/simpleRL-reason

En commençant par Qwen2.5-Math-7B (modèle de base), nous avons effectué un apprentissage par renforcement sur ce modèle directement, en utilisant seulement 8K exemples de l'ensemble de données MATH. Sans modèle de récompense, sans réglage fin supervisé (SFT) et avec seulement 8 000 exemples MATH pour la validation, le modèle résultant atteint une précision pass@1 de 33,31 TP3T sur AIME, 62,51 TP3T sur AMC et 77,21 TP3T sur MATH, surpassant Qwen2.5-math-7B-instruct. se compare favorablement à Qwen2.5-math-7B-instruct, qui utilise plus de 50 fois les données et des composants plus complexes de l'outil d'apprentissage en ligne.PRIMErépondre en chantantrStar-MATHComparable. Nous avons également essayé un long CoT SFT en utilisant les mêmes 8 000 exemples avant l'étape RL et nous avons obtenu de meilleures performances.

introductif

Variations dynamiques de la formation Qwen2.5-SimpleRL-Zero à partir du modèle de base Qwen2.5-Math-7B, sans effectuer de SFT ni utiliser le modèle de récompense. La précision et la longueur moyennes des benchmarks sont basées sur 8 benchmarks de raisonnement mathématique complexe. Nous avons observé une réduction de la longueur au cours de la phase initiale, car nous avons constaté que le modèle de base Qwen2.5-Math-7B a tendance à générer à la fois du langage et du code dans la réponse, ce qui se traduit par des résultats longs. Ce modèle par défaut a été rapidement supprimé au cours du RL, où le modèle a appris à produire une réponse dans un format plus approprié, puis la longueur a commencé à augmenter régulièrement. Après seulement quelques étapes de formation, nous avons également expérimenté ce que le document DeepSeek-R1 décrit comme un "moment d'épiphanie" - une auto-réflexion dans la réponse du modèle.

De nombreux chercheurs explorent des voies possibles pour l'apprentissage de modèles de type o tels que la distillation, les SCTM, les modèles de récompense basés sur les processus et l'apprentissage par renforcement. Récemment.Profondeur de l'eau-R1répondre en chantantKimi-k1.5Sur la voie de cet objectif, ils ont démontré une recette extrêmement simple pour utiliser un algorithme RL simple afin d'apprendre des modèles émergents de pensée en chaîne prolongée (CoT) et d'autoréflexion avec de bons résultats, sans utiliser de MCTS ni de modèles de récompense. Cependant, leurs expériences étaient basées sur d'énormes modèles dans une configuration RL à grande échelle. Il n'est pas certain que des modèles plus petits puissent présenter un comportement similaire, ni que la quantité de données nécessaires soit suffisante, ni que les résultats quantitatifs soient comparables à ceux d'autres méthodes. Ce blog reproduit l'entraînement de DeepSeek-R1-Zero et DeepSeek-R1 sur le raisonnement mathématique complexe, en commençant par Qwen-2.5-Math-7B (le modèle de base) et en utilisant seulement 8K (requête, réponse finale) exemples de l'ensemble de données MATH original pour RL avec modélisation de la récompense basée sur des règles.Nous avons été surpris de constater que l'utilisation de seulement 8K Nous avons été surpris de constater que l'utilisation de seulement 8K exemples MATH peut améliorer ce modèle de base 7B dans une telle mesure sans aucun autre signal externe :

Tous les résultats sont conformes à la norme pass@1

	AIME 2024	MATH 500	AMC	Minerva Math	OlympiadBench	Moyenne.
Qwen2.5-Math-7B-Base	16.7	52.4	52.5	12.9	16.4	30.2
Qwen2.5-Math-7B-Base + 8K MATH SFT	3.3	54.6	22.5	32.7	19.6	26.5
Qwen-2.5-Math-7B-Instruct	13.3	79.8	50.6	34.6	40.7	43.8
Llama-3.1-70B-Instruct	16.7	64.6	30.1	35.3	31.9	35.7
rStar-Math-7B	26.7	78.4	47.5	-	47.1	-
Eurus-2-7B-PRIME	26.7	79.2	57.8	38.6	42.1	48.9
Qwen2.5-7B-SimpleRL-Zero	33.3	77.2	62.5	33.5	37.6	48.8
Qwen2.5-7B-SimpleRL	26.7	82.4	62.5	39.7	43.3	50.9

Qwen2.5-7B-SimpleRL-Zero est une formation RL simple directement à partir du modèle de base, en utilisant seulement 8K exemples MATH. Il atteint près de 20 points de croissance absolue en moyenne par rapport au modèle de base. Par rapport à Qwen2.5-Math-7B-Base, qui utilise les mêmes 8K données SFT, RL bénéficie d'une meilleure capacité de généralisation, supérieure de 22% en termes absolus. En outre, Qwen2.5-7B-SimpleRL-Zero surpasse Qwen-2.5-Math-7B-Instruct en moyenne, et se compare favorablement à la nouvelle version de Qwen2.5-Math-7B-Instruct.Eurus-2-7B-PRIMErépondre en chantantrStar-Math-7B(Ils sont également basés sur Qwen-2.5-Math-7B) sont à peu près équivalents. Ces lignes de base contiennent des composants plus complexes, tels que des modèles de récompense, et utilisent au moins 50 fois plus de données avancées :

Données comparatives sur les différentes méthodes

	Qwen2.5-Math-7B-Instruct	rStar-Math-7B	Eurus-2-7B-PRIME	Qwen2.5-7B-SimpleRL-Zero
Modèle de base	Qwen2.5-Math-7B	Qwen2.5-Math-7B	Qwen2.5-Math-7B	Qwen2.5-Math-7B
Données SFT	2,5 millions d'euros (sources ouvertes et internes)	～7.3 M (MATH, NuminaMath, etc.)	230K	0
Données RM	618K (en interne)	～7 k (en interne)	0	0
RM	Qwen2.5-Math-RM (72B)	Aucun	Eurus-2-7B-SFT	Aucun
Données RL	66K requêtes × 32 échantillons	～3.647 M × 16	150K requêtes × 4 échantillons	8K requêtes × 8 échantillons

Nous sommes à la fois enthousiastes et surpris par la croissance significative obtenue en utilisant seulement 8 000 exemples MATH. Notamment, **bien que les requêtes MATH soient beaucoup plus faciles à exécuter que de nombreux benchmarks difficiles tels que AIME et AMC, cette simple formulation RL démontre un pouvoir de généralisation significatif, améliorant les performances d'au moins 10 points absolus par rapport au modèle de base. **Cet effet de généralisation facile à suivre est quelque chose que nous n'aurions pas pu prévoir en effectuant une formation SFT standard sur le même ensemble de données. Nous avons entièrement ouvert notre code d'entraînement et ses détails dans l'espoir qu'il serve de cadre de référence puissant à la communauté pour explorer davantage le potentiel du RL pour l'inférence.

Ensuite, nous nous pencherons sur les détails de notre configuration et sur ce qui se passe au cours de ce processus de formation en NR, comme le long CoT et l'émergence de modèles d'autoréflexion.

Recette simple de RL

Comme pour DeepSeek R1, notre formulation RL est très simple et n'utilise pas de modèles de récompense ou de techniques de type MCTS. Nous utilisons l'algorithme PPO avec une fonction de récompense basée sur des règles qui attribue des récompenses en fonction du format et de l'exactitude des réponses générées :

Si la réponse fournit la réponse finale dans le format spécifié et qu'elle est correcte, un bonus de +1 est attribué.
Si la réponse fournit la réponse finale mais est incorrecte, la récompense est fixée à -0,5.
Si la réponse n'est pas définitive, la récompense est fixée à -1.

La mise en œuvre est basée surOpenRLHF. Nos expériences préliminaires montrent que cette fonction de récompense aide le modèle stratégique à converger rapidement pour générer des réponses dans le format souhaité.

Dispositif expérimental

Dans nos expériences, nous avons appris desQwen2.5-Math-7B-BaseLes modèles ont été lancés et évalués sur des benchmarks de raisonnement mathématique difficiles, notamment AIME2024, AMC23, GSM8K, MATH-500, Minerva Math et OlympiadBench. L'entraînement a été effectué en utilisant environ 8 000 requêtes de l'ensemble de données d'entraînement MATH à des niveaux de difficulté de 3 à 5. Nous avons mené des expériences avec les deux paramètres suivants selon DeepSeek-R1-Zero et DeepSeek-R1, respectivement :

SimpleRL-ZéroNous effectuons le RL directement à partir du modèle de base sans effectuer de SFT au préalable. Nous n'utilisons que 8K paires MATH (requête, réponse).
SimpleRLLes données SFT sont 8K requêtes MATH avec des réponses distillées à partir de QwQ-32B-Preview. Nous utilisons ensuite les mêmes 8K exemples MATH pour notre formulation RL.

Partie I : SimpleRL-Zero - Apprentissage intensif à partir de zéro

Nous avons présenté dans l'introduction les principaux résultats de SimpleRL-Zero, qui surpasse Qwen2.5-Math-7B-Instruct et obtient des résultats comparables à ceux de PRIME et rStar-Math, même s'il n'utilise que 8K exemples MATH. Ci-dessous, nous partageons la dynamique de l'entraînement et quelques modèles émergents intéressants.

Dynamique de formation

Incitations à la formation et longueur de la réponse

Évaluation de la précision (réussite@1) et de la longueur de la réponse sur 8 points de référence

Comme le montre la figure ci-dessus, la précision de tous les points de référence augmente régulièrement au cours de la formation, tandis que la longueur diminue d'abord, puis augmente progressivement. Après un examen plus approfondi, nous avons constaté que le modèle de base Qwen2.5-Math-7B a tendance à générer une grande quantité de code au début, ce qui peut être dû à la distribution originale des données d'apprentissage du modèle. Nous avons constaté que la longueur diminue d'abord parce que la formation RL élimine progressivement ce modèle et apprend à raisonner en langage ordinaire. Ensuite, la longueur de la génération recommence à augmenter et le modèle d'autoréflexion commence à émerger, comme le montre l'exemple suivant.

L'émergence de l'autoréflexion

Aux alentours de l'étape 40, nous constatons que le modèle commence à générer des modèles d'autoréflexion, les "moments d'épiphanie" de l'article DeepSeek-R1. Nous en montrons un exemple ci-dessous.

Partie II : SimpleRL - Apprentissage intensif avec des exercices d'échauffement imitatifs

Comme indiqué précédemment, nous nous sommes échauffés avec un SFT à réflexion en chaîne de longue durée avant de passer au RL ; l'ensemble de données SFT était constitué de 8K exemples MATH avec des réponses distillées à partir de QwQ-32B-Preview. L'avantage potentiel de ce démarrage à froid est que le modèle part d'un mode de réflexion en chaîne de longue durée et qu'il est déjà autoréflexif, ce qui lui permet d'apprendre plus vite et mieux au cours de la phase de RL.

Principaux résultats

	AIME 2024	MATH 500	AMC	Minerva Math	OlympiadBench	Moyenne.
Qwen2.5-Math-7B-Base	16.7	52.4	52.5	12.9	16.4	30.2
Qwen2.5-Math-7B-Base + 8K QwQ distillation	16.7	76.6	55.0	34.9	36.9	44.0
Eurus-2-7B-PRIME	26.7	79.2	57.8	38.6	42.1	48.9
Qwen2.5-7B-SimpleRL-Zero	36.7	77.4	62.5	34.2	37.5	49.7
Qwen2.5-7B-SimpleRL	26.7	82.4	62.5	39.7	43.3	50.9

Comparé à Qwen2.5-Math-7B-Base + 8K QwQ distillation, le modèle améliore Qwen2.5-7B-SimpleRL d'une moyenne de 6,91 TP3T en termes absolus avant la formation RL. En outre, Qwen2.5-7B-SimpleRL surpasse Eurus-2-7B-PRIME dans 3 des 5 benchmarks et surpasse Qwen2.5-7B-SimpleRL-Zéro. Même si les résultats sont bons, nous sommes un peu surpris que la phase de distillation QwQ n'ait pas produit des gains plus importants que le paramètre zéro, étant donné que QwQ est un modèle d'enseignant de pensée en chaîne longue 32B puissant modèle d'enseignant à longue chaîne de pensée.

Dynamique de formation

Incitations à la formation et longueur de la réponse

état de la formation

Évaluation de la précision (réussite@1) et de la longueur de la réponse sur 8 points de référence

La dynamique de formation de Qwen2.5-SimpleRL est similaire à celle de Qwen2.5-SimpleRL-Zero. Il est intéressant de noter que nous observons toujours une diminution de la longueur au début de RL, malgré notre SFT avancé de réflexion en chaîne à long terme. Nous pensons que cela est dû au fait que le modèle d'inférence QwQ distillé n'est pas préféré par les petits modèles de stratégie ou dépasse leur capacité. Par conséquent, il apprend à l'abandonner et développe un nouveau raisonnement long de son propre chef.

remarques finales

La simplicité est l'ultime complexité.
- Léonard de Vinci (1452-1519), peintre italien de la Renaissance

Remerciements et citations

L'algorithme d'apprentissage par renforcement que nous avons mis en œuvre est basé surOpenRLHFDéveloppé à partir de. Nous utilisons levLLMEffectue des inférences et développe un algorithme basé sur les données de l'enquête.Qwen2.5-Mathdes scripts d'évaluation. Nous remercions en particulier les développeurs de DeepSeek-R1 et Kimi-k1.5 pour leurs innovations et leurs contributions à la communauté open source.

Nouvelles de l'IA

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

Démonstration de la fonctionnalité Google Bard Big Upgrade

Nouvelles de l'IA

il y a 1 an

08.9K

Google lance Gemini 2.5 : de grandes améliorations dans les capacités de "réflexion".

Nouvelles de l'IA

il y a 5 mois

010.6K

Tendances des données d'entreprise et de l'IA 2025 : Intelligentsia, plateformes et perspectives d'avenir.

Nouvelles de l'IA

Il y a 8 mois

010K

Alibaba mise tout sur l'IA et prévoit de dépenser 380 milliards de dollars sur trois ans

Nouvelles de l'IA

Il y a 6 mois

09K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

Reproduction de DeepSeek-R1 : 8 000 exemples mathématiques aident les petits modèles à réaliser des percées en matière d'inférence grâce à l'apprentissage par renforcement

introductif

Recette simple de RL

Dispositif expérimental

Partie I : SimpleRL-Zero - Apprentissage intensif à partir de zéro

Dynamique de formation

L'émergence de l'autoréflexion

Partie II : SimpleRL - Apprentissage intensif avec des exercices d'échauffement imitatifs

Principaux résultats

Dynamique de formation

remarques finales

Remerciements et citations

Qwen2.5-Max basé sur l'architecture MoE surpasse complètement DeepSeek V3

Harvard publie un guide sur les candidatures d'étudiants à l'IA générative avec quatre recommandations et 33 stratégies.

Articles connexes

Démonstration de la fonctionnalité Google Bard Big Upgrade

Google lance Gemini 2.5 : de grandes améliorations dans les capacités de "réflexion".

Tendances des données d'entreprise et de l'IA 2025 : Intelligentsia, plateformes et perspectives d'avenir.

Alibaba mise tout sur l'IA et prévoit de dépenser 380 milliards de dollars sur trois ans

Pas de commentaires

Dernières collections

Derniers articles

Reproduction de DeepSeek-R1 : 8 000 exemples mathématiques aident les petits modèles à réaliser des percées en matière d'inférence grâce à l'apprentissage par renforcement

introductif

Recette simple de RL

Dispositif expérimental

Partie I : SimpleRL-Zero - Apprentissage intensif à partir de zéro

Dynamique de formation

L'émergence de l'autoréflexion

Partie II : SimpleRL - Apprentissage intensif avec des exercices d'échauffement imitatifs

Principaux résultats

Dynamique de formation

remarques finales

Remerciements et citations

Qwen2.5-Max basé sur l'architecture MoE surpasse complètement DeepSeek V3

Harvard publie un guide sur les candidatures d'étudiants à l'IA générative avec quatre recommandations et 33 stratégies.

Articles connexes

Démonstration de la fonctionnalité Google Bard Big Upgrade

Google lance Gemini 2.5 : de grandes améliorations dans les capacités de "réflexion".

Tendances des données d'entreprise et de l'IA 2025 : Intelligentsia, plateformes et perspectives d'avenir.

Alibaba mise tout sur l'IA et prévoit de dépenser 380 milliards de dollars sur trois ans

Pas de commentaires

Outils d'IA sélectionnés

Dernières collections

Derniers articles