MathCLUE : DeepSeek R1 défie la " Compétition nationale de mathématiques des lycées " et surpasse largement o1
Introduction à MathCLUE "Concours national de mathématiques des lycées" : une évaluation approfondie des capacités de raisonnement mathématique au niveau du concours dans des modèles de grande taille. Le système d'évaluation couvre un certain nombre de dimensions représentatives des mathématiques de l'enseignement secondaire, notamment la géométrie, l'algèbre et les statistiques de probabilité.
Modèle de mesure : DeepSeek-R1 (consulté sur chat.deepseek.com)
Évaluation et analyse de DeepSeek-R1
🔍 DeepSeek-R1 en tête de la liste des concours nationaux de mathématiques de l'enseignement secondaire de MathCLUE
DeepSeek-R1 arrive en tête de la liste d'évaluation du concours national de mathématiques des lycées avec un excellent score de 87,31 points, devançant de près de 10 points le premier modèle mondial o1. Par rapport à DeepSeek-R1-Lite-Preview, il a progressé de 26,12 points, son score global s'est considérablement amélioré et sa capacité de raisonnement mathématique et de résolution de problèmes a atteint un nouveau palier.
Les résultats du concours national de mathématiques des lycées Qwen2.5-Max sont sortis ! N'ont pas répondu aux attentes, avec les raisons
Modèle d'évaluation : Qwen2.5-Max
Appeler le nom de la version officielle de l'API : qwen-max-2025-01-25
Évaluation et analyse de Qwen2.5-Max
🔍Qwen2.5-Max a encore une marge d'amélioration sur la liste MathCLUE
Qwen2.5-Max a obtenu 33,58 points et s'est classé 9e au concours national de mathématiques des lycées, devant de célèbres modèles étrangers. Claude 3.5 Sonnet (20241022) 15,67 points, mais a encore une certaine marge de progression (avec un écart de plus de 30 points) par rapport aux grands modèles nationaux et internationaux.
Nous avons analysé en profondeur les performances du modèle en ce qui concerne les mauvaises questions. Il s'avère que le modèle omet le processus de résolution et donne des réponses erronées directement pour certaines énigmes, et cette évaluation est notée uniquement sur la base des réponses finales, ce qui peut être la principale raison de son faible score.
Commentaires
MathCLUE Concours national de mathématiques des lycées. Couvre les questions du concours national de mathématiques des lycées 2024 et développe une évaluation rigoureuse du Grand Modèle.
Méthodologie
La méthode consistant à déterminer si la réponse finale correspond à la réponse de référence pour la réponse du macromodèle à la tâche d'évaluation afin de confirmer le taux d'exactitude (correct ou incorrect) du macromodèle à une question permet d'atteindre une objectivité totale dans l'évaluation.
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...