MathCLUE: DeepSeek R1 desafía al "Concurso nacional de matemáticas para institutos" y supera ampliamente a o1
Introducción a MathCLUE "Concurso Nacional de Matemáticas de Bachillerato": Una evaluación en profundidad de la capacidad de razonamiento matemático a nivel de competición en grandes modelos. El sistema de evaluación abarca una serie de dimensiones representativas de las matemáticas de bachillerato, como la geometría, el álgebra y la estadística probabilística.
🔥 Modelo de medición: DeepSeek-R1 (acceso en chat.deepseek.com)
Evaluación y análisis de DeepSeek-R1
🔍 DeepSeek-R1 encabeza la lista de concursos nacionales de matemáticas de secundaria de MathCLUE
DeepSeek-R1 encabeza la lista de evaluación del concurso nacional de matemáticas de la escuela secundaria con una excelente puntuación de 87,31 puntos, significativamente por delante del mejor modelo del mundo o1 por casi 10 puntos, en comparación con DeepSeek-R1-Lite-Preview para mejorar 26,12 puntos, su puntuación global se mejora sustancialmente, y su razonamiento matemático y la capacidad de resolución de problemas ha alcanzado un nuevo nivel.
Ya se conocen los resultados del concurso nacional de matemáticas de secundaria Qwen2.5-Max. No se han cumplido las expectativas, con motivos
🔥 Modelo de evaluación: Qwen2.5-Max
Llama al nombre de la versión oficial de la API: qwen-max-2025-01-25
Evaluación y análisis de Qwen2.5-Max
🔍Qwen2.5-Max aún tiene margen de mejora en la lista MathCLUE
Qwen2.5-Max obtuvo 33,58 puntos y se clasificó noveno en el Concurso Nacional de Matemáticas de Secundaria, por delante de famosas modelos extranjeras. Claude 3,5 Sonnet (20241022) 15,67 puntos, pero aún tiene margen de mejora (con una diferencia de más de 30 puntos) en comparación con los grandes modelos nacionales e internacionales.
Hemos analizado en profundidad el rendimiento del modelo con respecto a sus preguntas erróneas. Se comprueba que el modelo omite el proceso de solución y da respuestas erróneas directamente en algunos acertijos, y esta evaluación se puntúa únicamente en función de las respuestas finales, lo que puede ser la razón principal de su baja puntuación.
Reseñas
MathCLUE National High School Maths Competition Review Set. Cubre las preguntas del Concurso Nacional de Matemáticas de Bachillerato 2024 y desarrolla una evaluación rigurosa del Gran Modelo.
Metodología
El método que consiste en determinar si la respuesta final de la respuesta coincide con la respuesta de referencia de la respuesta del macromodelo en la tarea de evaluación para confirmar el índice de corrección (correcto o incorrecto) del macromodelo en una pregunta consigue una objetividad total en la evaluación.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...