MathCLUE：DeepSeek R1挑战「全国高中数学竞赛」，成绩大幅超越o1

50.1K 00

MathCLUE「全国高中数学竞赛」介绍：深入评估大模型的竞赛级数学推理能力。测评体系涵盖了高中数学的几何、代数和概率统计等多个代表性维度。

🔥测评模型：DeepSeek-R1（访问地址：chat.deepseek.com）

DeepSeek-R1测评分析
🔍DeepSeek-R1在MathCLUE全国高中数学竞赛榜单上位居榜首
DeepSeek-R1以87.31分的优异成绩位居全国高中数学竞赛评测榜首，显著领先世界顶尖模型o1近10分，相比较DeepSeek-R1-Lite-Preview提升26.12个点，其整体分数大幅度提升，数学推理与问题解决能力达到新的高度。

同时，Qwen2.5-Max「全国高中数学竞赛」成绩出炉！未达预期，附原因

🔥测评模型：Qwen2.5-Max
调用官方API版本名称：qwen-max-2025-01-25

Qwen2.5-Max测评分析
🔍Qwen2.5-Max在MathCLUE榜单上仍有一定提升空间
Qwen2.5-Max在全国高中数学竞赛测评中获得 33.58 分，排名第 9。领先海外著名模型 Claude 3.5 Sonnet(20241022) 15.67 分，但与国内外头部大模型相比，仍有一定的提升空间（有30分以上差距）。
针对本次模型的表现，我们对其错题进行了深度分析。发现模型在部分难题上存在省略解题过程、直接给出错误答案的情况，而本次测评仅依据最终答案评分，这可能是其得分偏低的主要原因。

评测集
MathCLUE全国高中数学竞赛评测集。覆盖2024年全国高中数学竞赛的试题，对大模型展开严格测评。

测评方法
针对大模型在测评任务上的回答，判断其回答中的最终答案和参考答案是否相符，以确认大模型在一道问题上的正确率（正确或错误），这一方法实现了完全的客观评估性。