MathCLUE「全国高中数学竞赛」介绍:深入评估大模型的竞赛级数学推理能力。测评体系涵盖了高中数学的几何、代数和概率统计等多个代表性维度。
🔥测评模型:DeepSeek-R1(访问地址:chat.deepseek.com)
DeepSeek-R1测评分析
🔍DeepSeek-R1在MathCLUE全国高中数学竞赛榜单上位居榜首
DeepSeek-R1以87.31分的优异成绩位居全国高中数学竞赛评测榜首,显著领先世界顶尖模型o1近10分,相比较DeepSeek-R1-Lite-Preview提升26.12个点,其整体分数大幅度提升,数学推理与问题解决能力达到新的高度。
同时,Qwen2.5-Max「全国高中数学竞赛」成绩出炉!未达预期,附原因
🔥测评模型:Qwen2.5-Max
调用官方API版本名称:qwen-max-2025-01-25
Qwen2.5-Max测评分析
🔍Qwen2.5-Max在MathCLUE榜单上仍有一定提升空间
Qwen2.5-Max在全国高中数学竞赛测评中获得 33.58 分,排名第 9。领先海外著名模型 Claude 3.5 Sonnet(20241022) 15.67 分,但与国内外头部大模型相比,仍有一定的提升空间(有30分以上差距)。
针对本次模型的表现,我们对其错题进行了深度分析。发现模型在部分难题上存在省略解题过程、直接给出错误答案的情况,而本次测评仅依据最终答案评分,这可能是其得分偏低的主要原因。
评测集
MathCLUE全国高中数学竞赛评测集。覆盖2024年全国高中数学竞赛的试题,对大模型展开严格测评。
测评方法
针对大模型在测评任务上的回答,判断其回答中的最终答案和参考答案是否相符,以确认大模型在一道问题上的正确率(正确或错误),这一方法实现了完全的客观评估性。