AI个人学习
和实操指南

MathCLUE:DeepSeek R1挑战「全国高中数学竞赛」,成绩大幅超越o1

DeepSeek R1挑战「全国高中数学竞赛」,成绩大幅超越o1-1

DeepSeek R1挑战「全国高中数学竞赛」,成绩大幅超越o1-1

DeepSeek R1挑战「全国高中数学竞赛」,成绩大幅超越o1-1

MathCLUE「全国高中数学竞赛」介绍:深入评估大模型的竞赛级数学推理能力。测评体系涵盖了高中数学的几何、代数和概率统计等多个代表性维度。

🔥测评模型:DeepSeek-R1(访问地址:chat.deepseek.com)

DeepSeek-R1测评分析
🔍DeepSeek-R1在MathCLUE全国高中数学竞赛榜单上位居榜首
DeepSeek-R1以87.31分的优异成绩位居全国高中数学竞赛评测榜首,显著领先世界顶尖模型o1近10分,相比较DeepSeek-R1-Lite-Preview提升26.12个点,其整体分数大幅度提升,数学推理与问题解决能力达到新的高度。


 

同时,Qwen2.5-Max「全国高中数学竞赛」成绩出炉!未达预期,附原因

🔥测评模型:Qwen2.5-Max
调用官方API版本名称:qwen-max-2025-01-25

Qwen2.5-Max测评分析
🔍Qwen2.5-Max在MathCLUE榜单上仍有一定提升空间
Qwen2.5-Max在全国高中数学竞赛测评中获得 33.58 分,排名第 9。领先海外著名模型 Claude 3.5 Sonnet(20241022) 15.67 分,但与国内外头部大模型相比,仍有一定的提升空间(有30分以上差距)。
针对本次模型的表现,我们对其错题进行了深度分析。发现模型在部分难题上存在省略解题过程、直接给出错误答案的情况,而本次测评仅依据最终答案评分,这可能是其得分偏低的主要原因。

 

评测集
MathCLUE全国高中数学竞赛评测集。覆盖2024年全国高中数学竞赛的试题,对大模型展开严格测评。

测评方法
针对大模型在测评任务上的回答,判断其回答中的最终答案和参考答案是否相符,以确认大模型在一道问题上的正确率(正确或错误),这一方法实现了完全的客观评估性。

未经允许不得转载:首席AI分享圈 » MathCLUE:DeepSeek R1挑战「全国高中数学竞赛」,成绩大幅超越o1

首席AI分享圈

首席AI分享圈专注于人工智能学习,提供全面的AI学习内容、AI工具和实操指导。我们的目标是通过高质量的内容和实践经验分享,帮助用户掌握AI技术,一起挖掘AI的无限潜能。无论您是AI初学者还是资深专家,这里都是您获取知识、提升技能、实现创新的理想之地。

联系我们
zh_CN简体中文