MathCLUE: '전국 고교 수학 경시대회'에 도전하는 딥시크 R1, o1을 크게 뛰어넘는 성과 달성

MathCLUE：DeepSeek R1挑战「全国高中数学竞赛」，成绩大幅超越o1

MathCLUE "전국 고등학교 수학 경시대회" 소개: 대규모 모델에서 대회 수준의 수학적 추론 능력을 심층적으로 평가합니다. 이 평가 시스템은 기하, 대수, 확률 통계 등 고등학교 수학의 대표적인 여러 차원을 다룹니다.

측정 모델: DeepSeek-R1(chat.deepseek.com에서 접속)

DeepSeek-R1 평가 및 분석
🔍 DeepSeek-R1, MathCLUE의 전국 고등학교 수학 경시대회 목록 1위
딥시크-R1은 전국 고등학교 수학 경시대회에서 세계 최고 모델인 o1보다 10점 가까이 앞선 87.31점의 우수한 점수로 평가 1위를 차지했으며, 딥시크-R1-라이트-프리뷰보다 26.12점 향상되어 전체 점수가 크게 향상되고 수학적 추론 및 문제 해결 능력이 새로운 수준에 도달했습니다.

한편, Qwen2.5-Max "전국 고등학교 수학 경시대회"의 결과가 나왔습니다! 기대에 미치지 못한 이유와 이유

평가 모델: Qwen2.5-Max
공식 API 버전 이름 호출: qwen-max-2025-01-25

Qwen2.5-Max 평가 및 분석
🔍Qwen2.5-Max는 수학클루 목록에서 여전히 개선의 여지가 있습니다.
Qwen2.5-Max는 전국 고등학교 수학 경시대회에서 33.58점을 받아 해외 유명 모델들을 제치고 9위를 차지했습니다. Claude 3.5 소네트(20241022) 15.67점이지만, 국내외 상위 모델과 비교하면 여전히 개선의 여지가 있습니다(30점 이상 격차).
오답 문제와 관련하여 모델의 성능을 심층적으로 분석했습니다. 이 모델은 일부 퍼즐에서 풀이 과정을 생략하고 바로 오답을 내는 것으로 나타났으며, 이 평가는 최종 정답만을 기준으로 점수를 매기는 것이 낮은 점수의 주요 원인일 수 있습니다.

리뷰
MathCLUE 전국 고등학교 수학 경시대회 복습 세트. 2024년 전국 고등학교 수학 경시대회 문제를 다루고 빅 모델에 대한 엄격한 평가를 개발합니다.

방법론
평가 과제에서 매크로 모델의 정답률(정답 또는 오답)을 확인하기 위해 응답의 최종 답안이 매크로 모델의 응답에 대한 참조 답안과 일치하는지 확인하는 방식은 평가의 완전한 객관성을 달성합니다.