MathCLUE「全国高等学校数学コンクール」の紹介:大規模なモデルを用いて、コンクールレベルの数学的推論能力を徹底的に評価します。幾何学、代数学、確率統計学など、高校数学の代表的な分野を網羅した評価システム。
測定モデル: DeepSeek-R1 (chat.deepseek.com でアクセス可能)
DeepSeek-R1の評価と分析
DeepSeek-R1がMathCLUEの全国高校数学コンテストでトップとなる。
DeepSeek-R1は、87.31点の優秀なスコアで全国高校数学大会の評価リストのトップになり、世界のトップモデルo1を10点近く大きく引き離し、DeepSeek-R1-Lite-Previewと比較して26.12点向上し、その総合スコアは大幅に改善され、その数学的推論と問題解決能力は新たなレベルに達しています。
一方、Qwen2.5-Max「全国高校数学大会」の結果が出た!不合格、理由あり
評価モデル:Qwen2.5.5-Max
公式APIバージョン名を呼び出す:qwen-max-2025-01-25
Qwen2.5-Maxの評価と分析
Qwen2.5-MaxはMathCLUEリストでまだ改善の余地がある。
Qwen2.5-Maxは33.58点を獲得し、海外の有名モデルを抑えて全国高校数学大会で9位に入った。 クロード 3.5ソネット(20241022)15.67点、しかし国内外のヘッド大型モデルと比較すると、まだ改善の余地がある(30点以上の開きがある)。
このモデルのパフォーマンスについては、誤答問題の詳細な分析を行った。その結果、このモデルは解答プロセスを省略し、いくつかのパズルで直接誤答を出していることがわかりました。この評価は最終的な解答のみに基づいて採点されており、これが低得点の主な原因であると考えられます。
レビュー
MathCLUE 全国高校数学コンクール復習セット。2024年全国高校数学大会の問題を網羅し、ビッグモデルの厳密な評価を展開。
方法論
回答における最終的な答えが、評価タスクにおけるマクロモデルの回答の参照解答と一致するかどうかを判断して、問題に対するマクロモデルの正答率(正解か不正解か)を確認する方法は、評価の完全な客観性を実現します。