MathCLUE: DeepSeek R1 участвует в "Национальном математическом конкурсе для старшеклассников" и значительно превосходит o1
Введение в MathCLUE "Национальный математический конкурс для старшеклассников": углубленная оценка способности к математическому мышлению на уровне конкурса в больших моделях. Система оценки охватывает ряд репрезентативных измерений математики средней школы, включая геометрию, алгебру и статистику вероятностей.
🔥 Модель измерения: DeepSeek-R1 (доступ по адресу chat.deepseek.com)
Оценка и анализ DeepSeek-R1
🔍 DeepSeek-R1 возглавляет список национальных математических конкурсов MathCLUE для старшеклассников
DeepSeek-R1 возглавляет оценочный список национального конкурса по математике для старшеклассников с отличной оценкой в 87,31 балла, значительно опережая лучшую в мире модель o1 почти на 10 баллов, по сравнению с DeepSeek-R1-Lite-Preview на 26,12 балла, его общий балл значительно улучшился, а его математические рассуждения и способность решать задачи вышли на новый уровень.
Тем временем стали известны результаты Qwen2.5-Max "Национального математического конкурса для старшеклассников"! Не оправдали ожиданий, с указанием причин
🔥 Модель оценки: Qwen2.5-Max
Вызовите официальное название версии API: qwen-max-2025-01-25
Оценка и анализ Qwen2.5-Max
🔍Qwen2.5-Max все еще имеет некоторые возможности для улучшения в списке MathCLUE
Qwen2.5-Max набрал 33,58 балла и занял 9-е место в Национальном конкурсе по математике среди старшеклассников, опередив знаменитые зарубежные модели. Клод 3.5 Sonnet (20241022) 15,67 балла, но все еще имеет некоторый потенциал для улучшения (с разрывом более чем в 30 баллов) по сравнению с головными крупными моделями в стране и за рубежом.
Мы подробно проанализировали работу модели в отношении неправильных вопросов. Выяснилось, что модель опускает процесс решения и дает неправильные ответы непосредственно на некоторые головоломки, а эта оценка выставляется только на основе окончательных ответов, что может быть основной причиной ее низкого балла.
Отзывы
MathCLUE National High School Maths Competition Review Set. Охватывает вопросы Национального конкурса по математике для средней школы 2024 года и позволяет получить строгую оценку Большой модели.
Методология
Метод определения соответствия окончательного ответа в ответе эталонному ответу для ответа макромодели на задание оценки для подтверждения степени правильности (правильности или неправильности) макромодели на вопрос позволяет достичь полной объективности оценки.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...