Получены результаты генерации кода на уровне проекта! o3/Claude 3.7 лидирует, R1 находится в верхнем эшелоне!

Новости ИИОпубликовано 1 год назад Круг обмена ИИ

44.2K 00

26 февраля 2025 года SuperCLUE выпустила первый список эталонов для измерения уровня генерации кода на уровне проекта (SuperCLUE-Project).

Программу оценки см. в разделе: Project-level Code Generation Evaluation Benchmark Release. Основываясь на сотрудничестве "судейской коллегии" больших моделей, эта оценка оценивает возможности 12 больших моделей в стране и за рубежом в задачах генерации кода на уровне проекта, которые охватывают 5 категорий сценариев применения, включая разработку игр, инструментов, систем управления и т. д. Ниже приводится подробный отчет об оценке. Ниже приводится подробный отчет об оценке.

Сводка измерений кода на уровне проекта

Аннотация 1: o3-mini-high и Claude-3.7-Sonnet-Reasoning лидируют

В этой оценке выпущенная компанией OpenAI модель o3-mini-high получила композитный балл 82,08, а недавно выпущенная компанией Anthropic модель рассуждений Claude-3.7-Sonnet-Reasoning - композитный балл 81,63, причем эти две модели рука об руку возглавили список.

Аннотация 2: DeepSeek-R1 лидирует среди отечественных моделей и входит в число лучших в отрасли

Судя по результатам оценки, разрыв в баллах между DeepSeek-R1 и передовыми моделями отрасли, такими как o3-mini-high, Claude-3.5-Sonnet/3.7-Sonnet-Reasoning и Gemini-2.0-pro, крайне мал, а в некоторых сценариях применения даже достигает определенного лидерства.

Резюме 3: У каждого из них есть свои сильные стороны. r1 специализируется на разработке игр, o3/Step Step R - на редактировании мультимедиа, а некоторые - на веб-приложениях.

12 моделей, участвовавших в оценке, демонстрируют разницу в возможностях в различных сценариях применения, например, DeepSeek-R1 является выдающимся в области "разработки игр", Claude-3.5-Sonnet, Beanbag 1.5pro и Tongyiqianqian Max больше специализируются на разработке "веб-приложений" и так далее. Claude-3.5-Sonnet, Beanbag 1.5pro и Tongyi Qianqian Max больше специализируются на разработке "веб-приложений", а StepStar Step R-mini имеет уникальное преимущество в разработке инструментов "редактирования мультимедиа" и так далее.

Аннотация 4: Различные модели существенно отличаются друг от друга методологическими решениями, стилями интерфейса

Сравнение ответов моделей показывает, что при одинаковых требованиях пользователя разные модели выбирают совершенно разные языки программирования, вызывают библиотеки/модули и уделяют большое внимание эстетике интерфейса, что в определенной степени отражает различия в возможностях, предпочтениях и концепциях моделей.

Обзор списка 项目级代码生成结果出炉！o3/Claude3.7领跑，R1跻身第一梯队

Система оценки проектов SuperCLUE-Project

SuperCLUE-Project - это китайский бенчмарк для оценки кода на уровне проекта, предназначенный для изучения способности больших моделей превращать требования пользователей на уровне проекта в реализацию кода. 项目级代码生成结果出炉！o3/Claude3.7领跑，R1跻身第一梯队

Проект SuperCLUE ориентирован на реальные потребности непрограммистской группы пользователей, охватывая 5 измерений первого уровня и 18 измерений второго уровня, а также создавая наборы вопросов на китайском естественном языке. Учитывая особенности сообщества непрограммистов, при разработке темы мы делаем акцент только на функциональном уровне описания требований, а эффективность, безопасность, читаемость и другие показатели рассматриваем как независимые возможности игроков большой модели, которые должны быть оценены в ходе сессии оценки.

Кроме того, эталоны имеют три уровня сложности: легкий - средний - сложный, которые масштабируются целостно для одного и того же набора тем, чтобы дать более глубокое представление о возможностях реализации кода моделей на уровне проекта.

Методология

В соответствии с подходом SuperCLUE, предусматривающим тонкую оценку, оценка проводится следующим образом:

1) Построение измерительного комплекта

1. будучи обеспокоенным динамикой развития крупной области разработки с использованием моделей с низким/нулевым кодом, собирайте и обобщайте требования к кодовым проектам для групп непрограммистов

2. Напишите наборы оценок кода простой сложности на уровне проекта

3. контролируйте формат и количество слов, чтобы расширить набор заданий до умеренного/сложного уровня сложности

4. Тестирование и ручная калибровка

2) Процесс подсчета баллов

1. Подготовка правил оценки --->

2. мелкомасштабное тестирование для ручной проверки согласованности оценок референтной модели с оценками экспертов-людей --->

3. итеративная настройка правил оценки на основе обратной связи по согласованности --->

4. передайте полный набор ответов тестируемой модели и правил оценки двум моделям-рефери для получения полных оценок, соответственно --->

5. рассчитайте среднее арифметическое оценок двух моделей вынесения решений по каждому измерению в качестве окончательного результата

3) Анализ согласованности действий человека

Для проверки согласованности оценок референтной модели с оценками экспертов-людей была проведена стратифицированная выборка набора измерений, в ходе которой был рассчитан коэффициент внутригрупповой корреляции и представлены результаты.

По сравнению с предыдущими эталонами, в SuperCLUE-Project впервые в качестве арбитров при проведении оценки используются как отечественные, так и зарубежные модели (Gemini-2.0-flash и Qwen-Max), что еще больше снижает проблемы предвзятости и предпочтения большой модели благодаря сотрудничеству "команды арбитров". (Благодаря сотрудничеству "судейской команды", проблемы предвзятости и предпочтений большой модели еще больше уменьшаются.

Кроме того, чтобы проверить надежность судейской модели, SuperCLUE-Project впервые вводит коэффициент внутриклассовой корреляции (ICC) и рассчитывает двунаправленные смешанные эффекты оценок человеческих экспертов, Qwen-Max и Gemini-2.0-flash ( ICC(3,k)) индексы, модель рефери была проверена на сильное соответствие человеческим оценкам. По сравнению с прошлой процентной надежностью, метод эффективно преодолевает флуктуационный эффект случайных ошибок.

(*Примечание: Коэффициент внутригрупповой корреляции (ICC) - это один из показателей коэффициента надежности для измерения и оценки межнаблюдательной надежности и надежности "тест-ретест", впервые использованный Бартко в 1966 году для измерения и оценки величины надежности. ICC равен отношению индивидуальной вариабельности к общей вариабельности. В данном эксперименте в качестве индекса согласованности был выбран двусторонний индекс смешанных эффектов, поскольку нам нужно учитывать только согласованность между выбранной моделью рефери и оценками эксперта-человека, и нет необходимости распространять его на других оценщиков).

Критерии оценки

Функциональная целостность (60%): гарантирует, что код полностью реализует все функции, описанные в инструкциях пользователя.
Качество кода (28%): оценка качества кода с точки зрения эффективности, читабельности и безопасности. В частности, включает:

a. Эффективность (12%): достаточно ли оптимизирован код с точки зрения использования ресурсов, манипулирования DOM, работы с базами данных/большими наборами данных, вычислений или вызовов API.

b. Читабельность (8%): реализовано ли в коде (1) использование четких именований и последовательного форматирования; (2) логическое разделение кодовой базы на модули; и (3) поддержание четкой структуры проекта.

c. Безопасность (8%): не имеет ли код (1) очевидных дыр в безопасности; и (2) может ли он эффективно обрабатывать основные исключения.

User Experience (12%): оценивает качество дизайна и эстетики пользовательского интерфейса, включая правильное функционирование интерактивных элементов (например, кнопок, форм) и базовую эстетику интерфейса в целом.

По сравнению с прошлым дизайном критериев оценки, SuperCLUE-Project изменил относительно сбалансированный механизм оценки, значительно повысив вес функционального аспекта реализации, который также является возможностью, которая больше всего волнует обычных пользователей.

Кроме того, в критериях оценки SuperCLUE-Project указан режим вычитания баллов, то есть на основе стандартного полного балла, основанного на сравнении вопросов и соответствующих кодовых реализаций, вычитается та часть балла, которая не соответствует требованиям вопросов. Для такого метода индивидуальной оценки по каждому вопросу система вычитания баллов в определенной степени компенсирует недостатки оценки по большой модели при рассмотрении относительного качества нескольких ответов и смягчает недостатки оценки по большой модели.Стохастичность.

Модели-участники

Чтобы всесторонне измерить текущий уровень способности отечественных и зарубежных крупных моделей решать кодовые требования на уровне проекта, для этой оценки были отобраны семь отечественных и пять зарубежных моделей с высокой репрезентативностью.

Результаты оценки

общий список

Список сценариев применения

Обзор и анализ соответствия человека

Для научной оценки согласованности эталонов SuperCLUE-Project с человеческими экспертами мы выбрали три модели с лучшей, средней и худшей общей производительностью из результатов оценки, стратифицировали 33 пары вопрос-ответ, провели ручное независимое оценивание и оценивание по каждому вопросу двумя моделями-рефери, сообщили процентное соответствие общих оценок трех моделей, коэффициенты корреляции группы и провели научную экспертизу профессионализма больших моделей. Был проведен научный анализ профессионализма "судейской коллегии".

Примечание: Значение ICC-3k 0,75 или выше обычно считается свидетельством высокого уровня межкорреспондентского согласия.

Случаи оценки

Пример 1 Разработка игры (головоломка, сложность)

Примета:Напишите код для реализации игры "Соедини точки", в которой случайным образом появляются разноцветные, близко расположенные m*n маленьких кубиков (m, n задаются пользователем перед началом игры, являются целыми числами больше 5), пользователь кликает на два кубика, если цвет одинаковый и соединенные пути (разрешено только в горизонтальном и вертикальном направлениях) не имеют более двух поворотов, то устраните два кубика; если правило устранения не выполняется, то два кубика, на которые был сделан клик Мигают три раза. У игрока есть три шанса нарушить расположение существующих квадратов. Если в течение 3 секунд пользователю удастся ликвидировать два квадрата подряд, на экране появится надпись "Combo!".

Большая модель Ref 1 (Gemini-2.0-flash):

用户指令中包含的需求 (基于独立分析)

1.创建游戏界面: 创建一个m*n的方块网格，m和n由用户指定（大于5的整数）。

2.方块颜色随机化: 随机生成多种颜色的方块，并确保每种颜色出现偶数次，以便可以两两消除。

3.消除规则: 当用户点击两个颜色相同的方块，且它们之间可以通过不多于两次转弯的路径连接时，消除这两个方块。

4.错误提示: 如果用户点击的两个方块不满足消除规则，则点击的方块闪烁三次。

5.打乱功能: 允许玩家打乱方块排列，总共有三次机会。

6.连击奖励: 如果用户在3秒内连续成功消除两次，则显示 "Combo!"。

对代码缺陷的总体点评

该代码实现了一个基本的连连看游戏，实现了方块的随机生成、消除规则、错误提示、打乱功能和连击奖励。但是，代码在用户体验和效率方面存在一些不足。例如，方块闪烁效果不够流畅，消除方块后的界面更新不够及时。

各项标准的评分

-- 功能完整性：[[15]] 分

（实现了所有功能，包括随机生成方块、消除规则、打乱功能和连击奖励。所有核心功能均已实现，因此不扣分。）

-- 代码质量：[[5]] 分，其中：

效率：[[2]] 分

（代码在生成棋盘时，先创建了一个包含所有颜色的列表，然后进行随机打乱。这种做法在m和n较大时，可能会影响效率。此外，在判断两个方块是否可以消除时，使用了广度优先搜索算法。虽然该算法可以找到最短路径，但在大规模棋盘上，可能会比较耗时。因此，扣1分。）

可读性：[[2]] 分

（代码的命名基本清晰，但部分代码块的注释不足，例如，对于广度优先搜索算法的解释不够详细。代码的整体结构良好，但可以进一步模块化，例如，将游戏逻辑和界面绘制分离。因此，不扣分。）

安全性：[[1]] 分

（代码没有明显的安全漏洞，但是，对于用户输入的m和n，只做了简单的数值范围检查，没有考虑其他异常情况，例如，用户输入非整数。因此，扣1分。）

-- 用户体验：[[1]] 分

（游戏界面基本可以运行，但是，方块闪烁效果不够流畅，消除方块后的界面更新不够及时。此外，游戏缺少音效和动画效果，用户体验有待提升。因此扣2分。）

综上所述，该代码实现的总体得分为 <<21>> 分。

Большая модель Рефери 2 (Квен-Макс):

用户指令中包含的需求 (基于独立分析)

1. 游戏界面应随机出现多种颜色的、紧密排列的m*n个小方块，其中m和n由用户指定且均为大于5的整数。

2. 用户点击两个方块，如果颜色相同且相连接路径（仅允许水平和垂直两个方向）不多于两次转弯，则消除两方块。

3. 如果不满足消除规则，则点击的两个方块闪烁三下。

4. 玩家有三次机会可以打乱现有方块的排列。

5. 如果用户在3秒内连续成功消除两次，则在屏幕上显示"Combo!"。

对代码缺陷的总体点评

代码实现了基本的游戏逻辑，包括生成游戏板、检测方块是否相连以及处理玩家输入等。

代码结构较为清晰，但部分地方可以进一步优化以提高可读性和效率。


各项标准的评分

-- 功能完整性：[[15]] 分

该代码实现完全符合用户指令中的所有功能要求：

生成了m*n的小方块，且m和n由用户指定且均为大于5的整数。

用户点击两个方块，如果颜色相同且相连接路径不多于两次转弯，则消除两方块。

不满足消除规则时，点击的两个方块闪烁三下。

玩家有三次机会可以打乱现有方块的排列。

用户在3秒内连续成功消除两次时，在屏幕上显示"Combo!"。

-- 代码质量：[[5]] 分，其中：

效率：[[3]] 分

代码整体上对资源利用合理，没有明显的性能瓶颈。但由于未考虑极端情况下可能出现的问题，故保持满分。

可读性：[[1]] 分

虽然变量命名较清晰，但函数is_connected中的逻辑稍显复杂，不易理解。此外，主循环内的逻辑也可以通过更合理的模块化来改善。

安全性：[[1]] 分

代码缺乏对用户输入的有效验证，比如确保输入的是正整数。同时，对于某些潜在错误（如文件操作失败）也没有相应的处理机制。

-- 用户体验：[[2]] 分

游戏界面基本美观，交互元素工作正常。但是，由于方块闪烁次数符合要求，用户体验的一致性较好。

综上所述，该代码实现的总体得分为 <<22>> 分。

Общая оценка: [21,5/25]

# Пример 2 Разработка игр (шутер, сложно)

Задача: Напишите код для реализации простого воздушного боя. Игрок использует клавиши со стрелками влево и вправо для маневрирования самолетом в нижней части интерфейса, чтобы избежать препятствий, летящих сверху вниз, и нажимает пробел, чтобы стрелять по вражеским самолетам сверху, которые будут двигаться влево и вправо случайным образом и стрелять. Начальное значение жизни равно 3, каждый раз, когда вы врезаетесь в препятствие или получаете удар от вражеского самолета, ваше значение жизни будет уменьшаться на 1, и игра закончится, когда ваше значение жизни достигнет 0. На первом уровне есть 3 вражеских самолета, а на каждом последующем - еще 3. Есть два режима огня: режим A (по умолчанию) позволяет стрелять только перед вражеским самолетом и уничтожает его с одного попадания; режим B стреляет в нескольких направлениях и требует двух попаданий, чтобы уничтожить вражеский самолет. Чтобы переключиться между режимами A и B, нажмите клавишу "Q".

[o3-mini-high code effect demo]:

Общая оценка: [22/25]

# Пример 3 быстрых инструментов (повседневный офис, средний)

Примета:Напишите код для реализации инструмента обработки английского текста, пользователь вводит текст, инструмент может быстро выполнить статистику количества слов, сортировку по частоте слов, преобразование регистра, удаление пробелов и переносов строк, добавление номеров строк и другие операции. Кроме того, инструмент может сохранять несколько заданных пользователем правил замены и выполнять их единообразно. Пользователи могут сохранять текст в избранное и настраивать заголовок.

Общая оценка: [20,5/25]

Пример 4 Веб-приложение (веб-видение, сложное)

Примета:Напишите код для реализации сайта с демонстрацией модной одежды с несколькими изображениями (загруженными пользователем), которые автоматически поворачиваются, а миниатюры расположены в нижней части страницы. Изображения переключаются с помощью визуального эффекта перелистывания карточек. При наведении курсора на изображение используется увеличительное стекло для отображения деталей. В правом верхнем углу страницы находится кнопка "Выключить свет", по умолчанию фон белый, при нажатии на кнопку "Выключить свет" фон становится черным, кнопка - "Включить свет". Фон страницы имеет эффект медленно падающих лепестков цветка. В левом верхнем углу есть кнопка с иконкой "старт/пауза" для управления началом и паузой вращения картинок; в правом нижнем углу каждой вращающейся картинки есть белая иконка сердечка, которая при нажатии становится розовой, а справа отображается количество нажатий на сердечко.

Общая оценка: [23/25]

Пример 5 Веб-приложение (образовательное обучение, сложность)

Примета:Напишите код для реализации веб-сайта для запоминания словарного запаса, который показывает пользователю слово и четыре варианта перефразирования; если пользователь выбирает правильный вариант, он переходит к следующему слову; если пользователь выбирает неправильный вариант, ему предлагается выбрать правильный вариант перед переходом. В каждой группе по пять слов, всего три группы, после окончания каждой группы пользователь может завершить исследование или выучить другой набор слов. После завершения исследования отображается общий процент правильных ответов. Пользователи могут нажать кнопку "Переключиться в режим обзора" в верхней части интерфейса, чтобы повторно ответить на вопросы, на которые они ответили неправильно. Порядок вопросов рандомизирован, то есть при каждом заходе на сайт порядок вопросов обычно разный.

[Демонстрация кодового эффекта Qwen-Max]:

Общая оценка: [19/25]

Анализ оценки и заключение

1. o3-mini-high с Клодом-3.7-Sonnet-Reasoning в лидерах

В этой оценке выпущенная OpenAI модель o3-mini-high набрала 82,08 балла, а недавно выпущенная Anthropic модель умозаключений Claude-3.7-Sonnet-Reasoning набрала 81,63 балла, и эти две модели возглавили список рука об руку.

2. DeepSeek-R1 лидирует среди отечественных моделей и входит в высший эшелон индустрии

По результатам оценки, DeepSeek-R1 имеет очень небольшой разрыв в баллах с такими передовыми моделями отрасли, как o3-mini-high, Claude-3.5-Sonnet/3.7-Sonnet-Reasoning, Gemini-2.0-pro и т.д., а его производительность особенно выдающаяся в сценариях применения "разработка игр" и "сетевые приложения". В сценариях применения "разработка игр" и "сетевые приложения" производительность особенно выдающаяся, превосходящая или достигающая уровня Claude-3.5-Sonnet, Gemini-2.0-pro и других моделей.

3. У каждого из них есть свои сильные стороны: R1 специализируется на разработке игр, o3/Step R - на редактировании мультимедиа, а некоторые специализируются на веб-приложениях.

12 моделей, участвовавших в оценке, демонстрируют разницу в возможностях в различных сценариях применения. Среди них DeepSeek-R1 - выдающийся специалист в области "разработки игр", Claude-3.5-Sonnet, Beanbag 1.5pro, Smart Spectrum GLM-Zero-preview и Tongyi Qianqian Max более искусны в разработке "веб-приложений", o3-mini-high и Step Star Step R-mini лучше в разработке "веб-приложений", а o3-mini-high и Step Star Step R-mini - в разработке "веб-приложений". Claude-3.5-Sonnet, Beanbag 1.5pro, GLM-Zero-preview и Max больше специализируются на разработке "веб-приложений", а o3-mini-high и Step R-mini имеют уникальное преимущество в разработке инструментов для "редактирования мультимедиа".

4. между различными моделями существуют значительные различия в методологических решениях и стилях интерфейса.

Сравнение ответов моделей показывает, что при одинаковых требованиях пользователей разные модели выбирают совершенно разные языки программирования, вызывают библиотеки/модули и уделяют большое внимание эстетике интерфейса, что в определенной степени отражает различия в возможностях, предпочтениях и концепциях моделей. В целом зарубежные модели лучше справляются с дизайном пользовательского интерфейса.

Соответствующие примеры приведены ниже:

Вопрос первый:

Напишите код для реализации простого сайта онлайн-заказа еды, поддержки добавления блюд в корзину, через "+" и "-" для изменения количества блюд, отображения в реальном времени общей цены блюд в корзине, а также возможности нажатия кнопки для оформления заказа. После оформления заказа корзина будет опустошена, и клиенту будет задан вопрос, хочет ли он упаковать еду. На каждые $100 от общей суммы должна предоставляться скидка в размере $10.

Вопрос второй:

Напишите код для реализации игры в баскетбольную стрелялку, движение мыши для управления направлением полета баскетбольного мяча, нажатие кнопки мыши для накопления энергии, попадание баскетбольного мяча в корзину для набора очков, последовательные попадания в корзину дают дополнительные очки, если не попасть в корзину три раза, то конец игры. Выбирая направление и накапливая энергию, нужно отмечать намеченную траекторию полета пунктирной линией; после броска баскетбольного мяча нужно четко показать траекторию его полета. Перед броском вы можете использовать клавиши со стрелками влево и вправо для перемещения начальной позиции баскетбольного мяча, при броске на короткое расстояние начисляется 2 очка, при броске на расстояние больше определенного - 3 очка. Существует вероятность попадания в обод и отскока мяча.