Ya están aquí los resultados de la generación de código a nivel de proyecto! o3/Claude 3.7 lidera la clasificación, R1 está en el nivel superior!

Noticias AIPublicado hace 1 año Círculo de intercambio de inteligencia artificial

41.4K 00

El 26 de febrero de 2025, SuperCLUE publicó la lista inaugural de puntos de referencia de medición de la generación de código a nivel de proyecto (SuperCLUE-Project).

Para consultar el programa de evaluación, véase: Project-level Code Generation Evaluation Benchmark Release. Basándose en la cooperación del "panel de jueces" de grandes modelos, esta evaluación valora la capacidad de 12 grandes modelos nacionales y extranjeros en tareas de generación de código a nivel de proyecto, que abarcan 5 categorías de escenarios de aplicación, incluidos el desarrollo de juegos, herramientas y sistemas de gestión. A continuación se presenta el informe detallado de la evaluación.

Resumen de las mediciones de código a nivel de proyecto

Resumen 1: o3-mini-high y Claude-3.7-Sonnet-Reasoning van en cabeza

En esta evaluación, el modelo o3-mini-high de OpenAI alcanzó una puntuación compuesta de 82,08, y el modelo de razonamiento Claude-3.7-Sonnet-Reasoning de Anthropic alcanzó una puntuación compuesta de 81,63, con los dos mano a mano liderando la lista.

Resumen 2: DeepSeek-R1 lidera los modelos nacionales y se sitúa entre los mejores del sector

Según los resultados de la evaluación, la diferencia de puntuación entre DeepSeek-R1 y los modelos punteros del sector, como o3-mini-high, Claude-3.5-Sonnet/3.7-Sonnet-Reasoning y Gemini-2.0-pro, es extremadamente pequeña, e incluso alcanza cierta posición de liderazgo en algunos escenarios de aplicación.

Resumen 3: Cada uno tiene sus propios puntos fuertes. r1 está especializado en el desarrollo de juegos, o3/Step Step R está especializado en la edición multimedia, y varios están especializados en aplicaciones web.

Los 12 modelos participantes en la evaluación muestran la diferencia de capacidades en distintos escenarios de aplicación, por ejemplo, DeepSeek-R1 destaca en el campo del "desarrollo de juegos", Claude-3.5-Sonnet, Beanbag 1.5pro y Tongyi Qianqian Max están más especializados en el diseño de "aplicaciones web", etc. Claude-3.5-Sonnet, Beanbag 1.5pro y Tongyi Qianqian Max están más especializados en el diseño de "aplicaciones web", mientras que StepStar Step R-mini tiene una ventaja única en el desarrollo de herramientas de "edición multimedia", etc.

Resumen 4: Los distintos modelos difieren significativamente en cuanto a opciones metodológicas, estilos de interfaz

La comparación de las respuestas de los modelos muestra que, ante los mismos requisitos de usuario, los distintos modelos eligen lenguajes de programación muy diferentes, llaman a bibliotecas/módulos y prestan mucha atención a la estética de la interfaz, lo que, en cierta medida, refleja las diferencias en las capacidades, preferencias y conceptos del modelo.

Resumen de la lista 项目级代码生成结果出炉！o3/Claude3.7领跑，R1跻身第一梯队

SuperCLUE-Sistema de evaluación de proyectos

SuperCLUE-Project es una evaluación comparativa de código nativo chino a nivel de proyecto diseñada para examinar la capacidad de los grandes modelos para convertir los requisitos de los usuarios a nivel de proyecto en implementaciones de código. 项目级代码生成结果出炉！o3/Claude3.7领跑，R1跻身第一梯队

El proyecto SuperCLUE se centra en las necesidades reales del grupo de usuarios no programadores, abarcando 5 dimensiones de primer nivel y 18 dimensiones de segundo nivel, y construyendo los conjuntos de preguntas en lenguaje natural chino. Teniendo en cuenta las características de la comunidad de usuarios no programadores, en el diseño de los temas sólo hacemos hincapié en el nivel funcional de la descripción de requisitos, y ponemos la eficiencia, la seguridad, la legibilidad y otros indicadores como capacidades independientes de los concursantes de modelos grandes que se evaluarán en la sesión de evaluación.

Además, los puntos de referencia tienen tres niveles de dificultad, fácil - medio - complejo, que se escalan de forma holística para el mismo conjunto de temas con el fin de proporcionar una visión más profunda de las capacidades de implementación de código a nivel de proyecto de los modelos.

Metodología

En referencia al enfoque de evaluación detallada SuperCLUE, se sigue el siguiente proceso para realizar la evaluación:

1) Construcción de conjuntos de medidas

1. Preocupado por la dinámica del gran campo de desarrollo de código bajo/código cero asistido por modelos, recopilar y cotejar los requisitos de proyectos de código de grupos no programadores.

2. Escribir conjuntos de evaluación de código de dificultad simple a nivel de proyecto

3. Controlar el formato y el número de palabras para ampliar la evaluación a niveles de dificultad moderados/complejos.

4. Pruebas y calibrado manual

2) Proceso de puntuación

1. Preparación de las normas de evaluaciónprompt --->

2. Pruebas a pequeña escala para comprobar manualmente la coherencia de las evaluaciones del modelo de arbitraje con las de los expertos humanos --->

3. Ajuste iterativo de las reglas de evaluación en función de la coherencia --->

4. Pasar el conjunto completo de respuestas del modelo a probar y las reglas de evaluación a los dos modelos de árbitro para recibir las evaluaciones completas, respectivamente --->

5. Calcular la media de las puntuaciones de los dos modelos de adjudicación en cada dimensión como resultado final.

3) Análisis de la coherencia humana

Se realizó un muestreo estratificado del conjunto de mediciones para comprobar la coherencia de la evaluación del modelo de arbitraje con la del experto humano calculando el coeficiente de correlación intragrupo e informando de ese rendimiento.

En comparación con los puntos de referencia anteriores, SuperCLUE-Project introduce por primera vez modelos nacionales y extranjeros (Gemini-2.0-flash y Qwen-Max) como árbitros en la realización de la evaluación, lo que reduce aún más los problemas de sesgo y preferencia del modelo grande gracias a la cooperación del "equipo de árbitros". (Gracias a la cooperación del "equipo de árbitros", se reducen aún más los problemas de parcialidad y preferencia del modelo grande.

Además, para verificar la fiabilidad del modelo de arbitraje, SuperCLUE-Project introduce por primera vez el coeficiente de correlación intraclase (ICC) y calcula los efectos mixtos bidireccionales de las valoraciones de expertos humanos, Qwen-Max y Gemini-2.0-flash ( ICC(3,k)), se verificó que el modelo de árbitro era muy coherente con las valoraciones humanas. En comparación con la fiabilidad porcentual anterior, el método supera eficazmente los efectos fluctuantes de los errores aleatorios.

(*Nota: El coeficiente de correlación intragrupo (CCI) es uno de los índices de coeficiente de fiabilidad para medir y evaluar la fiabilidad entre observadores y la fiabilidad test-retest, y fue utilizado por primera vez por Bartko en 1966 para medir y evaluar la magnitud de la fiabilidad. individual dividida por la variabilidad total. En este experimento, se eligió el índice de efectos mixtos bidireccional como índice de consistencia porque sólo necesitamos considerar la consistencia entre el modelo de árbitro seleccionado y las calificaciones del experto humano, y no necesitamos extenderlo a otros calificadores).

Criterios de evaluación

Integridad funcional (60%): garantiza que el código implementa completamente todas las funciones descritas en las instrucciones de usuario.
Calidad del código (28%): evalúa el rendimiento del código en términos de eficacia, legibilidad y seguridad. Incluye específicamente:

a. Eficiencia (12%): si el código está suficientemente optimizado en términos de uso de recursos, manipulación del DOM, manejo de bases de datos/grandes conjuntos de datos, cálculo o llamadas a la API.

b. Legibilidad (8%): Si el código implementa (1) el uso de una nomenclatura clara y un formato coherente; (2) la división lógica de la base de código en módulos; y (3) el mantenimiento de una estructura de proyecto clara.

c. Seguridad (8%): Si el código (1) no tiene agujeros de seguridad obvios; y (2) puede manejar excepciones básicas eficazmente.

Experiencia de usuario (12%): Evalúa la calidad del diseño y la estética de la interfaz de usuario, incluido el correcto funcionamiento de los elementos interactivos (por ejemplo, botones, formularios) y la estética básica de la interfaz general.

En comparación con el diseño de los criterios de evaluación en el pasado, SuperCLUE-Project ha cambiado el mecanismo de puntuación relativamente equilibrado, resaltando significativamente el peso de la puntuación del aspecto de implementación funcional, que es también la capacidad que más preocupa a los usuarios de a pie.

Además, los criterios de evaluación de SuperCLUE-Project especifican el modo de puntuación del sistema de deducción, es decir, sobre la base de la puntuación completa por defecto, a partir de la comparación entre las preguntas y las correspondientes implementaciones del código, se deducirá la parte de la puntuación que no cumpla los requisitos de las preguntas. Para este tipo de método de evaluación individual pregunta por pregunta, el sistema de deducción de puntos compensa en cierta medida las deficiencias del modelo grande de arbitraje a la hora de examinar la calidad relativa de las respuestas múltiples, y alivia las deficiencias de la evaluación del modelo grande.Estocasticidad.

Modelos participantes

Con el fin de medir de forma exhaustiva el nivel de capacidad actual de los grandes modelos nacionales y extranjeros para resolver los requisitos de los códigos a nivel de proyecto, se seleccionaron para esta evaluación siete modelos nacionales y cinco modelos extranjeros con una alta representatividad.

Resultados de la evaluación

lista general

Lista de escenarios de aplicación

Revisión y análisis de la coherencia humana

Con el fin de evaluar científicamente la coherencia de las puntuaciones de referencia de SuperCLUE-Project con expertos humanos, seleccionamos los tres modelos con mejor, medio y peor rendimiento global a partir de los resultados de la evaluación, estratificamos 33 pares pregunta-respuesta, realizamos una puntuación manual independiente y una puntuación pregunta por pregunta por parte de los dos modelos de árbitros, e informamos del porcentaje de coherencia de las puntuaciones totales de los tres, los coeficientes de correlación del grupo y examinamos científicamente la profesionalidad de los grandes modelos. Se examinó científicamente la profesionalidad de la puntuación del "panel de árbitros".

Nota: Por lo general, se considera que un valor ICC-3k de 0,75 o superior indica una elevada concordancia entre los evaluadores.

Casos de evaluación

Ejemplo 1 Desarrollo de juegos (puzzle, difícil)

Prompt:Escribir código para implementar un juego de conectar los puntos, aparecen aleatoriamente cubos pequeños multicolores, estrechamente espaciados m * n (m, n especificados por el usuario antes de iniciar el juego, son números enteros mayores que 5), el usuario hace clic en dos cubos, si el color es el mismo y los caminos conectados (sólo se permite estar en las direcciones horizontal y vertical) no tienen más de dos vueltas, entonces eliminar los dos cubos; si la regla de eliminación no se cumple, entonces los dos cubos que se hizo clic en parpadean tres veces. El jugador tiene tres oportunidades de alterar la disposición de las casillas existentes. Si el usuario consigue eliminar dos cuadrados seguidos en 3 segundos, aparece "¡Combo!" en la pantalla.

Big Model Ref 1 (Gemini-2.0-flash):

用户指令中包含的需求 (基于独立分析)

1.创建游戏界面: 创建一个m*n的方块网格，m和n由用户指定（大于5的整数）。

2.方块颜色随机化: 随机生成多种颜色的方块，并确保每种颜色出现偶数次，以便可以两两消除。

3.消除规则: 当用户点击两个颜色相同的方块，且它们之间可以通过不多于两次转弯的路径连接时，消除这两个方块。

4.错误提示: 如果用户点击的两个方块不满足消除规则，则点击的方块闪烁三次。

5.打乱功能: 允许玩家打乱方块排列，总共有三次机会。

6.连击奖励: 如果用户在3秒内连续成功消除两次，则显示 "Combo!"。

对代码缺陷的总体点评

该代码实现了一个基本的连连看游戏，实现了方块的随机生成、消除规则、错误提示、打乱功能和连击奖励。但是，代码在用户体验和效率方面存在一些不足。例如，方块闪烁效果不够流畅，消除方块后的界面更新不够及时。

各项标准的评分

-- 功能完整性：[[15]] 分

（实现了所有功能，包括随机生成方块、消除规则、打乱功能和连击奖励。所有核心功能均已实现，因此不扣分。）

-- 代码质量：[[5]] 分，其中：

效率：[[2]] 分

（代码在生成棋盘时，先创建了一个包含所有颜色的列表，然后进行随机打乱。这种做法在m和n较大时，可能会影响效率。此外，在判断两个方块是否可以消除时，使用了广度优先搜索算法。虽然该算法可以找到最短路径，但在大规模棋盘上，可能会比较耗时。因此，扣1分。）

可读性：[[2]] 分

（代码的命名基本清晰，但部分代码块的注释不足，例如，对于广度优先搜索算法的解释不够详细。代码的整体结构良好，但可以进一步模块化，例如，将游戏逻辑和界面绘制分离。因此，不扣分。）

安全性：[[1]] 分

（代码没有明显的安全漏洞，但是，对于用户输入的m和n，只做了简单的数值范围检查，没有考虑其他异常情况，例如，用户输入非整数。因此，扣1分。）

-- 用户体验：[[1]] 分

（游戏界面基本可以运行，但是，方块闪烁效果不够流畅，消除方块后的界面更新不够及时。此外，游戏缺少音效和动画效果，用户体验有待提升。因此扣2分。）

综上所述，该代码实现的总体得分为 <<21>> 分。

Gran Modelo Árbitro 2 (Qwen-Max):

用户指令中包含的需求 (基于独立分析)

1. 游戏界面应随机出现多种颜色的、紧密排列的m*n个小方块，其中m和n由用户指定且均为大于5的整数。

2. 用户点击两个方块，如果颜色相同且相连接路径（仅允许水平和垂直两个方向）不多于两次转弯，则消除两方块。

3. 如果不满足消除规则，则点击的两个方块闪烁三下。

4. 玩家有三次机会可以打乱现有方块的排列。

5. 如果用户在3秒内连续成功消除两次，则在屏幕上显示"Combo!"。

对代码缺陷的总体点评

代码实现了基本的游戏逻辑，包括生成游戏板、检测方块是否相连以及处理玩家输入等。

代码结构较为清晰，但部分地方可以进一步优化以提高可读性和效率。


各项标准的评分

-- 功能完整性：[[15]] 分

该代码实现完全符合用户指令中的所有功能要求：

生成了m*n的小方块，且m和n由用户指定且均为大于5的整数。

用户点击两个方块，如果颜色相同且相连接路径不多于两次转弯，则消除两方块。

不满足消除规则时，点击的两个方块闪烁三下。

玩家有三次机会可以打乱现有方块的排列。

用户在3秒内连续成功消除两次时，在屏幕上显示"Combo!"。

-- 代码质量：[[5]] 分，其中：

效率：[[3]] 分

代码整体上对资源利用合理，没有明显的性能瓶颈。但由于未考虑极端情况下可能出现的问题，故保持满分。

可读性：[[1]] 分

虽然变量命名较清晰，但函数is_connected中的逻辑稍显复杂，不易理解。此外，主循环内的逻辑也可以通过更合理的模块化来改善。

安全性：[[1]] 分

代码缺乏对用户输入的有效验证，比如确保输入的是正整数。同时，对于某些潜在错误（如文件操作失败）也没有相应的处理机制。

-- 用户体验：[[2]] 分

游戏界面基本美观，交互元素工作正常。但是，由于方块闪烁次数符合要求，用户体验的一致性较好。

综上所述，该代码实现的总体得分为 <<22>> 分。

Valoración global: [21,5/25]

# Ejemplo 2 Desarrollo de juegos (Shooter, Difícil)

Prompt: Escribe código para implementar un simple juego de combate aéreo, el jugador utiliza las teclas de flecha izquierda y derecha para maniobrar el avión en la parte inferior de la interfaz para evitar los obstáculos que vuelan desde arriba, y pulsa la barra espaciadora para disparar a los aviones enemigos desde arriba, que se moverán a izquierda y derecha aleatoriamente y dispararán. El valor de vida inicial es 3, cada vez que choques contra un obstáculo o seas alcanzado por un avión enemigo, tu valor de vida se reducirá en 1, y el juego terminará cuando tu valor de vida llegue a 0. Hay 3 aviones enemigos en el primer nivel y 3 más en cada nivel subsiguiente. Hay dos modos de disparo: el modo A (por defecto) sólo puede disparar delante del avión enemigo y lo destruye con un impacto; el modo B dispara en múltiples direcciones y requiere dos impactos para destruir el avión enemigo. Pulsa la tecla "Q" para cambiar entre los modos A y B.

[o3-mini-high code effect demo]:

Valoración global: [22/25]

# Ejemplo 3 Herramientas Rápidas (Oficina Diaria, Mediana)

Prompt:Escribir código para implementar una herramienta de procesamiento de texto en inglés, el usuario introduce el texto, la herramienta puede realizar rápidamente las estadísticas de número de palabras, clasificación de frecuencia de palabras, conversión de mayúsculas y minúsculas, eliminación de espacios y saltos de línea, añadir números de línea y otras operaciones. Además, la herramienta puede guardar múltiples reglas de sustitución definidas por el usuario y ejecutarlas de manera uniforme. Los usuarios pueden guardar el texto en sus favoritos y personalizar el título.

Valoración global: [20,5/25]

Ejemplo 4 Aplicación Web (Visión Web, Difícil)

Prompt:Escribir código para implementar un sitio web de escaparates de moda con múltiples imágenes (subidas por el usuario) que rotan automáticamente, con miniaturas situadas en la parte inferior de la página. Las imágenes se cambian utilizando un efecto visual de giro de tarjeta. Al pasar el ratón por encima de una imagen, se utiliza una lupa para mostrar los detalles. La esquina superior derecha de la página tiene un botón para "apagar las luces", por defecto el fondo es blanco, al hacer clic en "apagar las luces" el fondo se vuelve negro, el botón se convierte en "encender las luces". El fondo de la página tiene el efecto de pétalos de flores cayendo lentamente. Hay un botón con un icono de inicio/pausa en la esquina superior izquierda para controlar el inicio y la pausa de la rotación de las imágenes; hay un icono de corazón blanco en la esquina inferior derecha de cada imagen giratoria, que se convierte en rosa cuando se pulsa, y el número de veces que se ha pulsado el corazón se muestra en el lado derecho.

Valoración global: [23/25]

Ejemplo 5 Aplicación web (aprendizaje educativo, dificultad)

Prompt:Escribir código para implementar un sitio web de memorización de vocabulario que muestre al usuario la palabra y cuatro opciones de paráfrasis; si el usuario selecciona la opción correcta, salta a la siguiente palabra; si el usuario selecciona la opción incorrecta, se le pide la opción correcta antes de saltar. Cada grupo tiene cinco palabras, un total de tres grupos; tras el final de cada grupo, el usuario puede elegir finalizar el estudio o aprender otro conjunto de palabras. Una vez finalizado el estudio, se muestra el porcentaje global de aciertos de este estudio. Los usuarios pueden hacer clic en "Cambiar al modo de revisión" en la parte superior de la interfaz para volver a responder las preguntas que hayan contestado incorrectamente. El orden de las preguntas es aleatorio, es decir, el orden de las preguntas suele ser diferente cada vez que se entra en el sitio.

[Demostración del efecto del código Qwen-Max]:

Valoración global: [19/25]

Análisis de evaluación y conclusión

1. o3-mini-alto con Claude-3.7-Sonnet-Reasoning a la cabeza

En esta evaluación, el modelo o3-mini-high de OpenAI obtuvo una puntuación compuesta de 82,08, mientras que el modelo de inferencia Claude-3.7-Sonnet-Reasoning de Anthropic alcanzó una puntuación compuesta de 81,63, y los dos lideraron la lista mano a mano.

2. DeepSeek-R1 lidera los modelos nacionales y se sitúa entre los mejores del sector

A partir de los resultados de la evaluación, DeepSeek-R1 tiene una diferencia de puntuación muy pequeña con los modelos de vanguardia de la industria, como o3-mini-high, Claude-3.5-Sonnet/3.7-Sonnet-Reasoning, Gemini-2.0-pro, etc., y su rendimiento es especialmente sobresaliente en los escenarios de aplicación de "desarrollo de juegos" y "aplicación de red". Su rendimiento es especialmente sobresaliente en los escenarios de aplicación "desarrollo de juegos" y "aplicación de red", superando o alcanzando el nivel de Claude-3.5-Sonnet, Gemini-2.0-pro y otros modelos.

3. Cada uno tiene sus propios puntos fuertes: R1 está especializado en el desarrollo de juegos, o3/Step R está especializado en la edición multimedia y varios se especializan en aplicaciones web.

Los 12 modelos que participaron en la evaluación muestran la diferencia de capacidades en distintos escenarios de aplicación. Entre ellos, DeepSeek-R1 destaca en el campo del "desarrollo de juegos", Claude-3.5-Sonnet, Beanbag 1.5pro, Smart Spectrum GLM-Zero-preview y Tongyi Qianqian Max son más hábiles en el diseño de "aplicaciones web", o3-mini-high y Step Star Step R-mini son mejores en el diseño de "aplicaciones web". Claude-3.5-Sonnet, Beanbag 1.5pro, GLM-Zero-preview y Max están más especializados en el diseño de "aplicaciones web", mientras que o3-mini-high y Step R-mini tienen una ventaja única en el desarrollo de herramientas de "edición multimedia".

4. Existen diferencias significativas en las opciones metodológicas y los estilos de interfaz entre los distintos modelos.

La comparación de las respuestas de los modelos revela que, ante los mismos requisitos de usuario, los distintos modelos eligen lenguajes de programación muy diferentes, llaman a bibliotecas/módulos y prestan mucha atención a la estética de la interfaz, lo que refleja en cierta medida las diferencias de capacidades, preferencias y conceptos de los modelos. En general, los modelos extranjeros obtienen mejores resultados en el diseño de la interfaz de usuario.

A continuación se enumeran ejemplos relevantes:

Primera pregunta:

Escribir código para implementar un simple sitio web de pedidos de comida en línea, el apoyo a la adición de platos a la cesta de la compra, a través del "+" y "-" para cambiar el número de platos, la visualización en tiempo real del precio total de los platos en la cesta de la compra, y la capacidad de hacer clic para realizar un pedido. Una vez realizado el pedido, se vaciará la cesta de la compra y se preguntará al cliente si desea empaquetar la comida. Por cada 100 dólares del importe total, habrá un descuento de 10 dólares.

Segunda pregunta:

Escribir código para implementar un juego de tiro de baloncesto, el movimiento del ratón para controlar la dirección de la pelota de baloncesto, pulse el ratón para almacenar el poder, la pelota de baloncesto en la canasta para anotar puntos, canastas consecutivas tienen puntos adicionales, no en la canasta tres veces, entonces el final del juego. Al elegir la dirección y acumular potencia, debes marcar la trayectoria de vuelo prevista con una línea de puntos; después de lanzar la pelota de baloncesto, debes mostrar claramente su trayectoria de vuelo. Antes de lanzar, puedes utilizar las teclas de flecha izquierda y derecha para mover la posición inicial de la pelota de baloncesto, los lanzamientos a corta distancia puntúan 2 puntos, cuando superan cierta distancia, los lanzamientos puntúan 3 puntos. Existe la posibilidad de golpear el aro y rebotar en el balón.