Em 26 de fevereiro de 2025, a SuperCLUE lançou a lista inaugural de benchmarks de medição de geração de código em nível de projeto (SuperCLUE-Project).
Para conhecer o programa de avaliação, consulte: Versão de referência da avaliação de geração de código em nível de projeto. Com base na cooperação do "painel de juízes" de grandes modelos, essa avaliação avalia a capacidade de 12 grandes modelos nacionais e internacionais em tarefas de geração de código em nível de projeto, que abrangem 5 categorias de cenários de aplicativos, incluindo desenvolvimento de jogos, ferramentas e sistemas de gerenciamento. A seguir, o relatório detalhado da avaliação.
Resumo das medições de código em nível de projeto
Resumo 1: o3-mini-high e Claude-3.7-Sonnet-Reasoning estão na liderança
Nessa avaliação, o o3-mini-high lançado pela OpenAI alcançou uma pontuação composta de 82,08, e o modelo de raciocínio recém-lançado pela Anthropic, Claude-3.7-Sonnet-Reasoning, alcançou uma pontuação composta de 81,63, com os dois liderando a lista.
Resumo 2: DeepSeek-R1 lidera os modelos domésticos e está entre os melhores do setor
De acordo com os resultados da avaliação, a diferença de pontuação entre o DeepSeek-R1 e os modelos de ponta do setor, como o3-mini-high, Claude-3.5-Sonnet/3.7-Sonnet-Reasoning e Gemini-2.0-pro, é extremamente pequena e até alcança uma certa posição de liderança em alguns cenários de aplicativos.
Resumo 3: Cada um tem seus próprios pontos fortes. O r1 é especializado em desenvolvimento de jogos, o3/Etapa R é especializado em edição multimídia e vários são especializados em aplicativos da Web.
Os 12 modelos que participaram da avaliação mostram a diferença de capacidade em diferentes cenários de aplicação, por exemplo, o DeepSeek-R1 se destaca no campo de "desenvolvimento de jogos", o Claude-3.5-Sonnet, o Beanbag 1.5pro e o Tongyiqianqian Max são mais especializados em design de "aplicativos da Web" e assim por diante. Claude-3.5-Sonnet, Beanbag 1.5pro e Tongyi Qianqian Max são mais especializados em design de "aplicativos da Web", enquanto o StepStar Step R-mini tem uma vantagem exclusiva no desenvolvimento de ferramentas de "edição multimídia" e assim por diante.
Resumo 4: Modelos diferentes diferem significativamente em escolhas metodológicas, estilos de interface
A comparação das respostas dos modelos mostra que, diante dos mesmos requisitos do usuário, modelos diferentes escolhem linguagens de programação muito diferentes, chamam bibliotecas/módulos e dão atenção significativa à estética da interface, o que, até certo ponto, reflete as diferenças nos recursos, preferências e conceitos do modelo.
Visão geral da lista
SuperCLUE-Sistema de Avaliação de Projetos
O SuperCLUE-Project é um benchmark de avaliação de código em nível de projeto nativo chinês projetado para examinar a capacidade de modelos grandes de transformar os requisitos de nível de projeto dos usuários em implementações de código.
O SuperCLUE-Project concentra-se nas necessidades reais do grupo de usuários não programadores, abrangendo 5 dimensões de primeiro nível e 18 dimensões de segundo nível, e construindo os conjuntos de perguntas em linguagem natural chinesa. Tendo em vista as características da comunidade de não programadores, enfatizamos apenas o nível funcional da descrição dos requisitos no design do tópico e colocamos a eficiência, a segurança, a legibilidade e outros indicadores como os recursos independentes dos grandes participantes do modelo a serem avaliados na sessão de avaliação.
Além disso, os benchmarks têm três níveis de dificuldade, fácil, médio e complexo, que são dimensionados de forma holística para o mesmo conjunto de tópicos, a fim de fornecer uma visão mais profunda dos recursos de implementação de código em nível de projeto dos modelos.
Metodologia
Com relação à abordagem de avaliação refinada do SuperCLUE, o seguinte processo é seguido para realizar a avaliação:
1) Construção do conjunto de medição
1) Preocupado com a dinâmica do grande campo de desenvolvimento de código baixo/zero assistido por modelo, colete e reúna requisitos de projeto de código de grupo não programador
2. escrever conjuntos de avaliação de código em nível de projeto de dificuldade simples
3. controlar o formato e o intervalo de contagem de palavras para ampliar o conjunto de avaliação para níveis de dificuldade moderados/complexos
4. teste e calibração manual
2) Processo de pontuação
1. preparação de regras de avaliaçãoprompt --->
2. testes em pequena escala para verificar manualmente a consistência das avaliações do modelo de árbitro com as avaliações de especialistas humanos --->
3. ajuste iterativo das regras de avaliação com base no feedback de consistência --->
4. passe o conjunto completo de respostas do modelo a ser testado e as regras de avaliação para os dois modelos de árbitros para receber as avaliações completas, respectivamente --->
5. calcular a média das pontuações dos dois modelos de adjudicação em cada dimensão como o resultado final
3) Análise da coerência humana
Uma amostragem estratificada do conjunto de medições foi realizada para testar a consistência das avaliações do modelo de árbitro com as dos especialistas humanos, calculando o coeficiente de correlação intragrupo e relatando esse desempenho.
Em comparação com os benchmarks anteriores, o SuperCLUE-Project apresenta pela primeira vez modelos nacionais e estrangeiros (Gemini-2.0-flash e Qwen-Max) como árbitros na implementação da avaliação, o que reduz ainda mais os problemas de parcialidade e preferência do modelo grande por meio da cooperação da "equipe de árbitros". (Por meio da cooperação do "painel de árbitros", os problemas de parcialidade e preferência do modelo grande são ainda mais reduzidos.
Além disso, para verificar a confiabilidade do modelo de árbitro, o SuperCLUE-Project introduz o Coeficiente de Correlação Intraclasse (ICC) pela primeira vez e calcula os efeitos mistos bidirecionais das classificações de especialistas humanos, Qwen-Max e Gemini-2.0-flash ( Com base nos índices ICC(3,k), foi verificado que o modelo do árbitro é bastante consistente com as classificações humanas. Em comparação com a confiabilidade percentual anterior, o método supera com eficácia os efeitos flutuantes de erros aleatórios.
(*Observação: o coeficiente de correlação intragrupo (ICC) é um dos índices de coeficiente de confiabilidade para medir e avaliar a confiabilidade interobservador e a confiabilidade teste-reteste, e foi usado pela primeira vez por Bartko em 1966 para medir e avaliar a magnitude da confiabilidade. A ICC é igual à variabilidade de um indivíduo dividida pela variabilidade total. Neste experimento, o índice de efeitos mistos de duas vias foi escolhido como índice de consistência porque só precisamos considerar a consistência entre o modelo de árbitro selecionado e as classificações do especialista humano, e não precisamos estendê-lo a outros avaliadores).
Critérios de avaliação
- Integridade funcional (60%): garante que o código implemente totalmente todas as funções descritas nas instruções do usuário.
- Qualidade do código (28%): avalia o desempenho do código em termos de eficiência, legibilidade e segurança. Inclui especificamente:
a. Eficiência (12%): se o código está suficientemente otimizado em termos de uso de recursos, manipulação de DOM, manipulação de bancos de dados/grandes conjuntos de dados, computação ou chamadas de API.
b. Legibilidade (8%): se o código implementa (1) o uso de nomenclatura clara e formatação consistente; (2) a divisão lógica da base de código em módulos; e (3) a manutenção de uma estrutura de projeto clara.
c. Segurança (8%): se o código (1) não tem falhas óbvias de segurança; e (2) pode lidar com exceções básicas de forma eficaz.
- Experiência do usuário (12%): avalia a qualidade do design e da estética da interface do usuário, incluindo o funcionamento adequado dos elementos interativos (por exemplo, botões, formulários) e a estética básica da interface geral.
Em comparação com o design dos critérios de avaliação no passado, o SuperCLUE-Project alterou o mecanismo de pontuação relativamente equilibrado, destacando significativamente o peso da pontuação do aspecto de implementação funcional, que também é o recurso com o qual os usuários comuns mais se preocupam.
Além disso, os critérios de avaliação do SuperCLUE-Project especificam o modo de pontuação do sistema de dedução, ou seja, com base na pontuação total padrão, com base na comparação entre as perguntas e as implementações de código correspondentes, a parte da pontuação que não atender aos requisitos das perguntas será deduzida. Para esse tipo de método de avaliação individual de pergunta por pergunta, o sistema de dedução de pontos até certo ponto compensa as deficiências do árbitro de modelo grande no exame da qualidade relativa de várias respostas e alivia o problema da avaliação de modelo grande.Estocasticidade.
Modelos participantes
Para medir de forma abrangente o nível atual de capacidade dos grandes modelos nacionais e estrangeiros para resolver os requisitos de código em nível de projeto, sete modelos nacionais e cinco modelos estrangeiros com alta representatividade foram selecionados para essa avaliação.
Resultados da avaliação
lista geral
Lista de cenários de aplicativos 
Revisão e análise de consistência humana
Para avaliar cientificamente a consistência dos benchmarks do SuperCLUE-Project com especialistas humanos, selecionamos os três modelos com desempenho geral melhor, médio e pior a partir dos resultados da avaliação, estratificamos 33 pares de perguntas e respostas, realizamos a pontuação manual independente e a pontuação pergunta por pergunta pelos dois modelos de árbitros e relatamos a consistência percentual das pontuações totais dos três, os coeficientes de correlação do grupo e examinamos cientificamente o profissionalismo dos grandes modelos. O profissionalismo da pontuação do "painel de árbitros" foi examinado cientificamente.
Observação: Um valor de ICC-3k de 0,75 ou mais geralmente é considerado um indicador de alta concordância entre avaliadores.
Casos de avaliação
Exemplo 1 Desenvolvimento de jogos (quebra-cabeça, difícil)
Prompt:Escreva o código para implementar um jogo de ligar os pontos, onde aparecem aleatoriamente cubos pequenos m * n multicoloridos e bem espaçados (m, n especificados pelo usuário antes de iniciar o jogo, são números inteiros maiores que 5), o usuário clica em dois cubos, se a cor for a mesma e os caminhos conectados (só podem ser nas direções horizontal e vertical) não tiverem mais de duas voltas, então elimine os dois cubos; se a regra de eliminação não for cumprida, então os dois cubos que foram clicados Piscar três vezes. O jogador tem três chances de interromper a disposição dos quadrados existentes. Se o usuário conseguir eliminar dois quadrados seguidos em 3 segundos, "Combo!" será exibido na tela.
Big Model Ref 1 (Gemini-2.0-flash):
用户指令中包含的需求 (基于独立分析) 1.创建游戏界面: 创建一个m*n的方块网格,m和n由用户指定(大于5的整数)。 2.方块颜色随机化: 随机生成多种颜色的方块,并确保每种颜色出现偶数次,以便可以两两消除。 3.消除规则: 当用户点击两个颜色相同的方块,且它们之间可以通过不多于两次转弯的路径连接时,消除这两个方块。 4.错误提示: 如果用户点击的两个方块不满足消除规则,则点击的方块闪烁三次。 5.打乱功能: 允许玩家打乱方块排列,总共有三次机会。 6.连击奖励: 如果用户在3秒内连续成功消除两次,则显示 "Combo!"。 对代码缺陷的总体点评 该代码实现了一个基本的连连看游戏,实现了方块的随机生成、消除规则、错误提示、打乱功能和连击奖励。但是,代码在用户体验和效率方面存在一些不足。例如,方块闪烁效果不够流畅,消除方块后的界面更新不够及时。 各项标准的评分 -- 功能完整性:[[15]] 分 (实现了所有功能,包括随机生成方块、消除规则、打乱功能和连击奖励。所有核心功能均已实现,因此不扣分。) -- 代码质量:[[5]] 分,其中: 效率:[[2]] 分 (代码在生成棋盘时,先创建了一个包含所有颜色的列表,然后进行随机打乱。这种做法在m和n较大时,可能会影响效率。此外,在判断两个方块是否可以消除时,使用了广度优先搜索算法。虽然该算法可以找到最短路径,但在大规模棋盘上,可能会比较耗时。因此,扣1分。) 可读性:[[2]] 分 (代码的命名基本清晰,但部分代码块的注释不足,例如,对于广度优先搜索算法的解释不够详细。代码的整体结构良好,但可以进一步模块化,例如,将游戏逻辑和界面绘制分离。因此,不扣分。) 安全性:[[1]] 分 (代码没有明显的安全漏洞,但是,对于用户输入的m和n,只做了简单的数值范围检查,没有考虑其他异常情况,例如,用户输入非整数。因此,扣1分。) -- 用户体验:[[1]] 分 (游戏界面基本可以运行,但是,方块闪烁效果不够流畅,消除方块后的界面更新不够及时。此外,游戏缺少音效和动画效果,用户体验有待提升。因此扣2分。) 综上所述,该代码实现的总体得分为 <<21>> 分。
Árbitro de modelo grande 2 (Qwen-Max):
用户指令中包含的需求 (基于独立分析) 1. 游戏界面应随机出现多种颜色的、紧密排列的m*n个小方块,其中m和n由用户指定且均为大于5的整数。 2. 用户点击两个方块,如果颜色相同且相连接路径(仅允许水平和垂直两个方向)不多于两次转弯,则消除两方块。 3. 如果不满足消除规则,则点击的两个方块闪烁三下。 4. 玩家有三次机会可以打乱现有方块的排列。 5. 如果用户在3秒内连续成功消除两次,则在屏幕上显示"Combo!"。 对代码缺陷的总体点评 代码实现了基本的游戏逻辑,包括生成游戏板、检测方块是否相连以及处理玩家输入等。 代码结构较为清晰,但部分地方可以进一步优化以提高可读性和效率。 各项标准的评分 -- 功能完整性:[[15]] 分 该代码实现完全符合用户指令中的所有功能要求: 生成了m*n的小方块,且m和n由用户指定且均为大于5的整数。 用户点击两个方块,如果颜色相同且相连接路径不多于两次转弯,则消除两方块。 不满足消除规则时,点击的两个方块闪烁三下。 玩家有三次机会可以打乱现有方块的排列。 用户在3秒内连续成功消除两次时,在屏幕上显示"Combo!"。 -- 代码质量:[[5]] 分,其中: 效率:[[3]] 分 代码整体上对资源利用合理,没有明显的性能瓶颈。但由于未考虑极端情况下可能出现的问题,故保持满分。 可读性:[[1]] 分 虽然变量命名较清晰,但函数is_connected中的逻辑稍显复杂,不易理解。此外,主循环内的逻辑也可以通过更合理的模块化来改善。 安全性:[[1]] 分 代码缺乏对用户输入的有效验证,比如确保输入的是正整数。同时,对于某些潜在错误(如文件操作失败)也没有相应的处理机制。 -- 用户体验:[[2]] 分 游戏界面基本美观,交互元素工作正常。但是,由于方块闪烁次数符合要求,用户体验的一致性较好。 综上所述,该代码实现的总体得分为 <<22>> 分。
Classificação geral: [21,5/25]
# Exemplo 2 Desenvolvimento de jogos (Shooter, Difícil)
prompt: Escreva o código para implementar um jogo simples de combate aéreo. O jogador usa as teclas de seta para a esquerda e para a direita para manobrar o avião na parte inferior da interface a fim de evitar obstáculos que voam de cima para baixo e pressiona a barra de espaço para atirar nos aviões inimigos de cima, que se movem para a esquerda e para a direita aleatoriamente e disparam. O valor inicial de vida é 3. Toda vez que você atingir um obstáculo ou for atingido por um avião inimigo, seu valor de vida será reduzido em 1, e o jogo terminará quando seu valor de vida chegar a 0. Há 3 aviões inimigos no primeiro nível e mais 3 em cada nível subsequente. Há dois modos de disparo para a aeronave do jogador: o Modo A (padrão) só pode disparar na frente da aeronave inimiga e a destrói com um único acerto; o Modo B dispara em várias direções e requer dois acertos para destruir a aeronave inimiga. Pressione a tecla "Q" para alternar entre os modos A e B.
[o3-mini-high code effect demo]:
Classificação geral: [22/25]
# Exemplo 3 Ferramentas rápidas (Daily Office, Médio)
Prompt:Escreva o código para implementar uma ferramenta de processamento de texto em inglês. O usuário insere o texto e a ferramenta pode executar rapidamente as estatísticas de número de palavras, classificação de frequência de palavras, conversão de maiúsculas e minúsculas, remoção de espaços e quebras de linha, adição de números de linha e outras operações. Além disso, a ferramenta pode salvar várias regras de substituição definidas pelo usuário e executá-las uniformemente. Os usuários podem salvar o texto em seus favoritos e personalizar o título.
Classificação geral: [20.5/25]
Exemplo 4 Aplicativo da Web (visão da Web, difícil)
Prompt:Escreva o código para implementar um site de apresentação de moda com várias imagens (carregadas pelo usuário) que giram automaticamente, com miniaturas localizadas na parte inferior da página. As imagens são alternadas usando um efeito visual de virada de cartão. Ao passar o mouse sobre uma imagem, uma lupa é usada para mostrar os detalhes. O canto superior direito da página tem um botão "desligar a luz"; o padrão é o fundo branco; ao clicar em "desligar a luz", o fundo se torna preto e o botão se torna "ligar a luz". O plano de fundo da página tem o efeito de pétalas de flores caindo lentamente. Há um botão de ícone de início/pausa no canto superior esquerdo para controlar o início e a pausa da rotação da imagem; há um ícone de coração branco no canto inferior direito de cada imagem rotativa, que se transforma em rosa quando você clica nele, e o número de vezes que você clicou no coração é exibido no lado direito.
Classificação geral: [23/25]
Exemplo 5: Aplicativo da Web (aprendizado educacional, dificuldade)
Prompt:Escreva o código para implementar um site de memorização de vocabulário que mostre ao usuário a palavra e quatro opções de paráfrase; se o usuário selecionar a opção correta, ele passará para a próxima palavra; se o usuário selecionar a opção errada, será solicitada a opção correta antes de passar. Cada grupo tem cinco palavras, um total de três grupos. Após o término de cada grupo, o usuário pode optar por encerrar o estudo ou aprender outro conjunto de palavras. Depois de concluir o estudo, é exibida a taxa de acerto geral desse estudo. Os usuários podem clicar em "Switch to Review Mode" (Mudar para o modo de revisão) na parte superior da interface para responder novamente às perguntas que responderam incorretamente. A ordem das perguntas é aleatória, ou seja, a ordem das perguntas geralmente é diferente a cada vez que você entra no site.
[Demonstração do efeito do código Qwen-Max]:
Classificação geral: [19/25]
Análise de avaliação e conclusão
1. o3-mini-high com Claude-3.7-Sonnet-Reasoning na liderança
Nessa avaliação, o o3-mini-high lançado pela OpenAI obteve uma pontuação composta de 82,08, enquanto o modelo de inferência recém-lançado pela Anthropic, Claude-3.7-Sonnet-Reasoning, obteve uma pontuação composta de 81,63, e os dois lideraram a lista de mãos dadas.
2. o DeepSeek-R1 lidera os modelos domésticos e está entre os melhores do setor
Com base nos resultados da avaliação, o DeepSeek-R1 tem uma lacuna muito pequena em relação aos modelos de ponta do setor, como o3-mini-high, Claude-3.5-Sonnet/3.7-Sonnet-Reasoning, Gemini-2.0-pro, etc., e seu desempenho é especialmente excepcional nos cenários de aplicativos de "desenvolvimento de jogos" e "aplicativo de rede". O desempenho é especialmente excepcional nos cenários de aplicação "Desenvolvimento de jogos" e "Aplicativo de rede", superando ou atingindo o nível do Claude-3.5-Sonnet, Gemini-2.0-pro e outros modelos.
3. cada um tem seus próprios pontos fortes: o R1 é especializado em desenvolvimento de jogos, o o3/Step R é especializado em edição multimídia e vários são especializados em aplicativos da Web.
Os 12 modelos que participaram da avaliação mostram a diferença de capacidade em diferentes cenários de aplicação. Entre eles, o DeepSeek-R1 se destaca no campo do "desenvolvimento de jogos", o Claude-3.5-Sonnet, o Beanbag 1.5pro, o Smart Spectrum GLM-Zero-preview e o Tongyi Qianqian Max são mais hábeis no design de "aplicativos da Web", o o3-mini-high e o Step Star Step R-mini são melhores no design de "aplicativos da Web" e o o3-mini-high e o Step Star Step R-mini são melhores no design de "aplicativos da Web". Claude-3.5-Sonnet, Beanbag 1.5pro, GLM-Zero-preview e Max são mais especializados em design de "aplicativos da Web", enquanto o o3-mini-high e o Step R-mini têm uma vantagem exclusiva no desenvolvimento de ferramentas de "edição multimídia".
4. há diferenças significativas nas escolhas metodológicas e nos estilos de interface entre os diferentes modelos.
Comparando as respostas dos modelos, verifica-se que, diante dos mesmos requisitos do usuário, modelos diferentes escolhem linguagens de programação muito diferentes, chamam bibliotecas/módulos e prestam muita atenção à estética da interface, o que, até certo ponto, reflete as diferenças nos recursos, preferências e conceitos do modelo. Em geral, os modelos estrangeiros têm melhor desempenho no design da interface do usuário.
Exemplos relevantes estão listados abaixo:
Primeira pergunta:
Escreva o código para implementar um site simples de pedidos de comida on-line, suporte para adicionar pratos ao carrinho de compras, por meio de "+" e "-" para alterar o número de pratos, exibição em tempo real do preço total dos pratos no carrinho de compras e a possibilidade de clicar para fazer um pedido. Depois que o pedido for feito, o carrinho de compras será esvaziado e o cliente será perguntado se deseja embalar a comida. Para cada US$ 100 do valor total, deve haver um desconto de US$ 10.
Segunda pergunta:
Escreva o código para implementar um jogo de arremesso de bola de basquete, movimento do mouse para controlar a direção da bola de basquete, pressione o mouse para armazenar energia, a bola de basquete na cesta para marcar pontos, cestas consecutivas têm pontos adicionais, não na cesta três vezes e, em seguida, o fim do jogo. Ao escolher a direção e acumular energia, é preciso marcar a trajetória de voo pretendida com uma linha pontilhada; depois de arremessar a bola de basquete, é preciso mostrar claramente a trajetória de voo. Antes de arremessar, use as teclas de seta para a esquerda e para a direita para mover a posição inicial da bola de basquete. Os arremessos de curta distância marcam 2 pontos e, quando ultrapassam uma determinada distância, marcam 3 pontos. Existe a possibilidade de acertar o aro e quicar na bola.