Skywork-SWE-32B - Modelo básico de corpo inteligente com código autônomo de código aberto da KunlunWanwei

Recursos mais recentes de IAPublicado há 2 meses Círculo de compartilhamento de IA

8.7K 00

O que é o Skywork-SWE-32B?

O Skywork-SWE-32B é um modelo de base de inteligências de código autônomo em escala 32B de engenharia de software (SWE) de código aberto introduzido pela Kunlun World Wide. O modelo se concentra em tarefas de engenharia de software com recursos avançados de reparo de código em nível de repositório e pode se destacar em cenários complexos com interações de várias rodadas e processamento de texto longo. Com a criação de mais de 10.000 instâncias verificáveis de tarefas de repositório do GitHub, foi criado o maior conjunto de dados verificáveis de reparo de código em nível de repositório do GitHub, que alcançou uma precisão pass@1 de 38,0% no teste de benchmark SWE-bench Verified, que atualiza o melhor desempenho do modelo com a mesma escala de parâmetros. Com a introdução da técnica de escala de tempo de teste, a precisão foi aprimorada ainda mais para 47,0%, o que supera significativamente os modelos de código aberto existentes de até 32B e se aproxima ou até supera o desempenho de alguns modelos de código fechado.

Principais recursos do Skywork-SWE-32B

Correções de código no nível do depósitoLocaliza problemas de código (como bugs) nos repositórios do GitHub, gera código de correção, verifica o efeito da correção e conclui todo o processo de fechamento do ciclo, desde a compreensão do problema até a resolução.
Capacidade de interação com várias rodasSuporte a mais de 50 rodadas de interações, simulando vários processos de depuração e correção em cenários reais de desenvolvimento e resolvendo problemas passo a passo.
Processamento de textos longosPode lidar com textos longos de mais de 32 mil tokens, atendendo às necessidades de processamento de arquivos de código complexos e várias dependências de arquivos.
verificação automatizadaGarantir que o código de reparo gerado seja válido no ambiente de tempo de execução real, criando um ambiente de tempo de execução dedicado e um mecanismo de verificação de teste de unidade.
Aprimoramento do desempenho orientado por dadosTreinamento baseado em conjuntos de dados verificáveis de alta qualidade e em grande escala (mais de 10.000 instâncias): o desempenho do modelo continua a melhorar à medida que a quantidade de dados aumenta, validando a aplicabilidade da Lei de Dimensionamento de Dados às tarefas de engenharia de software.

Endereço do projeto Skywork-SWE-32B

Biblioteca do modelo HuggingFace:: https://huggingface.co/Skywork/Skywork-SWE-32B
Documentos técnicos:: https://huggingface.co/Skywork/Skywork-SWE-32B/resolve/main/assets/Report.pdf

Vantagens técnicas do Skywork-SWE-32B

Conjuntos de dados de alta qualidade e em larga escala
- Tamanho e diversidade dos dadosSkywork-SWE-32B: o Skywork-SWE-32B é treinado em mais de 10.000 instâncias verificáveis de tarefas de repositórios do GitHub, abrangendo 2.531 repositórios diferentes do GitHub, que é o maior conjunto de dados SWE verificável disponível. O conjunto de dados em grande escala fornece amostras de treinamento ricas para o modelo aprender padrões de reparo de código mais diversos.
- Coleta e validação automatizadas de dadosQualidade de dados: Garanta a alta qualidade e a verificabilidade dos dados por meio de um processo automatizado de três fases (coleta e pré-triagem de dados, validação baseada em execução e geração de trajetória de corpo inteligente). Cada instância de tarefa é equipada com uma imagem de ambiente de tempo de execução do Docker dedicada que suporta validação de teste de unidade automatizada, garantindo que o código de reparo gerado seja válido no ambiente de tempo de execução real.
Desempenho poderoso do modelo
- alta precisãoNo teste de benchmark SWE-bench Verified, o Skywork-SWE-32B atinge uma precisão pass@1 de 38,0%, o que define um novo melhor resultado para modelos com o mesmo tamanho de parâmetro. Com a introdução da técnica Test Time Scaling (TTS), a precisão foi aprimorada ainda mais para 47,0%, o que supera significativamente os modelos de código aberto existentes abaixo de 32B e se aproxima ou até mesmo supera o desempenho de alguns modelos de código fechado.
- A lei do escalonamento de dadosO desempenho do modelo continua a melhorar à medida que o tamanho dos dados de treinamento aumenta, verificando a aplicabilidade da lei de escalonamento de dados em tarefas de engenharia de software. O desempenho do modelo pode ser aprimorado ainda mais com o aumento do volume de dados, o que fornece suporte teórico para expansão futura.

Pessoas que usam o Skywork-SWE-32B

desenvolvedor de softwareOs desenvolvedores podem usar o Skywork-SWE-32B para localizar e corrigir rapidamente problemas em seus códigos, reduzindo o tempo e o esforço da depuração manual.
Engenheiro de teste de softwareOs engenheiros de teste podem usar o Skywork-SWE-32B para automatizar a execução de testes unitários, verificar a validade do código de reparo gerado e aumentar a eficiência dos testes.
gerenciamento de projetosReduza a dívida técnica em projetos automatizando correções e otimizações de código, aumentando a velocidade e a qualidade da entrega do projeto.
Pesquisadores acadêmicosOs pesquisadores podem usar o Skywork-SWE-32B como uma plataforma experimental para explorar a aplicação de grandes modelos de linguagem em tarefas de engenharia de software e para verificar teorias como a lei de escalonamento de dados.
Gerente técnico e arquitetoGerentes técnicos e arquitetos podem tomar decisões técnicas mais inteligentes com os dados de desempenho e os benefícios técnicos do Skywork-SWE-32B.