Skywork-SWE-32B - Modelo base de cuerpo inteligente de código abierto autónomo KunlunWanwei

Últimos recursos sobre IAPublicado hace 9 meses Círculo de intercambio de inteligencia artificial

38.1K 00

¿Qué es Skywork-SWE-32B?

Skywork-SWE-32B es un modelo de base de inteligencias de código autónomas de ingeniería de software (SWE) a escala 32B de código abierto introducido por Kunlun World Wide. El modelo se centra en tareas de ingeniería de software con potentes capacidades de reparación de código a nivel de repositorio, y puede sobresalir en escenarios complejos con interacciones de varias rondas y procesamiento de textos largos. Mediante la creación de más de 10.000 instancias verificables de tareas de repositorio de GitHub, se ha creado el mayor conjunto de datos verificable de reparación de código a nivel de repositorio de GitHub, y ha alcanzado una precisión pass@1 de 38,0% en la prueba de referencia SWE-bench Verified, que refresca el mejor rendimiento del modelo con la misma escala de parámetros. Con la introducción de la técnica de escalado del tiempo de prueba, la precisión mejora aún más hasta 47,0%, lo que supera significativamente a los modelos de código abierto existentes de hasta 32B, y se aproxima o incluso supera el rendimiento de algunos modelos de código cerrado.

Características principales de Skywork-SWE-32B

Correcciones de código a nivel de almacénPuede localizar problemas de código (como errores) en repositorios de GitHub, generar código de corrección, verificar el efecto de la corrección y completar todo el proceso de cierre del bucle desde la comprensión del problema hasta su resolución.
Capacidad de interacción entre varias ruedas: Soporta más de 50 rondas de interacciones, simulando múltiples procesos de depuración y reparación en escenarios reales de desarrollo, y resolviendo problemas paso a paso.
Tratamiento de textos largos: Puede manejar textos largos de más de 32k tokens y satisface las necesidades de procesamiento de archivos de código complejos y dependencias de múltiples archivos.
verificación automatizadaGarantía de que el código de reparación generado es válido en el entorno de ejecución real mediante la creación de un entorno de ejecución específico y un mecanismo de verificación de las pruebas unitarias.
Mejora del rendimiento basada en datosEl entrenamiento basado en conjuntos de datos verificables a gran escala (más de 10.000 instancias) y de alta calidad demuestra que el rendimiento del modelo sigue mejorando a medida que aumenta la cantidad de datos, lo que valida la aplicabilidad de la Ley del Escalado de Datos a las tareas de ingeniería de software.

Dirección del proyecto Skywork-SWE-32B

Biblioteca de modelos HuggingFace:: https://huggingface.co/Skywork/Skywork-SWE-32B
Documentos técnicos:: https://huggingface.co/Skywork/Skywork-SWE-32B/resolve/main/assets/Report.pdf

Ventajas técnicas del Skywork-SWE-32B

Conjuntos de datos a gran escala y de alta calidad
- Tamaño y diversidad de los datosSkywork-SWE-32B se entrena en más de 10.000 instancias verificables de tareas de repositorios de GitHub que cubren 2.531 repositorios de GitHub diferentes, que es el mayor conjunto de datos SWE verificable disponible. El conjunto de datos a gran escala proporciona muestras de entrenamiento ricas para que el modelo aprenda patrones de reparación de código más diversos.
- Recogida y validación automatizada de datosGarantizar la alta calidad y verificabilidad de los datos mediante un proceso automatizado en tres fases (recopilación de datos y preselección, validación basada en la ejecución y generación de trayectorias de cuerpos inteligentes). Cada instancia de tarea está equipada con una imagen de entorno de ejecución Docker dedicada que admite la validación automatizada de pruebas unitarias, lo que garantiza que el código de reparación generado sea válido en el entorno de ejecución real.
Potente rendimiento del modelo
- alta precisiónEn la prueba de referencia SWE-bench Verified, Skywork-SWE-32B alcanza una precisión pass@1 de 38,0%, lo que establece un nuevo mejor resultado para modelos del mismo tamaño de parámetros. Con la introducción de la técnica Test Time Scaling (TTS), la precisión se mejora aún más hasta 47,0%, lo que supera significativamente a los modelos de código abierto existentes por debajo de 32B, y se aproxima o incluso supera el rendimiento de algunos modelos de código cerrado.
- la ley del escalado de datosEl resultado: mediante validación sistemática, se comprueba que el rendimiento del modelo sigue mejorando a medida que aumenta el tamaño de los datos de entrenamiento, lo que verifica la aplicabilidad de la ley de escalado de datos en tareas de ingeniería de software. El rendimiento del modelo puede mejorar aún más con el aumento del volumen de datos, lo que proporciona apoyo teórico para futuras ampliaciones.

Personas que utilizan Skywork-SWE-32B

desarrollador de softwareLos desarrolladores pueden utilizar Skywork-SWE-32B para localizar y solucionar rápidamente problemas en su código, reduciendo el tiempo y el esfuerzo de la depuración manual.
Ingeniero de pruebas de softwareLos ingenieros de pruebas pueden utilizar Skywork-SWE-32B para automatizar la ejecución de pruebas unitarias, verificar la validez del código de reparación generado y mejorar la eficiencia de las pruebas.
gestión de proyectosReduzca la deuda técnica de los proyectos automatizando las correcciones y optimizaciones del código, aumentando la velocidad y la calidad de la entrega de los proyectos.
Investigadores universitariosLos investigadores pueden utilizar Skywork-SWE-32B como plataforma experimental para explorar la aplicación de grandes modelos de lenguaje a tareas de ingeniería de software y para verificar teorías como la ley de escalado de datos.
Director técnico y arquitecto: Los directores técnicos y los arquitectos pueden tomar decisiones técnicas más informadas con los datos de rendimiento y las ventajas técnicas del Skywork-SWE-32B.