Skywork-SWE-32B - KunlunWanwei Open Source Autonomous Code Intelligent Body Base Model (Modèle de base du corps intelligent à code autonome KunlunWanwei)
Qu'est-ce que Skywork-SWE-32B ?
Skywork-SWE-32B est un modèle de base d'intelligences de code autonomes à l'échelle 32B pour l'ingénierie logicielle (SWE), introduit par Kunlun World Wide. Le modèle se concentre sur les tâches de génie logiciel avec de puissantes capacités de réparation de code au niveau du référentiel, et peut exceller dans des scénarios complexes avec des interactions à plusieurs tours et un long traitement de texte. En construisant plus de 10 000 instances de tâches de dépôt GitHub vérifiables, le plus grand ensemble de données vérifiables de réparation de code au niveau du dépôt GitHub a été créé, et il a atteint une précision pass@1 de 38,0% dans le test de référence SWE-bench Verified, qui rafraîchit les meilleures performances du modèle avec la même échelle de paramètres. Avec l'introduction de la technique de mise à l'échelle du temps de test, la précision est encore améliorée à 47,0%, ce qui surpasse de manière significative les modèles open-source existants jusqu'à 32B, et approche ou même dépasse la performance de certains modèles closed-source.

Principales caractéristiques de Skywork-SWE-32B
- Corrections de code au niveau de l'entrepôtLes services d'assistance technique : peuvent localiser les problèmes de code (tels que les bogues) dans les dépôts GitHub, générer un code de correction, vérifier l'effet de la correction et compléter l'ensemble du processus de fermeture de la boucle, depuis la compréhension du problème jusqu'à sa résolution.
- Capacité d'interaction entre plusieurs rouesLe système de gestion de l'information de l'Union européenne (UE) : il prend en charge plus de 50 cycles d'interaction, simulant de multiples processus de débogage et de correction dans des scénarios de développement réels, et résolvant les problèmes étape par étape.
- Traitement des textes longsLe traitement de textes longs de plus de 32k tokens permet de répondre aux besoins de traitement de fichiers de code complexes et de dépendances de fichiers multiples.
- vérification automatiséeLe programme de réparation est conçu pour garantir que le code de réparation généré est valide dans l'environnement d'exécution réel en créant un environnement d'exécution dédié et un mécanisme de vérification des tests unitaires.
- Amélioration des performances basée sur les donnéesL'entraînement basé sur des ensembles de données vérifiables à grande échelle (plus de 10 000 instances) et de haute qualité, la performance du modèle continue de s'améliorer à mesure que la quantité de données augmente, validant l'applicabilité de la loi d'échelonnement des données aux tâches d'ingénierie logicielle.
Adresse du projet Skywork-SWE-32B
- Bibliothèque de modèles HuggingFace: : https://huggingface.co/Skywork/Skywork-SWE-32B
- Documents techniques: : https://huggingface.co/Skywork/Skywork-SWE-32B/resolve/main/assets/Report.pdf
Avantages techniques de Skywork-SWE-32B
- Des ensembles de données à grande échelle et de haute qualité
- Taille et diversité des donnéesSkywork-SWE-32B est entraîné sur plus de 10 000 instances de tâches vérifiables de dépôts GitHub couvrant 2 531 dépôts GitHub différents, ce qui constitue le plus grand ensemble de données SWE vérifiables disponible. L'ensemble de données à grande échelle fournit de riches échantillons d'entraînement pour le modèle afin d'apprendre des modèles de réparation de code plus diversifiés.
- Collecte et validation automatisées des donnéesLes tâches : Assurer la haute qualité et la vérifiabilité des données grâce à un processus automatisé en trois phases (collecte de données et présélection, validation basée sur l'exécution, et génération de trajectoires de corps intelligents). Chaque instance de tâche est équipée d'une image d'environnement d'exécution Docker dédiée qui prend en charge la validation automatisée des tests unitaires, garantissant que le code de réparation généré est valide dans l'environnement d'exécution réel.
- Un modèle performant
- haute précisionDans le test de référence SWE-bench Verified, Skywork-SWE-32B atteint une précision pass@1 de 38,0%, ce qui établit un nouveau meilleur résultat pour les modèles de la même taille de paramètre. Avec l'introduction de la technique Test Time Scaling (TTS), la précision est encore améliorée à 47,0%, ce qui surpasse de manière significative les modèles open source existants inférieurs à 32B, et s'approche ou même dépasse les performances de certains modèles closed source.
- la loi de la mise à l'échelle des donnéesLes performances du modèle peuvent encore être améliorées avec l'augmentation du volume des données, ce qui apporte un soutien théorique à l'expansion future du modèle. La performance du modèle peut être encore améliorée avec l'augmentation du volume de données, ce qui fournit un soutien théorique pour l'expansion future.
Ceux qui utilisent Skywork-SWE-32B
- développeur de logicielsLes développeurs peuvent utiliser Skywork-SWE-32B pour localiser et corriger rapidement les problèmes dans leur code, réduisant ainsi le temps et les efforts consacrés au débogage manuel.
- Ingénieur de test logicielLes ingénieurs de test peuvent utiliser Skywork-SWE-32B pour automatiser l'exécution des tests unitaires, vérifier la validité du code de réparation généré et améliorer l'efficacité des tests.
- gestion de projetRéduire la dette technique dans les projets en automatisant les corrections et les optimisations du code, en augmentant la vitesse et la qualité de la livraison du projet.
- Chercheurs universitairesLes chercheurs peuvent utiliser Skywork-SWE-32B comme plate-forme expérimentale pour explorer l'application de grands modèles de langage aux tâches d'ingénierie logicielle et pour vérifier des théories telles que la loi de la mise à l'échelle des données.
- Responsable technique et architecteLes responsables techniques et les architectes peuvent prendre des décisions techniques plus éclairées grâce aux données de performance et aux avantages techniques du Skywork-SWE-32B.
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...