Skywork-SWE-32B - KunlunWanwei Open Source Autonomous Code Intelligent Body Base Model

Neueste AI-RessourcenGeschrieben vor 2 Monaten AI-Austauschkreis

9.2K 00

Was ist Skywork-SWE-32B?

Skywork-SWE-32B ist ein von Kunlun World Wide eingeführtes quelloffenes, autonomes Code-Intelligenz-Basismodell der Skala 32B für die Softwareentwicklung (SWE). Das Modell konzentriert sich auf Software-Engineering-Aufgaben mit leistungsstarken Code-Reparaturfähigkeiten auf Repository-Ebene und kann sich in komplexen Szenarien mit Interaktionen über mehrere Runden und langer Textverarbeitung auszeichnen. Durch den Aufbau von mehr als 10.000 verifizierbaren GitHub-Repository-Task-Instanzen wurde der größte verifizierbare GitHub-Repository-Level-Code-Reparatur-Datensatz erstellt, der im SWE-bench Verified-Benchmark-Test eine pass@1-Genauigkeit von 38,0% erreicht hat, was die beste Leistung des Modells mit der gleichen Parameterskala auffrischt. Mit der Einführung der Testzeit-Skalierungstechnik wird die Genauigkeit weiter auf 47,0% verbessert, was die bestehenden Open-Source-Modelle bis zu 32B deutlich übertrifft und sich der Leistung einiger Closed-Source-Modelle annähert oder sie sogar übertrifft.

Hauptmerkmale des Skywork-SWE-32B

Codekorrekturen auf LagerebeneKann Code-Probleme (z. B. Bugs) in GitHub-Repositories ausfindig machen, Fix-Code generieren, die Wirkung des Fixes verifizieren und den gesamten Prozess des Schließens der Schleife vom Problemverständnis bis zur Lösung abschließen.
Interaktionsfähigkeit mit mehreren RädernUnterstützt mehr als 50 Interaktionsrunden, simuliert mehrere Debugging- und Fixing-Prozesse in realen Entwicklungsszenarien und löst Probleme Schritt für Schritt.
LangtextverarbeitungKann lange Texte mit mehr als 32k Token verarbeiten und erfüllt damit die Anforderungen an die Verarbeitung komplexer Codedateien und mehrerer Dateiabhängigkeiten.
automatisierte VerifikationSicherstellen, dass der generierte Reparaturcode in der tatsächlichen Laufzeitumgebung gültig ist, indem eine spezielle Laufzeitumgebung und ein Mechanismus zur Verifizierung von Einheitstests aufgebaut wird.
Datengestützte LeistungsverbesserungTraining auf der Grundlage großer (mehr als 10.000 Instanzen) und qualitativ hochwertiger, überprüfbarer Datensätze: Die Leistung des Modells verbessert sich weiter, wenn die Datenmenge zunimmt, was die Anwendbarkeit des Gesetzes der Datenskalierung auf Softwareentwicklungsaufgaben bestätigt.

Projektadresse von Skywork-SWE-32B

HuggingFace-Modellbibliothek:: https://huggingface.co/Skywork/Skywork-SWE-32B
Technische Papiere:: https://huggingface.co/Skywork/Skywork-SWE-32B/resolve/main/assets/Report.pdf

Technische Vorteile des Skywork-SWE-32B

Groß angelegte, hochwertige Datensätze
- Umfang und Vielfalt der DatenSkywork-SWE-32B wurde an über 10.000 verifizierbaren GitHub-Repository-Aufgabeninstanzen trainiert, die 2.531 verschiedene GitHub-Repositories abdecken. Der umfangreiche Datensatz bietet dem Modell reichhaltige Trainingsbeispiele, um verschiedenste Code-Reparaturmuster zu erlernen.
- Automatisierte Datenerfassung und -validierungGewährleistung einer hohen Qualität und Überprüfbarkeit der Daten durch einen dreistufigen automatisierten Prozess (Datenerfassung und Vorprüfung, ausführungsbasierte Validierung und Generierung von Smart Body Trajectories). Jede Aufgabeninstanz ist mit einem dedizierten Docker-Laufzeitumgebungs-Image ausgestattet, das die automatische Validierung von Einheitstests unterstützt, um sicherzustellen, dass der generierte Reparaturcode in der tatsächlichen Laufzeitumgebung gültig ist.
Starke Modellleistung
- hohe GenauigkeitIm SWE-bench Verified Benchmark-Test erreicht Skywork-SWE-32B eine pass@1-Genauigkeit von 38,0%, was ein neues Bestresultat für Modelle der gleichen Parametergröße darstellt. Mit der Einführung der Test Time Scaling (TTS)-Technik wird die Genauigkeit weiter auf 47,0% verbessert, was die bestehenden Open-Source-Modelle unter 32B deutlich übertrifft und sich der Leistung einiger Closed-Source-Modelle nähert oder diese sogar übertrifft.
- das Gesetz der DatenskalierungDurch systematische Validierung wird festgestellt, dass sich die Leistung des Modells mit zunehmender Größe der Trainingsdaten weiter verbessert, was die Anwendbarkeit des Datenskalierungsgesetzes bei Softwareentwicklungsaufgaben bestätigt. Die Leistung des Modells kann mit zunehmender Datenmenge weiter verbessert werden, was eine theoretische Unterstützung für zukünftige Erweiterungen bietet.

Personen, für die Skywork-SWE-32B geeignet ist

SoftwareentwicklerEntwickler können Skywork-SWE-32B verwenden, um Probleme in ihrem Code schnell zu lokalisieren und zu beheben und so den Zeit- und Arbeitsaufwand für die manuelle Fehlersuche zu reduzieren.
Software Test IngenieurTestingenieure können Skywork-SWE-32B verwenden, um die Ausführung von Unit-Tests zu automatisieren, die Gültigkeit des generierten Reparaturcodes zu überprüfen und die Testeffizienz zu verbessern.
ProjektleitungReduzierung der technischen Schulden in Projekten durch die Automatisierung von Codekorrekturen und -optimierungen, wodurch die Geschwindigkeit und Qualität der Projektabwicklung erhöht wird.
Akademische ForscherForscher können Skywork-SWE-32B als experimentelle Plattform nutzen, um die Anwendung großer Sprachmodelle auf Softwareentwicklungsaufgaben zu untersuchen und Theorien wie das Gesetz der Datenskalierung zu überprüfen.
Technischer Leiter und ArchitektTechnische Leiter und Architekten können mit den Leistungsdaten und technischen Vorteilen des Skywork-SWE-32B intelligentere technische Entscheidungen treffen.