Skywork-SWE-32B란 무엇인가요?
Skywork-SWE-32B는 쿤룬 월드와이드에서 도입한 오픈 소스 32B 규모의 소프트웨어 엔지니어링(SWE) 자율 코드 인텔리전스 기본 모델입니다. 이 모델은 강력한 리포지토리 수준의 코드 복구 기능을 갖춘 소프트웨어 엔지니어링 작업에 초점을 맞추고 있으며, 다단계 상호 작용과 긴 텍스트 처리가 포함된 복잡한 시나리오에서 탁월한 성능을 발휘합니다. 10,000개 이상의 검증 가능한 GitHub 리포지토리 작업 인스턴스를 구축하여 가장 큰 규모의 검증 가능한 GitHub 리포지토리 수준 코드 복구 데이터 세트를 생성했으며, 동일한 파라미터 규모로 모델의 최고 성능을 갱신하는 SWE-bench Verified 벤치마크 테스트에서 38.0%의 정확도 통과@1을 달성했습니다. 테스트 시간 스케일링 기법을 도입하면서 정확도는 47.0%로 더욱 향상되어 기존 오픈 소스 모델의 최대 32B 성능을 크게 뛰어넘고 일부 폐쇄 소스 모델의 성능에 근접하거나 심지어 능가합니다.

Skywork-SWE-32B의 주요 기능
- 웨어하우스 수준 코드 수정GitHub 리포지토리에서 코드 문제(예: 버그)를 찾고, 수정 코드를 생성하고, 수정 효과를 확인하고, 문제 이해에서 해결에 이르는 전체 프로세스를 완료할 수 있습니다.
- 멀티휠 상호작용 기능50회 이상의 상호 작용을 지원하여 실제 개발 시나리오에서 여러 디버깅 및 수정 프로세스를 시뮬레이션하고 단계별로 문제를 해결합니다.
- 긴 텍스트 처리32,000개 이상의 긴 텍스트를 처리할 수 있어 복잡한 코드 파일과 여러 파일 종속성의 처리 요구를 충족합니다.
- 자동화된 검증전용 런타임 환경 및 단위 테스트 검증 메커니즘을 구축하여 생성된 복구 코드가 실제 런타임 환경에서 유효한지 확인합니다.
- 데이터 기반 성능 개선대규모(10,000개 이상의 인스턴스)의 검증 가능한 고품질 데이터 세트를 기반으로 학습하면 데이터 양이 증가함에 따라 모델 성능이 지속적으로 향상되어 데이터 확장 법칙의 소프트웨어 엔지니어링 작업에 대한 적용 가능성을 검증할 수 있습니다.
Skywork-SWE-32B의 프로젝트 주소
- 허깅페이스 모델 라이브러리:: https://huggingface.co/Skywork/Skywork-SWE-32B
- 기술 문서:: https://huggingface.co/Skywork/Skywork-SWE-32B/resolve/main/assets/Report.pdf
Skywork-SWE-32B의 기술적 이점
- 대규모 고품질 데이터 세트
- 데이터 크기 및 다양성Skywork-SWE-32B는 2,531개의 서로 다른 GitHub 리포지토리를 포함하는 10,000개 이상의 검증 가능한 GitHub 리포지토리 작업 인스턴스를 기반으로 학습되며, 이는 현존하는 가장 큰 검증 가능한 SWE 데이터 세트입니다. 이 대규모 데이터 세트는 모델이 더욱 다양한 코드 복구 패턴을 학습할 수 있도록 풍부한 학습 샘플을 제공합니다.
- 자동화된 데이터 수집 및 유효성 검사3단계 자동화 프로세스(데이터 수집 및 사전 스크리닝, 실행 기반 검증, 스마트 차체 궤적 생성)를 통해 데이터의 높은 품질과 검증 가능성을 보장합니다. 각 작업 인스턴스에는 자동화된 단위 테스트 검증을 지원하는 전용 도커 런타임 환경 이미지가 탑재되어 있어 생성된 수리 코드가 실제 런타임 환경에서 유효한지 확인할 수 있습니다.
- 강력한 모델 성능
- 높은 정확도SWE 벤치 검증 벤치마크 테스트에서 Skywork-SWE-32B는 38.0%의 정확도(pass@1)를 달성하여 동일한 파라미터 스케일을 가진 모델의 최고 성능을 경신했습니다. TTS(테스트 시간 스케일링) 기술을 도입하면 정확도가 47.0%로 더욱 향상되어 32B 이하의 기존 오픈 소스 모델을 크게 능가하고 일부 폐쇄 소스 모델의 성능에 근접하거나 심지어 능가합니다.
- 데이터 확장의 법칙체계적인 검증을 통해 학습 데이터의 크기가 커질수록 모델 성능이 지속적으로 향상되는 것을 확인하여 소프트웨어 엔지니어링 작업에서 데이터 스케일링 법칙의 적용 가능성을 검증했습니다. 데이터의 양이 증가함에 따라 모델의 성능을 더욱 향상시킬 수 있어 향후 확장을 위한 이론적 근거를 제공합니다.
Skywork-SWE-32B를 사용하는 사람들
- 소프트웨어 개발자개발자는 Skywork-SWE-32B를 사용하여 코드의 문제를 빠르게 찾아 수정할 수 있으므로 수동 디버깅에 드는 시간과 노력을 줄일 수 있습니다.
- 소프트웨어 테스트 엔지니어테스트 엔지니어는 Skywork-SWE-32B를 사용하여 단위 테스트 실행을 자동화하고 생성된 수리 코드의 유효성을 검증하며 테스트 효율성을 개선할 수 있습니다.
- 프로젝트 관리코드 수정 및 최적화를 자동화하여 프로젝트의 기술 부채를 줄이고 프로젝트 제공 속도와 품질을 높입니다.
- 학술 연구자연구자들은 Skywork-SWE-32B를 실험 플랫폼으로 사용하여 대규모 언어 모델을 소프트웨어 엔지니어링 작업에 적용하고 데이터 확장 법칙과 같은 이론을 검증할 수 있습니다.
- 기술 관리자 및 아키텍트기술 관리자와 설계자는 Skywork-SWE-32B의 성능 데이터와 기술적 이점을 통해 더 현명한 기술 의사 결정을 내릴 수 있습니다.
© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...