Skywork-SWE-32B - базовая модель интеллектуального тела с открытым исходным кодом KunlunWanwei

Что такое Skywork-SWE-32B?

Skywork-SWE-32B - это базовая модель автономных кодовых интеллектов с открытым исходным кодом для программной инженерии (SWE) масштаба 32B, представленная компанией Kunlun World Wide. Модель ориентирована на задачи программной инженерии с мощными возможностями восстановления кода на уровне репозитория и может отлично работать в сложных сценариях с многораундовым взаимодействием и обработкой длинных текстов. Построив более 10 000 верифицируемых экземпляров задач для репозиториев GitHub, был создан крупнейший верифицируемый набор данных по ремонту кода на уровне репозиториев GitHub, который достиг точности pass@1 38.0% в эталонном тесте SWE-bench Verified, что позволило обновить лучшие показатели модели с тем же масштабом параметров. С введением техники масштабирования времени тестирования точность еще более повышается до 47,0%, что значительно превосходит существующие модели с открытым исходным кодом до 32B, а также приближается или даже превосходит производительность некоторых моделей с закрытым исходным кодом.

Skywork-SWE-32B - 昆仑万维开源的自主代码智能体基座模型

Основные характеристики Skywork-SWE-32B

  • Исправления кода на уровне склада: Может находить проблемы в коде (например, ошибки) в репозиториях GitHub, генерировать код исправления, проверять эффект от исправления и завершать весь процесс от понимания проблемы до ее решения.
  • Возможность взаимодействия нескольких колес: Поддерживает более 50 раундов взаимодействия, моделируя многочисленные процессы отладки и исправления в реальных сценариях разработки, и решая проблемы шаг за шагом.
  • Обработка длинных текстов: Может обрабатывать длинные тексты, содержащие более 32 тыс. лексем, удовлетворяя потребности в обработке сложных файлов кода и многочисленных файловых зависимостей.
  • автоматизированная проверка: Убедитесь, что сгенерированный код ремонта действителен в реальной среде выполнения, создав специальную среду выполнения и механизм проверки модульных тестов.
  • Улучшение производительности на основе данныхОбучение на основе масштабных (более 10 000 экземпляров) и высококачественных проверяемых наборов данных, производительность модели продолжает улучшаться по мере увеличения объема данных, что подтверждает применимость закона масштабирования данных к задачам программной инженерии.

Адрес проекта Skywork-SWE-32B

  • Библиотека моделей HuggingFace:: https://huggingface.co/Skywork/Skywork-SWE-32B
  • Технические документы:: https://huggingface.co/Skywork/Skywork-SWE-32B/resolve/main/assets/Report.pdf

Технические преимущества Skywork-SWE-32B

  • Крупномасштабные высококачественные наборы данных
    • Объем и разнообразие данныхSkywork-SWE-32B обучена на более чем 10 000 проверяемых экземплярах задач для репозиториев GitHub, охватывающих 2531 репозиторий GitHub, что является самым большим проверяемым набором данных SWE. Масштабный набор данных обеспечивает богатые обучающие образцы для модели, позволяя ей изучать более разнообразные шаблоны исправления кода.
    • Автоматизированный сбор и проверка данных: Обеспечение высокого качества и верифицируемости данных с помощью трехфазного автоматизированного процесса (сбор и предварительная проверка данных, проверка на основе выполнения и генерация траектории движения "умного" тела). Каждый экземпляр задачи оснащен специальным образом среды выполнения Docker, который поддерживает автоматизированную проверку модульных тестов, гарантируя, что сгенерированный код ремонта будет корректен в реальной среде выполнения.
  • Мощная производительность модели
    • высокая точность: В эталонном тесте SWE-bench Verified Skywork-SWE-32B достигает точности pass@1 38,0%, что является новым лучшим результатом для моделей с таким же размером параметров. После внедрения техники масштабирования времени тестирования (TTS) точность еще более повышается до 47,0%, что значительно превосходит существующие модели с открытым исходным кодом ниже 32B, а также приближается или даже превосходит производительность некоторых моделей с закрытым исходным кодом.
    • закон масштабирования данных: В ходе систематической валидации было установлено, что производительность модели продолжает улучшаться по мере увеличения объема обучающих данных, что подтверждает применимость закона масштабирования данных в задачах программной инженерии. Производительность модели может быть еще больше улучшена с увеличением объема данных, что обеспечивает теоретическую поддержку для будущего расширения.

Люди, которые используют Skywork-SWE-32B

  • разработчик программного обеспеченияРазработчики могут использовать Skywork-SWE-32B для быстрого обнаружения и устранения проблем в коде, сокращая время и усилия на ручную отладку.
  • Инженер по тестированию программного обеспеченияИнженеры-испытатели могут использовать Skywork-SWE-32B для автоматизации выполнения модульных тестов, проверки достоверности сгенерированного кода восстановления и повышения эффективности тестирования.
  • управление проектами: Сокращение технического долга в проектах за счет автоматизации исправлений и оптимизаций кода, повышение скорости и качества реализации проектов.
  • Академические исследователи: Исследователи могут использовать Skywork-SWE-32B в качестве экспериментальной платформы для изучения применения больших языковых моделей в задачах программной инженерии и для проверки таких теорий, как закон масштабирования данных.
  • Технический менеджер и архитектор: Технические менеджеры и архитекторы могут принимать более обоснованные технические решения, используя данные о производительности и технических преимуществах Skywork-SWE-32B.
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...