Qwen2.5-Coder Full Series: Мощный, универсальный и практичный.

Qwen2.5-Coder 全系列: 强大、多样、实用。

 

краткое содержание

Сегодня мы рады открыть исходный код мощного, разнообразного и полезного семейства моделей Qwen2.5-Coder, и мы намерены продолжать развивать Open CodeLLMs.

  • грозный: Qwen2.5-Coder-32B-Instruct становится текущей моделью с открытым исходным кодом для SOTA, с возможностями кода, превосходящими GPT-4o, демонстрируя сильные и всеобъемлющие возможности кода, а также хорошие общецелевые и математические возможности.
  • коллекторQwen2.5-Coder охватывает шесть основных размеров модели для удовлетворения потребностей различных разработчиков: в прошлом месяце мы открыли доступ к моделям размером 1,5 и 7 ББ, а в этом - к моделям размером 0,5, 3, 14 и 32 ББ.
  • прагматик: Мы исследуем полезность Qwen2.5-Coder в сценариях Code Assistant и Artifacts, а также используем некоторые примеры, чтобы продемонстрировать потенциал Qwen2.5-Coder в реальных сценариях.

 

Мощный: возможность кодирования вплоть до модели SOTA с открытым исходным кодом

Qwen2.5-Coder 全系列: 强大、多样、实用。
  • генерация кода: Qwen2.5-Coder-32B-Instruct, флагманская модель этого открытого источника, достигла лучшей производительности среди открытых моделей на нескольких популярных бенчмарках для генерации кода (например, EvalPlus, LiveCodeBench и BigCodeBench), а также достигла конкурентоспособной производительности с GPT-4o.
  • Исправления в кодеQwen2.5-Coder-32B-Instruct поможет пользователям исправить ошибки в коде и сделать программирование более эффективным. Aider - популярный бенчмарк для исправления кода, и Qwen2.5-Coder-32B-Instruct получил оценку 73.7, что сравнимо с GPT на Aider. Qwen2.5-Coder-32B-Instruct получил 73,7 балла на Aider и показал результат не хуже GPT-4o.
  • закодированные рассужденияПод умозаключением по коду понимается способность модели изучать процесс выполнения кода и точно предсказывать входы и выходы модели. Qwen2.5-Coder-7B-Instruct, выпущенная в прошлом месяце, уже показала хорошие результаты в способности к анализу кода, а модель 32B пошла еще дальше.Qwen2.5-Coder 全系列: 强大、多样、实用。
  • многоязычный: Интеллектуальные помощники программиста должны знать все языки программирования, и Qwen2.5-Coder-32B-Instruct отлично справляется с более чем 40 языками программирования, получив 65,9 балла по McEval, с впечатляющими показателями по Haskell, Racket и другим, благодаря нашей уникальной очистке и нормированию данных на этапе предварительного обучения.Qwen2.5-Coder 全系列: 强大、多样、实用。

Кроме того, удивляет возможность Qwen2.5-Coder-32B-Instruct исправлять коды на нескольких языках программирования, что поможет пользователям понять и модифицировать знакомые языки программирования, а также значительно облегчить изучение незнакомых языков.

Как и McEval, MdEval - это бенчмарк для исправления кода на нескольких языках программирования, и Qwen2.5-Coder-32B-Instruct получил в MdEval 75,2 балла, что является лучшим результатом среди всех моделей с открытым исходным кодом.

Qwen2.5-Coder 全系列: 强大、多样、实用。

 

  • Выравнивание предпочтений человека: Чтобы проверить эффективность выравнивания Qwen2.5-Coder-32B-Instruct на человеческих предпочтениях, мы создали Code Arena (аналогичный Arena Hard), эталон оценки предпочтений кода на основе внутренних аннотаций. Мы используем GPT-4o в качестве модели оценки для выравнивания предпочтений, с оценкой "победа A против B" - т.е. процент, на который модель A выигрывает у модели B в тестовом наборе экземпляров. Результаты, представленные на следующем рисунке, показывают преимущество Qwen2.5-Coder-32B-Instruct в выравнивании предпочтений.
Qwen2.5-Coder 全系列: 强大、多样、实用。

 

Универсальность: богатый выбор размеров моделей

Семейство моделей Qwen2.5-Coder с открытым исходным кодом состоит из шести размеров: 0.5B, 1.5B, 3B, 7B, 14B и 32B, что не только удовлетворяет потребности разработчиков в различных ресурсных сценариях, но и предоставляет хорошую экспериментальную базу для исследовательского сообщества. Подробная информация о модели приведена в следующей таблице:

МоделиParamsПараметры без эмбаргоСлоиНаконечники (KV)Вшивание галстукаКонтекст ДлинаЛицензия
Qwen2.5-Coder-0.5B0.49B0.36B2414 / 2Да32KApache 2.0
Qwen2.5-Coder-1.5B1.54B1.31B2812 / 2Да32KApache 2.0
Qwen2.5-Coder-3B3.09B2.77B3616 / 2Да32KQwen Research
Qwen2.5-Coder-7B7.61B6.53B2828 / 4Нет128KApache 2.0
Qwen2.5-Coder-14B14.7B13.1B4840 / 8Нет128KApache 2.0
Qwen2.5-Coder-32B32.5B31.0B6440 / 8Нет128KApache 2.0

Мы всегда верили. Закон масштабирования Философия. Мы оцениваем производительность моделей Qwen2.5-Coder разных размеров на всех наборах данных, чтобы убедиться в эффективности масштабирования на кодовых LLM.

Для каждого размера у нас есть модели Base и Instruct с открытым исходным кодом, где модель Base служит базой для разработчиков, которые могут дорабатывать свои модели, а модель Instruct - это официальная модель выравнивания, доступная для прямого общения.

Вот как ведет себя модель Base при разных размерах:

Qwen2.5-Coder 全系列: 强大、多样、实用。

 

Вот как ведет себя модель Instruct при разных размерах:

Qwen2.5-Coder 全系列: 强大、多样、实用。

 

Для большей наглядности мы приводим сравнение различных размеров модели Qwen2.5-Coder и других моделей с открытым исходным кодом на основном наборе данных.

  • Для базовой модели мы выбрали MBPP-3shot в качестве индекса оценки, и наши обширные эксперименты показали, что MBPP-3shot больше подходит для оценки базовой модели и может хорошо коррелировать с реальным эффектом модели.
  • Для модели Instruct мы выбрали для оценки темы LiveCodeBench за последние 4 месяца (2024.07 - 2024.11), и эти недавно опубликованные темы, которые вряд ли просочатся в обучающий набор, отражают возможности модели по OOD.

Ожидаемая положительная корреляция между размером модели и ее эффективностью, а также тот факт, что Qwen2.5-Coder достиг производительности SOTA при всех размерах, побуждает нас продолжить исследование более крупных моделей Coder.

Qwen2.5-Coder 全系列: 强大、多样、实用。

 

Практика: Знакомство с курсором и артефактами

Практичный кодер всегда был нашим видением. Для этого мы изучили практическое применение модели Qwen2.5-Coder в контексте кодовых помощников и артефактов.

Qwen2.5-Coder 🤝 Курсор

Интеллектуальные помощники по работе с кодом уже широко используются, но в настоящее время в основном опираются на модели с закрытым исходным кодом, и мы надеемся, что появление Qwen2.5-Coder предоставит разработчикам дружественную и мощную альтернативу.

Qwen2.5-Coder 全系列: 强大、多样、实用。

Кроме того, Qwen2.5-Coder-32B продемонстрировал высокую способность к завершению кода на предварительно обученной модели и достиг показателей SOTA на пяти наборах оценок, включая Humaneval-Infilling, CrossCodeEval, CrossCodeLongEval, RepoEval и SAFIM.

Чтобы сравнение было справедливым, мы контролируем максимальную длину последовательности в 8k и используем режим Fill-in-the-Middle для тестирования. В 4 наборах тестов CrossCodeEval, CrossCodeLongEval, RepoEval и Humaneval-Infilling мы оценивали абсолютное соответствие сгенерированного контента реальным меткам (точное соответствие), а в SAFIM мы использовали для оценки 1-кратный коэффициент успешности выполнения (Pass@1). оценки.

Qwen2.5-Coder 全系列: 强大、多样、实用。

 

Qwen2.5-Coder 🤝 Артефакты

Artifacts - одно из самых важных приложений для генерации кода, которое помогает пользователям создавать что-то подходящее для визуализации, и мы выбрали Откройте WebUI Изучите возможности Qwen2.5-Coder в сценариях с артефактами, вот несколько конкретных примеров:

Скоро мы запустим режим кода на официальном сайте Tongyi https://tongyi.aliyun.com, который поддерживает всевозможные приложения для визуализации, такие как сайты, созданные из одного предложения, мини-игры и графики данных. Приглашаем вас испытать это!

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...