Новая модель Microsoft: Phi-4 уже здесь, с параметрами 14B, сравнимыми с более масштабными моделями

Новости ИИОбновлено 1 год назад Круг обмена ИИ

32.2K 00

Имея всего 14 миллиардов (14B) параметров, Phi-4 демонстрирует производительность, сравнимую или даже превосходящую некоторые более масштабные модели благодаря инновационным методам обучения и высококачественным данным. В этой статье мы подробно описываем архитектуру, особенности, методику обучения и производительность Phi-4 в реальных приложениях и бенчмарках.

https://github.com/xinyuwei-david/david-share.git

I. Изучение показателей для оценки потенциала

Измерьте три вопроса, сравнивая o1 и Phi-4

Первый вопрос:

фи-4

Второй вопрос:

Фи-4.

o1:

Третий вопрос:

Фи-4

o1.

要求五个连续偶数的平均数，已知它们的和为90，下面我们逐步解答。
步骤1：设未知数
设这五个连续的偶数为：
第一个偶数：( n - 4 )第二个偶数：( n - 2 )第三个偶数：( n )第四个偶数：( n + 2 )第五个偶数：( n + 4 )
（因为偶数之间相差2，所以相邻的偶数可以这样表示）
步骤2：列方程求和
根据题目，五个数的和为90：
[(n - 4) + (n - 2) + n + (n + 2) + (n + 4) = 90]
步骤3：简化方程
合并同类项：
[5n = 90]
步骤4：求解 n
[n = frac{90}{5} = 18]
步骤5：求出五个偶数
第一个偶数：( 18 - 4 = 14 )第二个偶数：( 18 - 2 = 16 )第三个偶数：( 18 )第四个偶数：( 18 + 2 = 20 )第五个偶数：( 18 + 4 = 22 )
步骤6：计算平均数
平均数等于总和除以数量：
[text{平均数} = frac{14 + 16 + 18 + 20 + 22}{5} = frac{90}{5} = 18]
答案：
这五个连续的偶数的平均数是 18。

Если посмотреть на это с другой стороны, то рассуждения Фи-4 остаются в порядке.

II. Фи-4 архитектура модели

1. Архитектура декодера на основе трансформатора

В Phi-4 используется система, основанная на Трансформатор (используется в форме номинального выражения) Только декодер Эта архитектура похожа на семейство моделей GPT. Эта архитектура использует механизм самовнушения для эффективного отражения долгосрочных зависимостей в текстовых последовательностях и демонстрирует превосходство в задачах генерации естественного языка.

2. размер параметров и количество слоев

Общее количество параметров: 14 миллиардов (14B) Параметры.
Количество этажей модели: 40

3. длина контекста

Начальная длина контекста: 4,096 Жетон.
Среднесрочное продление обучения: В середине этапа обучения длина контекста Phi-4 была увеличена до 16,000 Token (16K), что улучшает способность модели обрабатывать длинные тексты.

4. Глоссарий и лексер

Разделители: Использование OpenAI Разделитель тиктоновКомпания поддерживает мультиязычность и обладает лучшим эффектом разделения слов.
Размер глоссария: 100,352Сюда входят некоторые зарезервированные неиспользуемые Token.

III. Механизмы внимания и кодирование местоположения

1. Глобальные механизмы внимания

Фи-4 использует Механизм полного вниманият.е. самовнимание вычисляется для всей последовательности контекстов. Это отличается от модели-предшественницы, Phi-3-medium, которая использует 2 048 Токен скользящего окна, в то время как Phi-4 выполняет вычисление глобального внимания непосредственно на контекстах 4 096 Token (начальный) и 16 000 Token (расширенный), улучшая способность модели улавливать дальние зависимости.

2. Поворотное позиционное кодирование (RoPE)

Для того чтобы поддерживать более длинные контексты, в середине обучения Фи-4 был адаптирован для Встраивание в поворотное положение (RoPE) базовой частоты:

Регулировка базовой частоты: Увеличьте базовую частоту RoPE до 250,000чтобы учесть длину контекста 16K.
Роль: RoPE помогает модели сохранять эффективность позиционного кодирования в длинных последовательностях, что позволяет ей сохранять хорошую производительность при работе с длинными текстами.

IV. Стратегии и методы обучения

1. концепция приоритетности качества данных

Стратегия обучения для Phi-4 основана на Качество данных в ядро. В отличие от других моделей, которые предварительно обучаются, используя в основном органические данные из Интернета (например, веб-контент, код и т. д.), Phi-4 стратегически внедряет в процесс обучения Синтетические данные.

2. Создание и применение синтетических данных

Синтетические данные сыграл ключевую роль в предварительном и среднем обучении Phi-4:

Многочисленные методы получения данных:
- Многоагентная подсказка: Разнообразие данных обогащается за счет использования нескольких языковых моделей или агентов для совместной генерации данных.
- Рабочие процессы саморевизии: После того как модель генерирует исходный результат, она проводит самооценку и коррекцию, чтобы итеративно улучшить качество результата.
- Инструкция "Обратный ход": Генерирование соответствующих входных инструкций на основе существующих выходных данных повышает способность модели понимать и генерировать инструкции.
Преимущества синтетических данных:
- Структурированное и прогрессивное обучение: Синтетические данные позволяют точно контролировать сложность и содержание, постепенно направляя модель на обучение сложным рассуждениям и навыкам решения проблем.
- Повышение эффективности обучения: Генерация синтетических данных может обеспечить целевое обучение для выявления слабых мест модели.
- Избегайте загрязнения данных: Поскольку синтетические данные генерируются, риск того, что обучающие данные будут содержать содержимое набора обзоров, исключен.

3. Тонкий отбор и фильтрация органических данных

Помимо синтетических данных, Phi-4 уделяет особое внимание тщательному отбору и фильтрации высококачественных данных из различных источников Органические данные::

Источники данных: Включает в себя веб-контент, книги, библиотеки кодов, научные статьи и многое другое.
Фильтрация данных:
- Удалите некачественный контент: Используйте автоматические и ручные методы для отсеивания бессмысленного, неправильного, дублирующего или вредного контента.
- Предотвратите загрязнение данных: Гибридный алгоритм n-грамм (13-грамм и 7-грамм) использовался для дедупликации и деконтаминации, чтобы гарантировать, что обучающие данные не содержат контента из набора рецензий.

4. стратегия смешивания данных

Phi-4 был оптимизирован в составе обучающих данных со следующими соотношениями:

Синтетические данные: завладеть 40%.
Веб-рерайт: завладеть 15%В случае нового обучающего образца он переписывается из высококачественного веб-контента для создания нового обучающего образца.
Данные об органическом интернете: завладеть 15%Веб-контент представляет собой подборку ценных материалов.
Кодовые данные: завладеть 20%включая общедоступную кодовую базу и сгенерированные данные синтеза кода.
Целевые приобретения: завладеть 10%В том числе научные статьи, профессиональные книги и другой ценный контент.

5. многоступенчатый процесс обучения

Предтренировочный этап:

Цель: Моделирование базового лингвистического понимания и генеративных навыков.
Объем данных: договориться о встрече 10 триллионов (10T) Жетон.
Среднесрочная фаза обучения:
Цель: Увеличение длины контекста для улучшения обработки длинных текстов.
Объем данных: 250 миллиардов (250B) Жетон.
Посттренировочный этап (тонкая настройка):
Supervised Fine Tuning (SFT): Тонкая настройка с использованием высококачественных многодоменных данных улучшает способность модели следовать инструкциям и качество ответов.
Прямая оптимизация предпочтений (DPO): использовать Pivotal Token Search (PTS) и другие методы для дальнейшей оптимизации результатов моделирования.

V. Инновационные методы обучения

1. Pivotal Token Search (PTS)

Методология ПТС это главная инновация в процессе обучения Phi-4:

Принцип: Определяя ключевые токены, которые оказывают значительное влияние на правильность ответа в процессе генерации, модель нацелена на оптимизацию предсказания по этим токенам.
Преимущество:
- Повышение эффективности обучения: Сосредоточение оптимизации на тех частях, которые оказывают наибольшее влияние на результаты, вдвое эффективнее.
- Улучшенная производительность модели: Помогает модели делать правильный выбор в ключевых точках принятия решений и повышает общее качество результатов.

2. Улучшенная оптимизация прямых предпочтений (DPO)

Метод DPO: Оптимизация выполняется непосредственно с использованием данных о предпочтениях, чтобы сделать вывод модели более соответствующим предпочтениям человека.
Инновационные очки:
- В сочетании с PTS: Внедрение в DPO пар обучающих данных, сгенерированных PTS, улучшает оптимизацию.
- Оценка показателей: Более точное измерение оптимизации путем оценки эффективности модели по ключевым показателям Token.

VI. Особенности и преимущества модели

1. отличная производительность

Маленькие модели, большие возможности: Хотя шкала параметров составляет всего 14BТем не менее, Phi-4 демонстрирует хорошие результаты в нескольких обзорных бенчмарках, особенно в задачах на рассуждение и решение проблем.

2. Отличные навыки рассуждения

Решение задач по математике и естественным наукам: существовать GPQA, иMATH В эталонных тестах, таких как этот, Phi-4 показывает даже лучшие результаты, чем его модель для учителей. GPT-4o.

3. возможности длительной обработки контекста

Увеличение длины контекста: Увеличив длину контекста в середине обучения до 16,000 Токен, Phi-4 способен более эффективно обрабатывать длинные тексты и зависимости на больших расстояниях.

4. Многоязычная поддержка

Охват нескольких языков: Обучающие данные состояли из Немецкий, испанский, французский, португальский, итальянский, хинди, японский и многие другие языки.
Кросс-лингвистическая компетенция: Отлично справляется с такими задачами, как перевод и межъязыковые тесты.

5. безопасность и соответствие

Принципы ответственного искусственного интеллекта: В процессе разработки строго соблюдаются Принципы ответственного искусственного интеллекта Microsoft, в которых основное внимание уделяется безопасности и этичности модели.
Обеззараживание данных и защита конфиденциальности: Строгие стратегии дедупликации и фильтрации данных используются для предотвращения попадания конфиденциального контента в обучающие данные.

VII. Контрольные показатели и производительность

1. внешний бенчмаркинг

Phi-4 демонстрирует лучшие показатели по нескольким общедоступным контрольным показателям:

MMLU (Multitasking Language Understanding): Достиг отличных результатов в сложных многозадачных тестах на понимание.
GPQA (Graduate level STEM quiz): отлично справился с непростой STEM-викториной, набрав больше баллов, чем некоторые масштабные модели.
MATH (математический конкурс): При решении математических задач Фи-4 демонстрирует сильные способности к рассуждениям и вычислениям.
HumanEval / HumanEval+ (генерация кода): В задачах генерации и понимания кода Phi-4 превосходит модели своего размера и даже приближается к более крупным моделям.

2. Набор для внутренней оценки (PhiBench)

Чтобы получить представление о возможностях и недостатках модели, команда разработала специальный набор для внутренней оценки PhiBench::

Задача диверсификации: Включает отладку кода, завершение кода, математические рассуждения и выявление ошибок.
Руководство по оптимизации моделей: Проанализировав результаты PhiBench, команда смогла наметить пути улучшения модели.

VIII. Безопасность и ответственность

1. стратегия строгого соблюдения безопасности

Разработка Phi-4 последовала за проектом Microsoft Принципы ответственного искусственного интеллектаПри этом основное внимание уделяется безопасности и этике модели во время обучения и тонкой настройки:

Защита от вредного содержимого: Уменьшите вероятность того, что модель сгенерирует неподходящий контент, включив данные о тонкой настройке безопасности на этапе после обучения.
Тестирование "красной команды" и автоматизированная оценка: Было проведено обширное тестирование "красной команды" и автоматизированная оценка безопасности, охватывающая десятки категорий потенциальных рисков.

2. обеззараживание данных и предотвращение перебора

Усовершенствованные стратегии обезвреживания данных: Гибридный 13-граммовый и 7-граммовый алгоритм используется для устранения возможного пересечения обучающих данных с эталонами обзора и предотвращения переподгонки модели.

IX. Ресурсы и время на обучение

1. Время обучения

Хотя в официальном отчете не указано общее время обучения Phi-4, подумайте:

Масштаб модели: 14B Параметры.
Объем обучающих данных: Предтренировочный этап - 10T жетонов, середина тренировки - 250B жетонов.
Можно предположить, что весь процесс обучения занял значительное количество времени.

2. потребление ресурсов GPU

Графические процессоры	1920 H100-80G
Время обучения	21 день
Учебные данные	9.8T жетоны

X. Применение и ограничения

1. сценарии применения

Система вопросов и ответов: Phi-4 отлично справляется со сложными задачами викторины и подходит для всех видов интеллектуальных приложений викторины.
Генерация и понимание кода: Отлично справляется с задачами программирования и может использоваться в таких сценариях, как обучение коду, автоматическая генерация и отладка.
Многоязычный перевод и обработка: Многоязычная поддержка для глобализированных языковых служб.

2. потенциальные ограничения

Отбор знаний: Знания модели обрываются на обучающих данных, и она может ничего не знать о событиях, происходящих после обучения.
Задача длинной последовательности: Хотя длина контекста увеличена до 16 Кбайт, при работе с более длинными последовательностями все равно могут возникнуть проблемы.
Контроль рисков: Несмотря на строгие меры безопасности, модели все равно могут быть подвержены атакам противника или случайной генерации неприемлемого контента.

Успех Phi-4 демонстрирует важность качества данных и стратегии обучения при разработке крупномасштабных языковых моделей. Благодаря инновационным методам создания синтетических данных, тщательной стратегии смешивания обучающих данных и передовым методам обучения Phi-4 достигает превосходной производительности при сохранении небольшого размера параметров:

Навыки рассуждения выдающиеся: Превосходно разбирается в математике, естественных науках и программировании.
Обработка длинных текстов: Увеличенная длина контекста дает модели преимущество в задачах обработки длинных текстов.
Безопасность и ответственность: Строгое следование принципам ответственного искусственного интеллекта гарантирует безопасность и этичность моделей.
Phi-4 устанавливает новую планку в разработке малопараметрических количественных моделей, демонстрируя, что, уделяя особое внимание качеству данных и стратегиям обучения, можно добиться превосходной производительности даже при небольших параметрах.

Ссылки: /https://www.microsoft.com/en-us/research/uploads/prod/2024/12/P4TechReport.pdf