Новая модель Microsoft: Phi-4 уже здесь, с параметрами 14B, сравнимыми с более масштабными моделями

Новости ИИОбновлено 8 месяцев назад Круг обмена ИИ
7.6K 00

Имея всего 14 миллиардов (14B) параметров, Phi-4 демонстрирует производительность, сравнимую или даже превосходящую некоторые более масштабные модели благодаря инновационным методам обучения и высококачественным данным. В этой статье мы подробно описываем архитектуру, особенности, методику обучения и производительность Phi-4 в реальных приложениях и бенчмарках.

https://github.com/xinyuwei-david/david-share.git

I. Изучение показателей для оценки потенциала

微软新模型:Phi-4来了,14B参数媲美更大规模模型微软新模型:Phi-4来了,14B参数媲美更大规模模型微软新模型:Phi-4来了,14B参数媲美更大规模模型

Измерьте три вопроса, сравнивая o1 и Phi-4

Первый вопрос:

фи-4

微软新模型:Phi-4来了,14B参数媲美更大规模模型

o1

微软新模型:Phi-4来了,14B参数媲美更大规模模型

Второй вопрос:

Фи-4.

微软新模型:Phi-4来了,14B参数媲美更大规模模型

o1:

微软新模型:Phi-4来了,14B参数媲美更大规模模型

Третий вопрос:

Фи-4

微软新模型:Phi-4来了,14B参数媲美更大规模模型

o1.

要求五个连续偶数的平均数,已知它们的和为90,下面我们逐步解答。
步骤1:设未知数
设这五个连续的偶数为:
第一个偶数:( n - 4 )第二个偶数:( n - 2 )第三个偶数:( n )第四个偶数:( n + 2 )第五个偶数:( n + 4 )
(因为偶数之间相差2,所以相邻的偶数可以这样表示)
步骤2:列方程求和
根据题目,五个数的和为90:
[(n - 4) + (n - 2) + n + (n + 2) + (n + 4) = 90]
步骤3:简化方程
合并同类项:
[5n = 90]
步骤4:求解 n
[n = frac{90}{5} = 18]
步骤5:求出五个偶数
第一个偶数:( 18 - 4 = 14 )第二个偶数:( 18 - 2 = 16 )第三个偶数:( 18 )第四个偶数:( 18 + 2 = 20 )第五个偶数:( 18 + 4 = 22 )
步骤6:计算平均数
平均数等于总和除以数量:
[text{平均数} = frac{14 + 16 + 18 + 20 + 22}{5} = frac{90}{5} = 18]
答案:
这五个连续的偶数的平均数是 18。

Если посмотреть на это с другой стороны, то рассуждения Фи-4 остаются в порядке.

 

II. Фи-4 архитектура модели

1. Архитектура декодера на основе трансформатора

В Phi-4 используется система, основанная на Трансформатор (используется в форме номинального выражения) Только декодер Эта архитектура похожа на семейство моделей GPT. Эта архитектура использует механизм самовнушения для эффективного отражения долгосрочных зависимостей в текстовых последовательностях и демонстрирует превосходство в задачах генерации естественного языка.

2. размер параметров и количество слоев

  • Общее количество параметров: 14 миллиардов (14B) Параметры.
  • Количество этажей модели: 40

3. длина контекста

  • Начальная длина контекста: 4,096 Жетон.
  • Среднесрочное продление обучения: В середине этапа обучения длина контекста Phi-4 была увеличена до 16,000 Token (16K), что улучшает способность модели обрабатывать длинные тексты.

4. Глоссарий и лексер

  • Разделители: Использование OpenAI Разделитель тиктоновКомпания поддерживает мультиязычность и обладает лучшим эффектом разделения слов.
  • Размер глоссария: 100,352Сюда входят некоторые зарезервированные неиспользуемые Token.

 

III. Механизмы внимания и кодирование местоположения

1. Глобальные механизмы внимания

Фи-4 использует Механизм полного вниманият.е. самовнимание вычисляется для всей последовательности контекстов. Это отличается от модели-предшественницы, Phi-3-medium, которая использует 2 048 Токен скользящего окна, в то время как Phi-4 выполняет вычисление глобального внимания непосредственно на контекстах 4 096 Token (начальный) и 16 000 Token (расширенный), улучшая способность модели улавливать дальние зависимости.

2. Поворотное позиционное кодирование (RoPE)

Для того чтобы поддерживать более длинные контексты, в середине обучения Фи-4 был адаптирован для Встраивание в поворотное положение (RoPE) базовой частоты:

  • Регулировка базовой частоты: Увеличьте базовую частоту RoPE до 250,000чтобы учесть длину контекста 16K.
  • Роль: RoPE помогает модели сохранять эффективность позиционного кодирования в длинных последовательностях, что позволяет ей сохранять хорошую производительность при работе с длинными текстами.

 

IV. Стратегии и методы обучения

1. концепция приоритетности качества данных

Стратегия обучения для Phi-4 основана на Качество данных в ядро. В отличие от других моделей, которые предварительно обучаются, используя в основном органические данные из Интернета (например, веб-контент, код и т. д.), Phi-4 стратегически внедряет в процесс обучения Синтетические данные.

2. Создание и применение синтетических данных

Синтетические данные сыграл ключевую роль в предварительном и среднем обучении Phi-4:

  • Многочисленные методы получения данных:
    • Многоагентная подсказка: Разнообразие данных обогащается за счет использования нескольких языковых моделей или агентов для совместной генерации данных.
    • Рабочие процессы саморевизии: После того как модель генерирует исходный результат, она проводит самооценку и коррекцию, чтобы итеративно улучшить качество результата.
    • Инструкция "Обратный ход": Генерирование соответствующих входных инструкций на основе существующих выходных данных повышает способность модели понимать и генерировать инструкции.
  • Преимущества синтетических данных:
    • Структурированное и прогрессивное обучение: Синтетические данные позволяют точно контролировать сложность и содержание, постепенно направляя модель на обучение сложным рассуждениям и навыкам решения проблем.
    • Повышение эффективности обучения: Генерация синтетических данных может обеспечить целевое обучение для выявления слабых мест модели.
    • Избегайте загрязнения данных: Поскольку синтетические данные генерируются, риск того, что обучающие данные будут содержать содержимое набора обзоров, исключен.

3. Тонкий отбор и фильтрация органических данных

Помимо синтетических данных, Phi-4 уделяет особое внимание тщательному отбору и фильтрации высококачественных данных из различных источников Органические данные::

  • Источники данных: Включает в себя веб-контент, книги, библиотеки кодов, научные статьи и многое другое.
  • Фильтрация данных:
    • Удалите некачественный контент: Используйте автоматические и ручные методы для отсеивания бессмысленного, неправильного, дублирующего или вредного контента.
    • Предотвратите загрязнение данных: Гибридный алгоритм n-грамм (13-грамм и 7-грамм) использовался для дедупликации и деконтаминации, чтобы гарантировать, что обучающие данные не содержат контента из набора рецензий.

4. стратегия смешивания данных

Phi-4 был оптимизирован в составе обучающих данных со следующими соотношениями:

  • Синтетические данные: завладеть 40%.
  • Веб-рерайт: завладеть 15%В случае нового обучающего образца он переписывается из высококачественного веб-контента для создания нового обучающего образца.
  • Данные об органическом интернете: завладеть 15%Веб-контент представляет собой подборку ценных материалов.
  • Кодовые данные: завладеть 20%включая общедоступную кодовую базу и сгенерированные данные синтеза кода.
  • Целевые приобретения: завладеть 10%В том числе научные статьи, профессиональные книги и другой ценный контент.

5. многоступенчатый процесс обучения

Предтренировочный этап:

  • Цель: Моделирование базового лингвистического понимания и генеративных навыков.
  • Объем данных: договориться о встрече 10 триллионов (10T) Жетон.

    Среднесрочная фаза обучения:

  • Цель: Увеличение длины контекста для улучшения обработки длинных текстов.
  • Объем данных: 250 миллиардов (250B) Жетон.

    Посттренировочный этап (тонкая настройка):

  • Supervised Fine Tuning (SFT): Тонкая настройка с использованием высококачественных многодоменных данных улучшает способность модели следовать инструкциям и качество ответов.
  • Прямая оптимизация предпочтений (DPO): использовать Pivotal Token Search (PTS) и другие методы для дальнейшей оптимизации результатов моделирования.

 

V. Инновационные методы обучения

1. Pivotal Token Search (PTS)

Методология ПТС это главная инновация в процессе обучения Phi-4:

  • Принцип: Определяя ключевые токены, которые оказывают значительное влияние на правильность ответа в процессе генерации, модель нацелена на оптимизацию предсказания по этим токенам.
  • Преимущество:
    • Повышение эффективности обучения: Сосредоточение оптимизации на тех частях, которые оказывают наибольшее влияние на результаты, вдвое эффективнее.
    • Улучшенная производительность модели: Помогает модели делать правильный выбор в ключевых точках принятия решений и повышает общее качество результатов.

2. Улучшенная оптимизация прямых предпочтений (DPO)

  • Метод DPO: Оптимизация выполняется непосредственно с использованием данных о предпочтениях, чтобы сделать вывод модели более соответствующим предпочтениям человека.
  • Инновационные очки:
    • В сочетании с PTS: Внедрение в DPO пар обучающих данных, сгенерированных PTS, улучшает оптимизацию.
    • Оценка показателей: Более точное измерение оптимизации путем оценки эффективности модели по ключевым показателям Token.

 

VI. Особенности и преимущества модели

1. отличная производительность

  • Маленькие модели, большие возможности: Хотя шкала параметров составляет всего 14BТем не менее, Phi-4 демонстрирует хорошие результаты в нескольких обзорных бенчмарках, особенно в задачах на рассуждение и решение проблем.

2. Отличные навыки рассуждения

  • Решение задач по математике и естественным наукам: существовать GPQA, иMATH В эталонных тестах, таких как этот, Phi-4 показывает даже лучшие результаты, чем его модель для учителей. GPT-4o.

3. возможности длительной обработки контекста

  • Увеличение длины контекста: Увеличив длину контекста в середине обучения до 16,000 Токен, Phi-4 способен более эффективно обрабатывать длинные тексты и зависимости на больших расстояниях.

4. Многоязычная поддержка

  • Охват нескольких языков: Обучающие данные состояли из Немецкий, испанский, французский, португальский, итальянский, хинди, японский и многие другие языки.
  • Кросс-лингвистическая компетенция: Отлично справляется с такими задачами, как перевод и межъязыковые тесты.

5. безопасность и соответствие

  • Принципы ответственного искусственного интеллекта: В процессе разработки строго соблюдаются Принципы ответственного искусственного интеллекта Microsoft, в которых основное внимание уделяется безопасности и этичности модели.
  • Обеззараживание данных и защита конфиденциальности: Строгие стратегии дедупликации и фильтрации данных используются для предотвращения попадания конфиденциального контента в обучающие данные.

 

VII. Контрольные показатели и производительность

1. внешний бенчмаркинг

Phi-4 демонстрирует лучшие показатели по нескольким общедоступным контрольным показателям:

  • MMLU (Multitasking Language Understanding): Достиг отличных результатов в сложных многозадачных тестах на понимание.
  • GPQA (Graduate level STEM quiz): отлично справился с непростой STEM-викториной, набрав больше баллов, чем некоторые масштабные модели.
  • MATH (математический конкурс): При решении математических задач Фи-4 демонстрирует сильные способности к рассуждениям и вычислениям.
  • HumanEval / HumanEval+ (генерация кода): В задачах генерации и понимания кода Phi-4 превосходит модели своего размера и даже приближается к более крупным моделям.

2. Набор для внутренней оценки (PhiBench)

Чтобы получить представление о возможностях и недостатках модели, команда разработала специальный набор для внутренней оценки PhiBench::

  • Задача диверсификации: Включает отладку кода, завершение кода, математические рассуждения и выявление ошибок.
  • Руководство по оптимизации моделей: Проанализировав результаты PhiBench, команда смогла наметить пути улучшения модели.

 

VIII. Безопасность и ответственность

1. стратегия строгого соблюдения безопасности

Разработка Phi-4 последовала за проектом Microsoft Принципы ответственного искусственного интеллектаПри этом основное внимание уделяется безопасности и этике модели во время обучения и тонкой настройки:

  • Защита от вредного содержимого: Уменьшите вероятность того, что модель сгенерирует неподходящий контент, включив данные о тонкой настройке безопасности на этапе после обучения.
  • Тестирование "красной команды" и автоматизированная оценка: Было проведено обширное тестирование "красной команды" и автоматизированная оценка безопасности, охватывающая десятки категорий потенциальных рисков.

2. обеззараживание данных и предотвращение перебора

  • Усовершенствованные стратегии обезвреживания данных: Гибридный 13-граммовый и 7-граммовый алгоритм используется для устранения возможного пересечения обучающих данных с эталонами обзора и предотвращения переподгонки модели.

 

IX. Ресурсы и время на обучение

1. Время обучения

Хотя в официальном отчете не указано общее время обучения Phi-4, подумайте:

  • Масштаб модели: 14B Параметры.
  • Объем обучающих данных: Предтренировочный этап - 10T жетонов, середина тренировки - 250B жетонов.

    Можно предположить, что весь процесс обучения занял значительное количество времени.

2. потребление ресурсов GPU

Графические процессоры1920 H100-80G
Время обучения21 день
Учебные данные9.8T жетоны

 

X. Применение и ограничения

1. сценарии применения

  • Система вопросов и ответов: Phi-4 отлично справляется со сложными задачами викторины и подходит для всех видов интеллектуальных приложений викторины.
  • Генерация и понимание кода: Отлично справляется с задачами программирования и может использоваться в таких сценариях, как обучение коду, автоматическая генерация и отладка.
  • Многоязычный перевод и обработка: Многоязычная поддержка для глобализированных языковых служб.

2. потенциальные ограничения

  • Отбор знаний: Знания модели обрываются на обучающих данных, и она может ничего не знать о событиях, происходящих после обучения.
  • Задача длинной последовательности: Хотя длина контекста увеличена до 16 Кбайт, при работе с более длинными последовательностями все равно могут возникнуть проблемы.
  • Контроль рисков: Несмотря на строгие меры безопасности, модели все равно могут быть подвержены атакам противника или случайной генерации неприемлемого контента.

Успех Phi-4 демонстрирует важность качества данных и стратегии обучения при разработке крупномасштабных языковых моделей. Благодаря инновационным методам создания синтетических данных, тщательной стратегии смешивания обучающих данных и передовым методам обучения Phi-4 достигает превосходной производительности при сохранении небольшого размера параметров:

  • Навыки рассуждения выдающиеся: Превосходно разбирается в математике, естественных науках и программировании.
  • Обработка длинных текстов: Увеличенная длина контекста дает модели преимущество в задачах обработки длинных текстов.
  • Безопасность и ответственность: Строгое следование принципам ответственного искусственного интеллекта гарантирует безопасность и этичность моделей.

    Phi-4 устанавливает новую планку в разработке малопараметрических количественных моделей, демонстрируя, что, уделяя особое внимание качеству данных и стратегиям обучения, можно добиться превосходной производительности даже при небольших параметрах.

 

Ссылки: /https://www.microsoft.com/en-us/research/uploads/prod/2024/12/P4TechReport.pdf

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...