Дебют серии Llama 4: новый старт для отечественных мультимодальных ИИ-инноваций?
5 апреля 2025 года компания Meta выпустила Llama 4, новейшее пополнение семейства больших языковых моделей Llama, ознаменовавшее собой значительный прогресс в области искусственного интеллекта, особенно в области мультимодальности и архитектуры моделей. В центре релиза - модели Llama 4 Scout и Llama 4 Maverick, а также предварительный показ гигантской "учительской" модели Llama 4 Behemoth, лежащей в основе технологии. Этот шаг не только демонстрирует стремление Meta догнать и превзойти ведущие модели отрасли, но и продолжает стратегию развития экосистемы ИИ с открытым исходным кодом.

Обзор основных моделей серии Llama 4
Компания Meta выпускает две модели из серии Llama 4 для разработчиков и приложений:
- Ллама 4 СкаутМодель имеет 17 миллиардов активных параметров и 16 экспертов, в общей сложности 109 миллиардов параметров. Особо следует отметить лучшие в своем классе мультимодальные возможности, превосходящие все предыдущие модели Llama. Еще более примечательно то, что модель поддерживает до 10 миллионов жетон Контекстное окно, значительно превышающее 128 Кбайт в Llama 3. Meta утверждает, что модель превосходит по производительности Google. Джемма 3 , и Близнецы 2.0 Flash-Lite и Мистраль ИИ (используется в форме номинального выражения) Мистраль 3.1 и количественная оценка Int4 для развертывания на одном графическом процессоре NVIDIA H100, что свидетельствует о повышенном внимании к эффективности.
- Ллама 4 Маверик: Она также имеет 17 миллиардов активных параметров, но оснащена 128 экспертами и 400 миллиардами общих параметров. Позиционируемая как лучшая мультимодальная модель в своем классе, она призвана бросить вызов GPT-4o от OpenAI и Gemini 2.0 Flash от Google. Согласно данным, опубликованным Meta, Maverick демонстрирует отличные результаты в нескольких бенчмарках и приближается к тому, чтобы иметь в два раза больше параметров, чем его активный параметр, с точки зрения умозаключений и мощности кодирования. DeepSeek v3 . Экспериментальная версия чата доступна по адресу LMArena Лидерборд получил оценку ELO 1417, что говорит о его потенциале в плане диалоговых возможностей. Модель может работать на одном хосте NVIDIA H100 DGX.
Кроме того, Мета представила Ллама 4 Бегемот Моделирование. Это гигант с 288 миллиардами активных параметров, 16 экспертами и почти 2 триллионами участников. Он находится в стадии обучения и еще не выпущен, но служит "учителем" для моделей Scout и Maverick, повышая производительность последних за счет дистилляции знаний. Behemoth преуспевает в математических, многоязычных и графических тестах, а Meta утверждает, что он превосходит GPT-4.5 в некоторых STEM-тестах, таких как MATH-500 и GPQA Diamond, Антропология (используется в форме номинального выражения) Клод Sonnet 3.7 и Gemini 2.0 Pro от Google.
Ключевые технологические инновации: MoE, мультимодальность и длинные контексты
В серии Llama 4 реализован ряд ключевых технологических инноваций, которые лежат в основе повышения ее производительности.
Архитектура гибридной модели экспертизы (MoE)
Llama 4 - первое семейство моделей Meta, использующее архитектуру Mixed Expert (MoE), которая привлекла большое внимание в последние годы, поскольку позволяет моделям активировать только небольшое количество параметров (т.е. "экспертов") во время вывода, имея при этом большое количество общих параметров. Такая конструкция обеспечивает более высокую производительность по сравнению с традиционными плотными (Dense) моделями при заданном вычислительном бюджете обучения и повышает вычислительную эффективность обучения и вывода.

Например, Llama 4 Maverick имеет 400 миллиардов общих параметров, распределенных между 128 экспертами по маршрутизации и одним общим экспертом. При рассуждениях каждый маркер отправляется как общему эксперту, так и одному из экспертов по маршрутизации. В модели используется чередование плотных и MoE-слоев для баланса производительности и эффективности. Такая архитектура позволяет развернуть Maverick на одном хосте H100 DGX или добиться максимальной эффективности за счет распределенных рассуждений, снизив стоимость и задержку сервисов модели.
Родная мультимодальность и ранняя интеграция
В отличие от предыдущих подходов, которые обучали лингвистические модели, а затем адаптировали их к визуальным возможностям, Llama 4 разработана как нативная мультимодальная модель. В ней используется стратегия раннего слияния, которая позволяет легко интегрировать текстовые и визуальные лексемы в опорную сеть модели. Это означает, что модель может быть совместно предварительно обучена на большом количестве немаркированных текстовых, графических и видеоданных. В Llama 4 также улучшен визуальный кодировщик, который основан на MetaCLIP, но обучается совместно с замороженной моделью Llama, чтобы лучше приспособиться к большим языковым моделям. Модель может обрабатывать до 48 изображений при предварительном обучении и демонстрирует хорошие результаты при использовании до 8 изображений в тестах после обучения, а также способна обрабатывать несколько изображений и текстовые подсказки для визуального рассуждения и понимания.
Прорывное контекстное окно на 10 миллионов токенов
Еще одна отличительная особенность Llama 4 Scout - лучшее в отрасли контекстное окно, вмещающее до 10 миллионов лексем. Такой огромный объем контекста открывает новые возможности, например, для обработки очень длинных документов, анализа масштабных наборов данных или ведения диалогов, требующих долговременной памяти:
- Резюме и вопросы и ответы на несколько объемных докладов или книг.
- Анализируйте всю кодовую базу, чтобы понять зависимости или найти ошибки.
- Предоставление глубоких персонализированных услуг на основе недель или даже месяцев активности пользователей.
- Извлечение и анализ информации в таких областях, как юриспруденция или медицина, где требуется обработка больших объемов текста.



Мета приписывает способность Scout к длительному контексту инновациям. iRoPE Архитектура. Архитектура использует контекст длиной 256 К как для предварительного, так и для последующего обучения, и сочетает чередующиеся слои внимания (без позиционных вкраплений) и температурное масштабирование времени вывода для улучшения обобщения по длине. Буква "i" означает чередование, а "RoPE" означает Rotary Position Embeddings, что намекает на поддержку "бесконечной длины контекста". и, как предполагается, долгосрочной целью является поддержка "бесконечной" длины контекста.
Методы обучения и производительность
При разработке Llama 4 было внесено множество усовершенствований в процесс обучения.
Предтренировочный этап:
- Данные и масштаб: Общий объем обучающих данных составляет более 30 триллионов лексем, что более чем в два раза больше, чем у Llama 3, и включает в себя разнообразные наборы текстовых, графических и видеоданных. Поддержка 200 языков, причем более 100 языков имеют более 1 миллиарда лексем в обучающих данных.
- Эффективность и точность: Обучение выполняется с точностью FP8 для повышения эффективности вычислений (390 TFLOPs/GPU для Behemoth на 32K GPU), при этом качество не страдает.
- Оптимизация гиперпараметров: Разработали новую методику MetaP для надежной настройки ключевых гиперпараметров (например, скорости обучения на слой, масштаба инициализации) и обнаружили, что эти параметры хорошо изменяются в зависимости от размера партии, ширины модели, глубины и количества обучающих лексем.
- Середина тренировки: Внедрение специальных методов обучения и наборов данных после предварительного обучения для расширения возможностей длительного контекста и улучшения основных характеристик.
Посттренировочный этап:
- новый процесс: Новый процесс облегченной Supervised Fine-Tuning (SFT) -> Online Reinforcement Learning (RL) -> облегченной Direct Preference Optimisation (DPO) был принят Мета обнаружила, что традиционные SFT и DPO могут чрезмерно ограничивать модель, ограничивая исследование на этапе RL и влияя на вывод, кодирование и математические способности.
- Фильтрация данных: Удалите более 50% данных SFT, помеченных как "легкие", используя модель Llama в качестве судьи и сосредоточившись на легком SFT на более сложных наборах данных.
- Интенсивное онлайн-обучение: Значительное улучшение производительности было достигнуто за счет тщательного отбора более сложных подсказок на этапе мультимодального онлайн RL. Была применена непрерывная онлайн стратегия RL, чередующая обучение модели и использование данных, отфильтрованных моделью, с сохранением только умеренно сложных подсказок, что позволило найти баланс между вычислениями и точностью.
- Легкий DPO: Наконец, для решения пограничных ситуаций, связанных с качеством ответа модели, выполняется облегченный DPO, балансирующий между интеллектуальными и диалоговыми возможностями модели.
Сравнение производительности:
Meta опубликовала результаты тестирования:
- Ллама 4 Маверик: Превосходит GPT-4o и Gemini 2.0 в тестах на кодирование, вывод, многоязычие, длинный контекст и изображения. Сравним с DeepSeek v3.1 при большем масштабе параметров в кодировании и выводе.
- Ллама 4 Скаут: Лучшая в своем классе производительность, превосходящая Gemma 3, Gemini 2.0 Flash-Lite, Mistral 3.1 и все модели Llama предыдущего поколения. Превосходит все предыдущие модели Llama по заземлению изображения.
Важно отметить, что результаты бенчмарков, как правило, получены в определенных условиях, и производительность в реальных приложениях может отличаться. Однако эти данные, по крайней мере, показывают, что Llama 4 способна конкурировать с ведущими моделями по ряду параметров.
Behemoth: "Учитель" с 2 триллионами параметров и проблема обучения
Llama 4 Behemoth существует не только для того, чтобы продемонстрировать способность Meta обучать очень крупномасштабные модели, но и, что более важно, чтобы выступить в роли "учителя" при разработке Llama 4. С помощью кодистилляции Behemoth передал свои знания в области математики, многоязычия и понимания изображений более компактной модели Maverick, а Meta разработала новую функцию потерь кодистилляции, которая динамически регулирует веса мягкой цели (распределения вероятностей из модели учителя) и жесткой цели (реальных меток) в процессе обучения. Веса. Такая совместная дистилляция в процессе предварительного обучения снижает значительные вычислительные затраты на вычисление целей дистилляции для модели ученика.

Обучение модели с 2 триллионами параметров само по себе является огромной инженерной задачей. meta раскрыла некоторый опыт работы на этапе посттренингового обучения:
- Обрезка данных: Для достижения максимальной производительности данные SFT должны быть обрезаны более агрессивно, чем более мелкие модели, на целых 95%, чтобы сосредоточиться на высококачественных и сложных данных.
- Интенсивное обучениеКрупномасштабная RL после облегченной SFT особенно важна для улучшения способности модели к рассуждениям и кодированию. Стратегия RL фокусируется на выборе сложных подсказок с помощью анализа pass@k и построении тренировочных сессий возрастающей сложности. Динамическая фильтрация подсказок с нулевым преимуществом и смешивание подсказок из разных измерений способностей в тренировочных партиях имеет решающее значение для улучшения математических, рассуждающих и кодирующих характеристик.
- Инструкции следуют: Выборка разнообразных системных инструкций (системных инструкций) имеет решающее значение для обеспечения того, чтобы модель поддерживала хорошее следование инструкциям в задачах рассуждения и кодирования.
- инфраструктура: Для архитектуры MoE и гипермасштаба Meta оптимизировала дизайн распараллеливания и разработала полностью асинхронный механизм онлайн-обучения RL. Фреймворк позволяет гибко распределять различные модели по разным GPU, балансируя ресурсы в зависимости от скорости вычислений, и, как сообщается, повышает эффективность обучения в ~10 раз по сравнению с предыдущим поколением.
Безопасность и снижение предвзятости
Как и все крупные разработчики моделей, компания Meta при разработке Llama 4 уделяла особое внимание безопасности и ответственному ИИ. Ее подход охватывает весь жизненный цикл разработки модели:
- Устранение последствий до и после тренировки:: Использование таких мер, как фильтрация данных на этапе предварительного обучения; применение различных методов на этапе посттренинга, включая введение необходимого количества данных о безопасности на каждом этапе, чтобы модель соответствовала стратегии использования.
- Инструменты системного уровня: Meta предоставляет разработчикам ряд инструментов безопасности для интеграции:
- Охранник ламы:: Модель обнаружения безопасности входа/выхода, разработанная на основе таксономии рисков MLCommons.
- Оперативная охрана:: Модели классификаторов для обнаружения вредоносных подсказок (например, атак на джейлбрейк) и инъекционных атак.
- CyberSecEval: Инструмент для оценки и снижения рисков безопасности генеративных сетей ИИ.
Meta подчеркивает настраиваемость этих инструментов, позволяя разработчикам адаптировать политики безопасности под свои нужды.
- Оценка и групповое тестирование:: Проводил модельное тестирование системы с помощью автоматизированного и ручного зондирования противника. Разработал систему под названием GOAT (Generative Offensive Agent Testing) Новый подход к улучшению охвата и эффективности тестов за счет симуляции нескольких раундов взаимодействия со злоумышленниками средней квалификации, что позволяет экспертам "красной команды" сосредоточиться на более актуальных областях риска.
Решение проблемы предвзятости
Meta признает проблему предвзятости, распространенную в больших языковых моделях, в частности исторически сложившуюся тенденцию отдавать предпочтение определенным позициям по спорным политическим и социальным темам, что отчасти обусловлено предвзятостью обучающих данных Интернета. Цель Llama 4 - устранить предвзятость моделей, чтобы они могли понимать и формулировать различные стороны спорных вопросов без предубеждений и оценок.
Мета утверждает, что Llama 4 добилась значительного прогресса в этой области, превзойдя Llama 3 и сравнив ее с Grok Вполне:
- По спорным политическим и социальным вопросам процент отказов от ответа снизился с 7% в Llama 3.3 до менее 2%.
- Доля подсказок с неравными (предвзятыми) отказами была ниже, чем 1% для ответов с отказом.
- По ряду спорных политических или социальных вопросов Llama 4 демонстрирует сильную политическую предвзятость с частотой ответов, сравнимой с Grok, и примерно вдвое меньшей, чем у Llama 3.3.
Meta заявляет, что будет продолжать работать над снижением уровня предвзятости в своих моделях.
Открытость, удобство использования и экосистемы
Llama 4 Scout и Llama 4 Maverick уже доступны для загрузки на llama.com и Hugging Face, а в ближайшее время появятся у всех основных партнеров по облачным вычислениям, передаче данных и пограничным вычислениям. Пользователи также могут испытать Llama 4 на базе Мета ИИ .
Компания Meta вновь подчеркнула свою приверженность открытой экосистеме, считая, что открытость способствует инновациям. Выпуск Llama 4, в частности ее архитектуры MoE, встроенных мультимодальных возможностей и сверхдлинных контекстных окон, безусловно, предоставляет новые мощные инструменты для разработчиков и исследователей ИИ. Однако реальную производительность этих продвинутых моделей, простоту их использования, стоимость тонкой настройки и потенциальные риски, которые они несут, создавая "персонализированный опыт", еще предстоит проверить и пронаблюдать в индустрии. Станет ли серия Llama 4 действительно началом новой эры ИИ под руководством Meta, в конечном итоге ответит рынок. Meta также объявила, что расскажет о своей концепции на LlamaCon 29 апреля.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...