Llama 4 series debuts : un nouveau départ pour l'innovation en matière d'IA multimodale native ?
Le 5 avril 2025, Meta a publié Llama 4, le dernier né de sa famille de grands modèles linguistiques Llama, marquant une avancée significative dans le domaine de l'IA, en particulier en ce qui concerne la multimodalité native et l'architecture des modèles. Les modèles Llama 4 Scout et Llama 4 Maverick sont au centre de la publication, ainsi qu'un aperçu du modèle géant "enseignant" Llama 4 Behemoth, qui est à la base de la technologie. Cette initiative démontre non seulement l'engagement de Meta à rattraper son retard et à essayer de surpasser les meilleurs modèles de l'industrie, mais aussi à poursuivre sa stratégie de promotion de l'écosystème de l'IA en open source.

Aperçu des modèles de base de la série Llama 4
Meta lance deux modèles de la série Llama 4 pour les développeurs et les applications :
- Llama 4 ScoutLe modèle compte 17 milliards de paramètres actifs et 16 experts, soit un total de 109 milliards de paramètres. Le point fort est la capacité multimodale, la meilleure de sa catégorie, qui surpasse tous les modèles Llama précédents. Ce qui est encore plus remarquable, c'est qu'il prend en charge jusqu'à 10 millions de jeton de la fenêtre contextuelle, dépassant de loin les 128K de Llama 3. Meta affirme que le modèle est plus performant que la fenêtre contextuelle de Google. Gemma 3 , Gémeaux 2.0 Flash-Lite et Mistral AI (utilisé comme expression nominale) Mistral 3.1 et quantifié par Int4 pour être déployé sur un seul GPU NVIDIA H100, ce qui montre l'importance accordée à l'efficacité.
- Llama 4 MaverickIl dispose également de 17 milliards de paramètres actifs, mais est équipé de 128 experts et de 400 milliards de paramètres au total. Positionné comme le meilleur modèle multimodal de sa catégorie, il vise à défier le GPT-4o d'OpenAI et le Gemini 2.0 Flash de Google. Selon les données publiées par Meta, Maverick obtient de bons résultats dans plusieurs tests de référence et n'est pas loin d'avoir deux fois plus de paramètres que son paramètre actif, en termes d'inférence et de puissance de codage. DeepSeek v3 . Une version expérimentale du chat est disponible à l'adresse suivante LMArena Le tableau de classement a obtenu un score ELO de 1417, ce qui montre son potentiel en matière de capacités de dialogue. Le modèle peut être exécuté sur un seul hôte NVIDIA H100 DGX.
En outre, Meta a présenté en avant-première Llama 4 Behemoth La modélisation. Il s'agit d'un mastodonte avec 288 milliards de paramètres actifs, 16 experts et près de 2 billions de participants au total. Il est encore en formation et n'a pas encore été publié, mais il sert de modèle "enseignant" pour Scout et Maverick, en stimulant les performances de ces derniers grâce à la distillation des connaissances. Behemoth excelle dans les benchmarks mathématiques, multilingues et d'images, Meta affirmant qu'il surpasse GPT-4.5 dans certains benchmarks STEM tels que MATH-500 et GPQA Diamond, Anthropique (utilisé comme expression nominale) Claude Sonnet 3.7 et Gemini 2.0 Pro de Google.
Innovations technologiques clés : MoE, multimodalité et contextes longs
La série Llama 4 présente un certain nombre d'innovations technologiques clés qui sont à la base de l'amélioration de ses performances.
Architecture hybride du modèle d'expertise (MoE)
Llama 4 est la première famille de modèles Meta à adopter l'architecture Mixed Expert (MoE), qui a attiré beaucoup d'attention ces dernières années parce qu'elle permet aux modèles de n'activer qu'un petit nombre de paramètres (c'est-à-dire des "experts") au moment de l'inférence, tout en ayant un grand nombre de paramètres au total. Cette conception permet d'obtenir des performances supérieures à celles des modèles denses traditionnels pour un budget de calcul de formation donné et améliore l'efficacité de calcul de la formation et de l'inférence.

À titre d'exemple, Llama 4 Maverick a 400 milliards de paramètres totaux répartis entre 128 experts en routage et un expert partagé. Lors du raisonnement, chaque jeton est envoyé à la fois à l'expert partagé et à l'un des experts en routage. Le modèle utilise alternativement des couches denses et des couches MoE pour équilibrer les performances et l'efficacité. Cette architecture permet de déployer Maverick sur un seul hôte DGX H100 ou de maximiser l'efficacité grâce au raisonnement distribué, en réduisant le coût et la latence des services du modèle.
Multimodalité native et intégration précoce
Contrairement aux approches précédentes qui formaient des modèles linguistiques avant de les adapter aux capacités visuelles, Llama 4 est conçu pour être un modèle multimodal natif. Il utilise une stratégie de fusion précoce qui intègre de manière transparente les jetons textuels et visuels dans le réseau dorsal du modèle. Cela signifie que le modèle peut être pré-entraîné conjointement avec de grandes quantités de textes, d'images et de données vidéo non étiquetés. Llama 4 améliore également son encodeur visuel, qui est basé sur MetaCLIP mais co-entraîné avec un modèle Llama figé pour mieux s'adapter aux grands modèles de langage. Le modèle peut traiter jusqu'à 48 entrées d'images en pré-entraînement et donne de bons résultats avec jusqu'à 8 entrées d'images dans les tests post-entraînement, et il est capable de traiter des entrées d'images multiples et des indices textuels pour le raisonnement visuel et la compréhension.
Percée de la fenêtre contextuelle de 10 millions de jetons
Une autre caractéristique distinctive de Llama 4 Scout est sa fenêtre contextuelle de pointe, qui peut contenir jusqu'à 10 millions de tokens. Une telle capacité contextuelle ouvre de nouvelles possibilités pour le traitement de documents très longs, l'analyse d'ensembles de données à grande échelle ou la conduite de dialogues nécessitant une mémoire à long terme, par exemple :
- Résumé et questions-réponses de plusieurs rapports ou livres volumineux.
- Analyser la base de code complète pour comprendre les dépendances ou trouver des erreurs.
- Fournir des services personnalisés approfondis basés sur des semaines, voire des mois d'activité de l'utilisateur.
- L'extraction et l'analyse d'informations dans des domaines tels que le droit ou la médecine, où de grandes quantités de texte doivent être traitées.



Meta attribue les capacités à long terme du Scoutisme à son approche innovante. iRoPE Architecture. L'architecture utilise une longueur de contexte de 256K pour la préformation et la post-formation, et combine des couches d'attention entrelacées (sans intégration de position) et une mise à l'échelle de la température du temps d'inférence afin d'améliorer la généralisation de la longueur. Le "i" signifie entrelacé, et "RoPE" fait référence à Rotary Position Embeddings, ce qui laisse supposer qu'il prend en charge une "longueur de contexte infinie", ce qui laisse supposer que l'objectif à long terme est d'améliorer la généralisation de la longueur. Le "i" signifie entrelacé et le "RoPE" fait référence aux "Rotary Position Embeddings", ce qui laisse supposer qu'il prend en charge des longueurs de contexte "infinies".
Méthodes d'entraînement et performances
Le développement du Llama 4 a permis d'apporter de nombreuses améliorations au processus de formation.
Phase de préformation :
- Données et échelleLa quantité totale de données d'entraînement est supérieure à 30 billions de tokens, soit plus de deux fois plus que Llama 3, et comprend un ensemble varié de textes, d'images et de vidéos. Prise en charge de 200 langues, dont plus de 100 langues disposant de plus d'un milliard de tokens de données d'entraînement.
- Efficacité et précisionLa formation est effectuée avec la précision FP8 pour augmenter l'efficacité des calculs (390 TFLOPs/GPU pour Behemoth sur 32K GPUs), tout en affirmant ne pas sacrifier la qualité.
- Optimisation des hyperparamètresLe groupe a développé une nouvelle technique appelée MetaP pour définir de manière fiable des hyperparamètres clés (par exemple, le taux d'apprentissage par couche, l'échelle d'initialisation) et a constaté que ces paramètres migraient bien entre les tailles de lots, les largeurs de modèles, les profondeurs et le nombre de jetons d'apprentissage.
- Entraînement à mi-parcoursIntroduction de méthodes de formation et d'ensembles de données spécifiques après la préformation afin d'étendre les capacités de contexte à long terme et d'améliorer les performances de base.
Phase post-formation :
- nouveau processusMeta a constaté que le SFT et le DPO traditionnels pouvaient trop contraindre le modèle, limitant l'exploration au stade du RL et affectant l'inférence, le codage et la capacité mathématique.
- Filtrage des données: Supprimer plus de 50% de données SFT étiquetées comme "faciles" en utilisant le modèle Llama comme juge et en se concentrant sur des SFT légers sur des ensembles de données plus difficiles.
- Apprentissage intensif en ligneLes résultats de l'étude sont les suivants : des améliorations significatives de la performance ont été obtenues en sélectionnant soigneusement des invites plus difficiles (invites) pendant la phase multimodale de recherche en ligne. Une stratégie continue de RL en ligne a été employée, alternant entre l'entraînement du modèle et l'utilisation de données filtrées par le modèle, en ne retenant que les invites modérément difficiles, ce qui a permis de trouver un équilibre entre le calcul et la précision.
- DPO légerEnfin, un DPO léger est mis en œuvre pour traiter les cas limites liés à la qualité de la réponse du modèle, en équilibrant les capacités d'intelligence et de dialogue du modèle.
Comparaison des performances :
Meta a publié des résultats de référence montrant que
- Llama 4 MaverickLes performances de DeepSeek v3.1 sont supérieures à celles de GPT-4o et de Gemini 2.0 dans les domaines du codage, de l'inférence, du multilinguisme, du contexte long et de l'image. Comparable à DeepSeek v3.1 avec de plus grandes échelles de paramètres dans le codage et l'inférence.
- Llama 4 ScoutMeilleures performances de sa catégorie, supérieures à celles des modèles Gemma 3, Gemini 2.0 Flash-Lite, Mistral 3.1 et de tous les modèles Llama de la génération précédente. Surpasse tous les modèles Llama précédents en matière de mise à la terre de l'image.
Il est important de noter que les résultats des tests de référence sont généralement obtenus dans des conditions spécifiques et que les performances dans les applications réelles peuvent varier. Cependant, ces données montrent au moins que le Llama 4 a le potentiel de rivaliser avec les modèles les plus performants de l'industrie sur un certain nombre de points.
Behemoth : le "professeur" aux 2 billions de paramètres et le défi de la formation
Llama 4 Behemoth existe non seulement pour démontrer la capacité de Meta à entraîner des modèles à très grande échelle, mais aussi et surtout pour servir de "professeur" dans le développement de Llama 4. Grâce à la codistillation, Behemoth a transféré sa puissance en matière de mathématiques, de multilinguisme et de compréhension des images au modèle Maverick, plus petit, et Meta a développé une nouvelle fonction de perte par codistillation qui ajuste dynamiquement les poids de la cible douce (distributions de probabilités du modèle de l'enseignant) et de la cible dure (les étiquettes réelles) au cours du processus d'apprentissage. poids. Cette distillation collaborative pendant le pré-entraînement amortit le coût informatique important du calcul des cibles de distillation pour le modèle de l'étudiant.

L'entraînement d'un modèle comportant 2 billions de paramètres est en soi un énorme défi d'ingénierie. meta a révélé une certaine expérience de la phase post-entraînement :
- élagage des donnéesPour maximiser les performances, les données SFT doivent être élaguées de manière plus agressive que les modèles plus petits, jusqu'à 95%, afin de se concentrer sur les données difficiles et de haute qualité.
- Apprentissage intensifLa stratégie RL se concentre sur la sélection d'indices difficiles par le biais de l'analyse pass@k et sur la construction de sessions d'entraînement de difficulté croissante. Le filtrage dynamique des indices à avantage nul et le mélange d'indices provenant de différentes dimensions d'aptitude dans les lots d'entraînement sont essentiels pour améliorer les performances en matière de mathématiques, de raisonnement et de codage.
- Les instructions sont les suivantesLe modèle d'instructions de système : L'échantillonnage de diverses instructions de système (instructions de système) est essentiel pour garantir que le modèle maintient une bonne adhérence aux instructions dans les tâches de raisonnement et de codage.
- l'infrastructurePour l'architecture MoE et l'hyperscale, Meta a optimisé sa conception de parallélisation et développé un cadre d'entraînement RL en ligne entièrement asynchrone. Ce cadre permet une allocation flexible de différents modèles à différents GPU, en équilibrant les ressources en fonction de la vitesse de calcul et en améliorant l'efficacité de l'entraînement d'environ 10 fois par rapport à la génération précédente.
Sécurité et atténuation des préjugés
Comme tous les développeurs de modèles à grande échelle, Meta a mis l'accent sur la sécurité et l'IA responsable dans le développement de Llama 4. Son approche couvre l'ensemble du cycle de vie du développement du modèle :
- Atténuation avant et après l'entraînementLes méthodes d'apprentissage sont les suivantes : utilisation de mesures telles que le filtrage des données dans la phase de pré-entraînement ; application d'une variété de techniques dans la phase de post-entraînement, y compris l'injection de la bonne quantité de données de sécurité à chaque étape afin de rendre le modèle conforme à la stratégie d'utilisation.
- Outils au niveau du systèmeMeta est une source ouverte d'une série d'outils de sécurité que les développeurs peuvent intégrer :
- Garde de lamasModèle de détection de la sécurité des entrées/sorties développé sur la base de la taxonomie des risques de MLCommons.
- Prompt GuardLes modèles de classification pour la détection des indices malveillants (par exemple, les attaques de jailbreak) et des attaques par injection.
- CyberSecEval: Un outil d'évaluation pour évaluer et atténuer les risques de sécurité des réseaux génératifs d'intelligence artificielle.
Meta met l'accent sur la personnalisation de ces outils, qui permet aux développeurs d'adapter les politiques de sécurité à leurs besoins.
- Évaluation et tests en équipe rouge: : Test de modèle du système à l'aide d'un sondage contradictoire automatisé et manuel. Développement d'un système appelé GOAT (Generative Offensive Agent Testing) La nouvelle approche de la Commission européenne pour améliorer la couverture et l'efficacité des tests consiste à simuler plusieurs séries d'interactions avec des attaquants modérément compétents, ce qui permet aux experts de l'équipe rouge de se concentrer sur des domaines de risque plus pointus.
Lutter contre les préjugés
Meta reconnaît le problème de la partialité qui prévaut dans les grands modèles de langage, en particulier la tendance historique à favoriser certaines positions sur des sujets politiques et sociaux controversés, qui découle en partie de la partialité inhérente aux données d'entraînement sur Internet. L'objectif de Llama 4 est d'éliminer les biais des modèles afin qu'ils puissent comprendre et articuler les différents aspects des questions controversées sans parti pris ni jugement.
Meta affirme que le Llama 4 a fait des progrès significatifs dans ce domaine, dépassant les performances du Llama 3 et se comparant favorablement à celles du Llama 3. Grok Tout à fait :
- Sur les questions politiques et sociales controversées, le pourcentage de refus de répondre est passé de 7% dans Llama 3.3 à moins de 2%.
- La proportion d'invites présentant des refus inégaux (biaisés) était inférieure à 1% pour les réponses de refus.
- Sur une série de questions politiques ou sociales controversées, le lama 4 montre un fort parti pris politique avec une fréquence de réponses comparable à celle de Grok, soit environ la moitié de celle du lama 3.3.
Meta affirme qu'elle continuera à travailler pour réduire le taux de biais dans ses modèles.
Ouverture, facilité d'utilisation et écosystèmes
Le Llama 4 Scout et le Llama 4 Maverick sont désormais disponibles en téléchargement sur llama.com et Hugging Face, et seront proposés à tous les principaux partenaires de cloud computing, de données et d'edge computing. Les utilisateurs peuvent également faire l'expérience du Llama 4 propulsé par le Meta AI .
Meta a réaffirmé son engagement en faveur d'un écosystème ouvert, convaincu que l'ouverture est le moteur de l'innovation. La sortie de Llama 4, en particulier son architecture MoE, ses capacités multimodales natives et ses fenêtres contextuelles ultra-longues, fournit certainement de nouveaux outils puissants pour les développeurs et les chercheurs en IA. Toutefois, les performances réelles de ces modèles avancés, leur facilité d'utilisation, le coût de leur mise au point et les risques potentiels qu'ils représentent dans le cadre des "expériences personnalisées" doivent encore être testés et observés par l'industrie. C'est au marché qu'il appartiendra de déterminer si la série Llama 4 marquera véritablement le début d'une nouvelle ère de l'IA sous l'égide de Meta. Meta a également annoncé qu'elle partagerait plus d'informations sur sa vision lors de la LlamaCon du 29 avril.
© déclaration de droits d'auteur
文章版权归 Cercle de partage de l'IA 所有,未经允许请勿转载。
Articles connexes
Pas de commentaires...