Gemma 3 Technical Report Version chinoise

Gemma 3 Résumé du message clé

I. Indicateurs clés

paramètresparticularités
taille du modèle100 millions à 27 milliards de paramètres en quatre versions : 1B, 4B, 12B, 27B
construiresur la base de Transformateur L'architecture spécifique du décodeur, héritée de Gemma 2, avec un certain nombre d'améliorations
capacité multimodalePrise en charge de la saisie de texte et d'images, à l'aide d'un encodeur visuel SigLIP personnalisé pour coder les images en 256 balises logicielles.
Longueur du contexteLe modèle 1B supporte 32K tags, les autres modèles supportent 128K tags.
mécanisme d'attentionModèle d'entrelacement des couches d'attention locale/globale 5:1, la couche locale couvrant 1024 jetons
Méthodes de formationPréformation par distillation des connaissances et instructions de mise au point à l'aide de méthodes améliorées de post-formation
Données de pré-entraînementQuantité de données de pré-entraînement : 1B modèle 2T tokens, 4B modèle 4T tokens, 12B modèle 12T tokens, 27B modèle 14T tokens
multilinguismeComparaison de l'utilisation des Gémeaux 2.0 Même classificateur SentencePiece avec 262k entrées dans le vocabulaire, supporte plusieurs langues
Soutien quantitatifDes versions de quantification sont disponibles dans différents formats standard, notamment int4 par canal, int4 par bloc et toggle fp8.
Infrastructure de formationFormation avec TPUv4, TPUv5e et TPUv5p avec la stratégie de sharding d'état et de réplication de données de l'optimiseur ZeRO-3
empreinte carboneAvec un bilan carbone préétabli de 1497,13 tonnes de CO2e, les centres de données de Google sont neutres en carbone !

II. avantages

  1. Excellente compréhension multimodale
    • Gemma 3 intègre un encodeur visuel capable de traiter des entrées de texte et d'image et d'être performant dans les tâches multimodales.
      • Bonne performance dans les tests visuels tels que DocVQA, InfoVQA, TextVQA et autres, en particulier dans les tâches impliquant la compréhension de documents et la lecture de texte dans des images.
      • Par rapport à PaliGemma 2, Gemma 3 obtient de meilleurs résultats dans les tâches de compréhension de documents telles que DocVQA et InfoVQA.
      • L'utilisation de la technologie Pan & Scan (P&S) permet à Gemma 3 de traiter les images à une résolution proche de la résolution native, ce qui améliore encore ses performances dans les tâches de langage visuel.
  2. Traitement puissant des contextes longs
    • La prise en charge de la longueur du contexte pour 128K tokens (32K pour les modèles 1B) est avantageuse lorsque l'on travaille avec des textes longs.
      • Bonne performance dans les indices de référence à long terme tels que RULER et MRCR.
      • Le modèle d'entrelacement de la couche d'attention locale/globale et la conception à courte portée de la couche locale permettent de contrôler efficacement la consommation de mémoire du cache KV tout en maintenant la capacité de traitement à long terme.
  3. Renforcement du multilinguisme
    • Utilisation d'un lexateur plus équilibré pour les langues autres que l'anglais et augmentation du nombre de formations sur des données multilingues.
      • Bonne performance dans les tests multilingues tels que MGSM, Global-MMLU-Lite et WMT24++.
      • Excellentes performances dans les quiz inter-langues et les tâches de génération de langues indiennes telles que XQuAD et IndicGenBench.
  4. Amélioration des compétences en mathématiques, en raisonnement et en codage
    • Les méthodes de post-formation sont optimisées pour les compétences en mathématiques, en raisonnement et en codage.
      • Excellentes performances dans MATH, GSM8K, HumanEval et autres tests de mathématiques et de code.
      • Il obtient de bons résultats dans les tests de compréhension linguistique multitâches tels que MMLU, MMLU-Pro et AGIEval.
  5. Efficacité élevée de la modélisation
    • Les modèles 1B et 4B ont des paramètres plus petits et conviennent au déploiement sur des appareils à ressources limitées.
    • Avec la technique du pooling moyen, les modèles Gemma 3 4B et 12B ont des coûts de migration environ 10 fois inférieurs à ceux des modèles PaliGemma 2 9B et 27B pour la même résolution des entrées de l'encodeur visuel.

III. inconvénients

  1. Connaissance limitée des produits chimiques, biologiques, radiologiques et nucléaires (CBRN)
    • Gemma 3 a obtenu de mauvais résultats dans l'évaluation des connaissances CBRN en raison du manque de contenu lié au CBRN dans les données de préformation.
    • Cela signifie que dans les scénarios d'application impliquant des domaines CBRN, Gemma 3 peut ne pas fournir des informations précises et fiables.
  2. Goulets d'étranglement possibles lors du traitement d'images à haute résolution
    • Si les techniques de P&S peuvent atténuer les problèmes liés aux rapports d'aspect non carrés et aux images à haute résolution, le recadrage et la mise à l'échelle fréquents des images peuvent affecter la vitesse d'inférence.
    • Le Gemma 3 peut être confronté à des problèmes de performance dans les applications qui nécessitent le traitement d'images à très haute résolution ou des tâches de vision en temps réel.
  3. La compréhension de certains domaines peut être insuffisante
    • Bien que Gemma 3 excelle dans un certain nombre de domaines, sa compréhension peut être limitée dans certains domaines hautement spécialisés (par exemple, juridique, médical, etc.).
    • Cela nécessite un réglage plus fin ou une adaptation au domaine sur la base de scénarios d'application spécifiques.
  4. Il existe certains risques pour la mémoire et la vie privée
    • Les grands modèles de langage risquent de générer du texte qui apparaît dans les données d'apprentissage, et Gemma 3 ne fait pas exception à la règle.
    • Bien que le taux de mémorisation de Gemma 3 soit inférieur à celui des modèles précédents, il est toujours nécessaire de traiter les informations sensibles avec précaution pour éviter de compromettre la vie privée des utilisateurs.
  5. La capacité à raisonner sur des relations complexes de cause à effet doit être améliorée.
    • Gemma 3 pourrait ne pas obtenir les résultats escomptés dans les tâches impliquant un raisonnement causal complexe.
    • Il convient donc de poursuivre les recherches et d'affiner le modèle afin d'améliorer ses performances dans les tâches de raisonnement causal.

 

Gemma 3 Rating

La série de modèles Gemma 3 se compose de quatre versions, chacune d'entre elles mettant en libre accès une version de base de pré-entraînement (suffixe de version pt, désignant le pré-entraînement) et une version d'instruction affinée (suffixe de version it, désignant l'instruction affinée), ce qui signifie qu'un total de huit versions du modèle le plus important ont été mises en libre accès.

La taille maximale des paramètres du Gemma 3-27B IT a une taille de précision fp16 de 54,8 Go, 27 Go après quantification INT8, deux 4090 disponibles, et la quantification INT4 nécessite 14 Go de mémoire vidéo, ce qui est parfaitement acceptable pour un seul 4090.

Cette version du modèle a été très bien évaluée, obtenant 1 338 points (au 8 mars 2025) sur le site Big Models Anonymous Arena (Chatbot Arena), se classant au 9e rang mondial derrière le modèle o1-2024-12-17, et devant Qwen 2.5-Max et DeepSeek V3.

Selon la déclaration officielle de Google, cette série Gemma 3 est une mise à niveau significative, la version Gemma 3-4B modélisant à un niveau proche de celui de la Gemma 2-27B, tandis que la Gemma 3-27B est proche de celle de la Gemini 1.5-Pro !

Gemma 3 技术报告中文版

 

Gemma 3 Expérience Lieu

https://aistudio.google.com/prompts/new_chat?model=gemma-3-27b-it

https://ollama.com/library/gemma3

 

résumés

Gemma 3 est un puissant modèle de macrolangage multimodal qui excelle dans la compréhension multimodale, le traitement des contextes longs, les capacités multilingues, les mathématiques, le raisonnement et le code. Toutefois, il peut encore être amélioré en ce qui concerne les connaissances CBRN, le traitement d'images à haute résolution, la compréhension spécifique à un domaine, les risques liés à la mémoire et à la vie privée, ainsi que le raisonnement causal complexe.


 

Rapport technique complet :https://storage.googleapis.com/deepmind-media/gemma/Gemma3Report.pdf

Nous avons présenté Gemma 3, une extension multimodale de la famille Gemma de modèles légers à code source ouvert avec des tailles de paramètres allant de 100 millions à 27 milliards. Cette version introduit des capacités de compréhension visuelle, la prise en charge d'un plus grand nombre de langues et de plus grandes longueurs de contexte - supportant au moins 128K tokens. Nous avons également apporté des améliorations à l'architecture du modèle afin de réduire la mémoire cache KV qui augmente considérablement avec la longueur du contexte. Le modèle Gemma 3 est entraîné par distillation de connaissances et surpasse Gemma 2, tant dans sa version pré-entraînée que dans sa version affinée en fonction des instructions. En particulier, notre nouvelle approche post-entraînement améliore considérablement les mathématiques, le chat, l'adhésion aux instructions et les capacités multilingues, ce qui rend Gemma3-4B -IT comparable en performance à Gemma2-27B-IT, et Gemma3-27B-IT comparable à Gemini-1.5-Pro dans les benchmarks. Nous mettons tous les modèles à la disposition de la communauté.

 

1. introduction

Nous présentons la dernière version du modèle de langue open-source Gemma (Gemma Team, 2024a), qui a été conçu conjointement avec la famille de modèles de frontière Gemini (Gemini Team, 2023). Cette nouvelle version est comparable en taille à Gemma 2 (Gemma Team, 2024b) et ajoute un modèle à 1 milliard de paramètres. Ces modèles sont destinés à fonctionner sur du matériel standard de qualité grand public, comme les téléphones mobiles, les ordinateurs portables et les GPU haut de gamme. Cette version apporte plusieurs nouvelles fonctionnalités à la famille Gemma, à savoir la multimodalité, les contextes longs et le multilinguisme, tout en maintenant ou en dépassant les performances des versions précédentes.

En termes de multimodalité, la plupart des modèles de Gemma 3 sont compatibles avec le codeur visuel SigLIP (Zhai et al., 2023). Le modèle de langage traite les images comme des séquences de jetons encodés par SigLIP. Nous réduisons le coût d'inférence du traitement des images en compressant l'intégration visuelle en 256 vecteurs de taille fixe. L'encodeur fonctionne à une résolution fixe, et nous nous inspirons de LLaVA (Liu et al., 2024) pour obtenir une résolution flexible grâce à une approche pan-and-scan (P&S).

La deuxième amélioration architecturale majeure consiste à augmenter la taille du contexte jusqu'à 128 000 jetons sans incidence sur les performances. L'un des problèmes posés par les contextes longs est l'explosion de la mémoire dans le cache KV pendant l'inférence. Pour réduire ce problème, nous intercalons plusieurs couches locales entre chaque couche globale et fixons l'étendue des couches locales à seulement 1024 jetons. Ainsi, seule la couche globale est concernée par les contextes longs, et nous avons 1 couche globale pour 5 couches locales.

L'approche d'optimisation du pré-entraînement est similaire à celle de Gemma 2, mais avec quelques modifications au niveau de la conception architecturale. Nous utilisons le même désambiguïsateur que dans Gemini 2.0, et nous avons également revisité notre stratégie de mélange de données pour améliorer les capacités multilingues des modèles, ainsi que pour introduire la compréhension des images. Tous les modèles de Gemma 3 ont été formés par distillation de connaissances (Hinton et al., 2015).

En post-formation, nous nous concentrons sur l'amélioration des compétences en mathématiques, en raisonnement et en chat, ainsi que sur l'intégration des nouvelles fonctionnalités de Gemma 3, des contextes longs et de la saisie d'images. Nous utilisons une nouvelle approche post-formation pour améliorer toutes les capacités en mathématiques, codage, chat, suivi des commandes et multilinguisme. Le modèle de perfectionnement des instructions Gemma 3 qui en résulte est à la fois puissant et polyvalent, surpassant de manière spectaculaire son prédécesseur dans les tests de référence.

Dans les sections suivantes, nous donnons un bref aperçu de notre modèle, y compris l'architecture ainsi que les méthodes de pré-entraînement et de post-entraînement. Nous fournissons également une évaluation détaillée de divers tests de référence quantitatifs et qualitatifs. Nous discutons des approches visant à sécuriser le déploiement responsable et décrivons les implications plus larges de Gemma 3, ses limites et ses avantages.

Gemma 3 技术报告中文版

Il s'agit d'une ventilation du coût et du calcul des pourboires sur la base des reçus :

1.Déterminer le coût de la viande en tranches :Le ticket de caisse mentionne "1x Zurcher Geschnetzeltes + Rosti" pour CHF 36.50. Il s'agit d'un plat de viande en tranches accompagné de pommes de terre frites (Rosti). 2. Il s'agit d'un plat de viande en tranches accompagné de pommes de terre sautées (Rosti). 2.Calculez la pointe pour 18% :Montant du pourboire = 36,5 CHF * 0,18 = 6,57 CHF 3.Calculer le montant total :Total = 36,50 CHF + 6,57 CHF = 43,07 CHF

 

2. architecture du modèle

Le modèle Gemma 3 suit la même architecture générique Transformer spécifique au décodeur que les générations précédentes de modèles (Vaswani et al., 2017), la plupart des éléments architecturaux étant similaires aux deux premières versions de Gemma. Nous utilisons Grouped Query Attention (GQA) (Ainslie et al., 2023) ainsi que Post-Normalisation et Pré-Normalisation avec RMSNorm (Zhang et Sennrich, 2019). Inspirés par Dehghani et al. (2023), Wortsman et al. (2023), et l'équipe de Caméléon (2024), nous remplaçons les soft caps de Gemma 2 par une normalisation QK. Dans cette section, nous soulignons quelques différences essentielles par rapport aux générations précédentes de modèles.

5:1 Entrelacement local/global. Nous avons alterné entre l'auto-attention locale à fenêtre coulissante (Beltagy et al., 2020) et l'auto-attention globale (Luong et al., 2015), avec un schéma d'alternance d'une couche globale pour 5 couches locales, en commençant par la couche locale en tant que première couche du modèle.

modélisationencodeur visuelParamètres d'intégrationParamètres non incorporés
1B0302M698M
4B417M675M3,209M
12B417M1,012M10,759M
27B417M1,416M25,600M

Contexte long. Les modèles Gemma 3 supportent une longueur de contexte de 128K tokens, à l'exception du modèle 1B, qui a une longueur de contexte de 32K. Nous augmentons la fréquence de base RoPE de la couche d'auto-attention globale de 10k à 1M, et gardons la fréquence de la couche locale à 10k. Nous suivons un processus similaire à l'interpolation positionnelle de Chen et al. (2023) pour étendre la portée de la couche d'auto-attention globale.

2.1 Modalités visuelles

Encodeur visuel. Nous avons utilisé la variante 400M du codeur SigLIP (Zhai et al., 2023), un transformateur visuel (Dosovitskiy, 2020) entraîné sur une variante de la perte CLIP (Radford et al., 2021).Le codeur visuel Gemma a pris une image carrée redimensionnée à 896x896 comme entrée et a été affiné sur les données de la tâche de l'assistant visuel. L'encodeur visuel Gemma a pris comme entrée une image carrée redimensionnée à 896x896 et a été ajusté sur les données de la tâche Visual Assistant. Pour des raisons de simplicité, nous avons partagé le codeur visuel entre les modèles 4B, 12B et 27B et l'avons gardé figé pendant l'entraînement.

Pan et Scan (P&S). Le codeur visuel Gemma fonctionne avec une résolution fixe de 896x896. Lorsqu'il s'agit de rapports d'aspect non carrés et d'images à haute résolution, cela peut entraîner une distorsion de l'image, avec pour conséquence un texte illisible ou la disparition de petits objets. Nous résolvons ce problème en utilisant un algorithme de fenêtrage adaptatif au moment de l'inférence. Cet algorithme divise l'image en blocs de taille égale qui ne se chevauchent pas, qui couvrent l'ensemble de l'image et la redimensionnent à 896x896 pixels pour la transmettre à l'encodeur. Ce fenêtrage n'est appliqué qu'en cas de nécessité et contrôle le nombre maximal de recadrages. Il s'agit d'une optimisation de l'inférence uniquement, qui peut être désactivée pour accélérer l'inférence.

Éclats
modélisationtypologieNombre de pucessérie de donnéesduplicata
1BTPUv5e51216 162
4BTPUv5e204816 168
12BTPUv4614416 1624
27BTPUv5p614424 832

2.2 Pré-entraînement

Nous avons suivi une recette de préformation similaire à celle de Gemma 2 avec la distillation des connaissances.

Données de formation. Nous avons pré-entraîné notre modèle sur un budget de balisage légèrement supérieur à celui de Gemma 2, c'est-à-dire que nous avons utilisé 14T de balises pour entraîner Gemma 3 27B, 12T de balises pour entraîner la version 12B, 4T de balises pour entraîner 4B et 2T de balises pour entraîner 1B. Nous avons également augmenté la quantité de données multilingues afin d'améliorer la couverture linguistique. Nous avons ajouté des données monolingues et parallèles et utilisé une stratégie inspirée de Chung et al. (2023) pour traiter les déséquilibres dans la représentation des langues.

Séparateurs. Nous utilisons le même lexer que Gemini 2.0 : un lexer SentencePiece avec des chiffres divisés, des espaces blancs préservés et un encodage au niveau de l'octet (Kudo et Richardson, 2018). Le vocabulaire résultant a 262k entrées. Ce lexer est plus équilibré pour les langues non anglaises.

Filtrage. Nous utilisons des techniques de filtrage pour réduire le risque de générer un discours indésirable ou peu sûr et supprimer certaines informations personnelles et autres données sensibles. Nous décontaminons l'ensemble d'évaluation dans le mélange de données de pré-entraînement et réduisons le risque de récitation en minimisant la propagation des résultats sensibles. Nous appliquons également une étape de repondération de la qualité inspirée de Sachdeva et al. (2024) pour réduire l'occurrence des données de faible qualité.

Distillation des connaissances. Nous échantillonnons 256 logits par jeton et les pondérons en fonction des probabilités de l'enseignant. Les étudiants apprennent la distribution des enseignants dans ces échantillons grâce à la perte d'entropie croisée. La distribution cible des enseignants est fixée à une probabilité nulle pour les logits non échantillonnés et renormalisée.

Original (GB)Quantitatif (GB)
Modèle 1Bbf16 2.00.50.7 1.0
+KV2.91.41.6 1.9
4B8.02.62.9 4.4
+KV12.77.37.6 9.1
12B24.06.67.1 12.4
+KV38.921.522.0 27.3
27B54.014.115.3 27.4
+KV72.732.834.0 46.1

2.3 Formation à la perception quantitative

En plus des points de contrôle originaux, nous fournissons des versions quantifiées des modèles dans différents formats standard. Ces versions sont obtenues en affinant chaque modèle en un petit nombre d'étapes (généralement 5 000) à l'aide de l'entraînement quantitatif à la prise de conscience (QAT) (Jacob et al., 2018). Nous utilisons les probabilités des points de contrôle non quantifiés comme cibles et ajustons les données pour qu'elles correspondent aux distributions pré-entraînement et post-entraînement. Sur la base des moteurs d'inférence quantitative open-source les plus populaires (par exemple, llama.cpp), nous nous concentrons sur trois représentations de poids : par canal int4, par bloc int4 et toggle fp8. Dans le tableau 3, nous rapportons les empreintes mémoire des modèles originaux et quantifiés pour différentes représentations de poids, et avec et sans le cache KV pour une longueur de séquence de marqueur de 32k.

2.4 Infrastructure informatique

Nous formons nos modèles en utilisant TPUv4, TPUv5e et TPUv5p comme indiqué dans le tableau 2. Chaque configuration de modèle est optimisée pour minimiser le temps d'apprentissage. Pour le codeur visuel, nous pré-calculons les embeddings pour chaque image et nous entraînons directement en utilisant les embeddings sans augmenter le coût de l'entraînement du modèle de langage.

Les états de l'optimiseur sont partagés en utilisant l'implémentation ZeRO-3 (Ren et al., 2021). Pour l'entraînement multipode, nous effectuons des répliques de données sur le réseau du centre de données re

contexte (textuel)mise en forme
rondes d'utilisateursutilisateur
tour de modèlemodèle
Fin du tour
Exemple de discussion :
Utilisateur : Qui es-tu ? Modèle : Je m'appelle Gemma ! Utilisateur : Qu'est-ce que 2+2 ? Modèle : 2+2=4.
Modèle d'entrée :
[BOS]utilisateur Qui es-tu ? modèle Je m'appelle Gemma ! utilisateur
Qu'est-ce que 2+2 ?
2+2=4.Modèle de sortie :

2.5 Empreinte carbone

L'empreinte carbone du modèle Gemma 3 pré-entraîné est de 1 497,13 tonnes de CO2e. Ce chiffre est estimé sur la base de la consommation d'énergie horaire déclarée par nos centres de données TPU et étendu pour tenir compte de l'énergie supplémentaire consommée pour créer et entretenir les centres de données. Les centres de données de Google sont neutres en carbone, grâce à une combinaison d'efficacité énergétique, d'achats d'énergie renouvelable et de compensation des émissions de carbone. Cette neutralité carbone s'applique à nos formations et aux machines qui les exécutent.

 

3. la mise au point de la commande

Le modèle pré-entraîné a été transformé en un modèle de réglage fin de la commande par une méthode améliorée de post-entraînement (voir tableau 6).

compétence

Notre approche post-entraînement s'appuie sur une version améliorée de Knowledge Distillation (Agarwal et al., 2024 ; Anil et al., 2018 ; Hinton et al., 2015) issue d'une grande faculté informatique, ainsi que sur la phase de fine-tuning RL basée sur des versions améliorées de BOND (Sessa et al., 2024), WARM (Ram et al., 2024b) et WARP (Ram et al. 2024a) dans la phase de mise au point RL.

Objectifs d'apprentissage renforcés

Nous utilisons une variété de fonctions de récompense pour améliorer l'utilité, les mathématiques, le codage, le raisonnement, le suivi des instructions et le multilinguisme tout en minimisant les dommages causés au modèle. Il s'agit notamment de l'apprentissage à partir de modèles de récompense agrégés pondérés formés à l'aide de données de rétroaction humaine (Ram et al., 2024b), de rétroaction sur l'exécution du code (Gehring et al., 2024) et de récompenses réelles pour la résolution de problèmes mathématiques (DeepSeek-AI, 2025 ; Lambert et al., 2024).

Filtrage des données

Nous optimisons soigneusement les données utilisées pour la post-formation afin de maximiser les performances du modèle. Nous filtrons les sorties de modèle qui affichent certaines informations personnelles, qui sont dangereuses ou toxiques, les données mal identifiées et les exemples dupliqués. L'inclusion d'un sous-ensemble de données qui encourage une meilleure attribution contextuelle, la modération et le rejet pour minimiser les illusions améliore également les performances sur les métriques factuelles sans dégrader les performances du modèle sur d'autres métriques.

[BOS] Marquage

Pour les modèles PT et IT où le texte commence par une balise [BOS], il doit être ajouté explicitement, car le texte "[BOS]" ne correspondra pas à une balise [BOS]. Par exemple, Flax dispose d'une option, add_bos = True, pour ajouter automatiquement ce jeton lors de la séparation des mots. Le tableau 4 présente un exemple de formatage d'un modèle informatique.

Formatage PT et IT

Tous les modèles partagent le même désambiguïsateur, avec quelques jetons de contrôle dédiés au formatage IT. Une différence essentielle réside dans le fait que les modèles PT émettent un jeton à la fin de la génération, alors que les modèles IT émettent un jeton à la fin de la génération, comme le montre le tableau 4 pour IT. Par conséquent, la mise au point de l'un ou l'autre type de modèle nécessite également l'ajout de leurs balises de fin de tour respectives.

classementsmodélisationElo95% CIlibéralisationtypologieParamètres #/# activation
1Grok-3-Preview-02-241412+8/-10
1GPT-4.5 - Aperçu1411+11/-11
3Gemini-2.0-Flash-Thinking-Exp-01-211384+6/-5
3Gemini-2.0-Pro-Exp-02-051380+ 5/-6
3ChatGPT-4o-latest (2025-01-29)1377+ 5/-4
6Profondeur de l'eau-R11363+8/-6êtreMdE671B/37B
6Gemini-2.0-Flash-0011357+6/-5
801-2024-12-171352+ 4/-6
9Gemma-3-27B-IT1338+8/-9êtrecomprimé27B
9Qwen2.5-Max1336+ 7/-5
901-aperçu1335+4/-3
903-mini-haute1329+8/-6
13DeepSeek-V31318+8/-6êtreMdE671B/37B
14GLM-4-Plus-01111311+8/-8
14Qwen-Plus-01251310+7/-5
14Claude 3.7 Sonnet1309+ 9/-11
14Gemini-2.0-Flash-Lite1308+5/-5
18Étape-2-16K-Exp1305+ 7/-6
1803-mini1304+ 5/-4
180l-mini1304+4/-3
18Gemini-1.5-Pro-0021302+3/-3
28Meta-Llama-3.1-405B-Instruct-bf161269+4/-3êtrecomprimé405B
38Llama-3.3-70B-Instruct1257+5/-3êtrecomprimé70B
39Qwen2.5-72B-Instruction1257+3/-3êtrecomprimé72B
59Gemma-2-27B-it1220+3/-2êtrecomprimé27B

Tableau 5 - Évaluation des modèles informatiques Gemma 3 27B dans Chatbot Arena (Chiang et al., 2024). Tous les modèles ont été évalués en aveugle, côte à côte, par un évaluateur humain. Les chiffres de Gemma-3-27B-IT sont des résultats préliminaires reçus le 8 mars 2025.Les modèles Gemma-3-27B-IT ont été évalués dans le Chatbot Arena (Chiang et al., 2024) par un évaluateur humain.

 

4. évaluation du modèle final

Dans cette section, nous évaluons le modèle informatique à l'aide d'une série de critères automatisés et d'évaluations humaines, ainsi que de critères statiques tels que MMLU.

4.1 LMSYS Chatbot Arena

Dans cette section, nous présentons les performances de notre modèle de l'IT 27B sur la base de l'étude de l'IT 27B. LMSys Les performances de Gemma 3 27B IT ont été comparées à celles d'autres modèles de pointe lors d'une évaluation en aveugle dans Chatbot Arena (Chiang et al., 2024). Gemma 3 27B IT (1338) est le meilleur modèle dans le top 10, et obtient un score plus élevé que d'autres modèles ouverts non réfléchis tels que DeepSeek-V3 (1318), LLaMA 3 405B (1257), et Qwen2.5-70B (1257), qui sont des modèles beaucoup plus grands. Enfin, Gemma 3 a un Elo significativement plus élevé que Gemma 2, à 1220. Notez que les scores Elo ne prennent pas en compte les capacités visuelles, alors qu'aucun des modèles ci-dessus ne le fait.

4.2 Analyse comparative standardisée

Dans le tableau 6, nous montrons les performances de notre modèle final dans différents points de référence par rapport à nos itérations de modèle précédentes et à Gemini 1.5. Nous n'effectuons pas de comparaison directe avec des modèles externes qui font souvent état de leurs propres configurations d'évaluation, car leur exécution dans notre configuration ne garantit pas une comparaison équitable. Nous encourageons les lecteurs à suivre les classements statiques de tiers pour une comparaison plus équitable des différents modèles. Nous incluons des évaluations supplémentaires de nos modèles sur d'autres points de référence dans l'annexe.

Gemini 1.5Gemini 2.0Gemma 2Gemma 3
FlashProFlashPro2B9B27B1B4B12B27B
MMLU-Pro67.375.877.679.115.646.856.914.743.660.667.5
LiveCodeBench30.734.234.536.01.210.820.41.912.624.629.7
Bird-SQL (dev)45.654.458.759.312.233.846.76.436.347.954.4
GPQA Diamant51.059.160.164.724.728.834.319.230.840.942.4
SimpleQA8.624.929.944.32.85.39.22.24.06.310.0
FACTS Mise à la terre82.980.084.682.843.862.062.436.470.175.874.9
MATH77.986.590.991.827.249.455.648.075.683.889.0
HiddenMath47.252.063.565.21.810.414.815.843.054.560.3
MMMU (val)62.365.971.772.748.859.664.9

Tableau 6 - Comparaison des performances avec le modèle Instruction Trimming (IT) de Gemini 1.5, Gemini 2.0 et Gemma 2 dans les benchmarks à zéro échantillon.

 

5. études d'ablation

Dans cette section, nous nous concentrons sur l'impact des changements architecturaux et sur les nouvelles capacités visuelles de certains des nouveaux modèles.

5.1 Détection de la capacité de pré-entraînement

Nous utilisons plusieurs points de référence standard comme tests pendant le pré-entraînement pour nous assurer que nos modèles capturent des capacités générales. Dans la figure 2, nous comparons la qualité des modèles pré-entraînés de Gemma 2 et 3 sur ces capacités générales, c'est-à-dire la science, le code, la factualité, le multilinguisme, le raisonnement et la vision. Les détails des performances pour les différents benchmarks publics utilisés dans ces graphiques sont résumés dans l'annexe. Dans l'ensemble, nous constatons que, malgré l'ajout de la vision, la nouvelle version s'améliore dans la plupart des catégories. Nous sommes particulièrement préoccupés par le multilinguisme de cette version, qui affecte directement la qualité de nos modèles. Cependant, malgré l'utilisation de techniques de décontamination, il existe toujours un risque de contamination dans ces sondes (Mirzadeh et al., 2024), ce qui rend plus difficile l'obtention de conclusions plus claires.

5.2 Couche d'attention locale : couche d'attention globale

Nous avons mesuré l'impact des changements dans les couches locales et globales d'auto-attention sur la performance et la consommation de mémoire pendant l'inférence.

Local : taux global. Dans la figure 3, nous comparons différents rapports entre les couches d'attention locale et globale. Le modèle Gemma 2 utilise 1:1, et Gemma 3 utilise 5:1. Nous observons que la modification de ce rapport a peu d'effet sur la perplexité.

Taille de la fenêtre coulissante. Dans la figure 4, nous comparons la perplexité de différentes tailles de fenêtres coulissantes pour différentes configurations du rapport global/local de la couche d'attention locale. La fenêtre coulissante peut être réduite de manière significative sans affecter la perplexité.

Impact sur la mémoire cache KV. La figure 5 montre l'équilibre entre le modèle et la mémoire cache KV dans le contexte de 32 000 étiquettes. Nous considérons un modèle 2B avec différents ratios local/global et différentes tailles de fenêtres coulissantes (sw). Nous le comparons à une configuration globalement unique, qui est la configuration standard utilisée dans Gemma 1 et Llama. Nous observons que la configuration "globalement unique" entraîne une surcharge de mémoire de 60%, alors que l'utilisation d'une fenêtre coulissante de 1:3 et de 1024 (sw=1024Dans la figure 6, nous calculons l'utilisation de la mémoire du cache KV en fonction de la longueur du contexte, en utilisant notre architecture 2B (**L:G=5:1, sw=1024**) avec un modèle 2B "globalement unique".

5.3 Activation des contextes longs

Plutôt que d'entraîner 128k séquences à partir de zéro, nous avons pré-entraîné nos modèles à utiliser 32k séquences, puis nous avons mis à l'échelle les modèles 4B, 12B et 27B à 128k tokens à la fin du pré-entraînement tout en remettant à l'échelle le RoPE (Chen et al., 2023). Nous avons constaté qu'un facteur d'échelle de 8 fonctionnait bien dans la pratique. Notamment, par rapport à Gemma 2, nous augmentons également la fréquence de base de la RoPE pour la couche d'auto-attention globale de 10k à 1M, tout en conservant la fréquence de la couche d'auto-attention locale à 10k.Dans la Fig. 7, nous montrons l'effet de la perplexité pour différentes longueurs de contexte. Notre modèle se généralise à 128k, mais la perplexité diminue rapidement au fur et à mesure que l'échelle augmente.

5.4 Petits et grands enseignants

Une constatation commune est que pour former un petit modèle, il est préférable de distiller à partir d'un petit professeur.

Gemma 3 技术报告中文版Gemma 3 技术报告中文版Gemma 3 技术报告中文版Gemma 3 技术报告中文版

Nous pensons que cela est dû au fait que ces études font généralement appel à des enseignants de moindre qualité dans des contextes qui l'emportent sur les avantages liés à l'utilisation de meilleurs enseignants. Nous formons les élèves en utilisant deux enseignants de taille différente, un grand et un petit, pour différentes durées de formation. Dans la figure 8, nous observons que pour des durées de formation courtes, l'enseignant le plus petit est meilleur, mais la tendance s'inverse pour des durées de formation plus longues.

5.5 Encodeur visuel

L'effet de la résolution de l'image. Nous utilisons un codeur visuel basé sur SigLIP (Zhai et al., 2023). Le codeur visuel est gelé et seul le modèle de langage est entraîné. Chaque image de ces données multimodales est représentée par 256 jetons d'image du codeur visuel correspondant. Par conséquent, les codeurs à plus haute résolution utilisent le pooling moyen pour réduire leur sortie à 256 jetons. Par exemple, le codeur de résolution 896 a un pooling moyen 4x4 sur sa sortie. Comme le montre le tableau 7, l'encodeur à plus haute résolution est plus performant que l'encodeur à plus petite résolution.

Gemma 3 技术报告中文版Gemma 3 技术报告中文版

Pan et Scan (P&S). Le P&S permet de capturer des images avec un rapport hauteur/largeur et une résolution d'image proches de leur format d'origine. Dans le tableau 8, nous comparons nos modèles informatiques 27B avec et sans P&S. Comme prévu, la capacité de traiter des images à une résolution proche de la résolution native est très utile pour les tâches qui nécessitent une certaine forme de lecture de texte sur une image, ce qui est particulièrement important pour les modèles de langage visuel.

 

6. mémoire et vie privée

Les modèles linguistiques de grande taille peuvent produire des quasi-répliques de certains des textes utilisés pour la formation (Biderman et al. 2023 ; Carlini et al. 2021, 2022 ; Ippolito et al. 2022 ; Nasr et al. 2023). Un certain nombre de rapports antérieurs ont publié des audits qui quantifient ce risque en mesurant le taux de mémorisation (Anil et al. 2023 ; Chowdhery et al. 2022 ; Gemini team 2023, 2024 ; Gemma team 2024a,b ; LLaMa team 2024). Ce "taux de mémoire "1 est défini comme le rapport entre la génération de modèles qui correspondent aux données d'apprentissage et l'ensemble de la génération de modèles, en utilisant les paramètres suivants. Nous suivons la méthode décrite dans Gemma Team (2024b) pour le mesurer. Plus précisément, nous prélevons un sous-échantillon d'une grande partie des données d'apprentissage uniformément distribuées et nous testons l'extraction de ce contenu à l'aide d'un préfixe de longueur 50 et d'un suffixe de longueur 50 (Nasr et al., 2023). Le texte a été représenté comme "mémoire complète" si tous les tokens de la suite correspondent au suffixe de la source, ou comme "mémoire proche" s'ils correspondent à une distance d'édition de 10%.

La figure 9 compare les taux de mémorisation des modèles Gemma et Gemini ; les modèles sont classés par ordre chronologique inverse, le dernier modèle Gemma 3 se trouvant à gauche. Nous constatons que le modèle Gemma 3 mémorise les textes longs à un taux beaucoup plus faible que le modèle précédent (voir le logarithme de l'axe des ordonnées). Nous n'observons que de faibles différences dans les taux de mémorisation entre les modèles 4B, 12B et 27B, le modèle 1B mémorisant moins que les autres modèles plus grands. En outre, nous avons constaté qu'une plus grande proportion du texte était caractérisée par une mémoire approximative, avec une augmentation relative de la mémoire approximative par rapport à la mémoire complète d'environ 24 fois.

Nous examinons également le taux auquel la génération peut contenir des informations personnelles. Pour identifier les informations personnelles potentielles, nous utilisons le service Google Cloud Sensitive Data Protection (SDP).2 SDP utilise un large éventail de règles de détection pour identifier les textes susceptibles de contenir des informations personnelles.SDP est conçu pour avoir un taux de rappel élevé et ne prend pas en compte le contexte dans lequel l'information peut apparaître, ce qui conduit à de nombreux faux positifs. SDP propose également un large éventail de niveaux de gravité : faible, moyen et élevé. Nous classons un texte comme information personnelle si le SDP le classe dans n'importe quel niveau de gravité. Nous observons que tous les modèles Gemma 3 ne contiennent aucune information personnelle. Cela indique que le taux de données personnelles dans les résultats classés comme souvenirs est inférieur à notre seuil de détection.

Gemma 3 技术报告中文版Gemma 3 技术报告中文版

 

7. responsabilité, sécurité, sûreté

La responsabilité, la sûreté et la sécurité sont essentielles dans le développement du modèle Gemma. Afin de minimiser l'impact sur les utilisateurs de Gemma 3, nous continuons à intégrer des processus de sécurité internes améliorés qui s'exécutent tout au long du flux de travail de développement, alignés sur les récents modèles d'IA de Google (Gemini Team, 2024). Cela met l'accent sur les mesures d'atténuation de la sécurité pendant la formation, ainsi que sur une évaluation robuste et transparente des modèles pour les nouvelles fonctionnalités de conversion d'images en texte.

7.1 Gouvernance et évaluation

Notre approche de l'évaluation des avantages et des risques de Gemma reflète celle décrite dans Gemma 1 (Gemma Team, 2024a) et tient compte des changements dans les modèles de soutien. Nous continuons de penser que l'ouverture de l'IA peut diffuser les avantages de ces technologies à l'ensemble de la société, mais qu'elle doit être évaluée en fonction du risque de préjudice qui peut être causé, tant au niveau individuel qu'institutionnel (Weidinger et al., 2021). Depuis la première version de Gemma, nous avons vu ces modèles conduire plusieurs applications socialement bénéfiques, telles que notre propre ShieldGemma 2, un classificateur de sécurité d'image 4B construit à l'aide de Gemma 3, qui fournit une solution prête à l'emploi pour la sécurité d'image qui produit des étiquettes de sécurité pour les catégories de contenu dangereux, d'exploitation sexuelle et de violence.

La publication du modèle Gemma 3 nécessitera une attention particulière aux changements dans les capacités du modèle et une surveillance étroite des risques évolutifs du LLM multimodal existant (Lin et al., 2024), ainsi qu'une compréhension de la façon dont le modèle est utilisé dans la nature. Bien que nous n'ayons pas encore reçu de rapports d'utilisation malveillante de Gemma, nous restons déterminés à enquêter sur de tels rapports et à travailler avec le monde universitaire et la communauté des développeurs, ainsi qu'à mener notre propre surveillance pour signaler de tels cas.

Malgré l'amélioration des capacités, nous pensons que cette version a un impact négligeable sur le paysage global des risques, étant donné les modèles ouverts plus robustes disponibles.

7.2 Politique de sécurité et mesures d'atténuation pendant la formation

L'un des principaux piliers de l'approche de sécurité de Gemma est de s'aligner sur la politique de sécurité de Google, alignée sur le modèle Gemini (Gemini Team, 2023). Ils sont conçus pour aider à empêcher nos modèles de générer du contenu nuisible, c'est-à-dire

- Abus et exploitation sexuels des enfants
- Divulgation d'informations personnellement identifiables susceptibles de porter préjudice (par exemple, le numéro de sécurité sociale)
- Discours de haine et harcèlement
- Contenu dangereux ou malveillant (y compris la promotion de l'automutilation ou l'enseignement d'activités nuisibles)
- pornographie
- Avis médical contraire au consensus scientifique ou médical

Nous procédons à un filtrage de sécurité approfondi de nos données de pré-entraînement afin de réduire la probabilité que les points de contrôle de pré-entraînement et de mise au point produisent un contenu nuisible. Pour les modèles de mise au point, nous utilisons également SFT et RLHF pour éloigner les modèles des comportements indésirables.

7.3 Évaluation des garanties

Nous soumettons également nos modèles informatiques à une série d'évaluations d'assurance de base afin de comprendre les dommages potentiels que nos modèles pourraient causer. Tout en promouvant les modèles ouverts, nous reconnaissons que l'irréversibilité de la libération des poids exige une évaluation rigoureuse des risques. Nos processus de sécurité internes sont conçus en conséquence, et pour les modèles Gemma précédents, nous avons également mené des évaluations des capacités associées à des risques extrêmes (Phuong et al., 2024 ; Shevlane et al., 2023). Alors que nous continuons à développer et à partager des modèles ouverts, nous suivrons cette heuristique en évaluant de manière approfondie qu'un modèle plus robuste fournit généralement une couverture suffisante pour un modèle moins performant. Nous avons donc donné la priorité à un ensemble d'évaluations simplifiées pour Gemma 3, en réservant les évaluations approfondies de la capacité de résistance aux aléas aux situations dans lesquelles un modèle particulier peut présenter un risque potentiellement plus élevé (comme décrit ci-dessous pour l'évaluation CBRN). Nous avons équilibré la vitesse de développement avec des tests de sécurité ciblés pour nous assurer que nos évaluations étaient ciblées et efficaces, tout en adhérant à nos engagements décrits dans le cadre de sécurité des frontières.

Évaluation de base

L'assurance de base mesure le taux de violation des politiques de sécurité par le modèle, en utilisant un grand nombre de requêtes d'utilisateurs adverses synthétiques et en faisant appel à un évaluateur humain pour marquer les réponses selon que les politiques sont violées ou non. Dans l'ensemble, Gemma 3 présente un très faible taux de violation de ces politiques de sécurité.

Connaissances en matière chimique, biologique, radiologique et nucléaire (CBRN)

En raison des performances accrues dans les tâches liées aux STIM, nous avons évalué les connaissances relatives aux risques biologiques, radiologiques et nucléaires à l'aide de questions fermées à choix multiples basées sur les connaissances dans l'ensemble de données interne. Pour l'évaluation des connaissances en chimie, nous avons évalué les risques chimiques à l'aide d'une approche fermée basée sur les connaissances développée par Macknight et al. Notre évaluation a montré que le modèle Gemma 3 a une faible connaissance dans ces domaines.

7.4 Notre approche de la modélisation ouverte et responsable

La conception d'applications sûres, sécurisées et responsables nécessite une approche au niveau du système qui s'efforce d'atténuer les risques associés à chaque cas d'utilisation et à chaque environnement. Nous continuerons à utiliser des évaluations et des mesures d'atténuation de la sécurité proportionnelles aux risques potentiels de nos modèles, et nous ne les partagerons avec la communauté que lorsque nous serons convaincus que les avantages l'emportent clairement sur les risques prévisibles.

 

8. discussion et conclusions

Dans ce travail, nous présentons Gemma 3, le dernier membre de la famille Gemma de modèles de langage open source pour le texte, les images et le code. Dans cette version, nous nous concentrons sur l'ajout de la compréhension des images et des contextes longs, tout en améliorant les capacités multilingues et les capacités liées aux STIM. La taille et l'architecture de notre modèle sont conçues pour être compatibles avec le matériel standard, et la plupart de nos améliorations architecturales sont conçues pour s'adapter à ce matériel tout en maintenant les performances.

© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...