Gemma 3 Zusammenfassung der Kernbotschaft
I. Schlüsselindikatoren
parametrisch | Einzelheiten |
---|---|
Modellgröße | 100 Millionen bis 27 Milliarden Parameter in vier Versionen: 1B, 4B, 12B, 27B |
bauen | auf der Grundlage von Transformator Die decoderspezifische Architektur, die von Gemma 2 übernommen wurde, mit einer Reihe von Verbesserungen |
multimodale Fähigkeit | Unterstützt Text- und Bildeingaben und verwendet einen angepassten visuellen SigLIP-Kodierer, um Bilder in 256 Soft-Tags zu kodieren |
Länge des Kontexts | Das Modell 1B unterstützt 32K Tags, die übrigen Modelle unterstützen 128K Tags. |
Aufmerksamkeitsmechanismus | 5:1-Verschachtelungsmuster der lokalen/globalen Aufmerksamkeitsschicht, wobei sich die lokale Schicht über 1024 Token erstreckt |
Ausbildungsmethoden | Vorschulung durch Wissensdestillation und Feinabstimmung der Anweisungen durch verbesserte Nachschulungsmethoden |
Daten vor dem Training | Menge der Vorübungsdaten: 1B Modell 2T Token, 4B Modell 4T Token, 12B Modell 12T Token, 27B Modell 14T Token |
Mehrsprachigkeit | Vergleich der Verwendung von Zwillinge 2.0 Derselbe SentencePiece-Klassifikator mit 262k Einträgen im Vokabular, unterstützt mehrere Sprachen |
Quantitative Unterstützung | Es sind Quantisierungsversionen in verschiedenen Standardformaten erhältlich, darunter int4 pro Kanal, int4 pro Block und toggle fp8. |
Ausbildungsinfrastruktur | Training mit TPUv4, TPUv5e und TPUv5p mit ZeRO-3-Optimierung, Sharding und Datenreplikationsstrategie |
CO2-Fußabdruck | Mit einem vorab ermittelten CO2-Fußabdruck von 1497,13 Tonnen CO2e sind die Google-Rechenzentren klimaneutral! |
II. Vorteile
- Ausgezeichnetes multimodales Verständnis
- Gemma 3 enthält einen visuellen Kodierer, der Text- und Bildeingaben verarbeiten kann und bei multimodalen Aufgaben gut abschneidet.
- Gute Leistungen bei visuellen Tests wie DocVQA, InfoVQA, TextVQA und anderen, insbesondere bei Aufgaben, die das Verstehen von Dokumenten und das Lesen von Text in Bildern beinhalten.
- Im Vergleich zu PaliGemma 2 schneidet Gemma 3 bei Aufgaben zum Dokumentverständnis wie DocVQA und InfoVQA besser ab.
- Durch den Einsatz der Pan & Scan (P&S)-Technologie kann Gemma 3 Bilder in nahezu natürlicher Auflösung verarbeiten, was die Leistung bei visuellen Sprachaufgaben weiter verbessert.
- Gemma 3 enthält einen visuellen Kodierer, der Text- und Bildeingaben verarbeiten kann und bei multimodalen Aufgaben gut abschneidet.
- Leistungsstarke Verarbeitung langer Kontexte
- Die Unterstützung der Kontextlänge von 128K Token (32K für 1B-Modelle) ist bei der Arbeit mit langen Textaufgaben von Vorteil.
- Gute Leistungen bei Benchmarks mit langem Kontext wie RULER und MRCR.
- Das Verschachtelungsmuster der lokalen/globalen Aufmerksamkeitsschicht und das Design der lokalen Schicht mit kurzer Spanne steuern den Speicherverbrauch des KV-Cache effektiv, während die Fähigkeit zur Verarbeitung langer Kontexte erhalten bleibt.
- Die Unterstützung der Kontextlänge von 128K Token (32K für 1B-Modelle) ist bei der Arbeit mit langen Textaufgaben von Vorteil.
- Förderung der Mehrsprachigkeit
- Verwendung eines ausgewogeneren nicht-englischsprachigen Lexers und vermehrtes Training mit mehrsprachigen Daten.
- Gute Leistung bei mehrsprachigen Benchmarks wie MGSM, Global-MMLU-Lite und WMT24++.
- Hervorragende Leistung bei sprachübergreifenden Quiz- und Generierungsaufgaben für indische Sprachen wie XQuAD und IndicGenBench.
- Verwendung eines ausgewogeneren nicht-englischsprachigen Lexers und vermehrtes Training mit mehrsprachigen Daten.
- Verbesserte Fähigkeiten in den Bereichen Mathematik, logisches Denken und Codierung
- Die Nachschulungsmethoden sind für mathematische, logische und kodierende Fähigkeiten optimiert.
- Ausgezeichnete Leistung bei MATH, GSM8K, HumanEval und anderen Mathematik- und Code-Benchmarks.
- Gute Leistungen in Multitasking-Benchmarks zum Sprachverständnis wie MMLU, MMLU-Pro und AGIEval.
- Die Nachschulungsmethoden sind für mathematische, logische und kodierende Fähigkeiten optimiert.
- Hohe Modellierungseffizienz
- Die Modelle 1B und 4B haben kleinere Parametergrößen und eignen sich für den Einsatz auf Geräten mit begrenzten Ressourcen.
- Mit der durchschnittlichen Pooling-Technik haben die Modelle Gemma 3 4B und 12B etwa zehnmal niedrigere Migrationskosten als die Modelle PaliGemma 2 9B und 27B bei gleicher Auflösung der visuellen Encodereingänge.
III. Benachteiligungen
- Begrenzte Kenntnisse über chemische, biologische, radiologische und nukleare Stoffe (CBRN)
- Gemma 3 schnitt bei der Bewertung der CBRN-Kenntnisse schlecht ab, da in den Daten vor der Ausbildung keine CBRN-bezogenen Inhalte enthalten waren.
- Dies bedeutet, dass Gemma 3 in Anwendungsszenarien, die CBRN-Bereiche betreffen, möglicherweise keine genauen und zuverlässigen Informationen liefert.
- Mögliche Leistungsengpässe bei der Verarbeitung hochauflösender Bilder
- Während P&S-Techniken die Probleme im Zusammenhang mit nicht quadratischen Seitenverhältnissen und hochauflösenden Bildern lindern können, kann häufiges Zuschneiden und Skalieren von Bildern die Geschwindigkeit der Schlussfolgerungen beeinträchtigen.
- Die Gemma 3 kann bei Anwendungen, die die Verarbeitung von Bildern mit ultrahoher Auflösung oder Echtzeit-Vision-Aufgaben erfordern, Leistungsprobleme haben.
- Das Verständnis für bestimmte Bereiche kann unzureichend sein
- Gemma 3 ist zwar in vielen Bereichen hervorragend, kann aber bestimmte hochspezialisierte Bereiche (z. B. Recht, Medizin usw.) nur begrenzt erfassen.
- Dies erfordert eine weitere Feinabstimmung oder Anpassung an spezifische Anwendungsszenarien.
- Es bestehen gewisse Risiken in Bezug auf Speicherplatz und Datenschutz
- Bei großen Sprachmodellen besteht die Gefahr, dass sie Text erzeugen, der in den Trainingsdaten vorkommt, und Gemma 3 ist da keine Ausnahme.
- Auch wenn die Speicherrate von Gemma 3 geringer ist als bei den Vorgängermodellen, muss mit sensiblen Daten vorsichtig umgegangen werden, um die Privatsphäre der Nutzer nicht zu gefährden.
- Die Fähigkeit, komplexe Zusammenhänge zwischen Ursache und Wirkung zu verstehen, muss verbessert werden.
- Gemma 3 kann bei Aufgaben, die komplexes kausales Denken erfordern, nicht so gut abschneiden wie erwartet.
- Dies erfordert weitere Forschung und eine Verfeinerung des Modells, um seine Leistung bei kausalen Schlussfolgerungen zu verbessern.
Gemma 3 Bewertung
Die Modellreihe Gemma 3 besteht aus vier Versionen, von denen jede eine Basisversion für das Vor-Training (Version mit dem Suffix pt, das für das Vor-Training steht) und eine Version mit Feinabstimmung der Instruktionen (Version mit dem Suffix it, das für die Feinabstimmung der Instruktionen steht) enthält, so dass insgesamt acht Versionen des größeren Modells als Open Source zur Verfügung stehen.
Die maximale Parametergröße des Gemma 3-27B IT hat eine fp16-Präzisionsgröße von 54,8 GB, 27 GB nach der INT8-Quantisierung mit zwei verfügbaren 4090ern, und die INT4-Quantisierung erfordert 14 GB Videospeicher, was für einen einzelnen 4090er völlig ausreichend ist.
Und diese Version des Modells hat sehr gut abgeschnitten und 1.338 Punkte (Stand: 8. März 2025) in der Big Models Anonymous Arena (Chatbot Arena) erzielt, was Platz 9 in der Welt hinter dem Modell o1-2024-12-17 und vor Modellen wie Qwen 2.5-Max und DeepSeek V3 bedeutet.
Laut Googles offizieller Erklärung ist diese Gemma 3-Serie ein bedeutendes Upgrade, wobei die Gemma 3-4B-Version auf einem Niveau nahe dem der Gemma 2-27B modelliert, während die Gemma 3-27B nahe dem der Gemini 1.5-Pro ist!
Gemma 3 Erlebnisort
https://aistudio.google.com/prompts/new_chat?model=gemma-3-27b-it
https://ollama.com/library/gemma3
Zusammenfassungen
Gemma 3 ist ein leistungsfähiges multimodales Makro-Sprachmodell, das sich durch multimodales Verstehen, lange Kontextverarbeitung, Mehrsprachigkeit, Mathematik, logisches Denken und Code auszeichnet. Es ist jedoch noch ausbaufähig in den Bereichen CBRN-Wissen, hochauflösende Bildverarbeitung, bereichsspezifisches Verständnis, Speicher- und Datenschutzrisiken und komplexes kausales Denken.
Vollständiger technischer Bericht:https://storage.googleapis.com/deepmind-media/gemma/Gemma3Report.pdf
Wir haben Gemma 3 vorgestellt, eine multimodale Erweiterung der Gemma-Familie von leichtgewichtigen Open-Source-Modellen mit Parametergrößen von 100 Millionen bis 27 Milliarden. Diese Version bietet visuelle Verstehensfunktionen, Unterstützung für mehr Sprachen und größere Kontextlängen - mindestens 128K Token. Wir haben auch Verbesserungen an der Modellarchitektur vorgenommen, um den KV-Cache-Speicher zu reduzieren, der mit zunehmender Kontextlänge dramatisch wächst. Das Modell Gemma 3 wird durch Wissensdestillation trainiert und übertrifft Gemma 2 sowohl in der vortrainierten als auch in der auf die Instruktionen abgestimmten Version, wobei unser neuartiger Post-Training-Ansatz insbesondere die Mathematik-, Chat-, Instruktionstreue- und Mehrsprachenfähigkeiten deutlich verbessert, so dass Gemma3-4B -IT vergleichbar mit Gemma2-27B-IT und Gemma3-27B-IT vergleichbar mit Gemini-1.5-Pro in Benchmarks. Wir geben alle Modelle für die Gemeinschaft frei.
1. einleitung
Wir präsentieren die neueste Version des Open-Source-Sprachmodells Gemma (Gemma Team, 2024a), das gemeinsam mit der Gemini-Familie von Grenzmodellen (Gemini Team, 2023) entwickelt wurde. Diese neue Version ist von der Größe her vergleichbar mit Gemma 2 (Gemma Team, 2024b) und bietet zusätzlich ein Modell mit 1 Milliarde Parametern. Diese Modelle sollen auf Standard-Hardware für Verbraucher wie Mobiltelefonen, Laptops und High-End-GPUs laufen. Diese Version bringt mehrere neue Funktionen in die Gemma-Familie, nämlich Multimodalität, lange Kontexte und Mehrsprachigkeit, während die Leistung der vorherigen Versionen beibehalten oder übertroffen wird.
Was die Multimodalität betrifft, so sind die meisten Gemma-3-Modelle mit dem benutzerdefinierten visuellen SigLIP-Codierer (Zhai et al., 2023) kompatibel. Das Sprachmodell behandelt Bilder als Sequenzen von Soft-Tokens, die von SigLIP kodiert werden. Wir reduzieren die Inferenzkosten der Bildverarbeitung, indem wir die visuelle Einbettung in 256 Vektoren mit fester Größe komprimieren. Der Kodierer arbeitet mit einer festen Auflösung, und wir lassen uns von LLaVA (Liu et al., 2024) inspirieren, um eine flexible Auflösung durch einen Pan-and-Scan (P&S)-Ansatz zu erreichen.
Die zweite wichtige architektonische Verbesserung ist die Erhöhung der Kontextgröße auf 128K Token ohne Leistungseinbußen. Eine Herausforderung bei langen Kontexten ist die Explosion des Speichers im KV-Cache während der Inferenz. Um dieses Problem zu verringern, haben wir mehrere lokale Schichten zwischen jede globale Schicht geschaltet und die Spanne der lokalen Schichten auf nur 1024 Token festgelegt. Somit ist nur die globale Ebene mit langen Kontexten befasst, und wir haben 1 globale Ebene für jeweils 5 lokale Ebenen.
Der Optimierungsansatz vor dem Training ähnelt dem von Gemma 2, allerdings mit einigen Änderungen an der Architektur. Wir verwenden denselben Disambiguator wie in Gemini 2.0, und wir haben auch unsere Strategie zur Datenmischung überarbeitet, um die mehrsprachigen Fähigkeiten der Modelle zu verbessern, und haben ein Bildverständnis eingeführt. Alle Gemma-3-Modelle wurden durch Wissensdestillation trainiert (Hinton et al., 2015).
In der Nachschulung konzentrieren wir uns auf die Verbesserung von Mathematik, logischem Denken und Chat-Fähigkeiten sowie auf die Integration der neuen Funktionen von Gemma 3, lange Kontexte und Bildeingabe. Wir verwenden einen neuartigen Nachtrainingsansatz, um alle Fähigkeiten in den Bereichen Mathematik, Codierung, Chat, Befolgen von Befehlen und Mehrsprachigkeit zu verbessern. Das daraus resultierende Feinabstimmungsmodell für Gemma 3-Anweisungen ist sowohl leistungsstark als auch vielseitig und übertrifft seinen Vorgänger in Benchmarks deutlich.
In den folgenden Abschnitten geben wir einen kurzen Überblick über unser Modell, einschließlich der Architektur sowie der Vor- und Nachtrainingsmethoden. Außerdem geben wir eine detaillierte Bewertung anhand verschiedener quantitativer und qualitativer Benchmark-Tests. Wir erörtern Ansätze für einen sicheren, verantwortungsvollen Einsatz und skizzieren die weitergehenden Auswirkungen von Gemma 3, seine Grenzen und Vorteile.
Dies ist eine Aufschlüsselung der Kosten und Trinkgeldberechnungen auf der Grundlage von Quittungen:
1.Ermitteln Sie die Kosten für Aufschnitt:Auf der Quittung steht "1x Zürcher Geschnetzeltes + Rosti" für CHF 36.50. Es handelt sich um ein Geschnetzeltes mit Bratkartoffeln (Rosti). 2. Dies ist ein Aufschnittgericht mit Bratkartoffeln (Rosti). 2.Berechnen Sie die Spitze für 18%:Betrag des Trinkgeldes = CHF 36.5 * 0.18 = CHF 6.57 3.Berechnen Sie den Gesamtbetrag:Total = CHF 36.50 + CHF 6.57 = CHF 43.07
2. modellhafte Architektur
Das Modell Gemma 3 folgt der gleichen generischen decoderspezifischen Transformer-Architektur wie frühere Generationen von Modellen (Vaswani et al., 2017), wobei die meisten architektonischen Elemente denen der ersten beiden Gemma-Versionen ähneln. Wir verwenden Grouped Query Attention (GQA) (Ainslie et al., 2023) sowie Post-Normalisierung und Pre-Normalisierung mit RMSNorm (Zhang und Sennrich, 2019). Inspiriert von Dehghani et al. (2023), Wortsman et al. (2023) und dem Team von Chameleon (2024), ersetzen wir die Soft Caps von Gemma 2 durch QK-Normalisierung. In diesem Abschnitt heben wir einige wichtige Unterschiede zu früheren Generationen von Modellen hervor.
5:1 Verschachtelung der lokalen/globalen Ebene. Wir wechselten zwischen lokaler Sliding-Window-Selbstaufmerksamkeit (Beltagy et al., 2020) und globaler Selbstaufmerksamkeit (Luong et al., 2015), mit einem Wechselmuster von 1 globalen Schicht für jeweils 5 lokale Schichten, beginnend mit der lokalen Schicht als erste Schicht des Modells.
Modellierung | visueller Encoder | Parameter für die Einbettung | Nicht eingebettete Parameter |
---|---|---|---|
1B | 0 | 302M | 698M |
4B | 417M | 675M | 3,209M |
12B | 417M | 1,012M | 10,759M |
27B | 417M | 1,416M | 25,600M |
Langer Kontext. Die Gemma 3-Modelle unterstützen eine Kontextlänge von 128K Token, mit Ausnahme des 1B-Modells, das eine Kontextlänge von 32K hat. Wir erhöhen die RoPE-Basisfrequenz der globalen Selbstaufmerksamkeitsschicht von 10k auf 1M und behalten die Frequenz der lokalen Schicht bei 10k. Wir folgen einem ähnlichen Prozess wie die Positionsinterpolation von Chen et al. (2023), um die Spanne der globalen Selbstaufmerksamkeitsschicht zu erweitern.
2.1 Visuelle Modalitäten
Visueller Encoder. Wir verwendeten die 400M-Variante des SigLIP-Encoders (Zhai et al., 2023), einen visuellen Transformer (Dosovitskiy, 2020), der auf einer Variante des CLIP-Verlustes (Radford et al., 2021) trainiert wurde. als Eingabe und wurde mit den Daten der Visual Assistant-Aufgabe feinabgestimmt. Der Einfachheit halber teilten wir den visuellen Kodierer zwischen den 4B-, 12B- und 27B-Modellen und ließen ihn während des Trainings eingefroren.
Schwenken und Scannen (P&S). Der visuelle Encoder Gemma arbeitet mit einer festen Auflösung von 896x896. Bei nicht-quadratischen Seitenverhältnissen und hochauflösenden Bildern kann dies zu Bildverzerrungen führen, so dass Text unlesbar wird oder kleine Objekte verschwinden. Wir lösen dieses Problem, indem wir einen adaptiven Fensterungsalgorithmus zur Inferenzzeit verwenden. Dieser Algorithmus unterteilt das Bild in gleich große, nicht überlappende Blöcke, die das gesamte Bild abdecken, und verkleinert es auf 896x896 Pixel, um es an den Encoder weiterzuleiten. Diese Fensterung wird nur bei Bedarf angewendet und steuert die maximale Anzahl der Ausschnitte. Dies ist eine reine Inferenzoptimierung, die deaktiviert werden kann, um die Inferenz zu beschleunigen.
Scherben | ||||
---|---|---|---|---|
Modellierung | Typologie | Anzahl der Chips | Datenreihen | Kopien |
1B | TPUv5e | 512 | 16 16 | 2 |
4B | TPUv5e | 2048 | 16 16 | 8 |
12B | TPUv4 | 6144 | 16 16 | 24 |
27B | TPUv5p | 6144 | 24 8 | 32 |
2.2 Vorschulung
Wir folgten einem ähnlichen Rezept für die Vorschulung wie Gemma 2 mit Wissensdestillation.
Trainingsdaten. Wir haben unser Modell mit einem etwas größeren Tagging-Budget als Gemma 2 trainiert, d.h. wir haben 14T Tags verwendet, um Gemma 3 27B zu trainieren, 12T Tags, um die 12B-Version zu trainieren, 4T Tags, um 4B zu trainieren, und 2T Tags, um 1B zu trainieren.Die Erhöhung der Tags war notwendig, um die Mischung aus Bildern und Text zu berücksichtigen, die während des Vortrainings verwendet wurde. Wir haben auch die Menge der mehrsprachigen Daten erhöht, um die Sprachabdeckung zu verbessern. Wir fügten einsprachige und parallele Daten hinzu und verwendeten eine von Chung et al. (2023) inspirierte Strategie, um Ungleichgewichte in der Sprachrepräsentation auszugleichen.
Splitter. Wir verwenden denselben Lexer wie Gemini 2.0: einen SentencePiece-Lexer mit geteilten Ziffern, erhaltenen Leerzeichen und Kodierung auf Byte-Ebene (Kudo und Richardson, 2018). Das resultierende Vokabular hat 262k Einträge. Dieser Lexer ist für nicht-englische Sprachen ausgewogener.
Filtern. Wir setzen Filtertechniken ein, um das Risiko der Erzeugung unerwünschter oder unsicherer Diskurse zu verringern und bestimmte persönliche Informationen und andere sensible Daten zu entfernen. Wir dekontaminieren die Auswertungsmenge in der Datenmischung vor dem Training und verringern das Risiko von Wiederholungen, indem wir die Verbreitung sensibler Ausgaben minimieren. Außerdem wenden wir einen Schritt zur Neugewichtung der Qualität an, der von Sachdeva et al. (2024) inspiriert wurde, um das Auftreten von Daten geringer Qualität zu reduzieren.
Wissensdestillation. Wir nehmen eine Stichprobe von 256 Logits pro Token und gewichten sie nach den Wahrscheinlichkeiten der Lehrer. Die Schüler lernen die Verteilung der Lehrer über diese Stichproben durch Kreuzentropieverlust. Die Zielverteilung der Lehrer wird für die nicht gesampelten Logits auf eine Wahrscheinlichkeit von Null gesetzt und renormiert.
Original (GB) | Quantitativ (GB) | |||
---|---|---|---|---|
Modell 1B | bf16 2.0 | 0.5 | 0.7 1.0 | |
+KV | 2.9 | 1.4 | 1.6 1.9 | |
4B | 8.0 | 2.6 | 2.9 4.4 | |
+KV | 12.7 | 7.3 | 7.6 9.1 | |
12B | 24.0 | 6.6 | 7.1 12.4 | |
+KV | 38.9 | 21.5 | 22.0 27.3 | |
27B | 54.0 | 14.1 | 15.3 27.4 | |
+KV | 72.7 | 32.8 | 34.0 46.1 |
2.3 Quantitatives Wahrnehmungstraining
Zusätzlich zu den ursprünglichen Kontrollpunkten stellen wir quantisierte Versionen der Modelle in verschiedenen Standardformaten zur Verfügung. Diese Versionen werden durch Feinabstimmung jedes Modells in einer kleinen Anzahl von Schritten (typischerweise 5.000) mit Quantitative Awareness Training (QAT) (Jacob et al., 2018) gewonnen. Wir verwenden die Wahrscheinlichkeiten der nicht quantifizierten Kontrollpunkte als Ziele und passen die Daten an, um die Verteilungen vor und nach dem Training anzugleichen. Basierend auf den populärsten Open-Source Quantitative Inference Engines (z. B. llama.cpp) konzentrieren wir uns auf drei Gewichtungsrepräsentationen: pro Kanal int4, pro Block int4 und Toggle fp8. In Tabelle 3 sind die Speicherauslastungen des ursprünglichen und des quantisierten Modells für verschiedene Gewichtungsrepräsentationen sowie mit und ohne KV-Cache für eine 32k Marker-Sequenzlänge aufgeführt.
2.4 EDV-Infrastruktur
Wir trainieren unsere Modelle mit TPUv4, TPUv5e und TPUv5p, wie in Tabelle 2 dargestellt. Jede Modellkonfiguration wird optimiert, um die Trainingszeit zu minimieren. Für den visuellen Codierer berechnen wir die Einbettungen für jedes Bild im Voraus und trainieren direkt mit den Einbettungen, ohne die Kosten für das Sprachmodelltraining zu erhöhen.
Die Optimierungszustände werden mithilfe der ZeRO-3-Implementierung (Ren et al., 2021) geshared. Für das Multi-Pod-Training führen wir Datenreplikationen im Netzwerk des Datenzentrums durch.
(inhaltlicher) Kontext | Formatierung |
---|---|
Benutzerrunden | Benutzer |
Modellumdrehung | Modell |
Ende der Runde | |
Diskussion Beispiel: | |
Benutzer: Wer bist du? Modell: Mein Name ist Gemma! Benutzer: Was ist 2+2? Modell: 2+2=4. | |
Modell Eingabe: | |
[BOS]user Wer bist du? model Mein Name ist Gemma! user | |
Was ist 2+2? | |
2+2=4. | Modellausgabe: |
2.5 Kohlenstoff-Fußabdruck
Der CO2-Fußabdruck des vortrainierten Gemma 3-Modells beträgt 1497,13 Tonnen CO2e. Dieser Wert wurde auf der Grundlage des von unseren TPU-Rechenzentren gemeldeten stündlichen Energieverbrauchs geschätzt und um die zusätzliche Energie erweitert, die für die Einrichtung und Wartung der Rechenzentren benötigt wird. Die Google-Rechenzentren sind klimaneutral, was durch eine Kombination aus Energieeffizienz, dem Kauf von erneuerbaren Energien und Kohlenstoffkompensationen erreicht wird. Diese Kohlenstoffneutralität gilt für unsere Schulungen und die Maschinen, die sie ausführen.
3. die Feinabstimmung der Befehle
Das vortrainierte Modell wurde durch ein verbessertes Nachtrainingsverfahren in ein Modell zur Befehlsfeinabstimmung umgewandelt (siehe Tabelle 6).
Fähigkeiten
Unser Post-Training-Ansatz stützt sich auf eine verbesserte Version von Knowledge Distillation (Agarwal et al., 2024; Anil et al., 2018; Hinton et al., 2015) aus einer großen IT-Fakultät sowie auf die RL-Feinabstimmungsphase, die auf verbesserten Versionen von BOND (Sessa et al., 2024), WARM (Ram et al., 2024b) und WARP (Ram et al. , 2024a) in der RL-Feinabstimmungsphase.
Erhöhte Lernziele
Wir verwenden eine Vielzahl von Belohnungsfunktionen, um die Nützlichkeit, die Mathematik, die Codierung, das logische Denken, das Befolgen von Anweisungen und die Mehrsprachigkeit zu verbessern und gleichzeitig den Modellschaden zu minimieren. Dazu gehört das Lernen aus gewichteten aggregierten Belohnungsmodellen, die mit menschlichen Feedbackdaten trainiert wurden (Ram et al., 2024b), Feedback zur Codeausführung (Gehring et al., 2024) und echte Belohnungen für das Lösen mathematischer Probleme (DeepSeek-AI, 2025; Lambert et al., 2024).
Filtern von Daten
Wir optimieren die im Post-Training verwendeten Daten sorgfältig, um die Modellleistung zu maximieren. Wir filtern Modellausgaben heraus, die bestimmte persönliche Informationen anzeigen, unsicher oder giftig sind, falsch selbst identifizierte Daten und doppelte Beispiele. Die Einbeziehung einer Teilmenge von Daten, die eine bessere kontextuelle Zuordnung, Moderation und Zurückweisung fördert, um Täuschungen zu minimieren, verbessert auch die Leistung bei faktischen Metriken, ohne die Modellleistung bei anderen Metriken zu beeinträchtigen.
[BOS] Kennzeichnung
Bei PT- und IT-Modellen, bei denen der Text mit einem [BOS]-Tag beginnt, muss es explizit hinzugefügt werden, da der Text "[BOS]" nicht auf ein [BOS]-Tag abgebildet wird. Flax verfügt zum Beispiel über die Option add_bos = True, mit der dieses Token bei der Worttrennung automatisch hinzugefügt wird. Tabelle 4 zeigt ein Beispiel für die Formatierung eines IT-Modells.
PT- und IT-Formatierung
Alle Modelle verwenden denselben Disambiguator, wobei einige Kontrolltoken für die IT-Formatierung bestimmt sind. Ein wesentlicher Unterschied besteht darin, dass PT-Modelle am Ende der Generierung ein Token ausgeben, während IT-Modelle am Ende der Generierung ein -Token ausgeben, wie für IT in Tabelle 4 gezeigt. Daher erfordert die Feinabstimmung beider Modelltypen auch das Hinzufügen der jeweiligen End-of-Turn-Tags.
Ranglisten | Modellierung | Elo | 95% CI | Liberalisierung | Typologie | #-Parameter/#-Aktivierung |
---|---|---|---|---|---|---|
1 | Grok-3-Vorschau-02-24 | 1412 | +8/-10 | |||
1 | GPT-4.5-Vorschau | 1411 | +11/-11 | |||
3 | Gemini-2.0-Flash-Thinking-Exp-01-21 | 1384 | +6/-5 | |||
3 | Gemini-2.0-Pro-Exp-02-05 | 1380 | + 5/-6 | |||
3 | ChatGPT-4o-latest (2025-01-29) | 1377 | + 5/-4 | |||
6 | DeepSeek-R1 | 1363 | +8/-6 | sein | MoE | 671B/37B |
6 | Zwilling-2.0-Blitz-001 | 1357 | +6/-5 | |||
8 | 01-2024-12-17 | 1352 | + 4/-6 | |||
9 | Gemma-3-27B-IT | 1338 | +8/-9 | sein | komprimiert | 27B |
9 | Qwen2.5-Max | 1336 | + 7/-5 | |||
9 | 01-Vorschau | 1335 | +4/-3 | |||
9 | 03-mini-hoch | 1329 | +8/-6 | |||
13 | DeepSeek-V3 | 1318 | +8/-6 | sein | MoE | 671B/37B |
14 | GLM-4-Plus-0111 | 1311 | +8/-8 | |||
14 | Qwen-Plus-0125 | 1310 | +7/-5 | |||
14 | Claude 3.7 Sonett | 1309 | + 9/-11 | |||
14 | Zwillinge-2.0-Flash-Lite | 1308 | +5/-5 | |||
18 | Stufe-2-16K-Exp | 1305 | + 7/-6 | |||
18 | 03-mini | 1304 | + 5/-4 | |||
18 | 0l-mini | 1304 | +4/-3 | |||
18 | Zwilling-1.5-Pro-002 | 1302 | +3/-3 | |||
28 | Meta-Llama-3.1-405B-Instruct-bf16 | 1269 | +4/-3 | sein | komprimiert | 405B |
38 | Llama-3.3-70B-Instruct | 1257 | +5/-3 | sein | komprimiert | 70B |
39 | Qwen2.5-72B-Instruct | 1257 | +3/-3 | sein | komprimiert | 72B |
59 | Gemma-2-27B-it | 1220 | +3/-2 | sein | komprimiert | 27B |
Tabelle 5 | Bewertung von Gemma 3 27B IT-Modellen in Chatbot Arena (Chiang et al., 2024). Alle Modelle wurden von einem menschlichen Bewerter blind nebeneinander bewertet. Die Gemma-3-27B-IT Zahlen sind vorläufige Ergebnisse, die am 8. März 2025 eingegangen sind. Die Gemma-3-27B-IT Modelle wurden in der Chatbot Arena (Chiang et al., 2024) von einem menschlichen Bewerter bewertet.
4. endgültige Bewertung des Modells
In diesem Abschnitt bewerten wir das IT-Modell anhand einer Reihe automatisierter Benchmarks und menschlicher Bewertungen sowie statischer Benchmarks wie MMLU.
4.1 LMSYS Chatbot-Arena
In diesem Abschnitt berichten wir darüber, wie gut unser Modell IT 27B auf den LMSys Leistung in einer blinden Seite-an-Seite-Bewertung anderer hochmoderner Modelle in Chatbot Arena (Chiang et al., 2024). Wir geben die Elo-Werte in Tabelle 5 an.Gemma 3 27B IT (1338) ist das beste Modell in den Top 10 und schneidet besser ab als andere nicht denkende offene Modelle wie DeepSeek-V3 (1318), LLaMA 3 405B (1257) und Qwen2.5-70B (1257), die viel größere Modelle sind. Schließlich hat Gemma 3 mit 1220 einen deutlich höheren Elo-Wert als Gemma 2. Beachten Sie, dass die Elo-Werte die visuellen Fähigkeiten nicht berücksichtigen, während dies bei keinem der oben genannten Modelle der Fall ist.
4.2 Standardisiertes Benchmarking
In Tabelle 6 zeigen wir die Leistung unseres endgültigen Modells in verschiedenen Benchmarks im Vergleich zu unseren früheren Modelliterationen und Gemini 1.5. Wir führen keinen direkten Vergleich mit externen Modellen durch, die häufig ihre eigenen Evaluierungssettings angeben, da die Ausführung in unserem Setup keinen fairen Vergleich garantiert. Wir empfehlen den Lesern, statische Ranglisten von Drittanbietern zu verfolgen, um einen faireren Vergleich verschiedener Modelle zu erhalten. Im Anhang finden Sie zusätzliche Bewertungen unserer Modelle für andere Benchmarks.
Zwillinge 1.5 | Zwillinge 2.0 | Gemma 2 | Gemma 3 | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Blitzlicht | Pro | Blitzlicht | Pro | 2B | 9B | 27B | 1B | 4B | 12B | 27B | |||
MMLU-Pro | 67.3 | 75.8 | 77.6 | 79.1 | 15.6 | 46.8 | 56.9 | 14.7 | 43.6 | 60.6 | 67.5 | ||
LiveCodeBench | 30.7 | 34.2 | 34.5 | 36.0 | 1.2 | 10.8 | 20.4 | 1.9 | 12.6 | 24.6 | 29.7 | ||
Vogel-SQL (dev) | 45.6 | 54.4 | 58.7 | 59.3 | 12.2 | 33.8 | 46.7 | 6.4 | 36.3 | 47.9 | 54.4 | ||
GPQA Diamant | 51.0 | 59.1 | 60.1 | 64.7 | 24.7 | 28.8 | 34.3 | 19.2 | 30.8 | 40.9 | 42.4 | ||
SimpleQA | 8.6 | 24.9 | 29.9 | 44.3 | 2.8 | 5.3 | 9.2 | 2.2 | 4.0 | 6.3 | 10.0 | ||
FACTS Erdung | 82.9 | 80.0 | 84.6 | 82.8 | 43.8 | 62.0 | 62.4 | 36.4 | 70.1 | 75.8 | 74.9 | ||
MATH | 77.9 | 86.5 | 90.9 | 91.8 | 27.2 | 49.4 | 55.6 | 48.0 | 75.6 | 83.8 | 89.0 | ||
VersteckteMathematik | 47.2 | 52.0 | 63.5 | 65.2 | 1.8 | 10.4 | 14.8 | 15.8 | 43.0 | 54.5 | 60.3 | ||
MMMU (val) | 62.3 | 65.9 | 71.7 | 72.7 | 48.8 | 59.6 | 64.9 |
Tabelle 6 | Leistungsvergleich mit dem Instruction Trimming (IT)-Modell von Gemini 1.5, Gemini 2.0 und Gemma 2 in Zero-Sample-Benchmarks.
5. ablationsstudien
In diesem Abschnitt konzentrieren wir uns auf die Auswirkungen der architektonischen Änderungen und die neuen visuellen Möglichkeiten einiger der neuen Modelle.
5.1 Erkennung der Kapazität vor dem Training
Wir verwenden mehrere Standard-Benchmarks als Probeläufe während des Vortrainings, um sicherzustellen, dass unsere Modelle allgemeine Fähigkeiten erfassen. In Abbildung 2 vergleichen wir die Qualität der vortrainierten Modelle von Gemma 2 und 3 in Bezug auf diese allgemeinen Fähigkeiten, d.h. Wissenschaft, Code, Faktizität, Mehrsprachigkeit, logisches Denken und Vision. Leistungsdetails für die verschiedenen öffentlichen Benchmarks, die in diesen Diagrammen verwendet werden, sind im Anhang zusammengefasst. Insgesamt lässt sich feststellen, dass die neue Version trotz der Hinzufügung der Vision in den meisten Kategorien besser abschneidet. Wir sind besonders besorgt über die Mehrsprachigkeit dieser Version, die sich direkt auf die Qualität unserer Modelle auswirkt. Trotz des Einsatzes von Dekontaminierungstechniken besteht bei diesen Sonden jedoch immer die Gefahr einer Kontamination (Mirzadeh et al., 2024), was es erschwert, klarere Schlussfolgerungen zu ziehen.
5.2 局部:全局注意力层
我们测量了局部和全局自注意力层的变化对推理过程中性能和内存消耗的影响。
局部:全局比率。 在图 3 中,我们比较了局部到全局注意力层的不同比率。Gemma 2 模型使用 1:1,Gemma 3 使用 5:1。我们观察到改变这个比率对困惑度的影响很小。
滑动窗口大小。 在图 4 中,我们比较了不同滑动窗口大小对于不同全局:局部比率配置的局部注意力层的困惑度。滑动窗口可以显著减少,而不会影响困惑度。
对 KV 缓存内存的影响。 在图 5 中,我们展示了模型与 KV 缓存内存之间的平衡,在 32k 标记的上下文中。我们考虑了一个 2B 模型,具有不同的局部到全局比率和滑动窗口大小(sw)。我们将其与全局唯一配置进行比较,这是 Gemma 1 和 Llama 中使用的标准配置。我们观察到,“全局唯一”配置导致 60% 的内存开销,而使用 1:3 和 1024 的滑动窗口(sw=1024)时减少到不到 15%。在图 6 中,我们计算了 KV 缓存的内存使用量作为上下文长度的函数,使用我们的 2B 架构(**L:G=5:1, sw=1024**)与一个“全局唯一”的 2B 模型。
5.3 启用长上下文
我们不是从头开始训练 128k 序列,而是预训练我们的模型使用 32k 序列,然后在预训练结束时将 4B、12B 和 27B 模型扩展到 128k 标记,同时重新缩放 RoPE(Chen 等人,2023)。我们发现 8 的缩放因子在实践中效果良好。值得注意的是,与 Gemma 2 相比,我们还将全局自注意力层的 RoPE 基频从 10k 增加到 1M,而保持局部自注意力层的频率为 10k。在图 7 中,我们展示了不同上下文长度的困惑度影响。我们的模型推广到 128k,但随着我们继续扩展,困惑度迅速下降。
5.4 小型与大型教师
一个常见的发现是,要训练一个小模型,最好从一个小教师那里进行蒸馏。
我们怀疑这是因为这些研究通常在设置中使用更差的教师会超过使用更好教师的益处。我们使用两个不同大小的教师训练学生,一个大一个小,用于不同的训练期限。在图 8 中,我们观察到,对于短训练期限,小教师更好,但趋势在更长训练中逆转。
5.5 视觉编码器
图像分辨率的影响。 我们使用基于 SigLIP(Zhai 等人,2023)的视觉编码器。视觉编码器被冻结,只有语言模型接受训练。这个多模态数据中的每个图像都由来自相应视觉编码器的 256 个图像标记表示。因此,更高分辨率的编码器使用平均池化来将其输出减少到 256 个标记。例如,896 分辨率编码器在其输出上有 4x4 的平均池化。如表 7 所示,更高分辨率的编码器表现优于较小的编码器。
平移和扫描(P&S)。 P&S 使得以接近其原生长宽比和图像分辨率捕获图像成为可能。在表 8 中,我们比较了我们的 27B IT 模型,有和没有 P&S。如预期的那样,能够以接近原生分辨率处理图像的能力对于需要某种形式读取图像上的文本的任务有很大帮助,这对于视觉语言模型来说尤为重要。
6. 记忆和隐私
大型语言模型可能会产生训练中使用的某些文本的近乎复制(Biderman 等人,2023;Carlini 等人,2021,2022;Ippolito 等人,2022;Nasr 等人,2023)。一些以前的报告发布了审计,通过测量记忆率(Anil 等人,2023;Chowdhery 等人,2022;Gemini 团队,2023,2024;Gemma 团队,2024a,b;LLaMa 团队,2024)来量化这种风险。这个“记忆率”1 定义为模型生成与训练数据匹配的生成与所有模型生成之间的比率,使用以下设置。我们遵循 Gemma 团队(2024b)中描述的方法来测量它。具体来说,我们从训练数据中统一分布的较大部分进行子采样,并使用长度为 50 的前缀和长度为 50 的后缀测试对此内容的可发现提取(Nasr 等人,2023)。如果延续中的所有标记与源后缀匹配,则将文本表示为“完全记忆”,如果它们匹配到编辑距离为 10% 的范围内,则表示为“近似记忆”。
图 9 比较了 Gemma 和 Gemini 模型的记忆率;这些模型按逆时间顺序排列,最新的 Gemma 3 模型在左边。我们发现,Gemma 3 模型以比之前模型低得多的速率记忆长篇文本(注意对数 y 轴)。我们观察到 4B、12B 和 27B 模型之间的记忆率只有微小的差异,1B 记忆较少比其他更大的模型。此外,我们发现更大比例的文本被表征为近似记忆,与完全记忆相比,近似记忆的相对增加大约是 24 倍。
我们还研究了生成中可能包含个人信息的速率。为了识别潜在的个人信息,我们使用谷歌云敏感数据保护(SDP)服务。2 SDP 使用广泛的检测规则来识别可能包含个人信息的文本。SDP 旨在具有高召回率,不考虑信息可能出现的环境,这导致许多误报。因此,我们可能高估了输出中包含的个人信息的真实数量。SDP 还提供广泛的严重程度级别:低、中和高。如果 SDP 将其分类为任何严重程度级别的个人信息,我们则将文本分类为个人信息。我们观察到所有 Gemma 3 模型的输出中都没有个人信息。这表明在分类为记忆的输出中,个人数据的速率低于我们的检测阈值。
7. 责任、安全、保障
责任、安全和保障在 Gemma 模型开发中至关重要。为了减少对 Gemma 3 用户的影响,我们继续整合增强的内部安全流程,这些流程贯穿于开发工作流程,与最近的谷歌 AI 模型(Gemini 团队,2024)保持一致。这侧重于训练时的安全缓解措施,以及对新的图像到文本功能的强大而透明的模型评估。
7.1 治理与评估
我们对评估 Gemma 的益处和风险的方法反映了 Gemma 1(Gemma 团队,2024a)中所概述的方法,并考虑了支持模式的变化。我们继续相信,AI 的开放性可以将这些技术的益处传播到整个社会,但必须根据可能造成的危害风险进行评估,无论是在个人还是机构层面(Weidinger 等人,2021)。自 Gemma 首次发布以来,我们已经看到这些模型推动了多项社会有益的应用,例如我们自己的 ShieldGemma 2,一个使用 Gemma 3 构建的 4B 图像安全分类器,它提供了一个现成的解决方案,用于图像安全,输出危险内容、性剥削和暴力类别的安全标签。
发布 Gemma 3 模型需要对模型能力的变化给予特别关注,并密切监控现有多模态 LLM(Lin 等人,2024)的不断演变的风险,以及了解模型在野外的使用方式。尽管我们尚未收到任何关于 Gemma 的恶意使用报告,但我们仍然致力于调查任何此类报告,并与学术界和开发者社区合作,以及进行我们自己的监控,以标记此类案例。
尽管能力有所提升,我们认为,鉴于有更多强大的开放模型可用,这个版本对整体风险格局的影响可以忽略不计。
7.2 安全政策和训练时缓解措施
Gemma 安全方法的一个关键支柱是与谷歌安全政策保持一致,与 Gemini 模型(Gemini 团队,2023)保持一致。它们旨在帮助防止我们的模型产生有害内容,即:
• 儿童性虐待和剥削
• 泄露可能导致危害的个人身份信息(例如,社会安全号码)
• 仇恨言论和骚扰
• 危险或恶意内容(包括提倡自我伤害或指导有害活动)
• 色情内容
• 与科学或医学共识相反的医疗建议
我们进行了大量的安全过滤我们的预训练数据,以减少预训练和微调检查点产生有害内容的可能性。对于微调模型,我们还使用 SFT 和 RLHF 来引导模型远离不良行为。
7.3 保障评估
我们还将我们的 IT 模型通过一系列基线保障评估,以了解我们的模型可能造成的潜在危害。由于我们提倡开放模型,我们也认识到,权重发布的不可逆性需要严格的评估风险。我们的内部安全流程相应地设计,对于之前的 Gemma 模型,我们还进行了与极端风险相关的能力的评估(Phuong 等人,2024;Shevlane 等人,2023)。随着我们继续开发和共享开放模型,我们将遵循这样的启发式方法,彻底评估一个更强大的模型通常为能力较低的模型提供足够的保障。因此,我们优先考虑为 Gemma 3 简化评估集,为特定模型可能存在的潜在更高风险的情况保留深入的危险能力评估(如下面关于 CBRN 评估的描述)。我们在平衡开发速度与目标安全测试的同时,确保我们的评估是专注且高效的,同时坚持我们在 Frontier Safety Framework 中概述的承诺。
基线评估
基线保障捕获了模型违反安全政策的比率,使用大量合成的对抗用户查询,并使用人类评估者将答案标记为是否违反政策。总体而言,Gemma 3 对这些安全政策的违规率非常低。
化学、生物、放射性和核(CBRN)知识
由于在 STEM 相关任务上的增强性能,我们使用内部数据集的封闭式知识型多选题评估了与生物、放射性和核风险相关的知识。对于化学知识的评估,我们采用了一种封闭型知识型方法对化学危害进行评估,该方法由 Macknight 等人开发。我们的评估表明,Gemma 3 模型在这些领域中的知识较低。
7.4 我们负责任的开放模型方法
设计安全、可靠和负责任的应用需要系统级的方法,努力缓解与每个特定用例和环境相关的风险。我们将继续采用与我们的模型潜在风险成比例的评估和安全缓解措施,并且只有当我们确信收益明显超过可预见的风险时,才会与社区共享这些。
8. 讨论与结论
在这项工作中,我们介绍了 Gemma 3,这是 Gemma 系列开源语言模型的最新成员,用于文本、图像和代码。在这个版本中,我们专注于添加图像理解和长上下文,同时提高多语言能力和 STEM 相关能力。我们的模型大小和架构旨在与标准硬件兼容,我们的大部分架构改进都是为了适应这种硬件,同时保持性能。