Gemma 3 Technischer Bericht Chinesische Version

AI-WissensdatenbankGeschrieben vor 6 Monaten AI-Austauschkreis

17.7K 00

Gemma 3 Zusammenfassung der Kernbotschaft

I. Schlüsselindikatoren

Parameter	Einzelheiten
Modellgröße	100 Millionen bis 27 Milliarden Parameter in vier Versionen: 1B, 4B, 12B, 27B
bauen	auf der Grundlage von Transformator Die decoderspezifische Architektur, die von Gemma 2 übernommen wurde, mit einer Reihe von Verbesserungen
multimodale Fähigkeit	Unterstützt Text- und Bildeingaben und verwendet einen angepassten visuellen SigLIP-Kodierer, um Bilder in 256 Soft-Tags zu kodieren
Länge des Kontexts	Das Modell 1B unterstützt 32K Tags, die übrigen Modelle unterstützen 128K Tags.
Aufmerksamkeitsmechanismus	5:1-Verschachtelungsmuster der lokalen/globalen Aufmerksamkeitsschicht, wobei sich die lokale Schicht über 1024 Token erstreckt
Ausbildungsmethoden	Vorschulung durch Wissensdestillation und Feinabstimmung der Anweisungen durch verbesserte Nachschulungsmethoden
Daten vor dem Training	Menge der Vorübungsdaten: 1B Modell 2T Token, 4B Modell 4T Token, 12B Modell 12T Token, 27B Modell 14T Token
Mehrsprachigkeit	Vergleich der Verwendung von Zwillinge 2.0 Derselbe SentencePiece-Klassifikator mit 262k Einträgen im Vokabular, unterstützt mehrere Sprachen
Quantitative Unterstützung	Es sind Quantisierungsversionen in verschiedenen Standardformaten erhältlich, darunter int4 pro Kanal, int4 pro Block und toggle fp8.
Ausbildungsinfrastruktur	Training mit TPUv4, TPUv5e und TPUv5p mit ZeRO-3-Optimierung, Sharding und Datenreplikationsstrategie
CO2-Fußabdruck	Mit einem vorab ermittelten CO2-Fußabdruck von 1497,13 Tonnen CO2e sind die Google-Rechenzentren klimaneutral!

II. Vorteile

Ausgezeichnetes multimodales Verständnis
- Gemma 3 enthält einen visuellen Kodierer, der Text- und Bildeingaben verarbeiten kann und bei multimodalen Aufgaben gut abschneidet.
  - Gute Leistungen bei visuellen Tests wie DocVQA, InfoVQA, TextVQA und anderen, insbesondere bei Aufgaben, die das Verstehen von Dokumenten und das Lesen von Text in Bildern beinhalten.
  - Im Vergleich zu PaliGemma 2 schneidet Gemma 3 bei Aufgaben zum Dokumentverständnis wie DocVQA und InfoVQA besser ab.
  - Durch den Einsatz der Pan & Scan (P&S)-Technologie kann Gemma 3 Bilder in nahezu natürlicher Auflösung verarbeiten, was die Leistung bei visuellen Sprachaufgaben weiter verbessert.
Leistungsstarke Verarbeitung langer Kontexte
- Die Unterstützung der Kontextlänge von 128K Token (32K für 1B-Modelle) ist bei der Arbeit mit langen Textaufgaben von Vorteil.
  - Gute Leistungen bei Benchmarks mit langem Kontext wie RULER und MRCR.
  - Das Verschachtelungsmuster der lokalen/globalen Aufmerksamkeitsschicht und das Design der lokalen Schicht mit kurzer Spanne steuern den Speicherverbrauch des KV-Cache effektiv, während die Fähigkeit zur Verarbeitung langer Kontexte erhalten bleibt.
Förderung der Mehrsprachigkeit
- Verwendung eines ausgewogeneren nicht-englischsprachigen Lexers und vermehrtes Training mit mehrsprachigen Daten.
  - Gute Leistung bei mehrsprachigen Benchmarks wie MGSM, Global-MMLU-Lite und WMT24++.
  - Hervorragende Leistung bei sprachübergreifenden Quizzing- und indischen Sprachgenerierungsaufgaben wie XQuAD und IndicGenBench.
Verbesserte Fähigkeiten in den Bereichen Mathematik, logisches Denken und Codierung
- Die Nachschulungsmethoden sind für mathematische, logische und kodierende Fähigkeiten optimiert.
  - Ausgezeichnete Leistung bei MATH, GSM8K, HumanEval und anderen Mathematik- und Code-Benchmarks.
  - Gute Leistungen in Multitasking-Benchmarks zum Sprachverständnis wie MMLU, MMLU-Pro und AGIEval.
Hohe Modellierungseffizienz
- Die Modelle 1B und 4B haben kleinere Parametergrößen und eignen sich für den Einsatz auf Geräten mit begrenzten Ressourcen.
- Mit der durchschnittlichen Pooling-Technik haben die Modelle Gemma 3 4B und 12B etwa zehnmal niedrigere Migrationskosten als die Modelle PaliGemma 2 9B und 27B bei gleicher Auflösung der visuellen Encodereingänge.

III. Benachteiligungen

Begrenzte Kenntnisse über chemische, biologische, radiologische und nukleare Stoffe (CBRN)
- Gemma 3 schnitt bei der Bewertung der CBRN-Kenntnisse schlecht ab, da in den Daten vor der Ausbildung keine CBRN-bezogenen Inhalte enthalten waren.
- Dies bedeutet, dass Gemma 3 in Anwendungsszenarien, die CBRN-Bereiche betreffen, möglicherweise keine genauen und zuverlässigen Informationen liefert.
Mögliche Leistungsengpässe bei der Verarbeitung hochauflösender Bilder
- Während P&S-Techniken die Probleme im Zusammenhang mit nicht quadratischen Seitenverhältnissen und hochauflösenden Bildern lindern können, kann häufiges Zuschneiden und Skalieren von Bildern die Geschwindigkeit der Schlussfolgerungen beeinträchtigen.
- Die Gemma 3 kann bei Anwendungen, die die Verarbeitung von Bildern mit ultrahoher Auflösung oder Echtzeit-Vision-Aufgaben erfordern, Leistungsprobleme haben.
Das Verständnis für bestimmte Bereiche kann unzureichend sein
- Gemma 3 ist zwar in vielen Bereichen hervorragend, kann aber bestimmte hochspezialisierte Bereiche (z. B. Recht, Medizin usw.) nur begrenzt erfassen.
- Dies erfordert eine weitere Feinabstimmung oder Anpassung an spezifische Anwendungsszenarien.
Es bestehen gewisse Risiken in Bezug auf Speicherplatz und Datenschutz
- Bei großen Sprachmodellen besteht die Gefahr, dass sie Text erzeugen, der in den Trainingsdaten vorkommt, und Gemma 3 ist da keine Ausnahme.
- Auch wenn die Speicherrate von Gemma 3 geringer ist als bei den Vorgängermodellen, muss mit sensiblen Daten vorsichtig umgegangen werden, um die Privatsphäre der Nutzer nicht zu gefährden.
Die Fähigkeit, komplexe Zusammenhänge zwischen Ursache und Wirkung zu verstehen, muss verbessert werden.
- Gemma 3 kann bei Aufgaben, die komplexes kausales Denken erfordern, nicht so gut abschneiden wie erwartet.
- Dies erfordert weitere Forschung und eine Verfeinerung des Modells, um seine Leistung bei kausalen Schlussfolgerungen zu verbessern.

Gemma 3 Bewertung

Die Modellreihe Gemma 3 besteht aus vier Versionen, von denen jede eine Basisversion für das Vor-Training (Version mit dem Suffix pt, das für das Vor-Training steht) und eine Version mit Feinabstimmung der Instruktionen (Version mit dem Suffix it, das für die Feinabstimmung der Instruktionen steht) enthält, so dass insgesamt acht Versionen des größeren Modells als Open Source zur Verfügung stehen.

Die maximale Parametergröße des Gemma 3-27B IT hat eine fp16-Präzisionsgröße von 54,8 GB, 27 GB nach der INT8-Quantisierung mit zwei verfügbaren 4090ern, und die INT4-Quantisierung erfordert 14 GB Videospeicher, was für einen einzelnen 4090er völlig ausreichend ist.

Und diese Version des Modells hat sehr gut abgeschnitten, mit 1.338 Punkten (Stand: 8. März 2025) in der Big Models Anonymous Arena (Chatbot Arena), Platz 9 in der Welt hinter dem Modell o1-2024-12-17 und vor Modellen wie Qwen 2.5-Max und DeepSeek V3.

Laut Googles offizieller Erklärung ist diese Gemma 3-Serie ein bedeutendes Upgrade, wobei die Gemma 3-4B-Version auf einem Niveau nahe dem der Gemma 2-27B modelliert, während die Gemma 3-27B nahe dem der Gemini 1.5-Pro ist!

Gemma 3 Erlebnisort

https://aistudio.google.com/prompts/new_chat?model=gemma-3-27b-it

https://ollama.com/library/gemma3

Zusammenfassungen

Gemma 3 ist ein leistungsfähiges multimodales Makro-Sprachmodell, das sich durch multimodales Verstehen, lange Kontextverarbeitung, Mehrsprachigkeit, Mathematik, logisches Denken und Code auszeichnet. Es ist jedoch noch ausbaufähig in den Bereichen CBRN-Wissen, hochauflösende Bildverarbeitung, bereichsspezifisches Verständnis, Speicher- und Datenschutzrisiken und komplexes kausales Denken.

Vollständiger technischer Bericht:https://storage.googleapis.com/deepmind-media/gemma/Gemma3Report.pdf

Wir haben Gemma 3 vorgestellt, eine multimodale Erweiterung der Gemma-Familie von leichtgewichtigen Open-Source-Modellen mit Parametergrößen von 100 Millionen bis 27 Milliarden. Diese Version bietet visuelle Verstehensfunktionen, Unterstützung für mehr Sprachen und größere Kontextlängen - mindestens 128K Token. Wir haben auch Verbesserungen an der Modellarchitektur vorgenommen, um den KV-Cache-Speicher zu reduzieren, der mit zunehmender Kontextlänge dramatisch wächst. Das Modell Gemma 3 wird durch Wissensdestillation trainiert und übertrifft Gemma 2 sowohl in der vortrainierten als auch in der auf die Instruktionen abgestimmten Version, wobei unser neuartiger Post-Training-Ansatz insbesondere die Mathematik-, Chat-, Instruktionstreue- und Mehrsprachenfähigkeiten deutlich verbessert, so dass Gemma3-4B -IT vergleichbar mit Gemma2-27B-IT und Gemma3-27B-IT vergleichbar mit Gemini-1.5-Pro in Benchmarks. Wir geben alle Modelle für die Gemeinschaft frei.

1. einleitung

Wir präsentieren die neueste Version des Open-Source-Sprachmodells Gemma (Gemma Team, 2024a), das gemeinsam mit der Gemini-Familie von Grenzmodellen (Gemini Team, 2023) entwickelt wurde. Diese neue Version ist von der Größe her vergleichbar mit Gemma 2 (Gemma Team, 2024b) und bietet zusätzlich ein Modell mit 1 Milliarde Parametern. Diese Modelle sollen auf Standard-Hardware für Verbraucher wie Mobiltelefonen, Laptops und High-End-GPUs laufen. Diese Version bringt mehrere neue Funktionen in die Gemma-Familie, nämlich Multimodalität, lange Kontexte und Mehrsprachigkeit, während die Leistung der vorherigen Versionen beibehalten oder übertroffen wird.

Was die Multimodalität betrifft, so sind die meisten Gemma-3-Modelle mit dem benutzerdefinierten visuellen SigLIP-Codierer (Zhai et al., 2023) kompatibel. Das Sprachmodell behandelt Bilder als Sequenzen von Soft-Tokens, die von SigLIP kodiert werden. Wir reduzieren die Inferenzkosten der Bildverarbeitung, indem wir die visuelle Einbettung in 256 Vektoren mit fester Größe komprimieren. Der Kodierer arbeitet mit einer festen Auflösung, und wir lassen uns von LLaVA (Liu et al., 2024) inspirieren, um eine flexible Auflösung durch einen Pan-and-Scan (P&S)-Ansatz zu erreichen.

Die zweite wichtige architektonische Verbesserung ist die Erhöhung der Kontextgröße auf 128K Token ohne Leistungseinbußen. Eine Herausforderung bei langen Kontexten ist die Explosion des Speichers im KV-Cache während der Inferenz. Um dieses Problem zu verringern, haben wir mehrere lokale Schichten zwischen jede globale Schicht geschaltet und die Spanne der lokalen Schichten auf nur 1024 Token festgelegt. Somit ist nur die globale Ebene mit langen Kontexten befasst, und wir haben 1 globale Ebene für jeweils 5 lokale Ebenen.

Der Optimierungsansatz vor dem Training ähnelt dem von Gemma 2, allerdings mit einigen Änderungen an der Architektur. Wir verwenden denselben Disambiguator wie in Gemini 2.0, und wir haben auch unsere Strategie zur Datenmischung überarbeitet, um die mehrsprachigen Fähigkeiten der Modelle zu verbessern, und haben ein Bildverständnis eingeführt. Alle Gemma-3-Modelle wurden durch Wissensdestillation trainiert (Hinton et al., 2015).

In der Nachschulung konzentrieren wir uns auf die Verbesserung von Mathematik, logischem Denken und Chat-Fähigkeiten sowie auf die Integration der neuen Funktionen von Gemma 3, lange Kontexte und Bildeingabe. Wir verwenden einen neuartigen Nachtrainingsansatz, um alle Fähigkeiten in den Bereichen Mathematik, Codierung, Chat, Befolgen von Befehlen und Mehrsprachigkeit zu verbessern. Das daraus resultierende Feinabstimmungsmodell für Gemma 3-Anweisungen ist sowohl leistungsstark als auch vielseitig und übertrifft seinen Vorgänger in Benchmarks deutlich.

In den folgenden Abschnitten geben wir einen kurzen Überblick über unser Modell, einschließlich der Architektur sowie der Vor- und Nachtrainingsmethoden. Außerdem geben wir eine detaillierte Bewertung anhand verschiedener quantitativer und qualitativer Benchmark-Tests. Wir erörtern Ansätze für einen sicheren, verantwortungsvollen Einsatz und skizzieren die weitergehenden Auswirkungen von Gemma 3, seine Grenzen und Vorteile.

Dies ist eine Aufschlüsselung der Kosten und Trinkgeldberechnungen auf der Grundlage von Quittungen:

1.Ermitteln Sie die Kosten für Aufschnitt:Auf der Quittung steht "1x Zürcher Geschnetzeltes + Rosti" für CHF 36.50. Es handelt sich um ein Geschnetzeltes mit Bratkartoffeln (Rosti). 2. Dies ist ein Aufschnittgericht mit Bratkartoffeln (Rosti). 2.Berechnen Sie die Spitze für 18%:Betrag des Trinkgeldes = CHF 36.5 * 0.18 = CHF 6.57 3.Berechnen Sie den Gesamtbetrag:Total = CHF 36.50 + CHF 6.57 = CHF 43.07

2. modellhafte Architektur

Das Modell Gemma 3 folgt der gleichen generischen decoderspezifischen Transformer-Architektur wie frühere Generationen von Modellen (Vaswani et al., 2017), wobei die meisten architektonischen Elemente denen der ersten beiden Gemma-Versionen ähneln. Wir verwenden Grouped Query Attention (GQA) (Ainslie et al., 2023) sowie Post-Normalisierung und Pre-Normalisierung mit RMSNorm (Zhang und Sennrich, 2019). Inspiriert von Dehghani et al. (2023), Wortsman et al. (2023) und dem Team von Chameleon (2024), ersetzen wir die Soft Caps von Gemma 2 durch QK-Normalisierung. In diesem Abschnitt heben wir einige wichtige Unterschiede zu früheren Generationen von Modellen hervor.

5:1 Verschachtelung der lokalen/globalen Ebene. Wir wechselten zwischen lokaler Sliding-Window-Selbstaufmerksamkeit (Beltagy et al., 2020) und globaler Selbstaufmerksamkeit (Luong et al., 2015), mit einem Wechselmuster von 1 globalen Schicht für jeweils 5 lokale Schichten, beginnend mit der lokalen Schicht als erste Schicht des Modells.

Modellierung	visueller Encoder	Parameter für die Einbettung	Nicht eingebettete Parameter
1B	0	302M	698M
4B	417M	675M	3,209M
12B	417M	1,012M	10,759M
27B	417M	1,416M	25,600M

Langer Kontext. Die Gemma 3-Modelle unterstützen eine Kontextlänge von 128K Token, mit Ausnahme des 1B-Modells, das eine Kontextlänge von 32K hat. Wir erhöhen die RoPE-Basisfrequenz der globalen Selbstaufmerksamkeitsschicht von 10k auf 1M und behalten die Frequenz der lokalen Schicht bei 10k. Wir folgen einem ähnlichen Prozess wie die Positionsinterpolation von Chen et al. (2023), um die Spanne der globalen Selbstaufmerksamkeitsschicht zu erweitern.

2.1 Visuelle Modalitäten

Visueller Encoder. Wir verwendeten die 400M-Variante des SigLIP-Encoders (Zhai et al., 2023), einen visuellen Transformer (Dosovitskiy, 2020), der auf einer Variante des CLIP-Verlustes (Radford et al., 2021) trainiert wurde. als Eingabe und wurde mit den Daten der Visual Assistant-Aufgabe feinabgestimmt. Der Einfachheit halber teilten wir den visuellen Kodierer zwischen den 4B-, 12B- und 27B-Modellen und ließen ihn während des Trainings eingefroren.

Schwenken und Scannen (P&S). Der visuelle Encoder Gemma arbeitet mit einer festen Auflösung von 896x896. Bei nicht-quadratischen Seitenverhältnissen und hochauflösenden Bildern kann dies zu Bildverzerrungen führen, so dass Text unlesbar wird oder kleine Objekte verschwinden. Wir lösen dieses Problem, indem wir einen adaptiven Fensterungsalgorithmus zur Inferenzzeit verwenden. Dieser Algorithmus unterteilt das Bild in gleich große, nicht überlappende Blöcke, die das gesamte Bild abdecken, und verkleinert es auf 896x896 Pixel, um es an den Encoder weiterzuleiten. Diese Fensterung wird nur bei Bedarf angewendet und steuert die maximale Anzahl der Ausschnitte. Dies ist eine reine Inferenzoptimierung, die deaktiviert werden kann, um die Inferenz zu beschleunigen.

Scherben
Modellierung	Typologie	Anzahl der Chips	Datenreihen	Kopien
1B	TPUv5e	512	16 16	2
4B	TPUv5e	2048	16 16	8
12B	TPUv4	6144	16 16	24
27B	TPUv5p	6144	24 8	32

2.2 Vorschulung

Wir folgten einem ähnlichen Rezept für die Vorschulung wie Gemma 2 mit Wissensdestillation.

Trainingsdaten. Wir haben unser Modell mit einem etwas größeren Tagging-Budget als Gemma 2 trainiert, d.h. wir haben 14T Tags verwendet, um Gemma 3 27B zu trainieren, 12T Tags, um die 12B-Version zu trainieren, 4T Tags, um 4B zu trainieren, und 2T Tags, um 1B zu trainieren.Die Erhöhung der Tags war notwendig, um die Mischung aus Bildern und Text zu berücksichtigen, die während des Vortrainings verwendet wurde. Wir haben auch die Menge der mehrsprachigen Daten erhöht, um die Sprachabdeckung zu verbessern. Wir fügten einsprachige und parallele Daten hinzu und verwendeten eine von Chung et al. (2023) inspirierte Strategie, um Ungleichgewichte in der Sprachrepräsentation auszugleichen.

Splitter. Wir verwenden denselben Lexer wie Gemini 2.0: einen SentencePiece-Lexer mit geteilten Ziffern, erhaltenen Leerzeichen und Kodierung auf Byte-Ebene (Kudo und Richardson, 2018). Das resultierende Vokabular hat 262k Einträge. Dieser Lexer ist für nicht-englische Sprachen ausgewogener.

Filtern. Wir setzen Filtertechniken ein, um das Risiko der Erzeugung unerwünschter oder unsicherer Diskurse zu verringern und bestimmte persönliche Informationen und andere sensible Daten zu entfernen. Wir dekontaminieren die Auswertungsmenge in der Datenmischung vor dem Training und verringern das Risiko von Wiederholungen, indem wir die Verbreitung sensibler Ausgaben minimieren. Außerdem wenden wir einen Schritt zur Neugewichtung der Qualität an, der von Sachdeva et al. (2024) inspiriert wurde, um das Auftreten von Daten geringer Qualität zu reduzieren.

Wissensdestillation. Wir nehmen eine Stichprobe von 256 Logits pro Token und gewichten sie nach den Wahrscheinlichkeiten der Lehrer. Die Schüler lernen die Verteilung der Lehrer über diese Stichproben durch Kreuzentropieverlust. Die Zielverteilung der Lehrer wird für die nicht gesampelten Logits auf eine Wahrscheinlichkeit von Null gesetzt und renormiert.

	Original (GB)	Quantitativ (GB)
Modell 1B	bf16 2.0	0.5	0.7 1.0
+KV	2.9	1.4	1.6 1.9
4B	8.0	2.6	2.9 4.4
+KV	12.7	7.3	7.6 9.1
12B	24.0	6.6	7.1 12.4
+KV	38.9	21.5	22.0 27.3
27B	54.0	14.1	15.3 27.4
+KV	72.7	32.8	34.0 46.1

2.3 Quantitatives Wahrnehmungstraining

Zusätzlich zu den ursprünglichen Kontrollpunkten stellen wir quantisierte Versionen der Modelle in verschiedenen Standardformaten zur Verfügung. Diese Versionen werden durch Feinabstimmung jedes Modells in einer kleinen Anzahl von Schritten (typischerweise 5.000) mit Quantitative Awareness Training (QAT) (Jacob et al., 2018) gewonnen. Wir verwenden die Wahrscheinlichkeiten der nicht quantifizierten Kontrollpunkte als Ziele und passen die Daten an, um die Verteilungen vor und nach dem Training anzugleichen. Basierend auf den populärsten Open-Source Quantitative Inference Engines (z. B. llama.cpp) konzentrieren wir uns auf drei Gewichtungsrepräsentationen: pro Kanal int4, pro Block int4 und Toggle fp8. In Tabelle 3 sind die Speicheranforderungen der ursprünglichen und quantisierten Modelle für verschiedene Gewichtungsrepräsentationen sowie mit und ohne KV-Cache für eine Token-Sequenzlänge von 32k angegeben.

2.4 EDV-Infrastruktur

Wir trainieren unsere Modelle mit TPUv4, TPUv5e und TPUv5p, wie in Tabelle 2 dargestellt. Jede Modellkonfiguration wird optimiert, um die Trainingszeit zu minimieren. Für den visuellen Codierer berechnen wir die Einbettungen für jedes Bild im Voraus und trainieren direkt mit den Einbettungen, ohne die Kosten für das Sprachmodelltraining zu erhöhen.

Die Optimierungszustände werden mithilfe der ZeRO-3-Implementierung (Ren et al., 2021) geshared. Für das Multi-Pod-Training führen wir Datenreplikationen im Netzwerk des Datenzentrums durch.

(inhaltlicher) Kontext	Formatierung
Benutzerrunden	Benutzer
Modellumdrehung	Modell
Ende der Runde
Diskussion Beispiel:
Benutzer: Wer bist du? Modell: Mein Name ist Gemma! Benutzer: Was ist 2+2? Modell: 2+2=4.
	Modell Eingabe:
[BOS]user Wer bist du? model Mein Name ist Gemma! user
Was ist 2+2?
2+2=4.	Modellausgabe:

2.5 Kohlenstoff-Fußabdruck

Der Kohlenstoff-Fußabdruck des vortrainierten Gemma 3-Modells beträgt 1497,13 Tonnen CO2e. Dieser Wert wurde auf der Grundlage des von unseren TPU-Rechenzentren gemeldeten stündlichen Energieverbrauchs geschätzt und um die zusätzliche Energie erweitert, die bei der Einrichtung und Wartung der Rechenzentren verbraucht wird. Die Google-Rechenzentren sind klimaneutral, was durch eine Kombination aus Energieeffizienz, dem Kauf von erneuerbaren Energien und Kohlenstoffkompensationen erreicht wird. Diese Kohlenstoffneutralität gilt für unsere Schulungen und die Maschinen, die sie ausführen.

3. die Feinabstimmung der Befehle

Das vortrainierte Modell wurde durch ein verbessertes Nachtrainingsverfahren in ein Modell zur Befehlsfeinabstimmung umgewandelt (siehe Tabelle 6).

Fähigkeiten

Unser Post-Training-Ansatz stützt sich auf eine verbesserte Version von Knowledge Distillation (Agarwal et al., 2024; Anil et al., 2018; Hinton et al., 2015) aus einer großen IT-Fakultät sowie auf die RL-Feinabstimmungsphase, die auf verbesserten Versionen von BOND (Sessa et al., 2024), WARM (Ram et al., 2024b) und WARP (Ram et al. , 2024a) in der RL-Feinabstimmungsphase.

Erhöhte Lernziele

Wir verwenden eine Vielzahl von Belohnungsfunktionen, um die Nützlichkeit, die Mathematik, die Codierung, das logische Denken, das Befolgen von Anweisungen und die Mehrsprachigkeit zu verbessern und gleichzeitig den Schaden für das Modell zu minimieren. Dazu gehört das Lernen aus gewichteten aggregierten Belohnungsmodellen, die mit menschlichen Feedbackdaten trainiert wurden (Ram et al., 2024b), Feedback zur Codeausführung (Gehring et al., 2024) und echte Belohnungen für die Lösung mathematischer Probleme (DeepSeek-AI, 2025; Lambert et al., 2024).

Filtern von Daten

Wir optimieren die im Post-Training verwendeten Daten sorgfältig, um die Modellleistung zu maximieren. Wir filtern Modellausgaben heraus, die bestimmte persönliche Informationen anzeigen, unsicher oder giftig sind, falsch selbst identifizierte Daten und doppelte Beispiele. Die Einbeziehung einer Teilmenge von Daten, die eine bessere kontextuelle Zuordnung, Moderation und Zurückweisung fördert, um Täuschungen zu minimieren, verbessert auch die Leistung bei faktischen Metriken, ohne die Modellleistung bei anderen Metriken zu beeinträchtigen.

[BOS] Kennzeichnung

Bei PT- und IT-Modellen, bei denen der Text mit einem [BOS]-Tag beginnt, muss es explizit hinzugefügt werden, da der Text "[BOS]" nicht auf ein [BOS]-Tag abgebildet wird. Flax verfügt zum Beispiel über die Option add_bos = True, mit der dieses Token bei der Worttrennung automatisch hinzugefügt wird. Tabelle 4 zeigt ein Beispiel für die Formatierung eines IT-Modells.

PT- und IT-Formatierung

Alle Modelle verwenden denselben Disambiguator, wobei einige Kontrolltoken für die IT-Formatierung bestimmt sind. Ein wesentlicher Unterschied besteht darin, dass PT-Modelle am Ende der Generierung ein Token ausgeben, während IT-Modelle am Ende der Generierung ein -Token ausgeben, wie für IT in Tabelle 4 gezeigt. Daher erfordert die Feinabstimmung beider Modelltypen auch das Hinzufügen der jeweiligen End-of-Turn-Tags.

Ranglisten	Modellierung	Elo	95% CI	Liberalisierung	Typologie	#-Parameter/#-Aktivierung
1	Grok-3-Vorschau-02-24	1412	+8/-10
1	GPT-4.5-Vorschau	1411	+11/-11
3	Gemini-2.0-Flash-Thinking-Exp-01-21	1384	+6/-5
3	Gemini-2.0-Pro-Exp-02-05	1380	+ 5/-6
3	ChatGPT-4o-latest (2025-01-29)	1377	+ 5/-4
6	DeepSeek-R1	1363	+8/-6	sein	MoE	671B/37B
6	Zwilling-2.0-Blitz-001	1357	+6/-5
8	01-2024-12-17	1352	+ 4/-6
9	Gemma-3-27B-IT	1338	+8/-9	sein	komprimiert	27B
9	Qwen2.5-Max	1336	+ 7/-5
9	01-Vorschau	1335	+4/-3
9	03-mini-hoch	1329	+8/-6
13	DeepSeek-V3	1318	+8/-6	sein	MoE	671B/37B
14	GLM-4-Plus-0111	1311	+8/-8
14	Qwen-Plus-0125	1310	+7/-5
14	Claude 3.7 Sonett	1309	+ 9/-11
14	Zwillinge-2.0-Flash-Lite	1308	+5/-5
18	Stufe-2-16K-Exp	1305	+ 7/-6
18	03-mini	1304	+ 5/-4
18	0l-mini	1304	+4/-3
18	Zwilling-1.5-Pro-002	1302	+3/-3
28	Meta-Llama-3.1-405B-Instruct-bf16	1269	+4/-3	sein	komprimiert	405B

38	Llama-3.3-70B-Instruct	1257	+5/-3	sein	komprimiert	70B

39	Qwen2.5-72B-Instruct	1257	+3/-3	sein	komprimiert	72B

59	Gemma-2-27B-it	1220	+3/-2	sein	komprimiert	27B

Tabelle 5 | Bewertung von Gemma 3 27B IT-Modellen in Chatbot Arena (Chiang et al., 2024). Alle Modelle wurden von einem menschlichen Bewerter blind nebeneinander bewertet. Die Gemma-3-27B-IT Zahlen sind vorläufige Ergebnisse, die am 8. März 2025 eingegangen sind. Die Gemma-3-27B-IT Modelle wurden in der Chatbot Arena (Chiang et al., 2024) von einem menschlichen Bewerter bewertet.

4. endgültige Bewertung des Modells

In diesem Abschnitt bewerten wir das IT-Modell anhand einer Reihe automatisierter Benchmarks und menschlicher Bewertungen sowie statischer Benchmarks wie MMLU.

4.1 LMSYS Chatbot-Arena

In diesem Abschnitt berichten wir darüber, wie gut unser Modell IT 27B auf den LMSys Leistung in einer blinden Seite-an-Seite-Bewertung anderer hochmoderner Modelle in Chatbot Arena (Chiang et al., 2024). Wir geben die Elo-Werte in Tabelle 5 an.Gemma 3 27B IT (1338) ist das beste Modell in den Top 10 und schneidet besser ab als andere nicht denkende offene Modelle wie DeepSeek-V3 (1318), LLaMA 3 405B (1257) und Qwen2.5-70B (1257), die viel größere Modelle sind. Schließlich hat Gemma 3 mit 1220 einen deutlich höheren Elo-Wert als Gemma 2. Beachten Sie, dass die Elo-Werte die visuellen Fähigkeiten nicht berücksichtigen, während dies bei keinem der oben genannten Modelle der Fall ist.

4.2 Standardisiertes Benchmarking

In Tabelle 6 zeigen wir die Leistung unseres endgültigen Modells in verschiedenen Benchmarks im Vergleich zu unseren früheren Modelliterationen und Gemini 1.5. Wir verzichten auf einen direkten Vergleich mit externen Modellen, die häufig ihre eigenen Bewertungssysteme angeben, da ein fairer Vergleich nicht gewährleistet ist, wenn sie in unserem System laufen. Wir empfehlen den Lesern, statische Ranglisten von Drittanbietern zu verfolgen, um einen faireren Vergleich verschiedener Modelle zu erhalten. Im Anhang finden Sie zusätzliche Bewertungen unserer Modelle für andere Benchmarks.

	Zwillinge 1.5		Zwillinge 2.0			Gemma 2			Gemma 3
	Blitzlicht	Pro	Blitzlicht	Pro	2B	9B	27B	1B	4B	12B	27B
MMLU-Pro	67.3	75.8	77.6	79.1	15.6	46.8	56.9	14.7	43.6	60.6	67.5
LiveCodeBench	30.7	34.2	34.5	36.0	1.2	10.8	20.4	1.9	12.6	24.6	29.7
Vogel-SQL (dev)	45.6	54.4	58.7	59.3	12.2	33.8	46.7	6.4	36.3	47.9	54.4
GPQA Diamant	51.0	59.1	60.1	64.7	24.7	28.8	34.3	19.2	30.8	40.9	42.4
SimpleQA	8.6	24.9	29.9	44.3	2.8	5.3	9.2	2.2	4.0	6.3	10.0
FACTS Erdung	82.9	80.0	84.6	82.8	43.8	62.0	62.4	36.4	70.1	75.8	74.9
MATH	77.9	86.5	90.9	91.8	27.2	49.4	55.6	48.0	75.6	83.8	89.0
VersteckteMathematik	47.2	52.0	63.5	65.2	1.8	10.4	14.8	15.8	43.0	54.5	60.3
MMMU (val)	62.3	65.9	71.7	72.7					48.8	59.6	64.9

Tabelle 6 | Leistungsvergleich mit dem Instruction Trimming (IT)-Modell von Gemini 1.5, Gemini 2.0 und Gemma 2 in Zero-Sample-Benchmarks.

5. ablationsstudien

In diesem Abschnitt konzentrieren wir uns auf die Auswirkungen der architektonischen Änderungen und die neuen visuellen Möglichkeiten einiger der neuen Modelle.

5.1 Erkennung der Kapazität vor dem Training

Wir verwenden mehrere Standard-Benchmarks als Probeläufe während des Vortrainings, um sicherzustellen, dass unsere Modelle allgemeine Fähigkeiten erfassen. In Abbildung 2 vergleichen wir die Qualität der vortrainierten Modelle von Gemma 2 und 3 in Bezug auf diese allgemeinen Fähigkeiten, d.h. Wissenschaft, Code, Faktizität, Mehrsprachigkeit, logisches Denken und Vision. Leistungsdetails für die verschiedenen öffentlichen Benchmarks, die in diesen Diagrammen verwendet werden, sind im Anhang zusammengefasst. Insgesamt lässt sich feststellen, dass die neue Version trotz der Hinzufügung der Vision in den meisten Kategorien besser abschneidet. Wir sind besonders besorgt über die Mehrsprachigkeit dieser Version, die sich direkt auf die Qualität unserer Modelle auswirkt. Trotz des Einsatzes von Dekontaminierungstechniken besteht bei diesen Sonden jedoch immer die Gefahr einer Kontamination (Mirzadeh et al., 2024), was es erschwert, klarere Schlussfolgerungen zu ziehen.

5.2 Lokale: globale Aufmerksamkeitsebene

Wir haben die Auswirkungen von Veränderungen in den lokalen und globalen Selbstaufmerksamkeitsschichten auf die Leistung und den Speicherverbrauch während der Schlussfolgerung gemessen.

Lokal: Globaler Satz. In Abb. 3 vergleichen wir verschiedene Verhältnisse von lokalen zu globalen Aufmerksamkeitsschichten. Das Modell Gemma 2 verwendet 1:1, und Gemma 3 verwendet 5:1. Wir stellen fest, dass eine Änderung dieses Verhältnisses kaum Auswirkungen auf die Komplexität hat.

Größe des Schiebefensters. In Abbildung 4 vergleichen wir die Perplexität verschiedener Schiebefenstergrößen für verschiedene Konfigurationen des Verhältnisses von globaler zu lokaler Aufmerksamkeitsschicht. Das gleitende Fenster kann deutlich verkleinert werden, ohne die Komplexität zu beeinträchtigen.

Auswirkungen auf den KV-Cache-Speicher. In Abb. 5 wird das Gleichgewicht zwischen dem Modell und dem KV-Cache-Speicher im Kontext von 32k Tags dargestellt. Wir betrachten ein 2B-Modell mit verschiedenen lokalen und globalen Verhältnissen und gleitenden Fenstergrößen (sw). Wir vergleichen es mit einer global eindeutigen Konfiguration, der Standardkonfiguration, die in Gemma 1 und Llama verwendet wird. Wir stellen fest, dass die "global eindeutige" Konfiguration zu einem Speicher-Overhead von 60% führt, während die Verwendung eines Schiebefensters von 1:3 und 1024 (sw=1024In Abbildung 6 berechnen wir den Speicherverbrauch des KV-Cache als Funktion der Kontextlänge unter Verwendung unserer 2B-Architektur (**L:G=5:1, sw=1024**) mit einem "global eindeutigen" 2B-Modell.

5.3 Lange Kontexte aktivieren

Anstatt 128k Sequenzen von Grund auf zu trainieren, trainierten wir unsere Modelle mit 32k Sequenzen vor und skalierten dann die 4B-, 12B- und 27B-Modelle am Ende des Vortrainings auf 128k Token, während wir den RoPE neu skalierten (Chen et al., 2023). Wir haben festgestellt, dass ein Skalierungsfaktor von 8 in der Praxis gut funktioniert. Im Vergleich zu Gemma 2 erhöhen wir auch die Basisfrequenz des RoPE für die globale Selbstaufmerksamkeitsschicht von 10k auf 1M, während wir die Frequenz der lokalen Selbstaufmerksamkeitsschicht bei 10k belassen. In Abb. 7 zeigen wir die Auswirkungen der Perplexität für verschiedene Kontextlängen. Unser Modell lässt sich bis 128k verallgemeinern, aber die Perplexität nimmt bei weiterer Skalierung schnell ab.

5.4 Kleine und große Lehrkräfte

Eine allgemeine Erkenntnis ist, dass es zum Trainieren eines kleinen Modells am besten ist, von einem kleinen Lehrer zu destillieren.

Wir vermuten, dass dies daran liegt, dass in diesen Studien in der Regel schlechtere Lehrkräfte eingesetzt werden, die die Vorteile des Einsatzes besserer Lehrkräfte aufwiegen. Wir trainieren die Schüler mit zwei unterschiedlich großen Lehrern, einem großen und einem kleinen, für unterschiedliche Trainingsdauern. In Abbildung 8 sehen wir, dass bei kurzen Trainingszeiten der kleinere Lehrer besser ist, aber der Trend kehrt sich bei längerem Training um.

5.5 Visueller Encoder

Die Auswirkungen der Bildauflösung. Wir verwenden einen visuellen Kodierer auf der Grundlage von SigLIP (Zhai et al., 2023). Der visuelle Kodierer ist eingefroren und nur das Sprachmodell wird trainiert. Jedes Bild in diesen multimodalen Daten wird durch 256 Bild-Token des entsprechenden visuellen Codierers dargestellt. Daher verwenden Kodierer mit höherer Auflösung ein Durchschnitts-Pooling, um ihre Ausgabe auf 256 Token zu reduzieren. Der Kodierer mit einer Auflösung von 896 hat zum Beispiel 4x4 Durchschnitts-Pooling für seine Ausgabe. Wie aus Tabelle 7 hervorgeht, übertrifft der Kodierer mit der höheren Auflösung den kleineren Kodierer.

Schwenken und Scannen (P&S). Die P&S ermöglicht es, Bilder mit nahezu ihrem ursprünglichen Seitenverhältnis und ihrer ursprünglichen Auflösung aufzunehmen. In Tabelle 8 vergleichen wir unsere 27B IT-Modelle mit und ohne P&S. Wie erwartet, ist die Fähigkeit, Bilder in nahezu nativer Auflösung zu verarbeiten, eine große Hilfe für Aufgaben, die eine Form des Lesens von Text auf einem Bild erfordern, was besonders für visuelle Sprachmodelle wichtig ist.

6. speicher und Datenschutz

Große Sprachmodelle können nahezu Replikate einiger der beim Training verwendeten Texte erzeugen (Biderman et al. 2023; Carlini et al. 2021, 2022; Ippolito et al. 2022; Nasr et al. 2023). In einer Reihe von früheren Berichten wurden Prüfungen veröffentlicht, die dieses Risiko durch Messung der Erinnerungsrate quantifizieren (Anil et al. 2023; Chowdhery et al. 2022; Gemini-Team 2023, 2024; Gemma-Team 2024a,b; LLaMa-Team 2024). Diese "Erinnerungsrate "1 ist definiert als das Verhältnis zwischen der Modellgenerierung, die mit den Trainingsdaten übereinstimmt, und der gesamten Modellgenerierung unter Verwendung der folgenden Einstellungen. Wir folgen der in Gemma Team (2024b) beschriebenen Methode, um sie zu messen. Konkret nehmen wir eine Teilstichprobe aus einem gleichmäßig verteilten größeren Teil der Trainingsdaten und testen, ob dieser Inhalt mit einem Präfix der Länge 50 und einem Suffix der Länge 50 extrahiert werden kann (Nasr et al., 2023). Der Text wurde als "full memory" dargestellt, wenn alle Token in der Fortsetzung mit dem Quellensuffix übereinstimmten, oder als "near memory", wenn sie innerhalb einer Editierdistanz von 10% übereinstimmten.

Abbildung 9 vergleicht die Erinnerungsraten der Modelle Gemma und Gemini; die Modelle sind in umgekehrter chronologischer Reihenfolge angeordnet, wobei das neueste Modell Gemma 3 links steht. Wir stellen fest, dass das Modell Gemma 3 lange Texte mit einer viel geringeren Rate speichert als das Vorgängermodell (beachten Sie die logarithmische y-Achse). Zwischen den Modellen 4B, 12B und 27B gibt es nur geringe Unterschiede in der Erinnerungsrate, wobei sich das Modell 1B weniger gut erinnert als die anderen größeren Modelle. Darüber hinaus haben wir festgestellt, dass ein größerer Anteil des Textes als ungefähre Erinnerung charakterisiert wurde, mit einem relativen Anstieg der ungefähre Erinnerung im Vergleich zur vollständigen Erinnerung von etwa 24 Mal.

Wir untersuchen auch die Rate, mit der die Generation persönliche Informationen enthalten könnte. Zur Identifizierung potenzieller personenbezogener Daten verwenden wir den Google Cloud-Dienst Sensitive Data Protection (SDP).2 SDP verwendet eine breite Palette von Erkennungsregeln, um Text zu identifizieren, der personenbezogene Daten enthalten könnte.2 SDP ist auf eine hohe Wiedererkennungsrate ausgelegt und berücksichtigt nicht den Kontext, in dem die Informationen möglicherweise erscheinen, was zu vielen falsch positiven Ergebnissen führt. Dies kann dazu führen, dass wir die tatsächliche Menge an persönlichen Informationen in der Ausgabe überschätzen.SDP bietet auch eine breite Palette von Schweregraden: niedrig, mittel und hoch. Wir stufen einen Text als persönliche Information ein, wenn die SDP ihn als einen beliebigen Schweregrad klassifiziert. Wir stellen fest, dass alle Gemma 3-Modelle keine personenbezogenen Daten in ihrer Ausgabe enthalten. Dies deutet darauf hin, dass der Anteil persönlicher Daten in der Ausgabe, die als Erinnerungen eingestuft werden, unter unserer Erkennungsschwelle liegt.

7 Verantwortung, Sicherheit, Schutz

Verantwortung, Sicherheit und Schutz sind bei der Entwicklung von Gemma-Modellen von entscheidender Bedeutung. Um die Auswirkungen auf die Nutzer von Gemma 3 zu minimieren, integrieren wir weiterhin verbesserte interne Sicherheitsprozesse, die den Entwicklungsworkflow durchlaufen und sich an den jüngsten KI-Modellen von Google orientieren (Gemini Team, 2024). Der Schwerpunkt liegt dabei auf Sicherheitsabschwächungen während des Trainings sowie auf einer robusten und transparenten Modellevaluierung neuer Bild-zu-Text-Funktionen.

7.1 Governance und Bewertung

Unser Ansatz zur Bewertung des Nutzens und der Risiken von Gemma spiegelt den in Gemma 1 (Gemma-Team, 2024a) dargelegten Ansatz wider und berücksichtigt die Veränderungen bei den Unterstützungsmodellen. Wir sind nach wie vor der Meinung, dass die Offenheit der KI die Vorteile dieser Technologien auf die Gesellschaft als Ganzes übertragen kann, müssen aber auch das Risiko von Schäden, die sowohl auf individueller als auch auf institutioneller Ebene entstehen können, berücksichtigen (Weidinger et al., 2021). Seit der ersten Veröffentlichung von Gemma haben wir gesehen, dass diese Modelle mehrere sozial nützliche Anwendungen vorantreiben, wie z. B. unser eigenes ShieldGemma 2, ein 4B-Bildsicherheitsklassifikator, der auf Gemma 3 basiert und eine Standardlösung für die Bildsicherheit bietet, die Sicherheitskennzeichnungen für gefährliche Inhalte, sexuelle Ausbeutung und Gewaltkategorien ausgibt.

Die Freigabe des Modells Gemma 3 erfordert besondere Aufmerksamkeit für Änderungen der Modellfähigkeiten und eine genaue Überwachung der sich entwickelnden Risiken bestehender multimodaler LLMs (Lin et al., 2024) sowie ein Verständnis dafür, wie das Modell in freier Wildbahn genutzt wird. Obwohl wir bisher noch keine Berichte über eine böswillige Nutzung von Gemma erhalten haben, sind wir weiterhin entschlossen, solche Berichte zu untersuchen und mit der Wissenschaft und der Entwicklergemeinschaft zusammenzuarbeiten, sowie unsere eigene Überwachung durchzuführen, um solche Fälle zu erkennen.

Trotz der verbesserten Möglichkeiten sind wir der Meinung, dass diese Version angesichts der robusteren offenen Modelle, die zur Verfügung stehen, nur eine vernachlässigbare Auswirkung auf die gesamte Risikolandschaft hat.

7.2 Sicherheitspolitik und Schutzmaßnahmen während der Ausbildung

Eine der wichtigsten Säulen des Gemma-Sicherheitskonzepts ist die Ausrichtung an der Google-Sicherheitspolitik, die auf das Gemini-Modell abgestimmt ist (Gemini-Team, 2023). Sie sollen verhindern, dass unsere Modelle schädliche Inhalte erzeugen, d. h:

- Sexueller Missbrauch und Ausbeutung von Kindern
- Offenlegung persönlich identifizierbarer Informationen, die zu Schaden führen könnten (z. B. Sozialversicherungsnummern)
- Hassreden und Belästigung
- Gefährliche oder bösartige Inhalte (einschließlich der Förderung von Selbstbeschädigung oder der Anleitung zu schädlichen Aktivitäten)
- Pornografie
- Medizinischer Rat, der dem wissenschaftlichen oder medizinischen Konsens widerspricht

Wir führen eine umfassende Sicherheitsfilterung unserer Pre-Training-Daten durch, um die Wahrscheinlichkeit zu verringern, dass Pre-Training- und Fine-Tuning-Checkpoints schädliche Inhalte produzieren. Für die Feinabstimmung der Modelle verwenden wir auch SFT und RLHF, um die Modelle von unerwünschten Verhaltensweisen abzulenken.

7.3 Bewertung der Sicherheitsvorkehrungen

Außerdem unterziehen wir unsere IT-Modelle einer Reihe von grundlegenden Sicherheitsbewertungen, um zu verstehen, welchen potenziellen Schaden unsere Modelle anrichten könnten. Da wir offene Modelle fördern, wissen wir auch, dass die Unumkehrbarkeit von Gewichtsfreigaben eine strenge Risikobewertung erfordert. Unsere internen Sicherheitsprozesse sind entsprechend ausgelegt, und für frühere Gemma-Modelle haben wir auch Bewertungen der mit extremen Risiken verbundenen Fähigkeiten durchgeführt (Phuong et al., 2024; Shevlane et al., 2023). Bei der weiteren Entwicklung und gemeinsamen Nutzung offener Modelle werden wir dieser Heuristik folgen, indem wir gründlich prüfen, ob ein robusteres Modell in der Regel eine ausreichende Abdeckung für ein weniger leistungsfähiges Modell bietet. Aus diesem Grund haben wir für Gemma 3 eine vereinfachte Bewertung bevorzugt und behalten uns eingehende Bewertungen der Gefährdungsfähigkeit für Situationen vor, in denen ein bestimmtes Modell ein potenziell höheres Risiko aufweist (wie unten für die CBRN-Bewertung beschrieben). Wir haben ein Gleichgewicht zwischen der Geschwindigkeit der Entwicklung und gezielten Sicherheitstests gefunden, um sicherzustellen, dass unsere Bewertungen zielgerichtet und effizient sind und gleichzeitig unsere im Frontier Safety Framework dargelegten Verpflichtungen einhalten.

Bewertung der Ausgangssituation

Die Baseline Assurance erfasst die Rate, mit der das Modell gegen die Sicherheitsrichtlinien verstößt, unter Verwendung einer großen Anzahl von synthetischen, gegnerischen Benutzeranfragen und unter Verwendung eines menschlichen Bewerters, der die Antworten darauf kennzeichnet, ob die Richtlinien verletzt werden oder nicht. Insgesamt hat Gemma 3 eine sehr niedrige Verletzungsrate bei diesen Sicherheitsrichtlinien.

Chemische, biologische, radiologische und nukleare (CBRN) Kenntnisse

Aufgrund der verbesserten Leistung bei MINT-bezogenen Aufgaben bewerteten wir das Wissen über biologische, radiologische und nukleare Risiken mithilfe geschlossener wissensbasierter Multiple-Choice-Fragen im internen Datensatz. Für die Bewertung des chemischen Wissens haben wir chemische Gefahren mit einem geschlossenen, wissensbasierten Ansatz bewertet, der von Macknight et al. Unsere Bewertung ergab, dass das Modell Gemma 3 in diesen Bereichen über ein geringes Wissen verfügt.

7.4 Unser verantwortungsvoller offener Modellierungsansatz

Die Entwicklung sicherer und verantwortungsbewusster Anwendungen erfordert einen Ansatz auf Systemebene, der darauf abzielt, die mit jedem einzelnen Anwendungsfall und jeder Umgebung verbundenen Risiken zu mindern. Wir werden auch weiterhin Bewertungen und Sicherheitsmaßnahmen anwenden, die im Verhältnis zu den potenziellen Risiken unserer Modelle stehen, und werden diese nur dann mit der Gemeinschaft teilen, wenn wir davon überzeugt sind, dass die Vorteile die vorhersehbaren Risiken eindeutig überwiegen.

8. die Diskussion und die Schlussfolgerungen

In dieser Arbeit stellen wir Gemma 3 vor, das neueste Mitglied der Gemma-Familie von Open-Source-Sprachmodellen für Text, Bilder und Code. In dieser Version konzentrieren wir uns auf das Hinzufügen von Bildverständnis und langen Kontexten, während wir die mehrsprachigen Fähigkeiten und MINT-bezogenen Fähigkeiten verbessern. Unsere Modellgröße und -architektur soll mit Standard-Hardware kompatibel sein, und die meisten unserer architektonischen Verbesserungen sind so konzipiert, dass sie diese Hardware bei gleichbleibender Leistung unterstützen.