Gemma 3 关键信息总结
一、关键指标
参数 | 详情 |
---|---|
模型规模 | 1 亿到 270 亿参数,共四个版本:1B、4B、12B、27B |
架构 | 基于 Transformer 的解码器专用架构,继承自 Gemma 2,并进行多项改进 |
多模态能力 | 支持文本和图像输入,使用定制的 SigLIP 视觉编码器,将图像编码为 256 个软标记 |
上下文长度 | 1B 模型支持 32K 标记,其余模型支持 128K 标记 |
注意力机制 | 采用 5:1 的局部/全局注意力层交错模式,局部层跨度为 1024 个标记 |
训练方法 | 使用知识蒸馏进行预训练,并采用改进的后训练方法进行指令微调 |
预训练数据 | 预训练数据量:1B 模型 2T 标记,4B 模型 4T 标记,12B 模型 12T 标记,27B 模型 14T 标记 |
多语言能力 | 使用与 Gemini 2.0 相同的 SentencePiece 分词器,词汇表包含 262k 个条目,支持多种语言 |
量化支持 | 提供不同标准格式的量化版本,包括每通道 int4、每块 int4 和切换 fp8 |
训练基础设施 | 使用 TPUv4、TPUv5e 和 TPUv5p 进行训练,采用 ZeRO-3 优化器状态分片和数据复制策略 |
碳足迹 | 预训练碳排放量为 1497.13 吨 CO2e,谷歌数据中心已实现碳中和 |
二、优点
- 多模态理解能力出色
- Gemma 3 集成了视觉编码器,能够处理文本和图像输入,在多模态任务中表现出色。
- 在 DocVQA、InfoVQA、TextVQA 等视觉问答基准测试中表现优异,尤其是在涉及文档理解和图像中文本阅读的任务上。
- 与 PaliGemma 2 相比,Gemma 3 在文档理解任务上表现更佳,例如 DocVQA 和 InfoVQA。
- Pan & Scan (P&S) 技术的应用,使得 Gemma 3 能够以接近原生分辨率处理图像,进一步提升了其在视觉语言任务中的表现。
- Gemma 3 集成了视觉编码器,能够处理文本和图像输入,在多模态任务中表现出色。
- 长上下文处理能力强大
- 支持 128K 标记的上下文长度(1B 模型为 32K),在处理长文本任务时具有优势。
- 在 RULER 和 MRCR 等长上下文基准测试中表现良好。
- 局部/全局注意力层交错模式和局部层短跨度的设计,在保持长上下文处理能力的同时,有效控制了 KV 缓存的内存消耗。
- 支持 128K 标记的上下文长度(1B 模型为 32K),在处理长文本任务时具有优势。
- 多语言能力提升
- 使用更平衡的非英语语言分词器,并增加了多语言数据的训练量。
- 在 MGSM、Global-MMLU-Lite、WMT24++ 等多语言基准测试中表现良好。
- 在 XQuAD 和 IndicGenBench 等跨语言问答和印度语言生成任务中表现优异。
- 使用更平衡的非英语语言分词器,并增加了多语言数据的训练量。
- 数学、推理和代码能力增强
- 后训练方法针对数学、推理和代码能力进行了优化。
- 在 MATH、GSM8K、HumanEval 等数学和代码基准测试中表现优异。
- 在 MMLU、MMLU-Pro、AGIEval 等多任务语言理解基准测试中表现良好。
- 后训练方法针对数学、推理和代码能力进行了优化。
- 模型效率高
- 1B 和 4B 模型参数规模较小,适合在资源受限的设备上部署。
- 通过平均池化技术,Gemma 3 4B 和 12B 模型在视觉编码器输入分辨率相同的情况下,迁移成本比 PaliGemma 2 9B 和 27B 模型低约 10 倍。
三、缺点
- 对化学、生物、放射性和核(CBRN)知识的掌握有限
- 由于预训练数据中 CBRN 相关内容的缺乏,Gemma 3 在 CBRN 知识评估中表现不佳。
- 这意味着在涉及 CBRN 领域的应用场景中,Gemma 3 可能无法提供准确可靠的信息。
- 处理高分辨率图像时可能存在性能瓶颈
- 虽然 P&S 技术可以缓解非正方形长宽比和高分辨率图像带来的问题,但频繁的图像裁剪和缩放可能会影响推理速度。
- 在需要处理超高分辨率图像或实时视觉任务的应用中,Gemma 3 可能面临性能挑战。
- 对某些特定领域的理解可能不足
- 尽管 Gemma 3 在多个领域表现出色,但对于某些高度专业化的领域(例如法律、医学等),其理解能力可能有限。
- 这需要根据具体应用场景进行进一步的微调或领域适配。
- 存在一定的记忆和隐私风险
- 大型语言模型都存在生成训练数据中出现的文本的风险,Gemma 3 也不例外。
- 虽然 Gemma 3 的记忆率低于之前的模型,但仍需谨慎处理敏感信息,避免泄露用户隐私。
- 对复杂因果关系的推理能力有待提高
- 在涉及复杂因果关系推理的任务中,Gemma 3 的表现可能不如预期。
- 这需要进一步的研究和模型改进,以提高其在因果推理任务中的表现。
Gemma 3 评分
Gemma 3系列模型包含4个版本,每个版本均开源了预训练基座版本(pt后缀版本,表示pre-training)和指令微调后的版本(it后缀版本,表示instruction fine-tuned),也就是说共开源了8个版本的大模型。
而最大参数规模的Gemma 3-27B IT的fp16精度大小为54.8GB,int8量化后27GB,两张4090可用,INT4量化后需要14GB显存,单张4090完全没问题。
而这个版本的模型评测结果非常好,在大模型匿名竞技场(Chatbot Arena)上得分1338分(截止2025年3月8日),排名全球第9,仅次于o1-2024-12-17模型,超过了Qwen2.5-Max以及DeepSeek V3等。
按照Google官方的说法,本次Gemma 3系列提升很明显,其中Gemma 3-4B版本模型水平接近Gemma 2-27B,而Gemma 3-27B则接近Gemini 1.5-Pro!
Gemma 3 体验地址
https://aistudio.google.com/prompts/new_chat?model=gemma-3-27b-it
https://ollama.com/library/gemma3
总结
Gemma 3 是一款功能强大的多模态大语言模型,在多模态理解、长上下文处理、多语言能力、数学、推理和代码等方面表现出色。然而,它在 CBRN 知识、高分辨率图像处理、特定领域理解、记忆和隐私风险以及复杂因果推理等方面仍有改进空间。
技术报告全文:https://storage.googleapis.com/deepmind-media/gemma/Gemma3Report.pdf
我们介绍了 Gemma 3,这是 Gemma 系列轻量级开源模型的多模态扩展,参数规模从 1 亿到 270 亿不等。这个版本引入了视觉理解能力,支持更多语言,并且上下文长度更长——至少支持 128K 个标记。我们还对模型架构进行了改进,以减少随着上下文长度增加而急剧增长的 KV 缓存内存。这是通过增加局部到全局注意力层的比例,并将局部注意力的跨度保持在较短范围内来实现的。Gemma 3 模型通过知识蒸馏进行训练,在预训练和指令微调版本上均优于 Gemma 2。特别是,我们新颖的后训练方法显著提高了数学、聊天、指令遵循和多语言能力,使得 Gemma3-4B-IT 与 Gemma2-27B-IT 性能相当,而 Gemma3-27B-IT 在基准测试中可与 Gemini-1.5-Pro 相媲美。我们将所有模型发布给社区。
1. 引言
我们介绍了 Gemma 开源语言模型(Gemma 团队,2024a)的最新版本,该版本与 Gemini 前沿模型家族(Gemini 团队,2023)共同设计。这个新版本的大小与 Gemma 2(Gemma 团队,2024b)相当,并增加了一个 10 亿参数的模型。这些模型旨在在手机、笔记本电脑和高端 GPU 等标准消费级硬件上运行。这个版本为 Gemma 系列带来了几项新功能,即多模态、长上下文和多语言性,同时保持或超越了之前版本的性能。
在多模态方面,大多数 Gemma 3 模型都与定制的 SigLIP 视觉编码器(Zhai 等人,2023)兼容。语言模型将图像视为由 SigLIP 编码的软标记序列。我们通过将视觉嵌入压缩为固定大小的 256 个向量来降低图像处理的推理成本。编码器以固定分辨率工作,我们从 LLaVA(Liu 等人,2024)中汲取灵感,通过平移和扫描(P&S)方法实现灵活的分辨率。
第二个主要的架构改进是将上下文大小增加到 128K 个标记,同时不影响性能。长上下文的一个挑战是推理过程中 KV 缓存的内存爆炸。为了减少这个问题,我们在每层全局层之间交错多个局部层,并将局部层的跨度设置为仅 1024 个标记。因此,只有全局层关注长上下文,我们每 5 层局部层就有 1 层全局层。
预训练优化方法与 Gemma 2 类似,但在架构设计上进行了一些修改。我们使用与 Gemini 2.0 相同的分词器,并且我们还重新审视了我们的数据混合策略,以提高模型的多语言能力,同时引入图像理解。所有 Gemma 3 模型都通过知识蒸馏(Hinton 等人,2015)进行训练。
在后训练中,我们专注于提高数学、推理和聊天能力,以及整合 Gemma 3 的新功能、长上下文和图像输入。我们使用一种新颖的后训练方法,在数学、编码、聊天、指令遵循和多语言等所有能力上都有所提升。由此产生的 Gemma 3 指令微调模型既强大又多功能,在基准测试中大幅超越其前身。
在以下章节中,我们将简要概述我们的模型,包括架构以及预训练和后训练方法。我们还提供了在各种定量和定性基准测试上的详细评估。我们讨论了安全负责部署的方法,并概述了 Gemma 3 的更广泛影响、其局限性以及优势。
这是基于收据的成本和小费计算明细:
1.识别切片肉的成本:收据上列出了“1x Zurcher Geschnetzeltes + Rosti”,价格为 36.50 瑞士法郎。这是带有炸土豆(Rosti)配菜的切片肉菜。2.计算 18% 的小费:小费金额 = 36.5 瑞士法郎 * 0.18 = 6.57 瑞士法郎3.计算总金额:总金额 = 36.50 瑞士法郎 + 6.57 瑞士法郎 = 43.07 瑞士法郎
2. 模型架构
Gemma 3 模型遵循与前几代模型(Vaswani 等人,2017)相同的通用解码器专用 Transformer 架构,大多数架构元素与前两个 Gemma 版本相似。我们使用分组查询注意力(GQA)(Ainslie 等人,2023)以及后归一化和预归一化与 RMSNorm(Zhang 和 Sennrich,2019)。受 Dehghani 等人(2023)、Wortsman 等人(2023)和 Chameleon 团队(2024)的启发,我们用 QK 归一化替换了 Gemma 2 的软帽。在本节中,我们将重点介绍与前几代模型的一些关键区别。
5:1 局部/全局层交错。 我们在局部滑动窗口自注意力(Beltagy 等人,2020)和全局自注意力(Luong 等人,2015)之间交替,交替模式为每 5 层局部层对应 1 层全局层,从局部层作为模型的第一层开始。
模型 | 视觉编码器 | 嵌入参数 | 非嵌入参数 |
---|---|---|---|
1B | 0 | 302M | 698M |
4B | 417M | 675M | 3,209M |
12B | 417M | 1,012M | 10,759M |
27B | 417M | 1,416M | 25,600M |
长上下文。 Gemma 3 模型支持 128K 个标记的上下文长度,1B 模型除外,其上下文长度为 32K。我们将全局自注意力层的 RoPE 基频从 10k 增加到 1M,并将局部层的频率保持在 10k。我们遵循与 Chen 等人(2023)的位置插值类似的过程,以扩展全局自注意力层的跨度。
2.1 视觉模态
视觉编码器。 我们使用 SigLIP 编码器(Zhai 等人,2023)的 400M 变体,这是一个在 CLIP 损失(Radford 等人,2021)的变体上训练的视觉 Transformer(Dosovitskiy,2020)。Gemma 视觉编码器以调整为 896x896 的正方形图像作为输入,并在视觉助手任务数据上进行微调。为了简单起见,我们在 4B、12B 和 27B 模型之间共享视觉编码器,并在训练期间保持其冻结状态。
平移和扫描(P&S)。 Gemma 视觉编码器以 896x896 的固定分辨率运行。当处理非正方形长宽比和高分辨率图像时,这会导致图像失真,导致文本不可读或小物体消失。我们通过在推理时使用自适应窗口算法来解决这个问题。该算法将图像分割成大小相等的非重叠裁剪块,覆盖整个图像,并将其调整为 896x896 像素传递给编码器。这种窗口化仅在必要时应用,并且控制最大裁剪数量。这是一种仅在推理时进行的优化,可以禁用以加快推理速度。
Shards | ||||
---|---|---|---|---|
模型 | 类型 | 芯片数量 | 数据序列 | 副本 |
1B | TPUv5e | 512 | 16 16 | 2 |
4B | TPUv5e | 2048 | 16 16 | 8 |
12B | TPUv4 | 6144 | 16 16 | 24 |
27B | TPUv5p | 6144 | 24 8 | 32 |
2.2 预训练
我们遵循与 Gemma 2 类似的预训练配方,并进行知识蒸馏。
训练数据。 我们在比 Gemma 2 稍大的标记预算上预训练我们的模型,即我们使用 14T 标记训练 Gemma 3 27B,12T 标记训练 12B 版本,4T 标记训练 4B,2T 标记训练 1B。标记的增加是为了考虑预训练期间使用的图像和文本的混合。我们还增加了多语言数据的数量,以提高语言覆盖范围。我们添加了单语和并行数据,并使用受 Chung 等人(2023)启发的策略来处理语言表示的不平衡。
分词器。 我们使用与 Gemini 2.0 相同的分词器:一个带有分割数字、保留空白和字节级编码(Kudo 和 Richardson,2018)的 SentencePiece 分词器。由此产生的词汇表有 262k 个条目。这个分词器对于非英语语言更加平衡。
过滤。 我们使用过滤技术来减少产生不需要或不安全的话语的风险,并删除某些个人信息和其他敏感数据。我们对预训练数据混合中的评估集进行去污染,并通过最小化敏感输出的扩散来降低背诵的风险。我们还应用了受 Sachdeva 等人(2024)启发的质量重新加权步骤,以减少低质量数据的出现。
知识蒸馏。 我们对每个标记采样 256 个 logits,并根据教师概率进行加权。学生通过交叉熵损失学习教师在这些样本中的分布。教师的目标分布对于未采样的 logits 设置为零概率,并重新归一化。
原始(GB) | 量化(GB) | |||
---|---|---|---|---|
模型 1B | bf16 2.0 | 0.5 | 0.7 1.0 | |
+KV | 2.9 | 1.4 | 1.6 1.9 | |
4B | 8.0 | 2.6 | 2.9 4.4 | |
+KV | 12.7 | 7.3 | 7.6 9.1 | |
12B | 24.0 | 6.6 | 7.1 12.4 | |
+KV | 38.9 | 21.5 | 22.0 27.3 | |
27B | 54.0 | 14.1 | 15.3 27.4 | |
+KV | 72.7 | 32.8 | 34.0 46.1 |
2.3 量化感知训练
除了原始检查点之外,我们还提供不同标准格式的模型量化版本。这些版本是通过对每个模型进行少量步骤(通常为 5000 步)的微调,使用量化感知训练(QAT)(Jacob 等人,2018)获得的。我们使用未量化检查点的概率作为目标,并调整数据以匹配预训练和后训练分布。基于最流行的开源量化推理引擎(例如 llama.cpp),我们专注于三种权重表示:每通道 int4、每块 int4 和切换 fp8。在表 3 中,我们报告了原始和量化模型在不同权重表示下以及在 32k 标记序列长度下有和没有 KV 缓存的内存占用。
2.4 计算基础设施
我们使用 TPUv4、TPUv5e 和 TPUv5p 训练我们的模型,如表 2 所示。每个模型配置都经过优化,以最小化训练步骤时间。对于视觉编码器,我们预先计算每个图像的嵌入,并直接使用嵌入进行训练,不会增加语言模型训练的成本。
优化器状态使用 ZeRO-3(Ren 等人,2021)的实现进行分片。对于多 pod 训练,我们执行数据中心网络上的数据副本重
上下文 | 格式化 |
---|---|
用户轮次 | user |
模型轮次 | model |
轮次结束 | |
讨论示例: | |
用户:你是谁? 模型:我的名字是 Gemma! 用户:2+2 是多少? 模型:2+2=4。 | |
模型输入: | |
[BOS]user Whoare you? model My name is Gemma! user | |
Whatis2+2? model | |
2+2=4. | 模型输出: |
2.5 碳足迹
预训练 Gemma 3 模型的碳排放量为 1497.13 吨 CO2e。这是根据我们 TPU 数据中心报告的小时能耗估算的,并进行了扩展,以考虑创建和维护数据中心所消耗的额外能源。谷歌数据中心是碳中和的,通过能源效率、可再生能源购买和碳抵消的结合实现。这种碳中和适用于我们的训练和运行它们的机器。
3. 指令微调
预训练模型通过改进的后训练方法转变为指令微调模型(见表 6)。
技术
我们的后训练方法依赖于改进版本的知识蒸馏(Agarwal 等人,2024;Anil 等人,2018;Hinton 等人,2015),来自一个大型 IT 教师,以及基于改进版本的 BOND(Sessa 等人,2024)、WARM(Ram 等人,2024b)和 WARP(Ram 等人,2024a)的 RL 微调阶段。
强化学习目标
我们使用各种奖励函数来提高有用性、数学、编码、推理、指令遵循和多语言能力,同时最大限度地减少模型危害性。这包括从使用人类反馈数据训练的权重聚合奖励模型(Ram 等人,2024b)、代码执行反馈(Gehring 等人,2024)以及解决数学问题的真实奖励(DeepSeek-AI,2025;Lambert 等人,2024)中进行学习。
数据过滤
我们仔细优化后训练中使用的数据,以最大限度地提高模型性能。我们过滤掉显示某些个人信息、不安全或有毒的模型输出、错误的自我识别数据和重复示例。包括鼓励更好的上下文归因、缓和和拒绝的数据子集,以最大限度地减少幻觉,也提高了事实性指标上的性能,而不会降低模型在其他指标上的性能。
[BOS] 标记
对于 PT 和 IT 模型,文本以 [BOS] 标记开头,需要显式添加,因为文本“[BOS]”不会映射到 [BOS] 标记。例如,Flax 有一个选项,add_bos = True,可以在分词时自动添加此标记。表 4 显示了 IT 模型的格式化示例,
PT 与 IT 格式化
所有模型共享相同的分词器,一些控制标记专门用于 IT 格式化。一个关键的区别是 PT 模型在生成结束时输出一个 标记,而 IT 模型在生成结束时输出一个 <end_of_turn> 标记,如表 4 中 IT 所示所示。因此,微调任一模型类型也需要添加它们各自的结束标记。
排名 | 模型 | Elo | 95% CI | 开放 | 类型 | #参数/#激活 |
---|---|---|---|---|---|---|
1 | Grok-3-Preview-02-24 | 1412 | +8/-10 | |||
1 | GPT-4.5-Preview | 1411 | +11/-11 | |||
3 | Gemini-2.0-Flash-Thinking-Exp-01-21 | 1384 | +6/-5 | |||
3 | Gemini-2.0-Pro-Exp-02-05 | 1380 | + 5/-6 | |||
3 | ChatGPT-4o-latest (2025-01-29) | 1377 | + 5/-4 | |||
6 | DeepSeek-R1 | 1363 | +8/-6 | 是 | MoE | 671B/37B |
6 | Gemini-2.0-Flash-001 | 1357 | +6/-5 | |||
8 | 01-2024-12-17 | 1352 | + 4/-6 | |||
9 | Gemma-3-27B-IT | 1338 | +8/-9 | 是 | 密集 | 27B |
9 | Qwen2.5-Max | 1336 | + 7/-5 | |||
9 | 01-preview | 1335 | +4/-3 | |||
9 | 03-mini-high | 1329 | +8/-6 | |||
13 | DeepSeek-V3 | 1318 | +8/-6 | 是 | MoE | 671B/37B |
14 | GLM-4-Plus-0111 | 1311 | +8/-8 | |||
14 | Qwen-Plus-0125 | 1310 | +7/-5 | |||
14 | Claude 3.7 Sonnet | 1309 | + 9/-11 | |||
14 | Gemini-2.0-Flash-Lite | 1308 | +5/-5 | |||
18 | Step-2-16K-Exp | 1305 | + 7/-6 | |||
18 | 03-mini | 1304 | + 5/-4 | |||
18 | 0l-mini | 1304 | +4/-3 | |||
18 | Gemini-1.5-Pro-002 | 1302 | +3/-3 | |||
28 | Meta-Llama-3.1-405B-Instruct-bf16 | 1269 | +4/-3 | 是 | 密集 | 405B |
38 | Llama-3.3-70B-Instruct | 1257 | +5/-3 | 是 | 密集 | 70B |
39 | Qwen2.5-72B-Instruct | 1257 | +3/-3 | 是 | 密集 | 72B |
59 | Gemma-2-27B-it | 1220 | +3/-2 | 是 | 密集 | 27B |
表 5 | Gemma 3 27B IT 模型在 Chatbot Arena(Chiang 等人,2024)中的评估。所有模型都通过人类评估者进行盲目的并排评估。每个模型根据 Elo 评分系统被赋予一个分数。Gemma-3-27B-IT 的数字是 2025 年 3 月 8 日收到的初步结果。
4. 最终模型评估
在本节中,我们通过一系列自动化基准测试和人类评估以及静态基准测试(如 MMLU)来评估 IT 模型。
4.1 LMSYS Chatbot Arena
在本节中,我们报告了我们的 IT 27B 模型在 LMSys Chatbot Arena(Chiang 等人,2024)中对其他最先进模型的盲测并排评估中的表现。我们在表 5 中报告了 Elo 分数。Gemma 3 27B IT(1338)是排名前 10 的最佳模型,其得分高于其他非思维开放模型,例如 DeepSeek-V3(1318)、LLaMA 3 405B(1257)和 Qwen2.5-70B(1257),这些是更大的模型。最后,Gemma 3 的 Elo 明显高于 Gemma 2,为 1220。请注意,Elo 分数没有考虑视觉能力,而上述模型都没有。
4.2 标准基准测试
在表 6 中,我们展示了我们的最终模型在不同基准测试中的表现,与我们之前的模型迭代和 Gemini 1.5 相比。我们没有直接与经常报告自己评估设置的外部模型进行比较,因为在我们的设置中运行它们并不能保证公平比较。我们鼓励读者关注第三方静态排行榜,以便更公平地比较不同模型。我们在附录中包括了我们的模型在其他基准测试上的额外评估。
Gemini 1.5 | Gemini 2.0 | Gemma 2 | Gemma 3 | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Flash | Pro | Flash | Pro | 2B | 9B | 27B | 1B | 4B | 12B | 27B | |||
MMLU-Pro | 67.3 | 75.8 | 77.6 | 79.1 | 15.6 | 46.8 | 56.9 | 14.7 | 43.6 | 60.6 | 67.5 | ||
LiveCodeBench | 30.7 | 34.2 | 34.5 | 36.0 | 1.2 | 10.8 | 20.4 | 1.9 | 12.6 | 24.6 | 29.7 | ||
Bird-SQL (dev) | 45.6 | 54.4 | 58.7 | 59.3 | 12.2 | 33.8 | 46.7 | 6.4 | 36.3 | 47.9 | 54.4 | ||
GPQA Diamond | 51.0 | 59.1 | 60.1 | 64.7 | 24.7 | 28.8 | 34.3 | 19.2 | 30.8 | 40.9 | 42.4 | ||
SimpleQA | 8.6 | 24.9 | 29.9 | 44.3 | 2.8 | 5.3 | 9.2 | 2.2 | 4.0 | 6.3 | 10.0 | ||
FACTS Grounding | 82.9 | 80.0 | 84.6 | 82.8 | 43.8 | 62.0 | 62.4 | 36.4 | 70.1 | 75.8 | 74.9 | ||
MATH | 77.9 | 86.5 | 90.9 | 91.8 | 27.2 | 49.4 | 55.6 | 48.0 | 75.6 | 83.8 | 89.0 | ||
HiddenMath | 47.2 | 52.0 | 63.5 | 65.2 | 1.8 | 10.4 | 14.8 | 15.8 | 43.0 | 54.5 | 60.3 | ||
MMMU (val) | 62.3 | 65.9 | 71.7 | 72.7 | 48.8 | 59.6 | 64.9 |
表 6 | 与 Gemini 1.5、Gemini 2.0 和 Gemma 2 的指令微调(IT)模型在零样本基准测试中的性能对比。
5. 消融研究
在本节中,我们重点关注架构变化的影响,以及一些新模型的新视觉能力。
5.1 预训练能力探测
我们在预训练期间使用几个标准基准作为探测工具,以确保我们的模型能够捕获一般能力。在图 2 中,我们比较了 Gemma 2 和 3 的预训练模型在这些一般能力上的质量,即科学、代码、事实性、多语言性、推理和视觉。附录中总结了这些图表中使用的不同公共基准的性能细节。总体而言,我们看到尽管增加了视觉,新版本在大多数类别中都有所改进。我们特别关注这一版本的多语言性,这直接影响我们模型的质量。然而,尽管使用了去污染技术,这些探测总是存在污染的风险(Mirzadeh 等人,2024),这使得更难得出更明确的结论。
5.2 局部:全局注意力层
我们测量了局部和全局自注意力层的变化对推理过程中性能和内存消耗的影响。
局部:全局比率。 在图 3 中,我们比较了局部到全局注意力层的不同比率。Gemma 2 模型使用 1:1,Gemma 3 使用 5:1。我们观察到改变这个比率对困惑度的影响很小。
滑动窗口大小。 在图 4 中,我们比较了不同滑动窗口大小对于不同全局:局部比率配置的局部注意力层的困惑度。滑动窗口可以显著减少,而不会影响困惑度。
对 KV 缓存内存的影响。 在图 5 中,我们展示了模型与 KV 缓存内存之间的平衡,在 32k 标记的上下文中。我们考虑了一个 2B 模型,具有不同的局部到全局比率和滑动窗口大小(sw)。我们将其与全局唯一配置进行比较,这是 Gemma 1 和 Llama 中使用的标准配置。我们观察到,“全局唯一”配置导致 60% 的内存开销,而使用 1:3 和 1024 的滑动窗口(sw=1024)时减少到不到 15%。在图 6 中,我们计算了 KV 缓存的内存使用量作为上下文长度的函数,使用我们的 2B 架构(**L:G=5:1, sw=1024**)与一个“全局唯一”的 2B 模型。
5.3 启用长上下文
我们不是从头开始训练 128k 序列,而是预训练我们的模型使用 32k 序列,然后在预训练结束时将 4B、12B 和 27B 模型扩展到 128k 标记,同时重新缩放 RoPE(Chen 等人,2023)。我们发现 8 的缩放因子在实践中效果良好。值得注意的是,与 Gemma 2 相比,我们还将全局自注意力层的 RoPE 基频从 10k 增加到 1M,而保持局部自注意力层的频率为 10k。在图 7 中,我们展示了不同上下文长度的困惑度影响。我们的模型推广到 128k,但随着我们继续扩展,困惑度迅速下降。
5.4 小型与大型教师
一个常见的发现是,要训练一个小模型,最好从一个小教师那里进行蒸馏。
我们怀疑这是因为这些研究通常在设置中使用更差的教师会超过使用更好教师的益处。我们使用两个不同大小的教师训练学生,一个大一个小,用于不同的训练期限。在图 8 中,我们观察到,对于短训练期限,小教师更好,但趋势在更长训练中逆转。
5.5 视觉编码器
图像分辨率的影响。 我们使用基于 SigLIP(Zhai 等人,2023)的视觉编码器。视觉编码器被冻结,只有语言模型接受训练。这个多模态数据中的每个图像都由来自相应视觉编码器的 256 个图像标记表示。因此,更高分辨率的编码器使用平均池化来将其输出减少到 256 个标记。例如,896 分辨率编码器在其输出上有 4x4 的平均池化。如表 7 所示,更高分辨率的编码器表现优于较小的编码器。
平移和扫描(P&S)。 P&S 使得以接近其原生长宽比和图像分辨率捕获图像成为可能。在表 8 中,我们比较了我们的 27B IT 模型,有和没有 P&S。如预期的那样,能够以接近原生分辨率处理图像的能力对于需要某种形式读取图像上的文本的任务有很大帮助,这对于视觉语言模型来说尤为重要。
6. 记忆和隐私
大型语言模型可能会产生训练中使用的某些文本的近乎复制(Biderman 等人,2023;Carlini 等人,2021,2022;Ippolito 等人,2022;Nasr 等人,2023)。一些以前的报告发布了审计,通过测量记忆率(Anil 等人,2023;Chowdhery 等人,2022;Gemini 团队,2023,2024;Gemma 团队,2024a,b;LLaMa 团队,2024)来量化这种风险。这个“记忆率”1 定义为模型生成与训练数据匹配的生成与所有模型生成之间的比率,使用以下设置。我们遵循 Gemma 团队(2024b)中描述的方法来测量它。具体来说,我们从训练数据中统一分布的较大部分进行子采样,并使用长度为 50 的前缀和长度为 50 的后缀测试对此内容的可发现提取(Nasr 等人,2023)。如果延续中的所有标记与源后缀匹配,则将文本表示为“完全记忆”,如果它们匹配到编辑距离为 10% 的范围内,则表示为“近似记忆”。
图 9 比较了 Gemma 和 Gemini 模型的记忆率;这些模型按逆时间顺序排列,最新的 Gemma 3 模型在左边。我们发现,Gemma 3 模型以比之前模型低得多的速率记忆长篇文本(注意对数 y 轴)。我们观察到 4B、12B 和 27B 模型之间的记忆率只有微小的差异,1B 记忆较少比其他更大的模型。此外,我们发现更大比例的文本被表征为近似记忆,与完全记忆相比,近似记忆的相对增加大约是 24 倍。
我们还研究了生成中可能包含个人信息的速率。为了识别潜在的个人信息,我们使用谷歌云敏感数据保护(SDP)服务。2 SDP 使用广泛的检测规则来识别可能包含个人信息的文本。SDP 旨在具有高召回率,不考虑信息可能出现的环境,这导致许多误报。因此,我们可能高估了输出中包含的个人信息的真实数量。SDP 还提供广泛的严重程度级别:低、中和高。如果 SDP 将其分类为任何严重程度级别的个人信息,我们则将文本分类为个人信息。我们观察到所有 Gemma 3 模型的输出中都没有个人信息。这表明在分类为记忆的输出中,个人数据的速率低于我们的检测阈值。
7. 责任、安全、保障
责任、安全和保障在 Gemma 模型开发中至关重要。为了减少对 Gemma 3 用户的影响,我们继续整合增强的内部安全流程,这些流程贯穿于开发工作流程,与最近的谷歌 AI 模型(Gemini 团队,2024)保持一致。这侧重于训练时的安全缓解措施,以及对新的图像到文本功能的强大而透明的模型评估。
7.1 治理与评估
我们对评估 Gemma 的益处和风险的方法反映了 Gemma 1(Gemma 团队,2024a)中所概述的方法,并考虑了支持模式的变化。我们继续相信,AI 的开放性可以将这些技术的益处传播到整个社会,但必须根据可能造成的危害风险进行评估,无论是在个人还是机构层面(Weidinger 等人,2021)。自 Gemma 首次发布以来,我们已经看到这些模型推动了多项社会有益的应用,例如我们自己的 ShieldGemma 2,一个使用 Gemma 3 构建的 4B 图像安全分类器,它提供了一个现成的解决方案,用于图像安全,输出危险内容、性剥削和暴力类别的安全标签。
发布 Gemma 3 模型需要对模型能力的变化给予特别关注,并密切监控现有多模态 LLM(Lin 等人,2024)的不断演变的风险,以及了解模型在野外的使用方式。尽管我们尚未收到任何关于 Gemma 的恶意使用报告,但我们仍然致力于调查任何此类报告,并与学术界和开发者社区合作,以及进行我们自己的监控,以标记此类案例。
尽管能力有所提升,我们认为,鉴于有更多强大的开放模型可用,这个版本对整体风险格局的影响可以忽略不计。
7.2 安全政策和训练时缓解措施
Gemma 安全方法的一个关键支柱是与谷歌安全政策保持一致,与 Gemini 模型(Gemini 团队,2023)保持一致。它们旨在帮助防止我们的模型产生有害内容,即:
• 儿童性虐待和剥削
• 泄露可能导致危害的个人身份信息(例如,社会安全号码)
• 仇恨言论和骚扰
• 危险或恶意内容(包括提倡自我伤害或指导有害活动)
• 色情内容
• 与科学或医学共识相反的医疗建议
我们进行了大量的安全过滤我们的预训练数据,以减少预训练和微调检查点产生有害内容的可能性。对于微调模型,我们还使用 SFT 和 RLHF 来引导模型远离不良行为。
7.3 保障评估
我们还将我们的 IT 模型通过一系列基线保障评估,以了解我们的模型可能造成的潜在危害。由于我们提倡开放模型,我们也认识到,权重发布的不可逆性需要严格的评估风险。我们的内部安全流程相应地设计,对于之前的 Gemma 模型,我们还进行了与极端风险相关的能力的评估(Phuong 等人,2024;Shevlane 等人,2023)。随着我们继续开发和共享开放模型,我们将遵循这样的启发式方法,彻底评估一个更强大的模型通常为能力较低的模型提供足够的保障。因此,我们优先考虑为 Gemma 3 简化评估集,为特定模型可能存在的潜在更高风险的情况保留深入的危险能力评估(如下面关于 CBRN 评估的描述)。我们在平衡开发速度与目标安全测试的同时,确保我们的评估是专注且高效的,同时坚持我们在 Frontier Safety Framework 中概述的承诺。
基线评估
基线保障捕获了模型违反安全政策的比率,使用大量合成的对抗用户查询,并使用人类评估者将答案标记为是否违反政策。总体而言,Gemma 3 对这些安全政策的违规率非常低。
化学、生物、放射性和核(CBRN)知识
由于在 STEM 相关任务上的增强性能,我们使用内部数据集的封闭式知识型多选题评估了与生物、放射性和核风险相关的知识。对于化学知识的评估,我们采用了一种封闭型知识型方法对化学危害进行评估,该方法由 Macknight 等人开发。我们的评估表明,Gemma 3 模型在这些领域中的知识较低。
7.4 我们负责任的开放模型方法
设计安全、可靠和负责任的应用需要系统级的方法,努力缓解与每个特定用例和环境相关的风险。我们将继续采用与我们的模型潜在风险成比例的评估和安全缓解措施,并且只有当我们确信收益明显超过可预见的风险时,才会与社区共享这些。
8. 讨论与结论
在这项工作中,我们介绍了 Gemma 3,这是 Gemma 系列开源语言模型的最新成员,用于文本、图像和代码。在这个版本中,我们专注于添加图像理解和长上下文,同时提高多语言能力和 STEM 相关能力。我们的模型大小和架构旨在与标准硬件兼容,我们的大部分架构改进都是为了适应这种硬件,同时保持性能。