Resumo da mensagem principal da Gemma 3
I. Principais indicadores
parâmetros | detalhes |
---|---|
tamanho do modelo | Parâmetros de 100 milhões a 27 bilhões em quatro versões: 1B, 4B, 12B, 27B |
construir | com base em Transformador Arquitetura específica do decodificador herdada do Gemma 2 com vários aprimoramentos |
capacidade multimodal | Suporta entrada de texto e imagem, usando um codificador visual SigLIP personalizado para codificar imagens em 256 soft tags |
Comprimento do contexto | O modelo 1B suporta tags de 32K e os demais modelos suportam tags de 128K. |
mecanismo de atenção | Padrão de intercalação de camada de atenção local/global 5:1 com camada local abrangendo 1024 tokens |
Métodos de treinamento | Pré-treinamento usando destilação de conhecimento e instruções de ajuste fino usando métodos aprimorados de pós-treinamento |
Dados de pré-treinamento | Quantidade de dados de pré-treinamento: 1B modelo 2T tokens, 4B modelo 4T tokens, 12B modelo 12T tokens, 27B modelo 14T tokens |
multilinguismo | Comparação do uso de Gêmeos 2.0 O mesmo classificador SentencePiece com 262 mil entradas no vocabulário, compatível com vários idiomas |
Suporte quantitativo | Estão disponíveis versões de quantificação em diferentes formatos padrão, incluindo int4 por canal, int4 por bloco e toggle fp8. |
Infraestrutura de treinamento | Treinamento com TPUv4, TPUv5e e TPUv5p com sharding de estado do otimizador ZeRO-3 e estratégia de replicação de dados |
pegada de carbono | Com uma pegada de carbono pré-treinada de 1497,13 toneladas de CO2e, os Data Centers do Google são neutros em carbono! |
II Vantagens
- Excelente compreensão multimodal
- O Gemma 3 integra um codificador visual que é capaz de lidar com entradas de texto e imagem e tem bom desempenho em tarefas multimodais.
- Apresenta bom desempenho em testes de referência visuais, como DocVQA, InfoVQA, TextVQA e outros, especialmente em tarefas que envolvem compreensão de documentos e leitura de texto em imagens.
- Em comparação com o PaliGemma 2, o Gemma 3 tem um desempenho melhor em tarefas de compreensão de documentos, como DocVQA e InfoVQA.
- O uso da tecnologia Pan & Scan (P&S) permite que o Gemma 3 processe imagens com resolução quase nativa, melhorando ainda mais seu desempenho em tarefas de linguagem visual.
- O Gemma 3 integra um codificador visual que é capaz de lidar com entradas de texto e imagem e tem bom desempenho em tarefas multimodais.
- Processamento avançado de contexto longo
- O suporte ao comprimento do contexto para 128 mil tokens (32 mil para modelos 1B) é vantajoso quando se trabalha com tarefas de texto longo.
- Apresenta bom desempenho em benchmarks de contexto longo, como RULER e MRCR.
- O padrão de intercalação da camada de atenção local/global e o design de curto período da camada local controlam com eficácia o consumo de memória do cache KV e, ao mesmo tempo, mantêm a capacidade de processamento de contexto longo.
- O suporte ao comprimento do contexto para 128 mil tokens (32 mil para modelos 1B) é vantajoso quando se trabalha com tarefas de texto longo.
- Aprimoramento do multilinguismo
- Uso de um lexer mais equilibrado para idiomas diferentes do inglês e maior quantidade de treinamento em dados multilíngues.
- Apresenta bom desempenho em benchmarks multilíngues, como MGSM, Global-MMLU-Lite e WMT24++.
- Excelente desempenho em tarefas de teste entre idiomas e de geração de idiomas indianos, como XQuAD e IndicGenBench.
- Uso de um lexer mais equilibrado para idiomas diferentes do inglês e maior quantidade de treinamento em dados multilíngues.
- Aumento das habilidades de matemática, raciocínio e codificação
- Os métodos pós-treinamento são otimizados para habilidades matemáticas, de raciocínio e de codificação.
- Excelente desempenho em MATH, GSM8K, HumanEval e outros benchmarks de matemática e código.
- Apresenta bom desempenho em benchmarks de compreensão de idiomas multitarefa, como MMLU, MMLU-Pro e AGIEval.
- Os métodos pós-treinamento são otimizados para habilidades matemáticas, de raciocínio e de codificação.
- Alta eficiência de modelagem
- Os modelos 1B e 4B têm tamanhos de parâmetros menores e são adequados para implantação em dispositivos com recursos limitados.
- Com a técnica de pooling médio, os modelos Gemma 3 4B e 12B têm custos de migração cerca de 10 vezes menores do que os modelos PaliGemma 2 9B e 27B para a mesma resolução das entradas do codificador visual.
III Desvantagens
- Conhecimento limitado de produtos químicos, biológicos, radiológicos e nucleares (CBRN)
- A Gemma 3 teve um desempenho ruim na avaliação de conhecimento de CBRN devido à falta de conteúdo relacionado a CBRN nos dados do pré-treinamento.
- Isso significa que, em cenários de aplicação que envolvem domínios CBRN, o Gemma 3 pode não fornecer informações precisas e confiáveis.
- Possíveis gargalos de desempenho ao processar imagens de alta resolução
- Embora as técnicas de P&S possam aliviar os problemas associados a proporções não quadradas e imagens de alta resolução, o corte e o dimensionamento frequentes da imagem podem afetar a velocidade da inferência.
- O Gemma 3 pode enfrentar desafios de desempenho em aplicações que exigem o processamento de imagens de altíssima resolução ou tarefas de visão em tempo real.
- A compreensão de áreas específicas pode ser inadequada
- Embora o Gemma 3 seja excelente em várias áreas, ele pode ter uma compreensão limitada de certas áreas altamente especializadas (por exemplo, jurídica, médica, etc.).
- Isso requer mais ajustes finos ou adaptação de domínio com base em cenários de aplicativos específicos.
- Há certos riscos de memória e privacidade
- Modelos de linguagem grandes correm o risco de gerar texto que aparece nos dados de treinamento, e o Gemma 3 não é exceção.
- Embora a taxa de memória do Gemma 3 seja menor do que a dos modelos anteriores, ainda é necessário lidar com informações confidenciais com cuidado para evitar comprometer a privacidade do usuário.
- A capacidade de raciocinar sobre relações complexas de causa e efeito precisa ser aprimorada
- A Gemma 3 pode não ter o desempenho esperado em tarefas que envolvam raciocínio causal complexo.
- Isso requer mais pesquisas e refinamento do modelo para melhorar seu desempenho em tarefas de raciocínio causal.
Gemma 3 Classificação
A série de modelos Gemma 3 consiste em quatro versões, cada uma das quais com código-fonte aberto, uma versão base de pré-treinamento (versão com sufixo pt, denotando pré-treinamento) e uma versão com ajuste fino de instrução (versão com sufixo it, denotando ajuste fino de instrução), o que significa que um total de oito versões do modelo maior tem código-fonte aberto.
O tamanho máximo do parâmetro do Gemma 3-27B IT tem um tamanho de precisão fp16 de 54,8 GB, 27 GB após a quantificação INT8 com dois 4090s disponíveis, e a quantificação INT4 requer 14 GB de memória de vídeo, o que é perfeitamente adequado para um único 4090.
E essa versão do modelo foi muito bem avaliada, marcando 1.338 pontos (em 8 de março de 2025) na Big Models Anonymous Arena (Chatbot Arena), ficando em 9º lugar no mundo, atrás do modelo o1-2024-12-17, e à frente de modelos como Qwen 2.5-Max e DeepSeek V3.
De acordo com a declaração oficial do Google, essa série Gemma 3 é uma atualização significativa, com a versão Gemma 3-4B sendo modelada em um nível próximo ao do Gemma 2-27B, enquanto o Gemma 3-27B está próximo ao do Gemini 1.5-Pro!
Gemma 3 Experiência Localização
https://aistudio.google.com/prompts/new_chat?model=gemma-3-27b-it
https://ollama.com/library/gemma3
resumos
O Gemma 3 é um poderoso modelo de macrolinguagem multimodal que se destaca em compreensão multimodal, processamento de contexto longo, recursos multilíngues, matemática, raciocínio e código. No entanto, ele ainda pode ser aprimorado em conhecimento CBRN, processamento de imagens de alta resolução, compreensão específica de domínio, riscos de memória e privacidade e raciocínio causal complexo.
Relatório técnico completo:https://storage.googleapis.com/deepmind-media/gemma/Gemma3Report.pdf
Apresentamos o Gemma 3, uma extensão multimodal da família Gemma de modelos leves de código aberto com tamanhos de parâmetros que variam de 100 milhões a 27 bilhões. Essa versão apresenta recursos de compreensão visual, suporte a mais idiomas e comprimentos de contexto mais longos, com suporte a pelo menos 128 mil tokens. Também fizemos aprimoramentos na arquitetura do modelo para reduzir a memória cache KV, que cresce drasticamente com o aumento do comprimento do contexto. O modelo Gemma 3 é treinado por meio da destilação de conhecimento e supera o Gemma 2 tanto na versão pré-treinada quanto na versão com ajuste fino das instruções. Em particular, nossa nova abordagem pós-treinamento melhora significativamente os recursos de matemática, bate-papo, adesão às instruções e multilíngue, tornando o Gemma3-4B -IT comparável em desempenho ao Gemma2-27B-IT, e o Gemma3-27B-IT comparável ao Gemini-1.5-Pro em benchmarks. Disponibilizamos todos os modelos para a comunidade.
1. introdução
Apresentamos a versão mais recente do modelo de linguagem de código aberto Gemma (Gemma Team, 2024a), que foi projetado em conjunto com a família Gemini de modelos de fronteira (Gemini Team, 2023). Essa nova versão é comparável em tamanho ao Gemma 2 (Gemma Team, 2024b) e acrescenta um modelo de 1 bilhão de parâmetros. Esses modelos foram projetados para serem executados em hardware padrão de consumo, como telefones celulares, laptops e GPUs de ponta. Essa versão traz vários recursos novos para a família Gemma, como multimodalidade, contextos longos e multilinguismo, mantendo ou superando o desempenho das versões anteriores.
Em termos de multimodalidade, a maioria dos modelos Gemma 3 é compatível com o codificador visual SigLIP personalizado (Zhai et al., 2023). O modelo de linguagem trata as imagens como sequências de tokens flexíveis codificados pelo SigLIP. Reduzimos o custo de inferência do processamento de imagens compactando a incorporação visual em 256 vetores de tamanho fixo. O codificador opera em uma resolução fixa, e nos inspiramos no LLaVA (Liu et al., 2024) para obter uma resolução flexível por meio de uma abordagem pan-and-scan (P&S).
O segundo grande aprimoramento arquitetônico é aumentar o tamanho do contexto para 128 mil tokens sem afetar o desempenho. Um desafio com contextos longos é a explosão da memória no cache KV durante a inferência. Para reduzir esse problema, intercalamos várias camadas locais entre cada camada global e definimos a extensão das camadas locais para apenas 1024 tokens. Assim, somente a camada global se preocupa com contextos longos, e temos uma camada global para cada 5 camadas locais.
A abordagem de otimização do pré-treinamento é semelhante à do Gemma 2, mas com algumas modificações no projeto arquitetônico. Usamos o mesmo desambiguador do Gemini 2.0 e também revisitamos nossa estratégia de combinação de dados para melhorar os recursos multilíngues dos modelos, além de introduzir a compreensão de imagens. Todos os modelos Gemma 3 foram treinados por destilação de conhecimento (Hinton et al., 2015).
No pós-treinamento, concentramo-nos em aprimorar as habilidades de matemática, raciocínio e bate-papo, além de integrar os novos recursos do Gemma 3, contextos longos e entrada de imagens. Usamos uma nova abordagem de pós-treinamento para aprimorar todos os recursos de matemática, codificação, bate-papo, acompanhamento de comandos e multilinguismo. O modelo resultante de ajuste fino das instruções do Gemma 3 é poderoso e versátil, superando drasticamente o desempenho de seu antecessor em benchmarks.
Nas seções a seguir, apresentamos uma breve visão geral do nosso modelo, incluindo a arquitetura e os métodos de pré-treinamento e pós-treinamento. Também fornecemos uma avaliação detalhada de vários testes de benchmark quantitativos e qualitativos. Discutimos abordagens para proteger a implementação responsável e descrevemos as implicações mais amplas do Gemma 3, suas limitações e vantagens.
Este é um detalhamento dos cálculos de custo e gorjeta com base nos recibos:
1.Identifique o custo da carne fatiada:O recibo lista "1x Zurcher Geschnetzeltes + Rosti" por CHF 36,50. Trata-se de carne fatiada com acompanhamento de batatas fritas (Rosti). 2. Este é um prato de carne fatiada com acompanhamento de batatas fritas (Rosti). 2.Calcule a ponta para 18%:Valor da gorjeta = CHF 36,5 * 0,18 = CHF 6,57 3.Calcule o valor total:Total = CHF 36,50 + CHF 6,57 = CHF 43,07
2. arquitetura do modelo
O modelo Gemma 3 segue a mesma arquitetura Transformer específica do decodificador genérico das gerações anteriores de modelos (Vaswani et al., 2017), com a maioria dos elementos arquitetônicos semelhantes às duas primeiras versões do Gemma. Usamos Grouped Query Attention (GQA) (Ainslie et al., 2023), bem como Post-Normalisation e Pre-Normalisation with RMSNorm (Zhang e Sennrich, 2019). Inspirados por Dehghani et al. (2023), Wortsman et al. (2023) e a equipe do Chameleon (2024), substituímos os soft caps do Gemma 2 pela normalização QK. Nesta seção, destacamos algumas diferenças importantes em relação às gerações anteriores de modelos.
5:1 Intercalação de camadas local/global. Alternamos entre a autoatenção local de janela deslizante (Beltagy et al., 2020) e a autoatenção global (Luong et al., 2015), com um padrão de alternância de 1 camada global para cada 5 camadas locais, começando com a camada local como a primeira camada do modelo.
modelagem | codificador visual | Parâmetros de incorporação | Parâmetros não incorporados |
---|---|---|---|
1B | 0 | 302M | 698M |
4B | 417M | 675M | 3,209M |
12B | 417M | 1,012M | 10,759M |
27B | 417M | 1,416M | 25,600M |
Contexto longo. Os modelos Gemma 3 suportam um comprimento de contexto de 128 mil tokens, com exceção do modelo 1B, que tem um comprimento de contexto de 32 mil. Aumentamos a frequência de base RoPE da camada de autoatenção global de 10 mil para 1 milhão e mantivemos a frequência da camada local em 10 mil. Seguimos um processo semelhante ao da interpolação posicional de Chen et al. (2023) para ampliar a extensão da camada de autoatenção global.
2.1 Modalidades visuais
Codificador visual. Usamos a variante 400M do codificador SigLIP (Zhai et al., 2023), um transformador visual (Dosovitskiy, 2020) treinado em uma variante da perda CLIP (Radford et al., 2021). entrada e ajustado nos dados da tarefa do Visual Assistant. Para simplificar, compartilhamos o codificador visual entre os modelos 4B, 12B e 27B e o mantivemos congelado durante o treinamento.
Pan e Scan (P&S). O codificador visual Gemma opera em uma resolução fixa de 896x896. Ao lidar com proporções de aspecto não quadradas e imagens de alta resolução, isso pode levar à distorção da imagem, resultando em texto ilegível ou no desaparecimento de pequenos objetos. Resolvemos esse problema usando um algoritmo de janelamento adaptável no momento da inferência. Esse algoritmo divide a imagem em blocos recortados de tamanho igual e sem sobreposição que cobrem a imagem inteira e a redimensiona para 896x896 pixels para passar para o codificador. Esse janelamento é aplicado somente quando necessário e controla o número máximo de cortes. Essa é uma otimização somente de inferência que pode ser desativada para acelerar a inferência.
Fragmentos | ||||
---|---|---|---|---|
modelagem | tipologia | Número de chips | série de dados | cópias |
1B | TPUv5e | 512 | 16 16 | 2 |
4B | TPUv5e | 2048 | 16 16 | 8 |
12B | TPUv4 | 6144 | 16 16 | 24 |
27B | TPUv5p | 6144 | 24 8 | 32 |
2.2 Pré-treinamento
Seguimos uma receita de pré-treinamento semelhante à da Gemma 2 com destilação de conhecimento.
Dados de treinamento. Pré-treinamos nosso modelo com um orçamento de marcação um pouco maior do que o do Gemma 2, ou seja, usamos 14T tags para treinar o Gemma 3 27B, 12T tags para treinar a versão 12B, 4T tags para treinar o 4B e 2T tags para treinar o 1B. O aumento nas tags foi para levar em conta a combinação de imagens e textos usados durante o pré-treinamento. Também aumentamos a quantidade de dados multilíngues para melhorar a cobertura de idiomas. Adicionamos dados monolíngues e paralelos e usamos uma estratégia inspirada em Chung et al. (2023) para lidar com desequilíbrios na representação de idiomas.
Separadores. Usamos o mesmo léxico do Gemini 2.0: um léxico SentencePiece com dígitos divididos, espaços em branco retidos e codificação em nível de byte (Kudo e Richardson, 2018). O vocabulário resultante tem 262 mil entradas. Esse lexer é mais equilibrado para idiomas não ingleses.
Filtragem. Usamos técnicas de filtragem para reduzir o risco de gerar discursos indesejados ou inseguros e remover determinadas informações pessoais e outros dados confidenciais. Descontaminamos o conjunto de avaliação na mistura de dados de pré-treinamento e reduzimos o risco de recitação ao minimizar a disseminação de resultados confidenciais. Também aplicamos uma etapa de reponderação de qualidade inspirada em Sachdeva et al. (2024) para reduzir a ocorrência de dados de baixa qualidade.
Destilação do conhecimento. Fazemos uma amostragem de 256 logits por token e os ponderamos de acordo com as probabilidades do professor. Os alunos aprendem a distribuição dos professores nessas amostras por meio da perda de entropia cruzada. A distribuição alvo dos professores é definida como probabilidade zero para logits não amostrados e renormalizada.
Original (GB) | Quantitativo (GB) | |||
---|---|---|---|---|
Modelo 1B | bf16 2.0 | 0.5 | 0.7 1.0 | |
+KV | 2.9 | 1.4 | 1.6 1.9 | |
4B | 8.0 | 2.6 | 2.9 4.4 | |
+KV | 12.7 | 7.3 | 7.6 9.1 | |
12B | 24.0 | 6.6 | 7.1 12.4 | |
+KV | 38.9 | 21.5 | 22.0 27.3 | |
27B | 54.0 | 14.1 | 15.3 27.4 | |
+KV | 72.7 | 32.8 | 34.0 46.1 |
2.3 Treinamento de percepção quantitativa
Além dos pontos de verificação originais, fornecemos versões quantificadas dos modelos em diferentes formatos padrão. Essas versões são obtidas pelo ajuste fino de cada modelo em um pequeno número de etapas (normalmente 5.000) usando o Quantitative Awareness Training (QAT) (Jacob et al., 2018). Usamos as probabilidades de pontos de verificação não quantificados como metas e ajustamos os dados para corresponder às distribuições pré-treinamento e pós-treinamento. Com base nos mecanismos de inferência quantitativa de código aberto mais populares (por exemplo, llama.cpp), concentramo-nos em três representações de peso: por canal int4, por bloco int4 e alternar fp8. Na Tabela 3, relatamos as pegadas de memória dos modelos originais e quantificados para diferentes representações de peso e com e sem o cache KV para um comprimento de sequência de marcador de 32k.
2.4 Infraestrutura de computação
Treinamos nossos modelos usando TPUv4, TPUv5e e TPUv5p, conforme mostrado na Tabela 2. Cada configuração de modelo é otimizada para minimizar o tempo da etapa de treinamento. Para o codificador visual, pré-computamos os embeddings para cada imagem e treinamos diretamente usando os embeddings sem aumentar o custo do treinamento do modelo de linguagem.
Os estados do otimizador são fragmentados usando a implementação do ZeRO-3 (Ren et al., 2021). Para o treinamento multipod, realizamos réplicas de dados na rede do data center re
Contexto (textual) | formatação |
---|---|
rodadas de usuários | usuário |
giro do modelo | modelo |
Fim da rodada | |
Exemplo de discussão: | |
Usuário: Quem é você? Modelo: Meu nome é Gemma! Usuário: O que é 2+2? Modelo: 2+2=4. | |
Entrada de modelo: | |
[BOS]usuário Whoareyou? modelo Meu nome é Gemma! usuário | |
O que é 2+2? | |
2+2=4. | Saída do modelo: |
2.5 Pegada de carbono
A pegada de carbono do modelo Gemma 3 pré-treinado é de 1.497,13 toneladas de CO2e. Esse valor é estimado com base no consumo de energia por hora informado pelos nossos data centers TPU e ampliado para levar em conta a energia adicional consumida para criar e manter os data centers. Os data centers do Google são neutros em termos de carbono, o que é obtido por meio de uma combinação de eficiência energética, compras de energia renovável e compensações de carbono. Essa neutralidade de carbono se aplica ao nosso treinamento e às máquinas que o executam.
3. ajuste fino do comando
O modelo pré-treinado foi transformado em um modelo de ajuste fino de comando por meio de um método aprimorado de pós-treinamento (consulte a Tabela 6).
habilidade
Nossa abordagem pós-treinamento se baseia em uma versão aprimorada do Knowledge Distillation (Agarwal et al., 2024; Anil et al., 2018; Hinton et al., 2015) de um grande corpo docente de TI, bem como no estágio de ajuste fino de RL com base em versões aprimoradas de BOND (Sessa et al., 2024), WARM (Ram et al., 2024b) e WARP (Ram et al. , 2024a) na fase de ajuste fino de RL.
Objetivos de aprendizado aprimorados
Usamos uma variedade de funções de recompensa para melhorar a utilidade, a matemática, a codificação, o raciocínio, o seguimento de instruções e o multilinguismo, minimizando os danos ao modelo. Isso inclui aprender com modelos de recompensa agregados ponderados treinados usando dados de feedback humano (Ram et al., 2024b), feedback de execução de código (Gehring et al., 2024) e recompensas reais para resolver problemas matemáticos (DeepSeek-AI, 2025; Lambert et al., 2024).
Filtragem de dados
Otimizamos cuidadosamente os dados usados no pós-treinamento para maximizar o desempenho do modelo. Filtramos as saídas do modelo que exibem determinadas informações pessoais, são inseguras ou tóxicas, dados incorretamente autoidentificados e exemplos duplicados. A inclusão de um subconjunto de dados que incentiva uma melhor atribuição contextual, moderação e rejeição para minimizar ilusões também melhora o desempenho em métricas factuais sem degradar o desempenho do modelo em outras métricas.
Marcação [BOS]
Nos modelos PT e IT em que o texto começa com uma tag [BOS], ela precisa ser adicionada explicitamente, pois o texto "[BOS]" não será mapeado para uma tag [BOS]. Por exemplo, o Flax tem uma opção, add_bos = True, para adicionar automaticamente esse token durante a divisão de palavras. A Tabela 4 mostra um exemplo de formatação de um modelo de TI.
Formatação de PT e TI
Todos os modelos compartilham o mesmo desambiguador, com alguns tokens de controle dedicados à formatação de TI. Uma diferença importante é que os modelos PT emitem um token no final da geração, enquanto os modelos IT emitem um token no final da geração, conforme mostrado para IT na Tabela 4. Portanto, o ajuste fino de qualquer tipo de modelo também exige a adição de suas respectivas tags de fim de turno.
classificações | modelagem | Elo | 95% CI | liberalização | tipologia | Parâmetros do #/1 ativação do # |
---|---|---|---|---|---|---|
1 | Grok-3-Preview-02-24 | 1412 | +8/-10 | |||
1 | GPT-4.5-Preview | 1411 | +11/-11 | |||
3 | Gemini-2.0-Flash-Thinking-Exp-01-21 | 1384 | +6/-5 | |||
3 | Gemini-2.0-Pro-Exp-02-05 | 1380 | + 5/-6 | |||
3 | ChatGPT-4o-latest (2025-01-29) | 1377 | + 5/-4 | |||
6 | DeepSeek-R1 | 1363 | +8/-6 | ser | MdE | 671B/37B |
6 | Gemini-2.0-Flash-001 | 1357 | +6/-5 | |||
8 | 01-2024-12-17 | 1352 | + 4/-6 | |||
9 | Gemma-3-27B-IT | 1338 | +8/-9 | ser | comprimido | 27B |
9 | Qwen2.5-Max | 1336 | + 7/-5 | |||
9 | 01-preview | 1335 | +4/-3 | |||
9 | 03-mini-alto | 1329 | +8/-6 | |||
13 | DeepSeek-V3 | 1318 | +8/-6 | ser | MdE | 671B/37B |
14 | GLM-4-Plus-0111 | 1311 | +8/-8 | |||
14 | Qwen-Plus-0125 | 1310 | +7/-5 | |||
14 | Claude 3.7 Soneto | 1309 | + 9/-11 | |||
14 | Gemini-2.0-Flash-Lite | 1308 | +5/-5 | |||
18 | Passo-2-16K-Exp | 1305 | + 7/-6 | |||
18 | 03-mini | 1304 | + 5/-4 | |||
18 | 0l-mini | 1304 | +4/-3 | |||
18 | Gemini-1.5-Pro-002 | 1302 | +3/-3 | |||
28 | Meta-Llama-3.1-405B-Instruct-bf16 | 1269 | +4/-3 | ser | comprimido | 405B |
38 | Llama-3.3-70B-Instruct | 1257 | +5/-3 | ser | comprimido | 70B |
39 | Qwen2.5-72B-Instrução | 1257 | +3/-3 | ser | comprimido | 72B |
59 | Gemma-2-27B-it | 1220 | +3/-2 | ser | comprimido | 27B |
Tabela 5 | Avaliação dos modelos de TI Gemma 3 27B no Chatbot Arena (Chiang et al., 2024). Todos os modelos foram avaliados às cegas, lado a lado, por um avaliador humano. Cada modelo recebeu uma pontuação de acordo com o sistema de pontuação Elo. Os números do Gemma-3-27B-IT são resultados preliminares recebidos em 8 de março de 2025. Os modelos Gemma-3-27B-IT foram avaliados no Chatbot Arena (Chiang et al., 2024) por um avaliador humano.
4. avaliação final do modelo
Nesta seção, avaliamos o modelo de TI por meio de uma série de benchmarks automatizados e avaliações humanas, bem como benchmarks estáticos, como o MMLU.
4.1 Arena de chatbot LMSYS
Nesta seção, relatamos o desempenho do nosso modelo IT 27B na LMSys desempenho em uma avaliação cega lado a lado de outros modelos de última geração no Chatbot Arena (Chiang et al., 2024). Relatamos as pontuações Elo na Tabela 5. O Gemma 3 27B IT (1338) é o melhor modelo entre os 10 primeiros e tem pontuações mais altas do que outros modelos abertos que não pensam, como DeepSeek-V3 (1318), LLaMA 3 405B (1257) e Qwen2.5-70B (1257), que são modelos muito maiores. Por fim, o Gemma 3 tem um Elo significativamente maior que o Gemma 2, com 1220. Observe que as pontuações do Elo não levam em conta a capacidade visual, enquanto nenhum dos modelos acima leva.
4.2 Benchmarking padronizado
Na Tabela 6, mostramos o desempenho do nosso modelo final em diferentes benchmarks em comparação com as iterações anteriores do nosso modelo e com o Gemini 1.5. Não comparamos diretamente com modelos externos que frequentemente relatam suas próprias configurações de avaliação, pois executá-los em nossa configuração não garante uma comparação justa. Incentivamos os leitores a acompanhar as tabelas de classificação estática de terceiros para uma comparação mais justa de diferentes modelos. Incluímos avaliações adicionais de nossos modelos em outros benchmarks no apêndice.
Gemini 1.5 | Gemini 2.0 | Gemma 2 | Gemma 3 | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Flash | Profissional | Flash | Profissional | 2B | 9B | 27B | 1B | 4B | 12B | 27B | |||
MMLU-Pro | 67.3 | 75.8 | 77.6 | 79.1 | 15.6 | 46.8 | 56.9 | 14.7 | 43.6 | 60.6 | 67.5 | ||
LiveCodeBench | 30.7 | 34.2 | 34.5 | 36.0 | 1.2 | 10.8 | 20.4 | 1.9 | 12.6 | 24.6 | 29.7 | ||
Bird-SQL (desenvolvimento) | 45.6 | 54.4 | 58.7 | 59.3 | 12.2 | 33.8 | 46.7 | 6.4 | 36.3 | 47.9 | 54.4 | ||
Diamante GPQA | 51.0 | 59.1 | 60.1 | 64.7 | 24.7 | 28.8 | 34.3 | 19.2 | 30.8 | 40.9 | 42.4 | ||
SimpleQA | 8.6 | 24.9 | 29.9 | 44.3 | 2.8 | 5.3 | 9.2 | 2.2 | 4.0 | 6.3 | 10.0 | ||
Aterramento FACTS | 82.9 | 80.0 | 84.6 | 82.8 | 43.8 | 62.0 | 62.4 | 36.4 | 70.1 | 75.8 | 74.9 | ||
MATEMÁTICA | 77.9 | 86.5 | 90.9 | 91.8 | 27.2 | 49.4 | 55.6 | 48.0 | 75.6 | 83.8 | 89.0 | ||
HiddenMath | 47.2 | 52.0 | 63.5 | 65.2 | 1.8 | 10.4 | 14.8 | 15.8 | 43.0 | 54.5 | 60.3 | ||
MMMU (val) | 62.3 | 65.9 | 71.7 | 72.7 | 48.8 | 59.6 | 64.9 |
Tabela 6: Comparação de desempenho com o modelo de corte de instruções (IT) do Gemini 1.5, Gemini 2.0 e Gemma 2 em benchmarks de amostra zero.
5. estudos de ablação
Nesta seção, concentramo-nos no impacto das mudanças na arquitetura e nos novos recursos visuais de alguns dos novos modelos.
5.1 Detecção da capacidade de pré-treinamento
Usamos vários benchmarks padrão como sondas durante o pré-treinamento para garantir que nossos modelos capturem recursos gerais. Na Figura 2, comparamos a qualidade dos modelos pré-treinados do Gemma 2 e 3 em relação a esses recursos gerais, ou seja, ciência, código, factualidade, multilinguismo, raciocínio e visão. Os detalhes de desempenho para os diferentes benchmarks públicos usados nesses gráficos estão resumidos no Apêndice. Em geral, vemos que, apesar da adição da visão, a nova versão melhora na maioria das categorias. Estamos particularmente preocupados com o multilinguismo dessa versão, que afeta diretamente a qualidade dos nossos modelos. No entanto, apesar do uso de técnicas de descontaminação, há sempre um risco de contaminação nessas sondas (Mirzadeh et al., 2024), o que torna mais difícil tirar conclusões mais claras.
5.2 Camada de atenção local: global
Medimos o impacto das alterações nas camadas de autoatenção local e global sobre o desempenho e o consumo de memória durante a inferência.
Local: taxa global. Na Fig. 3, comparamos diferentes proporções de camadas de atenção local e global. O modelo Gemma 2 usa 1:1, e o Gemma 3 usa 5:1. Observamos que a alteração dessa proporção tem pouco efeito sobre a perplexidade.
Tamanho da janela deslizante. Na Figura 4, comparamos a perplexidade de diferentes tamanhos de janela deslizante para diferentes configurações de proporção global:local da camada de atenção local. A janela deslizante pode ser reduzida significativamente sem afetar a perplexidade.
Impacto na memória cache KV. Na Fig. 5, mostramos o equilíbrio entre o modelo e a memória cache KV no contexto de 32 mil tags. Consideramos um modelo 2B com diferentes proporções de local para global e tamanhos de janela deslizante (sw). Comparamos esse modelo com uma configuração globalmente exclusiva, que é a configuração padrão usada no Gemma 1 e no Llama. Observamos que a configuração "globalmente exclusiva" leva a uma sobrecarga de memória de 60%, enquanto usamos uma janela deslizante de 1:3 e 1024 (sw=1024Na Figura 6, calculamos o uso da memória do cache KV como uma função do comprimento do contexto, usando nossa arquitetura 2B (**L:G=5:1, sw=1024**) com um modelo 2B "globalmente exclusivo".
5.3 Habilitação de contextos longos
Em vez de treinar sequências de 128 mil do zero, pré-treinamos nossos modelos para usar sequências de 32 mil e, em seguida, dimensionamos os modelos 4B, 12B e 27B para 128 mil tokens no final do pré-treinamento enquanto redimensionávamos o RoPE (Chen et al., 2023). Descobrimos que um fator de escala de 8 funcionou bem na prática. Notavelmente, em comparação com o Gemma 2, também aumentamos a frequência de base do RoPE para a camada de autoatenção global de 10k para 1M, mantendo a frequência da camada de autoatenção local em 10k.Na Fig. 7, mostramos o efeito da perplexidade para diferentes comprimentos de contexto. Nosso modelo é generalizado para 128k, mas a perplexidade diminui rapidamente à medida que continuamos a escalar.
5.4 Professores pequenos e grandes
Uma descoberta comum é que, para treinar um modelo pequeno, é melhor destilar a partir de um professor pequeno.
Suspeitamos que isso se deva ao fato de que esses estudos normalmente usam professores mais pobres em ambientes que superam os benefícios de usar professores melhores. Treinamos os alunos usando dois professores de tamanhos diferentes, um grande e um pequeno, para diferentes durações de treinamento. Na Figura 8, observamos que, para treinamentos de curta duração, o professor menor é melhor, mas a tendência se inverte para treinamentos mais longos.
5.5 Codificador visual
O efeito da resolução da imagem. Usamos um codificador visual baseado no SigLIP (Zhai et al., 2023). O codificador visual é congelado e somente o modelo de linguagem é treinado. Cada imagem nesses dados multimodais é representada por 256 tokens de imagem do codificador visual correspondente. Portanto, os codificadores de resolução mais alta usam pooling médio para reduzir sua saída a 256 tokens. Por exemplo, o codificador de resolução 896 tem pooling médio 4x4 em sua saída. Conforme mostrado na Tabela 7, o codificador de resolução mais alta supera o codificador menor.
Pan e Scan (P&S). O P&S possibilita a captura de imagens em proporções e resoluções de imagem próximas às nativas. Na Tabela 8, comparamos nossos modelos 27B IT com e sem P&S. Como esperado, a capacidade de processar imagens com resolução próxima à nativa é de grande ajuda para tarefas que exigem alguma forma de leitura de texto em uma imagem, o que é especialmente importante para modelos de linguagem visual.
6. memória e privacidade
Grandes modelos de linguagem podem produzir quase réplicas de alguns dos textos usados no treinamento (Biderman et al. 2023; Carlini et al. 2021, 2022; Ippolito et al. 2022; Nasr et al. 2023). Vários relatórios anteriores publicaram auditorias que quantificam esse risco medindo a taxa de memória (Anil et al. 2023; Chowdhery et al. 2022; Gemini team 2023, 2024; Gemma team 2024a,b; LLaMa team 2024). Essa "taxa de memória "1 é definida como a proporção de geração de modelos que correspondem aos dados de treinamento em relação a toda a geração de modelos, usando as seguintes configurações. Seguimos o método descrito em Gemma Team (2024b) para medi-la. Especificamente, fazemos uma subamostragem de uma parte maior uniformemente distribuída dos dados de treinamento e testamos a extração detectável desse conteúdo usando um prefixo de comprimento 50 e um sufixo de comprimento 50 (Nasr et al., 2023). O texto foi representado como "memória completa" se todos os tokens na continuação corresponderem ao sufixo de origem ou como "memória próxima" se corresponderem a uma distância de edição de 10%.
A Figura 9 compara as taxas de memória dos modelos Gemma e Gemini; os modelos estão dispostos em ordem cronológica inversa, com o modelo Gemma 3 mais recente à esquerda. Constatamos que o modelo Gemma 3 memoriza textos longos em uma taxa muito menor do que o modelo anterior (observe o eixo y logarítmico). Observamos apenas pequenas diferenças nas taxas de memória entre os modelos 4B, 12B e 27B, com o 1B lembrando menos do que os outros modelos maiores. Além disso, descobrimos que uma proporção maior de texto foi caracterizada como memória aproximada, com um aumento relativo na memória aproximada em comparação com a memória completa de cerca de 24 vezes.
Também examinamos a taxa na qual a geração pode conter informações pessoais. Para identificar possíveis informações pessoais, usamos o serviço SDP (Sensitive Data Protection) do Google Cloud.2 O SDP usa uma ampla gama de regras de detecção para identificar textos que possam conter informações pessoais. O SDP foi projetado para ter uma alta taxa de recuperação e não leva em conta o contexto em que as informações podem aparecer, o que leva a muitos falsos positivos. Como resultado, podemos superestimar a quantidade real de informações pessoais contidas no resultado. O SDP também oferece uma ampla gama de níveis de gravidade: baixo, médio e alto. Classificamos o texto como informação pessoal se o SDP o classificar em qualquer nível de gravidade. Observamos que todos os modelos Gemma 3 não têm informações pessoais em seus resultados. Isso indica que a taxa de dados pessoais na saída classificada como memórias está abaixo do nosso limite de detecção.
7. responsabilidade, segurança, proteção
Responsabilidade, segurança e proteção são fundamentais no desenvolvimento do modelo Gemma. Para minimizar o impacto sobre os usuários do Gemma 3, continuamos a integrar processos de segurança interna aprimorados que passam pelo fluxo de trabalho de desenvolvimento, alinhados com os modelos recentes de IA do Google (Gemini Team, 2024). Isso se concentra nas atenuações de segurança durante o treinamento, bem como na avaliação robusta e transparente do modelo de novos recursos de imagem para texto.
7.1 Governança e avaliação
Nossa abordagem para avaliar os benefícios e os riscos do Gemma reflete a abordagem descrita no Gemma 1 (Equipe Gemma, 2024a) e leva em conta as mudanças nos modelos de suporte. Continuamos a acreditar que a abertura da IA pode disseminar os benefícios dessas tecnologias para a sociedade como um todo, mas deve ser avaliada em termos do risco de danos que podem ser causados, tanto em nível individual quanto institucional (Weidinger et al., 2021). Desde a primeira versão do Gemma, vimos esses modelos impulsionarem vários aplicativos socialmente benéficos, como o nosso próprio ShieldGemma 2, um classificador de segurança de imagem 4B desenvolvido com o Gemma 3, que oferece uma solução pronta para a segurança de imagens que gera rótulos de segurança para categorias de conteúdo perigoso, exploração sexual e violência.
O lançamento do modelo Gemma 3 requer atenção especial às mudanças nos recursos do modelo e um monitoramento rigoroso dos riscos em evolução dos LLMs multimodais existentes (Lin et al., 2024), bem como uma compreensão de como o modelo é usado na natureza. Embora ainda não tenhamos recebido nenhuma denúncia de uso mal-intencionado do Gemma, continuamos empenhados em investigar essas denúncias e trabalhar com o meio acadêmico e a comunidade de desenvolvedores, além de realizar nosso próprio monitoramento para sinalizar esses casos.
Apesar dos recursos aprimorados, acreditamos que essa versão terá um impacto insignificante sobre o cenário geral de riscos, considerando os modelos abertos mais robustos disponíveis.
7.2 Política de segurança e medidas de mitigação durante o treinamento
Um dos principais pilares da abordagem de segurança do Gemma é o alinhamento com a Política de Segurança do Google, alinhada com o modelo Gemini (Gemini Team, 2023). Elas são projetadas para ajudar a evitar que nossos modelos gerem conteúdo prejudicial, ou seja
- Abuso e exploração sexual de crianças
- Divulgação de informações de identificação pessoal que possam causar danos (por exemplo, números de previdência social)
- Discurso de ódio e assédio
- Conteúdo perigoso ou malicioso (incluindo promoção de automutilação ou instrução sobre atividades prejudiciais)
- pornografia
- Orientação médica contrária ao consenso científico ou médico
Realizamos uma ampla filtragem de segurança de nossos dados de pré-treinamento para reduzir a probabilidade de que os pontos de verificação de pré-treinamento e ajuste fino produzam conteúdo prejudicial. Para modelos de ajuste fino, também usamos SFT e RLHF para desviar os modelos de comportamentos indesejáveis.
7.3 Avaliação das salvaguardas
Também submetemos nossos modelos de TI a uma série de avaliações de garantia de linha de base para entender os possíveis danos que nossos modelos poderiam causar. Como promovemos modelos abertos, também reconhecemos que a irreversibilidade das liberações de peso exige uma avaliação rigorosa dos riscos. Nossos processos internos de segurança são projetados de acordo com isso e, para modelos Gemma anteriores, também realizamos avaliações das capacidades associadas a riscos extremos (Phuong et al., 2024; Shevlane et al., 2023). À medida que continuarmos a desenvolver e compartilhar modelos abertos, seguiremos essa heurística avaliando minuciosamente que um modelo mais robusto normalmente oferece cobertura suficiente para um modelo menos capaz. Portanto, priorizamos um conjunto de avaliações simplificadas para o Gemma 3, reservando avaliações aprofundadas da capacidade de perigo para situações em que um determinado modelo possa ter um risco potencialmente maior (conforme descrito abaixo para a avaliação CBRN). Equilibramos a velocidade do desenvolvimento com testes de segurança direcionados para garantir que nossas avaliações fossem focadas e eficientes, ao mesmo tempo em que aderimos aos nossos compromissos descritos no Frontier Safety Framework.
Avaliação de linha de base
A garantia de linha de base captura a taxa na qual o modelo viola as políticas de segurança, usando um grande número de consultas de usuários adversários sintéticos e usando um avaliador humano para sinalizar as respostas quanto à violação ou não das políticas. Em geral, o Gemma 3 tem uma taxa muito baixa de violação dessas políticas de segurança.
Conhecimento químico, biológico, radiológico e nuclear (CBRN)
Devido ao melhor desempenho em tarefas relacionadas a STEM, avaliamos o conhecimento relacionado a riscos biológicos, radiológicos e nucleares usando perguntas fechadas de múltipla escolha baseadas em conhecimento no conjunto de dados interno. Para a avaliação do conhecimento químico, avaliamos os riscos químicos usando uma abordagem fechada baseada em conhecimento desenvolvida por Macknight et al. Nossa avaliação mostrou que o modelo Gemma 3 tem pouco conhecimento nesses domínios.
7.4 Nossa abordagem de modelagem aberta responsável
O desenvolvimento de aplicativos seguros, protegidos e responsáveis requer uma abordagem em nível de sistema que se esforce para reduzir os riscos associados a cada caso de uso e ambiente específicos. Continuaremos a empregar avaliações e atenuações de segurança proporcionais aos possíveis riscos de nossos modelos e só as compartilharemos com a comunidade quando tivermos certeza de que os benefícios superam claramente os riscos previsíveis.
8. discussão e conclusões
Neste trabalho, apresentamos o Gemma 3, o mais recente membro da família Gemma de modelos de linguagem de código aberto para texto, imagens e código. Nesta versão, nos concentramos em adicionar compreensão de imagens e contextos longos, além de aprimorar os recursos multilíngues e as habilidades relacionadas a STEM. O tamanho e a arquitetura do nosso modelo devem ser compatíveis com o hardware padrão, e a maioria dos nossos aprimoramentos arquitetônicos foi projetada para acomodar esse hardware e manter o desempenho.