Modelos leves e grandes estão se tornando o novo campo de batalha da IA. Após o lançamento do Google DeepMind's Gemma 3
Depois.Mistral AI
Lançado em março de 2024 Mistral Small 3.1
O modelo é uma ferramenta poderosa e poderosa para o desenvolvimento de um novo modelo para o desenvolvimento de um novo modelo. Com sua eficiência, recursos multimodais e natureza de código aberto, o modelo de 24 bilhões de parâmetros gerou muita atenção e alegou superar em vários benchmarks o Gemma 3
responder cantando GPT-4o Mini
.. A escala de parâmetros é uma medida fundamental do desempenho e da eficiência do modelo e está diretamente relacionada à perspectiva de sua aplicação. Neste artigo, compararemos Mistral Small 3.1
responder cantando Gemma 3
e analisa suas semelhanças e diferenças a partir de várias perspectivas, incluindo desempenho, tecnologia, aplicação e ecologia.
I. Comparação dos tamanhos dos parâmetros: US$ 24 bilhões vs. US$ 27 bilhões, quem é mais forte?
Mistral Small 3.1
tem 24 bilhões de parâmetros, enquanto o Gemma 3
Várias versões estão disponíveis para 1 bilhão, 4 bilhões, 12 bilhões e 27 bilhões de parâmetros, sendo que a versão com 27 bilhões de parâmetros é o modelo principal. O tamanho do parâmetro determina diretamente a capacidade e os requisitos de computação do modelo:
Mistral Small 3.1 (24B)
- Janela de contexto: 128k tokens
- Velocidade de raciocínio: 150 tokens/s
- Requisitos de hardware: único
RTX 4090
ou um Mac com 32 GB de RAM. - Suporte multimodal: texto + imagem
Gemma 3 (27B)
- Janela de contexto: 96 mil tokens
- Velocidade de raciocínio: ~120 tokens/s (oficialmente não especificado, com base em testes da comunidade)
- Requisitos de hardware: recomendado dual
GPU
ou servidores de ponta (A100 40GB
) - Suporte multimodal: texto + algumas tarefas visuais
Embora o número de participantes seja menor em 3B.Mistral Small 3.1
São obtidas janelas de contexto mais longas e velocidades de inferência mais altas.Gemma 3
Embora o número de parâmetros seja um pouco melhor, ele requer um suporte de hardware mais forte. A tabela abaixo compara visualmente os parâmetros e o desempenho dos dois:
modelagem | escala de parâmetros | janela de contexto | velocidade de inferência | Requisitos de hardware |
---|---|---|---|---|
Mistral Small 3.1 |
24 bilhões | 128k | 150 tokens/s | RTX 4090 /32 GB DE RAM |
Gemma 3 |
27 bilhões | 96k | ~120 tokens/s | A100 40GB+ |
Pode-se observar queMistral Small 3.1
Ainda melhor em termos de eficiência de parâmetros, com menos parâmetros para igualar ou até mesmo superar o Gemma 3
O desempenho do
Em segundo lugar, o confronto de desempenho: quem é o rei do peso leve?
O número de parâmetros não é o único critério que determina se um modelo é bom ou ruim, o desempenho real é a chave. Abaixo está uma comparação dos dois modelos em alguns testes de benchmark comuns:
- MMLU (conhecimentos gerais):
Mistral Small 3.1
Pontuação 81%.Gemma 3 27B
Aprox. 79% - GPQA (Capacidade de perguntas e respostas):
Mistral 24B
Liderando o caminho, especialmente em cenários de baixa latência - MATH (Raciocínio Matemático):
Gemma 3 27B
Ganha graças a mais parâmetros para suportar cálculos complexos - Tarefas multimodais (MM-MT-Bench):
Mistral 24B
Desempenho mais forte e compreensão mais suave de imagens e textos
A tabela abaixo mostra a comparação de desempenho dos dois modelos em diferentes itens de teste (os dados são valores hipotéticos, com base na especulação de tendências):
Itens de teste | Mistral Small 3.1 (24B) | Gemma 3 (27B) |
---|---|---|
MMLU |
81% | 79% |
GPQA |
85% | 80% |
MATH |
70% | 78% |
MM-MT-Bench |
88% | 75% |
Com base nos resultados do teste, oMistral Small 3.1
Ele tem um bom desempenho em várias tarefas e consegue realizar multitarefas equilibradas. Embora Gemma 3
Então, em áreas específicas, como o raciocínio matemático, obtém-se uma vantagem em virtude de mais parâmetros.
Terceiro, os destaques técnicos: pequenos parâmetros, grande sabedoria
Mistral Small 3.1
Os 24 bilhões de parâmetros da solução da Microsoft suportam recursos multimodais (texto + imagem) e processamento de contexto ultralongo, graças ao seu mecanismo de atenção híbrida e à otimização de matriz esparsa. Por outro lado, oGemma 3
A versão de 27 bilhões de parâmetros se baseia no Gemini
Pilha de tecnologia com mais pontos fortes em multilinguismo (mais de 140 idiomas) e raciocínio especializado (por exemplo, matemática, código), mas com recursos multimodais relativamente fracos.
A compatibilidade com o hardware é outra diferença notável.Mistral Small 3.1
pode ser executado sem problemas em dispositivos de nível de consumidor, enquanto o Gemma 3
A versão de 27 bilhões de parâmetros do Gemma é mais adequada para implantação em servidores de classe empresarial. Essa diferença decorre das diferentes estratégias de alocação de parâmetros das duas empresas: a Mistral tende a simplificar sua estrutura de modelo, enquanto a Gemma opta por reter mais parâmetros para melhorar sua capacidade de lidar com tarefas complexas.
IV Aplicativos e ecologia: quem está mais fundamentado?
Mistral Small 3.1
adotado Apache 2.0
licenças, maior abertura, e os desenvolvedores podem ajustar o modelo localmente para cenários de aplicativos, como conversas em tempo real e atendimento inteligente ao cliente. Enquanto Gemma 3
A versão de 27 bilhões de parâmetros está sujeita aos termos de segurança do Google e é mais adequada para a implantação na nuvem de aplicativos profissionais, como educação e programação.
Em termos de aplicativos.Mistral Small 3.1
É dada mais ênfase à eficiência e à flexibilidade para cenários que exigem resposta rápida e personalização. Enquanto Gemma 3
Por outro lado, ele se concentra mais em profundidade e especialização e é adequado para lidar com tarefas profissionais complexas.
Na frente ecológica.Mistral
Com sua abertura e compatibilidade com o hardware, é mais fácil atrair desenvolvedores independentes e equipes pequenas. Embora Gemma
O sólido ecossistema do Google permite que ele atenda melhor a grandes empresas e organizações de pesquisa.
V. Impacto e perspectivas do setor
O Mistral Small 3.1 iguala ou até mesmo excede o desempenho do Gemma 3 com menos parâmetros, demonstrando a busca máxima pela eficiência dos parâmetros. Isso não é apenas uma prova de que o Gemma 3
Os desafios técnicos da IA também são um impulso para sua universalização.
No futuro, a tendência dos modelos leves será a de menos parâmetros e maior eficiência; a Mistral já assumiu a liderança nessa área, e a Gemma 3 talvez precise adaptar sua estratégia para enfrentar esse desafio.
Modelos de IA mais leves, mais rápidos e mais fortes estão entrando em nossas vidas em um ritmo acelerado.