Em 25 de março de 2025 (última atualização em 26 de março), o Google DeepMind lançou o que afirma ser a família mais inteligente de modelos de IA - o Gemini 2.5
. A primeira estreia do Gemini 2.5 Pro Experimental
A versão se destaca em vários benchmarks, demonstrando melhorias significativas nos recursos de raciocínio e codificação, em particular, e em LMArena
No topo das paradas por uma margem significativa.
"Modelos de pensamento": mais do que previsão, mais do que raciocínio
Gemini 2.5
A série é definida pelo Google como "modelos de pensamento". No centro desse conceito está a capacidade dos modelos de se envolverem em um processo interno de "pensamento" ou raciocínio antes de gerar uma resposta, com o objetivo de melhorar o desempenho e a precisão ao lidar com problemas complexos. Na IA, a capacidade de "raciocinar" vai além da simples classificação e previsão e envolve a capacidade de analisar informações, fazer inferências lógicas, entender o contexto e as nuances e tomar decisões informadas.
Há muito tempo, os pesquisadores vêm explorando maneiras de aprimorar o raciocínio da IA, como o aprendizado por reforço e as dicas de cadeia de pensamento. Com base nessas explorações, o Google lançou anteriormente o primeiro "modelo de pensamento". Gemini 2.0 Flash Thinking
. A liberação do Gemini 2.5
O Google afirma que, no futuro, incorporará esse recurso de "pensamento" a todos os seus modelos para lidar com problemas mais complexos e oferecer suporte a agentes mais poderosos e mais conscientes do contexto. Esse recurso de "pensamento" será incorporado a todos os modelos para lidar com problemas mais complexos e dar suporte a agentes mais poderosos e mais conscientes do contexto. Acredita-se que esse mecanismo de "pensar" e depois "responder" ajude a reduzir o fenômeno da "ilusão" comum nos modelos de IA e aumente a confiabilidade das respostas.
Gemini 2.5 Pro Experimental
desempenho
De acordo com informações publicadas pelo GoogleGemini 2.5 Pro Experimental
Está no nível mais alto atualmente no tratamento de tarefas complexas. É muito bom para medir as preferências humanas em LMArena
Uma liderança significativa nos gráficos geralmente significa que o modelo não é apenas poderoso, mas que o estilo, a coerência e a utilidade de seu resultado também são preferidos pelos usuários.
Em termos de benchmarks específicos:
- capacidade de raciocínioO modelo é útil em testes de benchmark de matemática e ciências que requerem habilidades avançadas de raciocínio (por exemplo, o modelo é útil para testes de avaliação de desempenho de matemática e ciências que requerem habilidades avançadas de raciocínio).
GPQA
responder cantandoAIME 2025
) com desempenho de ponta e sem o uso de truques de tempo de teste que aumentam o custo (por exemplo, votação por maioria). Em um teste criado para avaliar as fronteiras do conhecimento e do raciocínio humanos, por centenas de especialistas no domínio, oHumanity’s Last Exam
no conjunto de dados.Gemini 2.5 Pro
Uma pontuação de 18,8% foi obtida sem o uso de ferramentas externas, novamente liderando o caminho.- Observação: A figura acima mostra uma comparação dos modelos em termos de raciocínio, ciência e matemática envolvendo o OpenAI GPT-4.5 e o Claude 3.7 Os nomes dos modelos e os dados, como Sonnet, foram extraídos de gráficos fornecidos pelo Google.
- habilidades de codificação::
Gemini 2.5
Em termos de codificação, em comparação comGemini 2.0
deu grandes saltos, especializando-se na criação de aplicativos da Web visualmente atraentes, aplicativos de código de corpo inteligente e conversão e edição de código. O padrão do setor para medir os recursos de código de corpo inteligenteSWE-Bench Verified
Ligado, usando uma configuração personalizada de corpo inteligente deGemini 2.5 Pro
obteve uma pontuação de 63,8%. O Google também mostrou um exemplo de umGemini 2.5 Pro
Um simples videogame de dinossauros foi criado usando sua capacidade de raciocínio para gerar código executável com base em uma única linha de prompts.
Herança e desenvolvimento: multimodalidade e contextos longos
Gemini 2.5
herdado Gemini
Os principais pontos fortes da série: recursos multimodais nativos e janelas de contexto longas.Gemini 2.5 Pro
Um milhão de usuários no lançamento token (e planeja estendê-la para 2 milhões de tokens em breve) e supera o desempenho do modelo anterior nessa longa janela. Isso significa que ele pode compreender e processar conjuntos de dados maciços contendo texto, áudio, imagens, vídeo e até mesmo bases de código inteiras, lidando com problemas complexos de diferentes fontes de informação. Isso tem um potencial de aplicação significativo para cenários que exigem compreensão profunda de documentos longos, análise de projetos de código complexos ou processamento de conteúdo de vídeo longo.

A tabela foi atualizada em 26 de março para incluir a nova avaliação MRCR (Multi Round Coreference Resolution).
Disponibilidade e perspectivas futuras
Atualmente.Gemini 2.5 Pro Experimental
A versão foi lançada em Google AI Studio
Os desenvolvedores receberam um teste noGemini Advanced
Os usuários também podem optar por usar o modelo a partir de um menu suspenso em desktops e dispositivos móveis. Espera-se que o modelo seja lançado nas próximas semanas em Vertex AI
O Google também planeja anunciar informações sobre preços nas próximas semanas, o que permitirá que os usuários a utilizem em ambientes de produção em escala com limites de taxas mais altos.
O rótulo "Experimental" sugere que a versão atual ainda pode estar passando por uma rápida iteração e que os usuários podem experimentar alguma instabilidade ao usá-la, enquanto o Google espera obter um amplo feedback para aprimoramento contínuo.Gemini 2.5
O lançamento desse novo modelo de linguagem, especialmente sua ênfase no "pensamento" e seu forte desempenho em benchmarks, é, sem dúvida, mais um passo à frente no campo da modelagem de linguagem em larga escala, e seu desenvolvimento subsequente e aplicação prática merecem muita atenção.