O Google lança o Gemini 2.5: grandes melhorias nos recursos de "pensamento"

Notícias sobre IAPublicado há 5 meses Círculo de compartilhamento de IA

10.6K 00

Em 25 de março de 2025 (última atualização em 26 de março), o Google DeepMind lançou o que afirma ser a família mais inteligente de modelos de IA - o Gemini 2.5. A primeira estreia do Gemini 2.5 Pro Experimental A versão se destaca em vários benchmarks, demonstrando melhorias significativas nos recursos de raciocínio e codificação, em particular, e em LMArena No topo das paradas por uma margem significativa.

"Modelos de pensamento": mais do que previsão, mais do que raciocínio

Gemini 2.5 A série é definida pelo Google como "modelos de pensamento". No centro desse conceito está a capacidade dos modelos de se envolverem em um processo interno de "pensamento" ou raciocínio antes de gerar uma resposta, com o objetivo de melhorar o desempenho e a precisão ao lidar com problemas complexos. Na IA, a capacidade de "raciocinar" vai além da simples classificação e previsão e envolve a capacidade de analisar informações, fazer inferências lógicas, entender o contexto e as nuances e tomar decisões informadas.

Há muito tempo, os pesquisadores vêm explorando maneiras de aprimorar o raciocínio da IA, como o aprendizado por reforço e as dicas de cadeia de pensamento. Com base nessas explorações, o Google lançou anteriormente o primeiro "modelo de pensamento". Gemini 2.0 Flash Thinking. A liberação do Gemini 2.5 O Google afirma que, no futuro, incorporará esse recurso de "pensamento" a todos os seus modelos para lidar com problemas mais complexos e oferecer suporte a agentes mais poderosos e mais conscientes do contexto. Esse recurso de "pensamento" será incorporado a todos os modelos para lidar com problemas mais complexos e dar suporte a agentes mais poderosos e mais conscientes do contexto. Acredita-se que esse mecanismo de "pensar" e depois "responder" ajude a reduzir o fenômeno da "ilusão" comum nos modelos de IA e aumente a confiabilidade das respostas.

Gemini 2.5 Pro Experimental desempenho

De acordo com informações publicadas pelo GoogleGemini 2.5 Pro Experimental Está no nível mais alto atualmente no tratamento de tarefas complexas. É muito bom para medir as preferências humanas em LMArena Uma liderança significativa nos gráficos geralmente significa que o modelo não é apenas poderoso, mas que o estilo, a coerência e a utilidade de seu resultado também são preferidos pelos usuários.

Em termos de benchmarks específicos:

capacidade de raciocínioO modelo é útil em testes de benchmark de matemática e ciências que requerem habilidades avançadas de raciocínio (por exemplo, o modelo é útil para testes de avaliação de desempenho de matemática e ciências que requerem habilidades avançadas de raciocínio). GPQA responder cantando AIME 2025) com desempenho de ponta e sem o uso de truques de tempo de teste que aumentam o custo (por exemplo, votação por maioria). Em um teste criado para avaliar as fronteiras do conhecimento e do raciocínio humanos, por centenas de especialistas no domínio, o Humanity’s Last Exam no conjunto de dados.Gemini 2.5 Pro Uma pontuação de 18,8% foi obtida sem o uso de ferramentas externas, novamente liderando o caminho.
Observação: A figura acima mostra uma comparação dos modelos em termos de raciocínio, ciência e matemática envolvendo o OpenAI GPT-4.5 e o Claude 3.7 Os nomes dos modelos e os dados, como Sonnet, foram extraídos de gráficos fornecidos pelo Google.
habilidades de codificação::Gemini 2.5 Em termos de codificação, em comparação com Gemini 2.0 deu grandes saltos, especializando-se na criação de aplicativos da Web visualmente atraentes, aplicativos de código de corpo inteligente e conversão e edição de código. O padrão do setor para medir os recursos de código de corpo inteligente SWE-Bench Verified Ligado, usando uma configuração personalizada de corpo inteligente de Gemini 2.5 Pro obteve uma pontuação de 63,8%. O Google também mostrou um exemplo de umGemini 2.5 Pro Um simples videogame de dinossauros foi criado usando sua capacidade de raciocínio para gerar código executável com base em uma única linha de prompts.

Herança e desenvolvimento: multimodalidade e contextos longos

Gemini 2.5 herdado Gemini Os principais pontos fortes da série: recursos multimodais nativos e janelas de contexto longas.Gemini 2.5 Pro Um milhão de usuários no lançamento token (e planeja estendê-la para 2 milhões de tokens em breve) e supera o desempenho do modelo anterior nessa longa janela. Isso significa que ele pode compreender e processar conjuntos de dados maciços contendo texto, áudio, imagens, vídeo e até mesmo bases de código inteiras, lidando com problemas complexos de diferentes fontes de informação. Isso tem um potencial de aplicação significativo para cenários que exigem compreensão profunda de documentos longos, análise de projetos de código complexos ou processamento de conteúdo de vídeo longo.

A tabela foi atualizada em 26 de março para incluir a nova avaliação MRCR (Multi Round Coreference Resolution).

Disponibilidade e perspectivas futuras

Atualmente.Gemini 2.5 Pro Experimental A versão foi lançada em Google AI Studio Os desenvolvedores receberam um teste noGemini Advanced Os usuários também podem optar por usar o modelo a partir de um menu suspenso em desktops e dispositivos móveis. Espera-se que o modelo seja lançado nas próximas semanas em Vertex AI O Google também planeja anunciar informações sobre preços nas próximas semanas, o que permitirá que os usuários a utilizem em ambientes de produção em escala com limites de taxas mais altos.

O rótulo "Experimental" sugere que a versão atual ainda pode estar passando por uma rápida iteração e que os usuários podem experimentar alguma instabilidade ao usá-la, enquanto o Google espera obter um amplo feedback para aprimoramento contínuo.Gemini 2.5 O lançamento desse novo modelo de linguagem, especialmente sua ênfase no "pensamento" e seu forte desempenho em benchmarks, é, sem dúvida, mais um passo à frente no campo da modelagem de linguagem em larga escala, e seu desenvolvimento subsequente e aplicação prática merecem muita atenção.

Notícias sobre IA

Direitos autorais do artigo Círculo de compartilhamento de IA A todos, favor não reproduzir sem permissão.

A batalha da pesquisa com IA de Xiaohongshu "Dot Dot Dot": o acesso ao DeepSeek-R1 pode abrir o mercado de pesquisa?

Notícias sobre IA

6 meses atrás

09.7K

Anthropic 首席产品官 Mike Krieger 畅谈 AI 战略、创业切入点与 DeepSeek 启示

Mike Krieger, diretor de produtos da Anthropic, fala sobre estratégia de IA, pontos de entrada de startups e insights do DeepSeek

Notícias sobre IA

6 meses atrás

07.7K

Inventário detalhado de projetos de código aberto de OCR: os 10 principais a não perder em 2025

Notícias sobre IA

6 meses atrás

010.8K

Recomendar um sistema profissional de clonagem humana digital adequado para operações de baixo custo

Notícias sobre IA

7 meses atrás

07.2K

Sem comentários

Você precisa estar conectado para participar dos comentários!

Faça login agora

Nenhum comentário...

O Google lança o Gemini 2.5: grandes melhorias nos recursos de "pensamento"

As recentes compras do DeepSeek All-in-One observam os riscos de violação do uso da Dify

Wu Enda sobre estratégia de modelo de IA: seleção de tecnologia e consideração de valores da DeepSeek, Gemini

Artigos relacionados

A batalha da pesquisa com IA de Xiaohongshu "Dot Dot Dot": o acesso ao DeepSeek-R1 pode abrir o mercado de pesquisa?

Mike Krieger, diretor de produtos da Anthropic, fala sobre estratégia de IA, pontos de entrada de startups e insights do DeepSeek

Inventário detalhado de projetos de código aberto de OCR: os 10 principais a não perder em 2025

Recomendar um sistema profissional de clonagem humana digital adequado para operações de baixo custo

Sem comentários

Últimas coleções

Artigos mais recentes

O Google lança o Gemini 2.5: grandes melhorias nos recursos de "pensamento"

As recentes compras do DeepSeek All-in-One observam os riscos de violação do uso da Dify

Wu Enda sobre estratégia de modelo de IA: seleção de tecnologia e consideração de valores da DeepSeek, Gemini

Artigos relacionados

A batalha da pesquisa com IA de Xiaohongshu "Dot Dot Dot": o acesso ao DeepSeek-R1 pode abrir o mercado de pesquisa?

Mike Krieger, diretor de produtos da Anthropic, fala sobre estratégia de IA, pontos de entrada de startups e insights do DeepSeek

Inventário detalhado de projetos de código aberto de OCR: os 10 principais a não perder em 2025

Recomendar um sistema profissional de clonagem humana digital adequado para operações de baixo custo

Sem comentários

Ferramentas de IA selecionadas

Últimas coleções

Artigos mais recentes