Google lanza Gemini 2.5: grandes mejoras en las funciones de "pensamiento

Google DeepMind presentó el 25 de marzo de 2025 (última actualización el 26 de marzo) lo que afirma ser la familia de modelos de IA más inteligente: el Gemini 2.5. El primer debut del Gemini 2.5 Pro Experimental La versión destaca en varias pruebas comparativas, demostrando mejoras significativas en las capacidades de razonamiento y codificación en particular, y en LMArena Encabezando las listas por un margen significativo.

 

"Modelos de pensamiento": más que predicción, más que razonamiento

Gemini 2.5 Google define esta serie como "modelos de pensamiento". En la base de este concepto está la capacidad de los modelos para emprender un proceso interno de "pensamiento" o razonamiento antes de generar una respuesta, con el objetivo de mejorar el rendimiento y la precisión a la hora de abordar problemas complejos. En IA, la capacidad de "razonar" va más allá de la simple clasificación y predicción e implica la capacidad de analizar información, hacer inferencias lógicas, comprender el contexto y los matices, y tomar decisiones informadas en consecuencia.

Los investigadores llevan tiempo explorando formas de mejorar el razonamiento de la IA, como el aprendizaje por refuerzo y las pistas de la cadena de pensamiento. Basándose en estas exploraciones, Google lanzó anteriormente el primer "Modelo de Pensamiento". Gemini 2.0 Flash Thinking. La liberación del Gemini 2.5 Google afirma que en el futuro incorporará esta capacidad de "pensar" a todos sus modelos para abordar problemas más complejos y dar soporte a agentes más potentes y conscientes del contexto. La capacidad de "pensar" primero se incorpora a todos los modelos para abordar problemas más complejos y dar soporte a agentes más potentes y conscientes del contexto. Se cree que este mecanismo de "pensar" y luego "responder" ayuda a reducir el fenómeno de "ilusión" habitual en los modelos de IA y mejora la fiabilidad de las respuestas.

 

Gemini 2.5 Pro Experimental rendimiento

Según la información publicada por GoogleGemini 2.5 Pro Experimental Actualmente se encuentra en el nivel superior en el manejo de tareas complejas. Es muy bueno midiendo las preferencias humanas en LMArena Una ventaja significativa en los gráficos suele significar que el modelo no sólo es potente, sino que el estilo, la coherencia y la utilidad de sus resultados también son preferidos por los usuarios.

En términos de puntos de referencia específicos:

  • capacidad de razonamientoEl modelo es útil en las pruebas de matemáticas y ciencias que exigen una capacidad de razonamiento avanzada (por ejemplo. GPQA responder cantando AIME 2025) con un rendimiento líder y sin recurrir a trucos que aumentan el coste de las pruebas (por ejemplo, la votación por mayoría). En una prueba diseñada para evaluar las fronteras del conocimiento y el razonamiento humanos, realizada por cientos de expertos en la materia, los Humanity’s Last Exam en el conjunto de datos.Gemini 2.5 Pro Se alcanzó una puntuación de 18,8% sin utilizar herramientas externas, lo que supone de nuevo el primer puesto.
    Google 发布 Gemini 2.5:“思考”能力大幅提升
    Nota: La figura anterior muestra una comparación de los modelos en términos de razonamiento, ciencia y matemáticas con OpenAI GPT-4.5 y Claude 3.7 Los nombres de los modelos y datos como Sonnet proceden de gráficos proporcionados por Google.
  • conocimientos de codificación::Gemini 2.5 En términos de codificación en comparación con Gemini 2.0 ha dado un paso de gigante y se ha especializado en la creación de aplicaciones web visualmente atractivas, aplicaciones de código de cuerpo inteligente y conversión y edición de código. La norma del sector para medir la capacidad de los códigos de cuerpo inteligente SWE-Bench Verified On, utilizando una configuración personalizada del cuerpo inteligente de Gemini 2.5 Pro alcanzó una puntuación de 63,8%. google también mostró un ejemplo de unGemini 2.5 Pro Se creó un sencillo videojuego de dinosaurios utilizando su capacidad de razonamiento para generar código ejecutable a partir de una sola línea de instrucciones.

Herencia y desarrollo: multimodalidad y contextos largos

Gemini 2.5 heredado Gemini Los puntos fuertes de la serie: capacidades multimodales nativas y largas ventanas contextuales.Gemini 2.5 Pro Un millón de ayudas en el momento del lanzamiento ficha (y tiene previsto ampliarlo en breve a 2 millones de tokens) y supera a su modelo predecesor en esta larga ventana. Esto significa que puede comprender y procesar conjuntos de datos masivos que contengan texto, audio, imágenes, vídeo e incluso bases de código enteras, abordando problemas complejos a partir de distintas fuentes de información. Esto tiene un importante potencial de aplicación en escenarios que requieren una comprensión profunda de documentos largos, el análisis de proyectos de código complejos o el procesamiento de contenidos de vídeo largos.

Google 发布 Gemini 2.5:“思考”能力大幅提升

La tabla se actualizó el 26 de marzo para incluir la nueva evaluación MRCR (Multi Round Coreference Resolution).

 

Disponibilidad y perspectivas

Actualmente.Gemini 2.5 Pro Experimental La versión se ha publicado en Google AI Studio El promotor dispone de una prueba en elGemini Advanced Los usuarios también pueden elegir utilizar el modelo desde un menú desplegable en ordenadores de sobremesa y dispositivos móviles. Se espera que el modelo aterrice en las próximas semanas en Vertex AI google también tiene previsto anunciar en las próximas semanas información sobre los precios que permitirán a los usuarios utilizarla para entornos de producción a escala con límites de tarifa más elevados.

La etiqueta "Experimental" sugiere que la versión actual aún puede estar sometida a una rápida iteración y que los usuarios pueden experimentar cierta inestabilidad al utilizarla, mientras Google espera recabar comentarios exhaustivos para mejorarla continuamente.Gemini 2.5 La publicación de este nuevo modelo lingüístico, especialmente su énfasis en el "pensamiento" y su buen rendimiento en las pruebas de referencia, es sin duda otro paso adelante en el campo de la modelización lingüística a gran escala, y su posterior desarrollo y aplicación práctica merecen mucha atención.

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...