Lanzamiento de Gemini 2.0: un nuevo modelo de IA para la era de la inteligencia

Una carta del consejero delegado de Google y Alphabet, Sundar Pichai:

La información está en el corazón del progreso humano. Por eso llevamos 26 años trabajando para organizar la información mundial y hacerla accesible y útil. También por eso estamos constantemente ampliando las fronteras de la IA para organizar la información a través de una variedad de entradas y hacerla más útil a través de cualquier salida que realmente te ayude.

Eso es lo que lanzamos el pasado diciembre. Géminis La visión en 1.0. Gemini 1.0 es el primer modelo multimodal nativo que permite la comprensión completa a través de texto, vídeo, imágenes, audio y código con multimodalidad y contextos largos, y maneja más información.

En la actualidad, millones de desarrolladores crean productos con Gemini. Nos ha ayudado a reimaginar todos nuestros productos -incluidos nuestros siete productos principales con 2.000 millones de usuarios- y a crear otros nuevos. notebookLM es un gran ejemplo de las capacidades multimodales y de contexto largo, y de por qué es tan popular. NotebookLM es un gran ejemplo de las capacidades multimodales y de contexto largo, y de por qué es tan popular.

El año pasado trabajamos en el desarrollo de modelos más ágiles, capaces de comprender mejor el mundo que te rodea, anticiparse y actuar bajo tu supervisión.

Hoy nos complace desvelar la nueva generación de modelos creados para esta nueva era de agentes: Gemini 2.0, nuestro modelo más potente hasta la fecha. Con nuevos avances en dominios multimodales (como la salida nativa de imágenes y audio) y capacidades nativas de uso de herramientas, nos permitirá construir nuevos agentes de IA que están un paso más cerca de hacer realidad nuestra visión de un asistente universal.

Hoy ponemos la versión 2.0 a disposición de desarrolladores y probadores de confianza. Estamos acelerando su integración en nuestros productos, empezando por Gemini y Search. A partir de hoy, nuestro modelo experimental Gemini 2.0 Flash estará disponible para todos los usuarios de Gemini. Al mismo tiempo, estamos lanzando un nuevo servicio llamado Investigación en profundidad una nueva función que utiliza capacidades avanzadas de razonamiento y contexto prolongado como asistente de investigación para ayudarle a explorar temas complejos y agregar informes en su nombre. Ya está disponible en Gemini Advanced.

Ningún producto se ha visto más afectado por la IA que la búsqueda. Nuestro AI Overview llega ahora a 1.000 millones de usuarios y es capaz de responder a todo un nuevo conjunto de tipos de preguntas, convirtiéndose rápidamente en una de las funciones de búsqueda más populares. A continuación, estamos incorporando las funciones de razonamiento avanzado de Gemini 2.0 a AI Overview para gestionar temas más complejos y preguntas de varios pasos, como ecuaciones matemáticas avanzadas, consultas multimodales y codificación. Esta semana hemos empezado a realizar pruebas limitadas, y a principios del año que viene comenzaremos con un despliegue más amplio. A lo largo del año que viene, seguiremos introduciendo AI Overview en más países e idiomas.

Los avances de Gemini 2.0 han sido posibles gracias a nuestra inversión en innovadores enfoques integrales de la IA durante más de una década. Se basa en hardware personalizado como Trillium, nuestra TPU de sexta generación. La TPU es compatible con el entrenamiento y la inferencia de Gemini 2.0 en el 100%, y hoy Trillium está totalmente disponible para que los clientes creen productos con él.

Si Géminis 1.0 consistía en organizar y dar sentido a la información, Géminis 2.0 consiste en hacerla más útil. Estoy impaciente por ver qué nos deparará esta nueva era.

 

Gemini 2.0: un nuevo modelo de inteligencia artificial para la era de los agentes

Por Demis Hassabis, CEO de Google DeepMind y Koray Kavukcuoglu, CTO de Google DeepMind en nombre del equipo Gemini.

A lo largo del último año, hemos seguido avanzando de forma asombrosa en el campo de la inteligencia artificial. Hoy lanzamos el primer modelo de la familia Gemini 2.0: una versión experimental de Gemini 2.0 Flash. Se trata de un modelo eficiente a la vanguardia de nuestra tecnología, con baja latencia y rendimiento mejorado.

También presentamos un prototipo de las fronteras de la investigación con agentes que se apoya en las capacidades multimodales nativas de Gemini 2.0.

Gemini 2.0 Flash

Gemini 2.0 Flash se basa en el éxito de 1.5 Flash, con diferencia el modelo más popular entre los desarrolladores, y ofrece los mismos tiempos de respuesta rápidos y un rendimiento mejorado. Sorprendentemente, 2.0 Flash supera incluso a 1.5 Pro en pruebas de referencia clave, siendo el doble de rápido. 2.0 Flash también aporta nuevas funciones. Además de admitir entradas multimodales como imágenes, vídeo y audio, Flash 2.0 admite ahora salidas multimodales como la mezcla de imágenes y texto generada de forma nativa y el audio multilingüe controlado de texto a voz (TTS). También puede invocar de forma nativa herramientas como la búsqueda de Google, la ejecución de código y funciones de terceros definidas por el usuario.

Gemini 2.0发布:为智能体时代打造的新AI模型

Nuestro objetivo es que los usuarios puedan trabajar con nuestros modelos de forma segura y rápida. En el último mes, hemos compartido una primera versión experimental de Gemini 2.0 y hemos recibido valiosos comentarios de los desarrolladores.

Gemini 2.0 Flash ya está disponible como modelo experimental a través de la Google AI Studio responder cantando Vértice AI (utilizado como expresión nominal) API Géminis Disponible para desarrolladores. La entrada multimodal y la salida de texto están disponibles para todos los desarrolladores, mientras que las funciones de conversión de texto a voz y generación de imágenes nativas están disponibles para los socios de acceso anticipado. La disponibilidad general se lanzará en enero con más tamaños de modelos.

Para ayudar a los desarrolladores a crear aplicaciones dinámicas e interactivas, también hemos lanzado una nueva API multimodal en tiempo real que admite entradas de transmisión de audio y vídeo en tiempo real, así como el uso de diversas herramientas combinadas. Para obtener más información sobre Flash 2.0 y la API multimodal en tiempo real, consulte nuestra sección Blog para desarrolladores.

Gemini 2.0 está disponible en la aplicación Gemini, nuestro asistente de inteligencia artificial.

A partir de hoy, los usuarios de Gemini de todo el mundo pueden acceder a una versión optimizada para chat del Experimento Flash 2.0 a través del menú desplegable de modelos en la web de escritorio y móvil, que pronto estará disponible en la aplicación móvil de Gemini. Con este nuevo modelo, los usuarios podrán experimentar el Asistente Gemini de una forma aún más útil.

A principios del año que viene, ampliaremos Gemini 2.0 a más productos de Google.

Desbloquear la experiencia del agente con Gemini 2.0

Las capacidades de acción de la interfaz de usuario nativa de Gemini 2.0 Flash, junto con otras mejoras como el razonamiento multimodal, la comprensión de contextos largos, el seguimiento y la planificación de instrucciones complejas, las llamadas a funciones combinatorias, el uso de herramientas nativas y la mejora de la latencia, se combinan para permitir una experiencia de agente de una clase completamente nueva.

La aplicación práctica de los agentes de IA es un campo de investigación lleno de posibilidades apasionantes. Estamos explorando esta nueva área con una serie de prototipos que ayudan a las personas a completar tareas y resolver problemas. Estos prototipos incluyen una versión actualizada del Proyecto Astra, un prototipo de investigación que explora las capacidades futuras de los asistentes de IA de uso general; el recién lanzado Proyecto Mariner, que explora el futuro de la interacción entre humanos y agentes, empezando por el navegador; y Jules, un agente de código impulsado por IA que ayuda a los desarrolladores.

Aún estamos en las primeras fases de desarrollo, pero nos entusiasma ver cómo los probadores de confianza utilizan estas nuevas funciones y qué podemos aprender de ellos para ponerlas a disposición de más productos en el futuro.

Proyecto Astra: agentes de comprensión multimodal en el mundo real

Desde nuestra conferencia de E/S Liberación del Proyecto Astra Desde entonces, hemos estado aprendiendo de probadores de confianza que utilizan teléfonos Android. Sus valiosos comentarios nos han ayudado a comprender mejor cómo funcionan en la práctica los asistentes de IA de propósito general, incluidas las implicaciones éticas y de seguridad.Entre las mejoras de la última versión de compatibilidad con Gemini 2.0 se incluyen:

  • Mayor capacidad de diálogo: Project Astra puede ahora mantener conversaciones en varios idiomas, con una mejor comprensión de los acentos y del vocabulario poco común.
  • Nueva capacidad de uso de herramientas: Con Gemini 2.0, Project Astra tiene acceso a Google Search, Lens y Maps, lo que lo hace aún más útil en la vida cotidiana.
  • Mejor capacidad de memoriaHemos mejorado las capacidades de memoria del Proyecto Astra manteniéndote en control. Ahora admite hasta 10 minutos de memoria durante la sesión y recuerda más de tus conversaciones anteriores, lo que lo hace más personal.
  • Latencia mejoradaGracias a las nuevas funciones de streaming y a la comprensión nativa de audio, los agentes pueden entender el lenguaje con una latencia cercana a la del diálogo humano.

Estamos trabajando para llevar estas funciones a productos de Google como Géminis (nuestros asistentes de inteligencia artificial) y en otras formas, como las gafas. Al mismo tiempo, estamos ampliando nuestro programa Trusted Tester a más personas, incluido un grupo que pronto empezará a probar el Proyecto Astra en prototipos de gafas.

Proyecto Mariner: agentes inteligentes para ayudar en tareas complejas

El Proyecto Mariner es un prototipo de investigación temprana construido sobre Gemini 2.0 para explorar el futuro de la interacción persona-ordenador, empezando por tu navegador. Como prototipo de investigación, entiende y razona sobre la información de la pantalla de tu navegador, incluidos píxeles y elementos de páginas web como texto, código, imágenes y formularios, y utiliza esa información para completar tareas por ti a través de un plugin experimental de Chrome.

existe Evaluación comparativa de WebVoyagerEn esta prueba, que evalúa el rendimiento de los agentes inteligentes en tareas web reales de extremo a extremo, el Proyecto Mariner implementó una configuración de agente único con un 83,51 Actualización TP3T.

Aunque todavía se encuentra en sus primeras fases, el Proyecto Mariner demuestra la viabilidad técnica de la navegación en un navegador, pero la precisión y rapidez a la hora de completar las tareas es actualmente baja y mejorará rápidamente en el futuro.

Para construir este proyecto de forma segura y responsable, investigamos activamente nuevos tipos de riesgos y sus métodos de mitigación, al tiempo que mantenemos la participación humana. Por ejemplo, Project Mariner solo puede escribir, desplazarse o hacer clic en la pestaña activa de un navegador y solicitar la confirmación final del usuario antes de realizar determinadas acciones sensibles, como efectuar una compra.

Probadores de confianza han comenzado a probar el Proyecto Mariner con un plugin experimental de Chrome mientras lo debatimos con el ecosistema web.

Jules: Agentes inteligentes para desarrolladores

A continuación, estamos explorando cómo podemos ayudar a los desarrolladores con Jules, un agente experimental de inteligencia de código impulsado por IA e integrado directamente en los flujos de trabajo de GitHub que resuelve problemas, crea planes y los ejecuta, todo ello bajo la guía y supervisión del desarrollador. Este trabajo forma parte de nuestro objetivo a largo plazo de crear agentes de IA que puedan ayudar en todas las áreas, incluida la codificación.

Para más información sobre este experimento en curso, consulte nuestro Blog de desarrolladores.

Agentes inteligentes para juegos y otros ámbitos

Google DeepMind tiene un largo historial de uso de juegos para ayudar a los modelos de IA a mejorar el seguimiento de reglas, la planificación y la lógica. Por ejemplo, la semana pasada lanzamos Genio 2Gemini 2.0 es un modelo de IA capaz de generar una variedad infinita de mundos 3D jugables a partir de una sola imagen. Partiendo de este legado, utilizamos Gemini 2.0 para construir un agente inteligente que ayuda a navegar por el mundo virtual de un videojuego. Puede razonar basándose únicamente en las acciones en pantalla y ofrecer sugerencias para los siguientes pasos a través de un diálogo en tiempo real.

Estamos trabajando con desarrolladores de juegos líderes como Supercell para probar la capacidad de estos agentes para interpretar reglas y retos en una amplia gama de juegos, desde juegos de estrategia como Clash of Clans hasta simulaciones de granjas como Hay Day.

Además de servir como compañeros virtuales de juego, estos agentes pueden conectarse a la riqueza de conocimientos sobre juegos que hay en la red mediante la búsqueda en Google.

Además de explorar las capacidades de los agentes inteligentes en mundos virtuales, también estamos experimentando formas de aplicar las capacidades de razonamiento espacial de Gemini 2.0 al campo de la robótica. Aunque aún estamos en las primeras fases, nos entusiasma el potencial de los agentes inteligentes en entornos físicos.

Puedes obtener más información sobre estos prototipos y experimentos de investigación en labs.google.

Construir con responsabilidad en la era de los agentes inteligentes

Gemini 2.0 Flash y nuestros prototipos de investigación nos permiten probar e iterar nuevas funciones en la investigación de vanguardia de la IA que, en última instancia, harán que los productos de Google sean más útiles.

Al desarrollar estas nuevas tecnologías, reconocemos sus responsabilidades y nos preocupan los numerosos problemas que plantean los agentes de IA en términos de seguridad y protección. Por ello, hemos adoptado un enfoque exploratorio e incremental del desarrollo, trabajando en múltiples prototipos, implementando de forma iterativa la formación en seguridad, colaborando con probadores de confianza y expertos externos, y realizando exhaustivas evaluaciones de riesgos y de seguridad y protección.

Por ejemplo:

  • Como parte de nuestro proceso de seguridad, trabajamos con nuestro Comité de Responsabilidad y Seguridad (RSC), un grupo de revisión interna permanente, para identificar y comprender los riesgos potenciales.
  • Las capacidades de inferencia de Gemini 2.0 permiten avances significativos en nuestra metodología de pruebas de equipos rojos asistidas por IA, incluida la evolución desde la mera detección de riesgos a la posibilidad de generar automáticamente datos de evaluación y formación para mitigarlos. Esto significa que podemos optimizar más eficazmente la seguridad de nuestros modelos a escala.
  • A medida que la naturaleza multimodal de Gemini 2.0 aumente la complejidad de las posibles salidas, seguiremos evaluando y entrenando modelos para procesar entradas y salidas de imagen y audio con el fin de contribuir a mejorar la seguridad.
  • En el Proyecto Astra, estamos estudiando posibles medidas para evitar que los usuarios compartan información confidencial con los agentes sin darse cuenta, y hemos incorporado controles de privacidad para que los usuarios puedan eliminar sesiones fácilmente. También seguimos buscando formas de garantizar que los agentes de IA actúen como fuentes fiables de información y no realicen acciones involuntarias en nombre de los usuarios.
  • En el Proyecto Mariner, estamos trabajando para garantizar que el modelo dé prioridad al seguimiento de las instrucciones del usuario frente a los intentos de inyección de pistas de terceros, lo que le permitirá identificar instrucciones potencialmente maliciosas procedentes de fuentes externas y evitar abusos. Así se evita que los usuarios queden expuestos a fraudes y ataques de phishing debido a instrucciones maliciosas ocultas en correos electrónicos, documentos o sitios web.

Creemos firmemente que la única forma de construir IA es ser responsables desde el principio, y seguiremos dando prioridad a la seguridad y la responsabilidad como elementos clave del proceso de desarrollo de modelos a medida que avancemos con modelos y agentes inteligentes.

Gemini 2.0, los agentes inteligentes y el futuro

El lanzamiento de hoy marca un nuevo capítulo en nuestro modelado Gemini. Con la publicación de Gemini 2.0 Flash y el lanzamiento de una serie de prototipos de investigación que exploran las posibilidades de los agentes, hemos alcanzado un emocionante hito en la era Gemini. Esperamos seguir explorando con seguridad todas las nuevas posibilidades a medida que construimos nuestra inteligencia artificial de propósito general (AGI).

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...