Lancement de Gemini 2.0 : un nouveau modèle d'IA conçu pour l'ère de l'intelligentsia
Une lettre de Sundar Pichai, PDG de Google et d'Alphabet :
L'information est au cœur du progrès humain. C'est pourquoi nous travaillons depuis 26 ans à organiser l'information mondiale et à la rendre accessible et utile. C'est également la raison pour laquelle nous repoussons constamment les limites de l'intelligence artificielle afin d'organiser l'information à partir d'une variété d'intrants et de la rendre plus utile grâce à des résultats qui vous aideront réellement.
C'est ce que nous avons lancé en décembre dernier. Gémeaux La vision à 1.0. Gemini 1.0 est le premier modèle multimodal natif qui permet une compréhension complète du texte, de la vidéo, des images, de l'audio et du code avec une multimodalité et des contextes longs, et qui traite davantage d'informations.
Aujourd'hui, des millions de développeurs conçoivent des produits à l'aide de Gemini. Il nous a aidés à réimaginer tous nos produits - y compris nos sept produits phares qui comptent 2 milliards d'utilisateurs - et à en créer de nouveaux. notebookLM est un excellent exemple des capacités multimodales et de contexte long, et c'est la raison pour laquelle il est si populaire. NotebookLM est un excellent exemple des capacités multimodales et de contexte long, et c'est pourquoi il est si populaire.
Au cours de l'année écoulée, nous avons travaillé à l'élaboration de modèles plus agentiques, c'est-à-dire des modèles capables de comprendre le monde qui vous entoure de manière plus approfondie, d'anticiper plusieurs étapes et d'agir sous votre supervision.
Aujourd'hui, nous sommes ravis de dévoiler la nouvelle génération de modèles conçus pour cette nouvelle ère d'agents : Gemini 2.0, notre modèle le plus puissant à ce jour. Avec de nouvelles avancées dans les domaines multimodaux (tels que la sortie native d'images et d'audio) et les capacités d'utilisation d'outils natifs, il nous permettra de construire de nouveaux agents d'IA qui nous rapprocheront de la réalisation de notre vision d'un assistant universel.
Aujourd'hui, nous mettons la version 2.0 à la disposition des développeurs et des testeurs de confiance. Nous accélérons son intégration dans nos produits, en commençant par Gemini et Search. À partir d'aujourd'hui, notre modèle expérimental Gemini 2.0 Flash sera disponible pour tous les utilisateurs de Gemini. Parallèlement, nous lançons un nouveau service appelé Recherche approfondie une nouvelle fonctionnalité qui utilise le raisonnement avancé et les capacités de contexte long comme un assistant de recherche pour aider à explorer des sujets complexes et à agréger des rapports en votre nom. Elle est désormais disponible dans Gemini Advanced.
Aucun produit n'a été plus impacté par l'IA que la recherche. Notre aperçu de l'IA touche désormais 1 milliard d'utilisateurs et est capable de répondre à un tout nouvel ensemble de types de questions, devenant rapidement l'une des fonctions de recherche les plus populaires. Ensuite, nous apportons les capacités de raisonnement avancées de Gemini 2.0 à AI Overview pour traiter des sujets plus complexes et des questions à plusieurs étapes, y compris des équations mathématiques avancées, des requêtes multimodales et du codage. Nous avons commencé des tests limités cette semaine, avec un déploiement plus large au début de l'année prochaine. Au cours de l'année prochaine, nous continuerons à introduire AI Overview dans davantage de pays et de langues.
Les avancées de Gemini 2.0 ont été rendues possibles par notre investissement dans des approches complètes et innovantes de l'IA depuis plus d'une décennie. Elles reposent sur du matériel personnalisé comme Trillium, notre TPU de sixième génération. La TPU prend en charge l'entraînement et l'inférence Gemini 2.0 sur le 100%, et aujourd'hui Trillium est entièrement disponible pour que les clients puissent créer des produits avec.
Si Gemini 1.0 visait à organiser et à donner un sens à l'information, Gemini 2.0 vise à rendre l'information plus utile. J'ai hâte de voir ce que cette nouvelle ère apportera.
Gemini 2.0 : un nouveau modèle d'IA conçu pour l'ère de l'agent
Par Demis Hassabis, PDG de Google DeepMind et Koray Kavukcuoglu, directeur technique de Google DeepMind au nom de l'équipe Gemini
Au cours de l'année écoulée, nous avons continué à faire des progrès étonnants dans le domaine de l'intelligence artificielle. Aujourd'hui, nous avons lancé le premier modèle de la famille Gemini 2.0 : une version expérimentale de Gemini 2.0 Flash. Il s'agit d'un modèle efficace à la pointe de notre technologie, avec une faible latence et des performances accrues.
Nous présentons également un prototype des frontières de la recherche sur les agents soutenu par les capacités multimodales natives de Gemini 2.0.
Gemini 2.0 Flash
Gemini 2.0 Flash s'appuie sur le succès de 1.5 Flash, de loin le modèle le plus populaire parmi les développeurs, en offrant les mêmes temps de réponse rapides et des performances améliorées. Remarquablement, 2.0 Flash surpasse même 1.5 Pro sur des critères de référence clés, en étant deux fois plus rapide. 2.0 Flash apporte également de nouvelles fonctionnalités. Outre la prise en charge des entrées multimodales telles que les images, la vidéo et l'audio, Flash 2.0 prend désormais en charge les sorties multimodales telles que le mélange image-texte généré en mode natif et la synthèse vocale contrôlée (TTS) multilingue. Il peut également invoquer en mode natif des outils tels que la recherche Google, l'exécution de code et des fonctions tierces définies par l'utilisateur.

Notre objectif est de permettre aux utilisateurs de travailler avec nos modèles rapidement et en toute sécurité. Au cours du mois dernier, nous avons partagé une première version expérimentale de Gemini 2.0 et reçu de précieux commentaires de la part des développeurs.
Gemini 2.0 Flash est désormais disponible en tant que modèle expérimental par l'intermédiaire de l'Agence européenne pour la sécurité et la santé au travail (ESA). Google AI Studio répondre en chantant Vertex AI (utilisé comme expression nominale) API Gemini Disponible pour les développeurs. L'entrée multimodale et la sortie de texte sont disponibles pour tous les développeurs, tandis que les capacités de synthèse vocale et de génération d'images natives sont disponibles pour les partenaires en accès anticipé. La disponibilité générale sera lancée en janvier avec davantage de tailles de modèles.
Pour aider les développeurs à créer des applications dynamiques et interactives, nous avons également publié une nouvelle API multimodale en temps réel qui prend en charge les flux audio et vidéo en temps réel ainsi que l'utilisation d'une variété d'outils combinés. Pour plus d'informations sur Flash 2.0 et l'API multimodale en temps réel, consultez notre site web Blog du développeur.
Gemini 2.0 est disponible dans l'application Gemini, notre assistant d'intelligence artificielle.
À partir d'aujourd'hui, les utilisateurs de Gemini du monde entier peuvent accéder à une version optimisée pour le chat de la version 2.0 de Flash Experiment via le menu déroulant du modèle sur les ordinateurs de bureau et le web mobile, qui sera bientôt disponible dans l'application mobile Gemini. Grâce à ce nouveau modèle, les utilisateurs pourront découvrir l'assistant Gemini d'une manière encore plus utile.
Au début de l'année prochaine, nous étendrons Gemini 2.0 à d'autres produits Google.
Débloquer l'expérience de l'agent avec Gemini 2.0
Les capacités d'action de l'interface utilisateur native de Gemini 2.0 Flash, ainsi que d'autres améliorations telles que le raisonnement multimodal, la compréhension des contextes longs, le suivi et la planification d'instructions complexes, les appels de fonctions combinatoires, l'utilisation d'outils natifs et l'amélioration de la latence, se combinent pour permettre une expérience d'agent d'un tout nouveau genre.
L'application pratique des agents d'intelligence artificielle est un domaine de recherche plein de possibilités passionnantes. Nous explorons ce nouveau domaine avec une série de prototypes qui aident les gens à accomplir des tâches et à résoudre des problèmes. Ces prototypes comprennent une version actualisée du projet Astra, un prototype de recherche qui explore les capacités futures des assistants d'IA à usage général ; le projet Mariner, récemment lancé, qui explore l'avenir de l'interaction homme-agent, en commençant par le navigateur ; et Jules, un agent de code doté d'IA qui aide les développeurs.
Nous n'en sommes qu'aux premiers stades du développement, mais nous sommes impatients de voir comment les testeurs de confiance utilisent ces nouvelles fonctionnalités et ce que nous pouvons en tirer pour les mettre à la disposition d'un plus grand nombre de produits à l'avenir.
Projet Astra : Agents de compréhension multimodale dans le monde réel
Depuis notre conférence I/O Lancement du projet Astra Depuis lors, nous avons appris de testeurs de confiance utilisant des téléphones Android. Leurs précieux commentaires nous ont aidés à mieux comprendre le fonctionnement pratique des assistants d'intelligence artificielle polyvalents, ainsi que leurs implications en matière de sécurité et d'éthique.Les améliorations apportées à la dernière version du support Gemini 2.0 sont les suivantes :
- Meilleures aptitudes au dialogueLe Projet Astra peut désormais tenir des conversations dans des langues multiples et mixtes, avec une meilleure compréhension des accents et du vocabulaire rare.
- Nouvelle capacité d'utilisation des outilsGemini 2.0 : Avec Gemini 2.0, le Projet Astra a accès à Google Search, Lens et Maps, ce qui le rend encore plus utile dans la vie de tous les jours.
- Meilleures capacités de mémorisationLe Projet Astra : Nous avons amélioré les capacités de mémorisation du Projet Astra tout en vous permettant de garder le contrôle. Il prend désormais en charge jusqu'à 10 minutes de mémoire en session et se souvient d'un plus grand nombre de vos conversations passées, ce qui le rend plus personnel.
- Amélioration du temps de latenceGrâce aux nouvelles capacités de diffusion en continu et à la compréhension audio native, les agents peuvent comprendre le langage avec une latence proche de celle d'un dialogue humain.
Nous nous efforçons d'intégrer ces fonctionnalités aux produits Google, tels que Gémeaux (nos assistants d'intelligence artificielle) et sous d'autres formes, comme les lunettes. Parallèlement, nous élargissons notre programme Trusted Tester à un plus grand nombre de personnes, dont un groupe qui commencera bientôt à tester le projet Astra sur des prototypes de lunettes.
Projet Mariner : des agents intelligents pour faciliter les tâches complexes
Le projet Mariner est un prototype de recherche précoce construit sur Gemini 2.0 pour explorer l'avenir de l'interaction homme-machine, en commençant par votre navigateur. En tant que prototype de recherche, il comprend et raisonne sur les informations présentes sur l'écran de votre navigateur, y compris les pixels et les éléments de la page web tels que le texte, le code, les images et les formulaires, et utilise ces informations pour effectuer des tâches à votre place par le biais d'un plugin Chrome expérimental.
existent Évaluation comparative de WebVoyagerDans ce test, qui évalue les performances des agents intelligents dans des tâches Web réelles de bout en bout, le projet Mariner a mis en œuvre une configuration à agent unique avec un agent de la catégorie "A". 83,51 TP3T Update.
Bien qu'il en soit encore à ses débuts, le projet Mariner montre la faisabilité technique de la navigation dans un navigateur, mais la précision et la vitesse d'exécution des tâches sont actuellement faibles et s'amélioreront rapidement à l'avenir.
Afin de construire ce projet de manière sûre et responsable, nous recherchons activement de nouveaux types de risques et leurs méthodes d'atténuation, tout en maintenant l'implication humaine. Par exemple, le projet Mariner ne peut taper, faire défiler ou cliquer que dans l'onglet actif d'un navigateur et demander une confirmation finale à l'utilisateur avant d'effectuer certaines actions sensibles, comme un achat.
Des testeurs de confiance ont commencé à tester le projet Mariner avec un plugin Chrome expérimental pendant que nous en discutons avec l'écosystème web.
Jules : Agents intelligents pour les développeurs
Ensuite, nous explorons comment nous pouvons aider les développeurs avec Jules, un agent expérimental d'intelligence de code alimenté par l'IA et intégré directement dans les flux de travail GitHub qui résout les problèmes, crée des plans et les exécute, le tout sous la direction et la supervision du développeur. Ce travail fait partie de notre objectif à long terme de construire des agents d'intelligence artificielle qui peuvent aider dans tous les domaines, y compris le codage.
Pour plus d'informations sur cette expérience en cours, consultez notre site web Blogs des développeurs.
Agents intelligents pour les jeux et autres domaines
Google DeepMind utilise depuis longtemps des jeux pour aider les modèles d'IA à améliorer le respect des règles, la planification et la logique. Par exemple, la semaine dernière, nous avons lancé Génie 2Gemini 2.0 est un modèle d'IA capable de générer une variété infinie de mondes 3D jouables à partir d'une seule image. En nous appuyant sur cet héritage, nous avons utilisé Gemini 2.0 pour construire un agent intelligent qui vous aide à naviguer dans le monde virtuel d'un jeu vidéo. Il peut raisonner en se basant uniquement sur les actions à l'écran et proposer des suggestions pour les étapes suivantes par le biais d'un dialogue en temps réel.
Nous travaillons avec des développeurs de jeux de premier plan comme Supercell pour tester la capacité de ces agents à interpréter les règles et les défis dans une gamme variée de jeux, des jeux de stratégie comme Clash of Clans aux simulations d'exploitation agricole comme Hay Day.
En plus de servir de compagnons de jeu virtuels, ces agents peuvent se connecter à la richesse des connaissances en matière de jeux sur le web à l'aide de la recherche Google.
En plus d'explorer les capacités des agents intelligents dans les mondes virtuels, nous expérimentons également des moyens d'appliquer les capacités de raisonnement spatial de Gemini 2.0 au domaine de la robotique. Bien que nous n'en soyons qu'aux premiers stades, nous sommes enthousiasmés par le potentiel des agents intelligents dans les environnements physiques.
Pour en savoir plus sur ces prototypes et expériences de recherche, rendez-vous sur labs.google.
Construire de manière responsable à l'ère des agents intelligents
Gemini 2.0 Flash et nos prototypes de recherche nous permettent de tester et d'élaborer de nouvelles fonctionnalités dans le cadre de la recherche de pointe en matière d'IA, afin de rendre les produits Google plus utiles.
En développant ces nouvelles technologies, nous reconnaissons leurs responsabilités et sommes préoccupés par les nombreuses questions que les agents d'intelligence artificielle soulèvent en termes de sécurité et de sûreté. C'est pourquoi nous avons adopté une approche exploratoire et progressive du développement, en travaillant sur plusieurs prototypes, en mettant en œuvre de manière itérative une formation à la sécurité, en collaborant avec des testeurs de confiance et des experts externes, et en procédant à des évaluations approfondies des risques et de la sûreté et de la sécurité.
Exemple :
- Dans le cadre de notre processus de sécurité, nous travaillons avec notre comité de responsabilité et de sécurité (RSC), un groupe d'examen interne permanent, afin d'identifier et de comprendre les risques potentiels.
- Les capacités d'inférence de Gemini 2.0 permettent des avancées significatives dans notre méthodologie de test en équipe rouge assistée par l'IA, y compris l'évolution de la simple détection des risques à la capacité de générer automatiquement des données d'évaluation et de formation pour atténuer les risques. Cela signifie que nous pouvons optimiser plus efficacement la sécurité de nos modèles à grande échelle.
- La nature multimodale de Gemini 2.0 augmentant la complexité des résultats potentiels, nous continuerons à évaluer et à former des modèles pour traiter les entrées et les sorties d'images et de sons afin d'améliorer la sécurité.
- Dans le cadre du projet Astra, nous étudions les moyens d'éviter que les utilisateurs ne partagent par inadvertance des informations sensibles avec les agents, et nous avons intégré des contrôles de confidentialité afin que les utilisateurs puissent facilement supprimer des sessions. Nous continuons également à étudier les moyens de garantir que les agents d'intelligence artificielle constituent des sources d'information fiables et n'entreprennent pas d'actions involontaires au nom des utilisateurs.
- Dans le cadre du projet Mariner, nous veillons à ce que le modèle donne la priorité au suivi des instructions de l'utilisateur plutôt qu'aux tentatives d'injection d'indices par des tiers, ce qui lui permet d'identifier les instructions potentiellement malveillantes provenant de sources externes et d'empêcher les abus. Cela permet d'éviter que les utilisateurs ne soient exposés à des fraudes et à des attaques par hameçonnage en raison d'instructions malveillantes dissimulées dans des courriels, des documents ou des sites web.
Nous sommes convaincus que la seule façon de construire l'IA est d'être responsable dès le départ, et nous continuerons à donner la priorité à la sécurité et à la responsabilité en tant qu'éléments clés du processus de développement des modèles, au fur et à mesure que nous progressons dans l'élaboration de modèles et d'agents intelligents.
Gemini 2.0, les agents intelligents et l'avenir
La publication d'aujourd'hui marque un nouveau chapitre dans la modélisation de Gemini. Avec la sortie de Gemini 2.0 Flash et le lancement d'une série de prototypes de recherche explorant les possibilités des agents, nous avons franchi une étape passionnante dans l'ère Gemini. Nous sommes impatients de continuer à explorer en toute sécurité toutes les nouvelles possibilités au fur et à mesure que nous construisons notre intelligence artificielle à usage général (AGI).
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...