Google lance Gemini 2.5 : de grandes améliorations dans les capacités de "réflexion".
Le 25 mars 2025 (dernière mise à jour le 26 mars), Google DeepMind a publié ce qu'il affirme être la famille de modèles d'IA la plus intelligente - le Gemini 2.5
. Le premier lancement de la Gemini 2.5 Pro Experimental
Cette version excelle dans plusieurs tests de référence, démontrant des améliorations significatives dans les capacités de raisonnement et de codage en particulier, ainsi que dans les capacités d'analyse de l'information. LMArena
En tête des palmarès, avec une marge significative.
"Modèles de pensée" : plus qu'une prédiction, plus qu'un raisonnement
Gemini 2.5
La série est définie par Google comme des "modèles de réflexion". Au cœur de ce concept se trouve la capacité des modèles à s'engager dans un processus interne de "réflexion" ou de raisonnement avant de générer une réponse, dans le but d'améliorer les performances et la précision dans le traitement des problèmes complexes. Dans l'IA, la capacité de "raisonnement" va au-delà de la simple classification et de la prédiction et implique la capacité d'analyser les informations, de faire des déductions logiques, de comprendre le contexte et les nuances, et de prendre des décisions éclairées en conséquence.
Les chercheurs explorent depuis longtemps les moyens d'améliorer le raisonnement de l'IA, tels que l'apprentissage par renforcement et les indices de la chaîne de pensée. Sur la base de ces explorations, Google a lancé le premier "modèle de pensée". Gemini 2.0 Flash Thinking
. La publication de la Gemini 2.5
Google affirme qu'il intégrera cette capacité de "réflexion" dans tous ses modèles à l'avenir afin de résoudre des problèmes plus complexes et de soutenir des agents plus puissants et plus conscients du contexte. Cette capacité de "réflexion" sera intégrée à tous les modèles afin de résoudre des problèmes plus complexes et de soutenir des agents plus puissants et plus conscients du contexte. Ce mécanisme de "réflexion" puis de "réponse" est censé contribuer à réduire le phénomène d'"illusion" courant dans les modèles d'IA et à améliorer la fiabilité des réponses.
Gemini 2.5 Pro Experimental
performance
Selon les informations publiées par GoogleGemini 2.5 Pro Experimental
Il se situe actuellement au niveau le plus élevé en matière de traitement des tâches complexes. Il est très efficace pour mesurer les préférences humaines en matière de LMArena
Une avance significative dans les graphiques signifie généralement que le modèle n'est pas seulement puissant, mais que le style, la cohérence et l'utilité de ses résultats sont également préférés par les utilisateurs.
En termes de critères de référence spécifiques :
- capacité de raisonnementLe modèle est utile pour les tests de référence en mathématiques et en sciences qui requièrent des capacités de raisonnement avancées (par ex.
GPQA
répondre en chantantAIME 2025
) dans les meilleures conditions de performance et sans recourir à des astuces qui augmentent le coût des tests (comme le vote à la majorité). Dans un test conçu pour évaluer les limites de la connaissance et du raisonnement humains, par des centaines d'experts du domaine, la solutionHumanity’s Last Exam
sur l'ensemble des données.Gemini 2.5 Pro
Un score de 18,8% a été obtenu sans l'utilisation d'outils externes, ce qui en fait une fois de plus le meilleur résultat.- Note : La figure ci-dessus montre une comparaison des modèles en termes de raisonnement, de science et de mathématiques entre l'OpenAI GPT-4.5 et l'OpenAI GPT-4.6. Claude 3.7 Les noms des modèles et les données telles que Sonnet sont tirés de graphiques fournis par Google.
- compétences en codage: :
Gemini 2.5
En termes de codification, par rapport àGemini 2.0
a fait un pas de géant en se spécialisant dans la création d'applications web visuellement attrayantes, d'applications de code corporel intelligent, ainsi que dans la conversion et l'édition de codes. La norme industrielle pour mesurer les capacités du code smart-bodySWE-Bench Verified
On, en utilisant une configuration personnalisée du corps intelligent deGemini 2.5 Pro
a obtenu un score de 63,8%. google a également montré un exemple d'uneGemini 2.5 Pro
Un simple jeu vidéo sur les dinosaures a été créé en utilisant sa capacité de raisonnement pour générer un code exécutable à partir d'une seule ligne d'invites.
Héritage et développement : multimodalité et contextes longs
Gemini 2.5
hérité Gemini
Les points forts de la série : des capacités multimodales natives et de longues fenêtres contextuelles.Gemini 2.5 Pro
Un million de personnes prises en charge au moment du lancement jeton (et prévoit de l'étendre bientôt à 2 millions de jetons) et surpasse son prédécesseur dans cette longue fenêtre. Cela signifie qu'il peut comprendre et traiter des ensembles massifs de données contenant du texte, de l'audio, des images, de la vidéo et même des bases de code entières, en traitant des problèmes complexes à partir de différentes sources d'information. Il s'agit d'un potentiel d'application important pour les scénarios qui nécessitent une compréhension approfondie de longs documents, l'analyse de projets de code complexes ou le traitement de longs contenus vidéo.

Le tableau a été mis à jour le 26 mars pour inclure la nouvelle évaluation MRCR (Multi Round Coreference Resolution).
Disponibilité et perspectives d'avenir
Actuellement.Gemini 2.5 Pro Experimental
La version a été publiée en Google AI Studio
Les développeurs ont bénéficié d'un essai dans leGemini Advanced
Les utilisateurs peuvent également choisir d'utiliser le modèle à partir d'un menu déroulant sur les ordinateurs de bureau et les appareils mobiles. Le modèle devrait être disponible dans les semaines à venir sur les sites suivants Vertex AI
google prévoit également d'annoncer dans les semaines à venir des informations sur les prix qui permettront aux utilisateurs de l'utiliser dans des environnements de production à plus grande échelle et à des taux plus élevés.
La mention "expérimental" indique que la version actuelle peut encore faire l'objet d'une itération rapide et que les utilisateurs peuvent éprouver une certaine instabilité lors de son utilisation, tandis que Google espère recueillir un grand nombre de commentaires en vue d'une amélioration continue.Gemini 2.5
La publication de ce nouveau modèle linguistique, en particulier l'accent mis sur la "pensée" et ses excellentes performances dans les tests de référence, constitue sans aucun doute un nouveau pas en avant dans le domaine de la modélisation linguistique à grande échelle, et son développement ultérieur ainsi que son application pratique méritent une attention particulière.
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...