Google lance Gemini 2.5 : de grandes améliorations dans les capacités de "réflexion".

Le 25 mars 2025 (dernière mise à jour le 26 mars), Google DeepMind a publié ce qu'il affirme être la famille de modèles d'IA la plus intelligente - le Gemini 2.5. Le premier lancement de la Gemini 2.5 Pro Experimental Cette version excelle dans plusieurs tests de référence, démontrant des améliorations significatives dans les capacités de raisonnement et de codage en particulier, ainsi que dans les capacités d'analyse de l'information. LMArena En tête des palmarès, avec une marge significative.

 

"Modèles de pensée" : plus qu'une prédiction, plus qu'un raisonnement

Gemini 2.5 La série est définie par Google comme des "modèles de réflexion". Au cœur de ce concept se trouve la capacité des modèles à s'engager dans un processus interne de "réflexion" ou de raisonnement avant de générer une réponse, dans le but d'améliorer les performances et la précision dans le traitement des problèmes complexes. Dans l'IA, la capacité de "raisonnement" va au-delà de la simple classification et de la prédiction et implique la capacité d'analyser les informations, de faire des déductions logiques, de comprendre le contexte et les nuances, et de prendre des décisions éclairées en conséquence.

Les chercheurs explorent depuis longtemps les moyens d'améliorer le raisonnement de l'IA, tels que l'apprentissage par renforcement et les indices de la chaîne de pensée. Sur la base de ces explorations, Google a lancé le premier "modèle de pensée". Gemini 2.0 Flash Thinking. La publication de la Gemini 2.5 Google affirme qu'il intégrera cette capacité de "réflexion" dans tous ses modèles à l'avenir afin de résoudre des problèmes plus complexes et de soutenir des agents plus puissants et plus conscients du contexte. Cette capacité de "réflexion" sera intégrée à tous les modèles afin de résoudre des problèmes plus complexes et de soutenir des agents plus puissants et plus conscients du contexte. Ce mécanisme de "réflexion" puis de "réponse" est censé contribuer à réduire le phénomène d'"illusion" courant dans les modèles d'IA et à améliorer la fiabilité des réponses.

 

Gemini 2.5 Pro Experimental performance

Selon les informations publiées par GoogleGemini 2.5 Pro Experimental Il se situe actuellement au niveau le plus élevé en matière de traitement des tâches complexes. Il est très efficace pour mesurer les préférences humaines en matière de LMArena Une avance significative dans les graphiques signifie généralement que le modèle n'est pas seulement puissant, mais que le style, la cohérence et l'utilité de ses résultats sont également préférés par les utilisateurs.

En termes de critères de référence spécifiques :

  • capacité de raisonnementLe modèle est utile pour les tests de référence en mathématiques et en sciences qui requièrent des capacités de raisonnement avancées (par ex. GPQA répondre en chantant AIME 2025) dans les meilleures conditions de performance et sans recourir à des astuces qui augmentent le coût des tests (comme le vote à la majorité). Dans un test conçu pour évaluer les limites de la connaissance et du raisonnement humains, par des centaines d'experts du domaine, la solution Humanity’s Last Exam sur l'ensemble des données.Gemini 2.5 Pro Un score de 18,8% a été obtenu sans l'utilisation d'outils externes, ce qui en fait une fois de plus le meilleur résultat.
    Google 发布 Gemini 2.5:“思考”能力大幅提升
    Note : La figure ci-dessus montre une comparaison des modèles en termes de raisonnement, de science et de mathématiques entre l'OpenAI GPT-4.5 et l'OpenAI GPT-4.6. Claude 3.7 Les noms des modèles et les données telles que Sonnet sont tirés de graphiques fournis par Google.
  • compétences en codage: :Gemini 2.5 En termes de codification, par rapport à Gemini 2.0 a fait un pas de géant en se spécialisant dans la création d'applications web visuellement attrayantes, d'applications de code corporel intelligent, ainsi que dans la conversion et l'édition de codes. La norme industrielle pour mesurer les capacités du code smart-body SWE-Bench Verified On, en utilisant une configuration personnalisée du corps intelligent de Gemini 2.5 Pro a obtenu un score de 63,8%. google a également montré un exemple d'uneGemini 2.5 Pro Un simple jeu vidéo sur les dinosaures a été créé en utilisant sa capacité de raisonnement pour générer un code exécutable à partir d'une seule ligne d'invites.

Héritage et développement : multimodalité et contextes longs

Gemini 2.5 hérité Gemini Les points forts de la série : des capacités multimodales natives et de longues fenêtres contextuelles.Gemini 2.5 Pro Un million de personnes prises en charge au moment du lancement jeton (et prévoit de l'étendre bientôt à 2 millions de jetons) et surpasse son prédécesseur dans cette longue fenêtre. Cela signifie qu'il peut comprendre et traiter des ensembles massifs de données contenant du texte, de l'audio, des images, de la vidéo et même des bases de code entières, en traitant des problèmes complexes à partir de différentes sources d'information. Il s'agit d'un potentiel d'application important pour les scénarios qui nécessitent une compréhension approfondie de longs documents, l'analyse de projets de code complexes ou le traitement de longs contenus vidéo.

Google 发布 Gemini 2.5:“思考”能力大幅提升

Le tableau a été mis à jour le 26 mars pour inclure la nouvelle évaluation MRCR (Multi Round Coreference Resolution).

 

Disponibilité et perspectives d'avenir

Actuellement.Gemini 2.5 Pro Experimental La version a été publiée en Google AI Studio Les développeurs ont bénéficié d'un essai dans leGemini Advanced Les utilisateurs peuvent également choisir d'utiliser le modèle à partir d'un menu déroulant sur les ordinateurs de bureau et les appareils mobiles. Le modèle devrait être disponible dans les semaines à venir sur les sites suivants Vertex AI google prévoit également d'annoncer dans les semaines à venir des informations sur les prix qui permettront aux utilisateurs de l'utiliser dans des environnements de production à plus grande échelle et à des taux plus élevés.

La mention "expérimental" indique que la version actuelle peut encore faire l'objet d'une itération rapide et que les utilisateurs peuvent éprouver une certaine instabilité lors de son utilisation, tandis que Google espère recueillir un grand nombre de commentaires en vue d'une amélioration continue.Gemini 2.5 La publication de ce nouveau modèle linguistique, en particulier l'accent mis sur la "pensée" et ses excellentes performances dans les tests de référence, constitue sans aucun doute un nouveau pas en avant dans le domaine de la modélisation linguistique à grande échelle, et son développement ultérieur ainsi que son application pratique méritent une attention particulière.

© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...