OpenAI lance officiellement o3 et o3-mini, qui deviennent les premiers modèles d'IA à dépasser les normes ARC-AGI.

À 2 heures du matin, les 12 jours de streaming en direct d'OpenAI ont finalement atteint leur dernier chapitre. openAI o3 a été officiellement publié !
o3 est le successeur de la famille de modèles o1. Ce type de modèle se caractérise par le fait qu'il permet au modèle de passer plus de temps à réfléchir (raisonnement) avant de répondre à une question, ce qui augmente la précision de la réponse. Selon The Information, cette décision a été prise pour éviter les problèmes de droits d'auteur, car il existe au Royaume-Uni une société de télécommunications nommée O2, ce qui aurait pu prêter à confusion. sam Altman a confirmé cette information lors d'une diffusion en direct cet après-midi.
En fait, OpenAI réchauffe le modèle depuis hier. Les développeurs ont déjà trouvé des références au test de sécurité o3_min_safety_test sur le site web d'OpenAI.

o3 Date de sortie
Désormais, comme l'annonçait la rumeur, o3 et o3-mini C'est parti ! Malheureusement, les modèles de la série o3 ne seront pas distribués directement au public, mais seront d'abord soumis à des tests de sécurité. sam Altman a également précisé qu'il ne s'agissait pas aujourd'hui d'un lancement, mais d'une simple annonce.
Sam Altman a indiqué qu'il prévoyait de lancer l'o3-mini vers la fin du mois de janvier et le modèle complet o3 peu de temps après.
Différences entre o3 et o3-mini
o3-mini : o3 mini est une version plus économique d'o3, qui se concentre sur l'amélioration de la vitesse d'inférence et la réduction du coût d'inférence tout en tenant compte de la performance du modèle. Ses performances élevées et son faible coût en font un outil idéal pour la programmation.
Il prend en charge trois options différentes de temps d'inférence : faible, moyen et élevé.
Par rapport à o1, les performances de o3-mini sur Codeforces sont remarquablement rentables, ce qui en fait un excellent modèle à utiliser pour la programmation.

Pour les problèmes mathématiques, o3-mini (low) permet d'obtenir une faible latence comparable à celle de gpt-4o.

Toutes les fonctionnalités de l'API sur o3-mini et leurs capacités correspondantes sont énumérées ci-dessous :

o3 Tests d'aptitude
Quelle est la solidité de l'o3, comparée à celle de l'appareil de Google qui vient d'être lancé ?Gemini 2.0 Flash ThinkingComparer :

La capacité de l'o3 est un coup descendant direct pour presque tous les modèles, aujourd'hui. Jetez un coup d'œil à ce que l'o3 est capable de faire.

A gauche.Examen de génie logiciel (SWE-Bench Verified).C'est comme un test d'écriture de programmes, par exemple, vous écrivez un logiciel pour qu'il soit rapide et précis, et qu'il n'y ait pas de bogues (petites erreurs). Il s'agit de vérifier si o3 peut écrire un code parfait comme un ingénieur logiciel de première classe. Le score de o3 est de 71,7%, ce qui est beaucoup plus fort que o1. Le point de référence à droite est un peu plus agressif : il s'agit de Codeforces, une plateforme de concours de codage de renommée mondiale. Le score de o3 est de 2 727, ce qui équivaut à la 175e place de toute la liste et a déjà dépassé les 99,99% des êtres humains.
La capacité de codage de l'o1 a été explosive, et l'o3, un autre grand pas vers le sommet de la montagne de l'AGI.
Le concours de mathématiques AIEM 2024 et l'examen scientifique de niveau doctoral GPQA Diamond. aIEM 2024 était proche d'un score parfait, et si je me souviens bien, ce serait la première fois qu'une IA a réussi à atteindre un niveau où il y a eu un AIEM proche d'un score parfait. Les examens scientifiques de niveau doctoral ont évolué, mais pas aussi violemment que les mathématiques et la programmation.
Le prochain critère de référence en mathématiques est un peu plus intéressant. rontierMath, un test de référence en mathématiques développé par Epoch AI, a été mis au point par une collaboration de plus de 60 mathématiciens de renom afin d'évaluer les capacités de l'IA en matière de raisonnement mathématique avancé. Et pour éviter la contamination des données, toutes les questions sont des questions originales et nouvelles qui n'ont jamais été publiées auparavant.
Précédemment, la GPT-4 et la Gémeaux 1.5 Pro Ce modèle est évalué avec moins de 21 TP3T de puissance réussie, ce qui contraste avec le taux de réussite de plus de 901 TP3T dans d'autres benchmarks mathématiques traditionnels tels que GSM-8K et MATH. Et cette fois-ci.o3 directement à 25.2. Alors que tous les autres grands modèles continuent de réaliser des tests mathématiques traditionnels, l'o3 est vraiment passé dans un autre monde.
o3 devient le premier modèle d'IA à dépasser les normes ARC-AGI
L'ARC Prize Fundation est une organisation à but non lucratif qui vise à "être l'étoile polaire sur la route de l'AGI par le biais de l'étalonnage". La première référence de l'organisation, ARC-AGI, est proposée depuis cinq ans mais n'a pas encore été conquise.
Jusqu'à présent, M. Kamradt a annoncé qu'o3 avait obtenu d'excellents résultats au test de référence, devenant ainsi le premier modèle d'IA à dépasser le test de référence ARC-AGI.
L'ARC-AGI, présenté pour la première fois en 2019, vise à tester les capacités des systèmes d'IA à travers une série de tâches d'abstraction et de raisonnement. Principalement parce que les mesures traditionnelles des compétences ne représentent pas efficacement l'intelligence, car elles ont tendance à s'appuyer sur les connaissances et l'expérience préalables, alors que la véritable intelligence devrait se refléter dans une large capacité d'adaptation et de généralisation. C'est ainsi qu'est né ARC-AGI, dont les tâches exigent de l'IA qu'elle reconnaisse des modèles et résolve de nouveaux problèmes, chaque tâche étant constituée d'exemples entrée-sortie. Ces tâches sont présentées sous la forme d'une grille, où chaque carré peut être de l'une des dix couleurs et où la taille de la grille peut varier de 1x1 à 30x30. Les participants doivent générer des sorties correctes à partir des entrées données, ce qui permet de tester leurs capacités de raisonnement et d'abstraction. Il s'agit simplement de trouver des modèles. C'est probablement ainsi que cela fonctionne :
Dans le test de référence ARC-AGI, l'IA doit rechercher des modèles basés sur des exemples appariés "entrée - sortie" avant de prédire la sortie sur la base d'une entrée, comme le montre la figure ci-dessous. Ceux qui ont passé des examens de recrutement pour la saison des diplômes ou des examens de la fonction publique ne sont sans doute pas étrangers à ces problèmes de raisonnement graphique.
Très difficile et abstrait. Les évaluations des modèles des générations précédentes se trouvent ici :
La famille de modèles o3 est censée atteindre une performance minimale de 75,7% sur le benchmark ARC-AGI, et o3 est encore plus capable d'atteindre 87,5% si on lui permet de réfléchir plus longtemps en utilisant davantage de ressources informatiques. De 0% à 5%, il a fallu cinq années entières, mais maintenant, de 5% à 87,5%, il n'a fallu qu'une demi-année. Et le score seuil humain correspondant est de 85%. Il n'y a plus d'obstacle sur notre chemin vers l'AGI.
o3 Fonctionnement du modèle
À ce stade, nous ne pouvons que formuler quelques hypothèses sur le fonctionnement du modèle o3. jeton espace pour la recherche et l'exécution de programmes en langage naturel - pendant les essais, le modèle recherche l'espace des chaînes de pensée possibles qui décrivent les étapes nécessaires pour résoudre la tâche, d'une manière qui peut ressembler à la recherche d'arbres de Monte-Carlo de type AlphaZero. d'une manière qui peut ressembler à une recherche d'arbre Monte-Carlo de type AlphaZero. Dans le cas de o3, la recherche peut être guidée par une sorte de modèle d'évaluation. Il convient de noter que Demis Hassabis, de DeepMind, a laissé entendre dans une interview de juin 2023 que DeepMind travaillait sur ce concept - un travail qui est en cours depuis longtemps.
© déclaration de droits d'auteur
L'article est protégé par le droit d'auteur et ne doit pas être reproduit sans autorisation.
Articles connexes
Pas de commentaires...