OpenAI lance officiellement o3 et o3-mini, qui deviennent les premiers modèles d'IA à dépasser les normes ARC-AGI.

OpenAI正式发布o3和o3-mini,成为首个突破 ARC-AGI 基准测试的 AI 模型

 

À 2 heures du matin, les 12 jours de streaming en direct d'OpenAI ont finalement atteint leur dernier chapitre. openAI o3 a été officiellement publié !

o3 est le successeur de la famille de modèles o1. Ce type de modèle se caractérise par le fait qu'il permet au modèle de passer plus de temps à réfléchir (raisonnement) avant de répondre à une question, ce qui augmente la précision de la réponse. Selon The Information, cette décision a été prise pour éviter les problèmes de droits d'auteur, car il existe au Royaume-Uni une société de télécommunications nommée O2, ce qui aurait pu prêter à confusion. sam Altman a confirmé cette information lors d'une diffusion en direct cet après-midi.

En fait, OpenAI réchauffe le modèle depuis hier. Les développeurs ont déjà trouvé des références au test de sécurité o3_min_safety_test sur le site web d'OpenAI.

OpenAI正式发布o3和o3-mini,成为首个突破 ARC-AGI 基准测试的 AI 模型

 

o3 Date de sortie

Désormais, comme l'annonçait la rumeur, o3 et o3-mini C'est parti ! Malheureusement, les modèles de la série o3 ne seront pas distribués directement au public, mais seront d'abord soumis à des tests de sécurité. sam Altman a également précisé qu'il ne s'agissait pas aujourd'hui d'un lancement, mais d'une simple annonce.

Sam Altman a indiqué qu'il prévoyait de lancer l'o3-mini vers la fin du mois de janvier et le modèle complet o3 peu de temps après.

 

Différences entre o3 et o3-mini

o3-mini : o3 mini est une version plus économique d'o3, qui se concentre sur l'amélioration de la vitesse d'inférence et la réduction du coût d'inférence tout en tenant compte de la performance du modèle. Ses performances élevées et son faible coût en font un outil idéal pour la programmation.

Il prend en charge trois options différentes de temps d'inférence : faible, moyen et élevé.

 

Par rapport à o1, les performances de o3-mini sur Codeforces sont remarquablement rentables, ce qui en fait un excellent modèle à utiliser pour la programmation.

OpenAI正式发布o3和o3-mini,成为首个突破 ARC-AGI 基准测试的 AI 模型

 

Pour les problèmes mathématiques, o3-mini (low) permet d'obtenir une faible latence comparable à celle de gpt-4o.

OpenAI正式发布o3和o3-mini,成为首个突破 ARC-AGI 基准测试的 AI 模型

 

Toutes les fonctionnalités de l'API sur o3-mini et leurs capacités correspondantes sont énumérées ci-dessous :

OpenAI正式发布o3和o3-mini,成为首个突破 ARC-AGI 基准测试的 AI 模型

 

o3 Tests d'aptitude

Quelle est la solidité de l'o3, comparée à celle de l'appareil de Google qui vient d'être lancé ?Gemini 2.0 Flash ThinkingComparer :

OpenAI正式发布o3和o3-mini,成为首个突破 ARC-AGI 基准测试的 AI 模型

 

La capacité de l'o3 est un coup descendant direct pour presque tous les modèles, aujourd'hui. Jetez un coup d'œil à ce que l'o3 est capable de faire.

OpenAI正式发布o3和o3-mini,成为首个突破 ARC-AGI 基准测试的 AI 模型

A gauche.Examen de génie logiciel (SWE-Bench Verified).C'est comme un test d'écriture de programmes, par exemple, vous écrivez un logiciel pour qu'il soit rapide et précis, et qu'il n'y ait pas de bogues (petites erreurs). Il s'agit de vérifier si o3 peut écrire un code parfait comme un ingénieur logiciel de première classe. Le score de o3 est de 71,7%, ce qui est beaucoup plus fort que o1. Le point de référence à droite est un peu plus agressif : il s'agit de Codeforces, une plateforme de concours de codage de renommée mondiale. Le score de o3 est de 2 727, ce qui équivaut à la 175e place de toute la liste et a déjà dépassé les 99,99% des êtres humains.

OpenAI正式发布o3和o3-mini,成为首个突破 ARC-AGI 基准测试的 AI 模型
La capacité de codage de l'o1 a été explosive, et l'o3, un autre grand pas vers le sommet de la montagne de l'AGI.

OpenAI正式发布o3和o3-mini,成为首个突破 ARC-AGI 基准测试的 AI 模型 Le concours de mathématiques AIEM 2024 et l'examen scientifique de niveau doctoral GPQA Diamond. aIEM 2024 était proche d'un score parfait, et si je me souviens bien, ce serait la première fois qu'une IA a réussi à atteindre un niveau où il y a eu un AIEM proche d'un score parfait. Les examens scientifiques de niveau doctoral ont évolué, mais pas aussi violemment que les mathématiques et la programmation.

Le prochain critère de référence en mathématiques est un peu plus intéressant. OpenAI正式发布o3和o3-mini,成为首个突破 ARC-AGI 基准测试的 AI 模型 rontierMath, un test de référence en mathématiques développé par Epoch AI, a été mis au point par une collaboration de plus de 60 mathématiciens de renom afin d'évaluer les capacités de l'IA en matière de raisonnement mathématique avancé. Et pour éviter la contamination des données, toutes les questions sont des questions originales et nouvelles qui n'ont jamais été publiées auparavant.
Précédemment, la GPT-4 et la Gémeaux 1.5 Pro Ce modèle est évalué avec moins de 21 TP3T de puissance réussie, ce qui contraste avec le taux de réussite de plus de 901 TP3T dans d'autres benchmarks mathématiques traditionnels tels que GSM-8K et MATH. Et cette fois-ci.o3 directement à 25.2. Alors que tous les autres grands modèles continuent de réaliser des tests mathématiques traditionnels, l'o3 est vraiment passé dans un autre monde.

 

o3 devient le premier modèle d'IA à dépasser les normes ARC-AGI

L'ARC Prize Fundation est une organisation à but non lucratif qui vise à "être l'étoile polaire sur la route de l'AGI par le biais de l'étalonnage". La première référence de l'organisation, ARC-AGI, est proposée depuis cinq ans mais n'a pas encore été conquise.

Jusqu'à présent, M. Kamradt a annoncé qu'o3 avait obtenu d'excellents résultats au test de référence, devenant ainsi le premier modèle d'IA à dépasser le test de référence ARC-AGI.

L'ARC-AGI, présenté pour la première fois en 2019, vise à tester les capacités des systèmes d'IA à travers une série de tâches d'abstraction et de raisonnement. Principalement parce que les mesures traditionnelles des compétences ne représentent pas efficacement l'intelligence, car elles ont tendance à s'appuyer sur les connaissances et l'expérience préalables, alors que la véritable intelligence devrait se refléter dans une large capacité d'adaptation et de généralisation. C'est ainsi qu'est né ARC-AGI, dont les tâches exigent de l'IA qu'elle reconnaisse des modèles et résolve de nouveaux problèmes, chaque tâche étant constituée d'exemples entrée-sortie. Ces tâches sont présentées sous la forme d'une grille, où chaque carré peut être de l'une des dix couleurs et où la taille de la grille peut varier de 1x1 à 30x30. Les participants doivent générer des sorties correctes à partir des entrées données, ce qui permet de tester leurs capacités de raisonnement et d'abstraction. Il s'agit simplement de trouver des modèles. C'est probablement ainsi que cela fonctionne : OpenAI正式发布o3和o3-mini,成为首个突破 ARC-AGI 基准测试的 AI 模型

 

Dans le test de référence ARC-AGI, l'IA doit rechercher des modèles basés sur des exemples appariés "entrée - sortie" avant de prédire la sortie sur la base d'une entrée, comme le montre la figure ci-dessous. Ceux qui ont passé des examens de recrutement pour la saison des diplômes ou des examens de la fonction publique ne sont sans doute pas étrangers à ces problèmes de raisonnement graphique.
OpenAI正式发布o3和o3-mini,成为首个突破 ARC-AGI 基准测试的 AI 模型

 

Très difficile et abstrait. Les évaluations des modèles des générations précédentes se trouvent ici :
La famille de modèles o3 est censée atteindre une performance minimale de 75,7% sur le benchmark ARC-AGI, et o3 est encore plus capable d'atteindre 87,5% si on lui permet de réfléchir plus longtemps en utilisant davantage de ressources informatiques.
OpenAI正式发布o3和o3-mini,成为首个突破 ARC-AGI 基准测试的 AI 模型 De 0% à 5%, il a fallu cinq années entières, mais maintenant, de 5% à 87,5%, il n'a fallu qu'une demi-année. Et le score seuil humain correspondant est de 85%. Il n'y a plus d'obstacle sur notre chemin vers l'AGI.

 

o3 Fonctionnement du modèle

À ce stade, nous ne pouvons que formuler quelques hypothèses sur le fonctionnement du modèle o3. jeton espace pour la recherche et l'exécution de programmes en langage naturel - pendant les essais, le modèle recherche l'espace des chaînes de pensée possibles qui décrivent les étapes nécessaires pour résoudre la tâche, d'une manière qui peut ressembler à la recherche d'arbres de Monte-Carlo de type AlphaZero. d'une manière qui peut ressembler à une recherche d'arbre Monte-Carlo de type AlphaZero. Dans le cas de o3, la recherche peut être guidée par une sorte de modèle d'évaluation. Il convient de noter que Demis Hassabis, de DeepMind, a laissé entendre dans une interview de juin 2023 que DeepMind travaillait sur ce concept - un travail qui est en cours depuis longtemps.

© déclaration de droits d'auteur
AiPPT

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...