OpenAI pousse le nouveau modèle o3-mini, poussé par DeepSeek ? Le prix n'est toujours pas à la hauteur

Nouvelles de l'IAMise à jour il y a 7 mois Cercle de partage de l'IA

8.3K 00

Des modèles d'inférence d'IA de haute qualité vers la popularité.

Tôt ce matin, OpenAI a publié un nouveau modèle d'inférenceo3-mini.

OpenAI affirme qu'il s'agit de son modèle d'inférence le plus rentable, avec des capacités d'inférence et de dialogue complexes considérablement améliorées, surpassant son prédécesseur, le modèle o1, dans les domaines des sciences, des mathématiques, de la programmation, etc. tout en conservant le faible coût et la faible latence du modèle o1-mini.Peut être utilisé en conjonction avec la fonction de recherche de réseau.

o3-mini est déjà disponible en ChatGPT et API, et l'accès entreprise sera disponible dans leune semaineLancement.

Apparemment, l'ascension de DeepSeek au sommet du palmarès des applications gratuites de l'App Store américain a créé une pression sur OpenAI.

Aujourd'hui.Pour la première fois, ChatGPT offre des modèles d'inférence gratuits à tous les utilisateurs.Les utilisateurs peuvent essayer o3-mini en sélectionnant le bouton "Raison" dans ChatGPT.

ChatGPT Les utilisateurs Pro peuventAccès illimitéLa limite de débit pour les utilisateurs Plus et Team a été triplée, passant de 50 messages par jour pour o1-mini à 50 messages par jour pour o3-mini.150 messages.

Les abonnés payants ont également la possibilité d'obtenir une version plus intelligente"o3-mini-haut". Cette version prend plus de temps pour générer une réponse.

Comme pour le modèle o1, le modèle o3-mini a un seuil de connaissance deoctobre 2023La fenêtre contextuelle est de 200 000 jetons avec une sortie maximale de 100 000 jetons. o3-mini est disponible en versions basse, moyenne et haute pour que les développeurs puissent l'optimiser en fonction de leurs cas d'utilisation spécifiques.

L'o3-mini ne prend pas actuellement en charge les fonctions visuelles, de sorte que les développeurs devront toujours utiliser l'o1 pour les tâches de raisonnement visuel.

Dès à présent, o3-mini est disponible dans les API Chat Completions, Assistants et Batch. openAI affirme que le prix par token a été réduit de 95% par rapport au lancement de GPT-4, tout en maintenant une inférence de premier plan. Toutefois, le prix de l'API d'o3-mini reste plus élevé que celui du modèle DeepSeek.

Comparaison des prix des API du modèle OpenAI et du modèle DeepSeek

En termes de sécurité, OpenAI a constaté que o3-mini surpasse largement GPT-4o en termes de sécurité et de jailbreaking.

01. detail o3-mini : évolution des capacités de programmation mathématique scientifique avec une latence considérablement réduite

Texte intégral :Manuel du système OpenAI o3-mini (chinois)

OpenAI a publié un rapport détaillé de 37 pages sur o3-mini, couvrant un large éventail d'aspects tels que l'introduction du modèle, les données et la formation, la portée des tests, les défis en matière de sécurité et l'évaluation, les tests de l'équipe rouge externe, l'évaluation du cadre de préparation, les performances multilingues et les conclusions.

L'o3-mini est optimisé pour le raisonnement scientifique, mathématique et de programmation, et est plus réactif. Le modèle a obtenu des scores de 0,77, 0,80 et 2036 sur les critères GPQA Diamond (sciences, chimie et biologie), AIME 2022-2024 (mathématiques) et Codeforces ELO (programmation), respectivement. o3-mini égale ou dépasse le modèle de raisonnement o1.

L'o3-mini surpasse de manière significative l'o1-mini sur l'ensemble de tests MMLU dans 14 langues, démontrant ainsi ses progrès en matière de compréhension multilingue.

Les évaluations réalisées par des testeurs experts externes ont indiqué que l'o3-mini fournissait des réponses plus précises et plus claires et un meilleur raisonnement que l'o1-mini. Lors de l'évaluation des préférences humaines, les testeurs ont préféré les réponses de o3-mini à 561 TP3T et ont observé une réduction de 391 TP3T des erreurs significatives sur des problèmes difficiles du monde réel. o3-mini a obtenu des résultats comparables à ceux de o1 sur certaines des évaluations les plus difficiles du raisonnement et de l'intelligence (y compris l'AIME et le GPQA) dans le cadre de la capacité de raisonnement moyenne.

L'intelligence de o3-mini est comparable à celle de o1, offrant des performances plus rapides et une plus grande efficacité. Le modèle excelle également dans les évaluations mathématiques et factuelles supplémentaires dans le cadre de la capacité de raisonnement moyenne. Lors des tests A/B, le modèle o3-mini a répondu à 241 TP3T plus rapidement que le modèle o1-mini, avec un temps de réponse moyen de 7,7 secondes contre 10,16 secondes pour le modèle o1-mini.

En mathématiques, à faible capacité de raisonnement, o3-mini obtient des résultats comparables à ceux de o1-mini, tandis qu'à capacité de raisonnement moyenne, o3-mini obtient des résultats comparables à ceux de o1. En revanche, à un niveau de raisonnement élevé, o3-mini est plus performant que o1-mini et o1.

L'o3-mini à haut pouvoir de raisonnement surpasse son prédécesseur sur FrontierMath. Lors du test FrontierMath, lorsqu'il a été invité à utiliser l'outil Python, l'o3-mini à haut pouvoir de raisonnement a résolu plus de 321 problèmes TP3T à la première tentative, dont plus de 281 TP3T de problèmes difficiles (T3).

o3-mini obtient progressivement des scores Elo plus élevés avec une capacité de raisonnement croissante, tous supérieurs à o1-mini. à une capacité de raisonnement moyenne, il obtient des résultats comparables à ceux de o1.

o3-mini est le modèle OpenAI le plus performant dans la validation SWE-bench.

D'autres données sur les résultats de la validation du banc SWE sont présentées ci-dessous. o3-mini (outils) a obtenu la meilleure performance avec 611 TP3T. o3-mini listing candidate utilisant Agentless au lieu des outils internes a obtenu un score de 391 TP3T. o1 a été le deuxième modèle le plus performant avec un score de 481 TP3T.

Dans le test de programmation LiveBench, l'o3-mini à raisonnement élevé a obtenu de meilleurs résultats que l'o1-high sur toute la ligne.

02. de multiples évaluations de la sécurité dépassent le GPT-4o

OpenAI a également détaillé les performances de o3-mini dans plusieurs évaluations de sécurité, déclarant que o3-mini surpassait de manière significative GPT-4o dans les évaluations de sécurité difficile et de jailbreak. o3-mini a obtenu des résultats similaires à ceux de GPT-4o dans l'évaluation de refus standard et l'évaluation de refus difficile dans l'évaluation de contenu non autorisé, mais a été légèrement moins bon dans le XSTest. .

Dans l'évaluation du jailbreak, o3-mini obtient des résultats comparables à ceux de o1-mini dans les évaluations du jailbreak de production, de l'exemple d'amélioration du jailbreak, de StrongReject et du jailbreak d'origine humaine.

Dans l'évaluation des hallucinations, en utilisant l'ensemble de données PersonQA, l'o3-mini a obtenu un taux de précision de 21,71 TP3T et un taux d'hallucinations de 14,81 TP3T, soit des performances comparables ou supérieures à celles du GPT-4o et de l'o1-mini.

En ce qui concerne les évaluations de l'équité et de la partialité, la miniature o3 a obtenu des résultats similaires à ceux de la miniature o1 pour l'évaluation du BBQ, mais avec une légère diminution de la précision lorsqu'il s'agit de questions ambiguës.

Les tests externes de l'équipe rouge ont montré que l'o3-mini avait des performances comparables à celles de l'o1, et qu'elles étaient toutes deux nettement supérieures à celles du GPT-4o.

Lors du test de jailbreak de Gray Swan Arena, o3-mini a obtenu un taux de réussite moyen de 3,61 TP3T, ce qui est légèrement supérieur à o1-mini et GPT-4o. L'évaluation du cadre de préparation a porté sur quatre catégories de risques : cybersécurité, CBRN (chimique, biologique, radiologique et nucléaire), persuasion et autonomie du modèle. o3-mini a été classé "risque faible" pour la cybersécurité, "risque moyen" pour le CBRN, la persuasion et l'autonomie du modèle, et "risque moyen" pour les menaces biologiques. o3-mini a été classé dans la catégorie "risque faible" pour la cybersécurité, "risque moyen" pour le CBRN, la persuasion et l'autonomie du modèle, et "risque moyen" pour les menaces biologiques.

En fonction de leur évaluation, seuls les modèles dont le score d'atténuation est "moyen" ou inférieur peuvent être déployés, et les modèles dont le score est "élevé" ou inférieur peuvent être développés.

03. Le benchmarking d'o3 pourrait coûter plus de 30 millions de dollars, OpenAI est en pourparlers pour un nouveau financement de 290 milliards de dollars

OpenAI a itéré ses modèles d'inférence depuis la sortie de o1 en septembre dernier, et le modèle o3 publié à la fin de l'année dernière est sa dernière génération de modèles d'inférence d'IA. La version haut de gamme du modèle o3 est destinée aux applications de calcul intensif, tandis que le modèle o3-mini s'adresse aux utilisateurs qui ont besoin d'être à la fois rentables et efficaces. Cela reflète la stratégie d'OpenAI qui consiste à essayer de trouver un équilibre entre l'accessibilité et les offres payantes haut de gamme.

Ces deux derniers jours, je ne sais pas s'il a été poussé par DeepSeek ou pour réchauffer l'o3-mini, le cofondateur d'OpenAI Sam Altman a été très actif sur les plateformes de médias sociaux, faisant à nouveau l'éloge de DeepSeek R1 comme impressionnant, disant qu'OpenAI fournira de meilleurs modèles, et soulignant que plus de calcul est important.

Hier, il a fait une grande annoncePremier serveur NVL72 GB200 à 8 baies completfonctionne sur Microsoft Azure pour OpenAI.

Le rapport de l'étude économique 2024-2025 du gouvernement indien, publié ce vendredi, suggère qu'OpenAI pourrait avoir dépensé plus de 1,5 million d'euros pour la mise en place d'un système de gestion de l'information.30 millions de dollarspour évaluer son dernier modèle d'inférence d'IA, o3. Le rapport indique que l'amélioration de la puissance de traitement du modèle OpenAI o3 a eu un prix très élevé. L'évaluation comparative ARC-AGI est considérée comme l'une des tâches les plus difficiles en matière d'IA, et le modèle d'OpenAI, configuré de manière inefficace, s'est soldé par le résultat le plus élevé de l'étude.$200,000Le coût d'un modèle efficace est encore plus élevé que celui d'un modèle inefficace. Le coût d'un modèle efficace est encore plus élevé que celui d'un modèle inefficace.172 foisC'est à peu près34,4 millions de dollars.

L'autre jour, M. Altman a également publié une photo avec le président-directeur général de Microsoft, Satya Nadella, affirmant que la prochaine phase du partenariat entre Microsoft et OpenAI sera bien meilleure que tout ce que l'on aurait pu imaginer.

Mais la réputation de Microsoft en tant que plus grand investisseur dans l'OpenAI pourrait être ternie par le groupe japonais SoftBank. Le fondateur et PDG de SoftBank Group, Masayoshi Son, s'est récemment rapproché d'Altman, annonçant la semaine dernière qu'ils allaient s'associer pour mettre en place un mégaprojet d'IA appelé "Stargate", investissant 500 milliards de dollars américains (environ 3,6 trillions de yuans) au cours des quatre prochaines années pour construire l'infrastructure de l'IA. Nouveau cycle de financement d'OpenAI.

Selon des médias étrangers, OpenAI est en pourparlers préliminaires pour lever jusqu'à 100 millions d'euros dans le cadre d'un tour de table.40 milliards de dollars US (environ 290,1 milliards de RMB)L'évaluation sera300 milliards de dollars US (environ 2,18 trillions de RMB). Le groupe japonais SoftBank dirigera le tour de table et négocie actuellement un investissement de 1,5 milliard d'euros.15 à 25 milliards de dollarsLes fonds restants proviendront d'autres investisseurs. Les fonds restants proviendront d'autres investisseurs, en plus du montant que SoftBank s'est déjà engagé à investir dans Stargate.Plus de 15 milliards de dollarsEn fin de compte, SoftBank pourrait investir dans un partenariat avec OpenAI.Plus de 40 milliards de dollars. Il s'agit de l'un des plus gros investissements de SoftBank à ce jour.

04.Conclusion : des modèles d'inférence IA de haute qualité au rapport qualité/prix très élevé vers la popularité

Auparavant, M. Musk et d'autres leaders technologiques s'étaient publiquement interrogés sur les moyens de financer le coût énorme de la construction de la "Porte des étoiles". Sous l'influence du modèle open-source performant et peu coûteux de DeepSeek, l'industrie américaine de l'IA et les investisseurs de Wall Street sont encore plus sceptiques quant aux stratégies de dépenses importantes d'autres développeurs américains d'IA tels qu'OpenAI.

Le dernier lancement d'OpenAI, o3-mini, est également considéré comme la dernière mesure prise pour contrer l'assaut des modèles DeepSeek, qui présentent un intérêt particulier pour l'industrie.

Dans un communiqué de presse, OpenAI a déclaré que la sortie de l'o3-mini marque une nouvelle étape dans la mission de l'entreprise qui consiste à repousser les limites de l'intelligence rentable et à rendre l'IA de haute qualité plus accessible, et qu'OpenAI s'engage à être à l'avant-garde de la construction de modèles à grande échelle qui équilibrent l'intelligence, l'efficacité et la sécurité.

Nouvelles de l'IA

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

Lunettes AR de Rokid : le PDG fait la démonstration d'un discours "à bâtons rompus", suscitant les attentes du marché

Nouvelles de l'IA

Il y a 6 mois

08.1K

6 interdictions ! Fudan introduit les nouvelles règles les plus strictes du monde en matière d'IA

Nouvelles de l'IA

Il y a 9 mois

09.7K

MathCLUE：DeepSeek R1挑战「全国高中数学竞赛」，成绩大幅超越o1

MathCLUE : DeepSeek R1 défie la " Compétition nationale de mathématiques des lycées " et surpasse largement o1

Nouvelles de l'IA

Il y a 7 mois

08.9K

Wisdom Spectrum supporte 128K de contexte/4K de longueur de sortie grand modèle GLM-4-Flash full volume free open !

Nouvelles de l'IA # Free Large Model API

Il y a 8 mois

09.8K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

OpenAI pousse le nouveau modèle o3-mini, poussé par DeepSeek ? Le prix n'est toujours pas à la hauteur

01. detail o3-mini : évolution des capacités de programmation mathématique scientifique avec une latence considérablement réduite

02. de multiples évaluations de la sécurité dépassent le GPT-4o

03. Le benchmarking d'o3 pourrait coûter plus de 30 millions de dollars, OpenAI est en pourparlers pour un nouveau financement de 290 milliards de dollars

04.Conclusion : des modèles d'inférence IA de haute qualité au rapport qualité/prix très élevé vers la popularité

"DeepSeek vs. ChatGPT : Qu'est-ce qui est le mieux pour vous ?

Benchmarking multimodal de l'IA générative end-side entre appareils avec Nexa Compressed Inference

Articles connexes

Lunettes AR de Rokid : le PDG fait la démonstration d'un discours "à bâtons rompus", suscitant les attentes du marché

6 interdictions ! Fudan introduit les nouvelles règles les plus strictes du monde en matière d'IA

MathCLUE : DeepSeek R1 défie la " Compétition nationale de mathématiques des lycées " et surpasse largement o1

Wisdom Spectrum supporte 128K de contexte/4K de longueur de sortie grand modèle GLM-4-Flash full volume free open !

Pas de commentaires

Dernières collections

Derniers articles

OpenAI pousse le nouveau modèle o3-mini, poussé par DeepSeek ? Le prix n'est toujours pas à la hauteur

01. detail o3-mini : évolution des capacités de programmation mathématique scientifique avec une latence considérablement réduite

02. de multiples évaluations de la sécurité dépassent le GPT-4o

03. Le benchmarking d'o3 pourrait coûter plus de 30 millions de dollars, OpenAI est en pourparlers pour un nouveau financement de 290 milliards de dollars

04.Conclusion : des modèles d'inférence IA de haute qualité au rapport qualité/prix très élevé vers la popularité

"DeepSeek vs. ChatGPT : Qu'est-ce qui est le mieux pour vous ?

Benchmarking multimodal de l'IA générative end-side entre appareils avec Nexa Compressed Inference

Articles connexes

Lunettes AR de Rokid : le PDG fait la démonstration d'un discours "à bâtons rompus", suscitant les attentes du marché

6 interdictions ! Fudan introduit les nouvelles règles les plus strictes du monde en matière d'IA

MathCLUE : DeepSeek R1 défie la " Compétition nationale de mathématiques des lycées " et surpasse largement o1

Wisdom Spectrum supporte 128K de contexte/4K de longueur de sortie grand modèle GLM-4-Flash full volume free open !

Pas de commentaires

Outils d'IA sélectionnés

Dernières collections

Derniers articles