o3-mini écrase DeepSeek R1 : un programme Python qui a généré près de 4 millions de vues
Les grands titres du monde de l'IA sont DeepSeek Après dix jours de négociations, OpenAI s'est finalement assis et a lancé une nouvelle série de modèles d'inférence, o3-mini, qui non seulement ouvre les modèles d'inférence aux utilisateurs gratuits pour la première fois, mais réduit également le coût par un facteur de 15 par rapport à la série précédente o1.
OpenAI affirme également qu'il s'agit du modèle le plus récent et le plus rentable de sa famille de modèles d'inférence :
Il vient d'être lancé et certains internautes sont impatients de le comparer aux grands modèles produits dans le pays qui envahissent le monde des grands modèles. DeepSeek R1 Des comparaisons ont été effectuées.
Il y a quelque temps, la communauté de l'IA est devenue obsédée par l'utilisation de DeepSeek R1 pour rivaliser avec d'autres modèles (d'inférence) sur cette tâche : "Écrire un script Python qui fait rebondir une balle à l'intérieur d'une certaine forme. Faites tourner la forme lentement et assurez-vous que la balle reste à l'intérieur de la forme."
Ce test de simulation de balle rebondissante est un défi de programmation classique. Il équivaut à un algorithme de détection des collisions qui exige que le modèle reconnaisse le moment où deux objets (par exemple, une balle et le côté d'une forme) entrent en collision. Les algorithmes mal écrits peuvent comporter des erreurs physiques évidentes.
Alors que DeepSeek R1 a balayé les recherches nationales et internationales, et que les plateformes américaines d'informatique en nuage telles que Microsoft, NVIDIA et Amazon se sont empressées d'introduire R1, R1 a également fini par écraser OpenAI o1 pro dans cette tâche.
regarder à nouveau Claude 3.5 Sonnet et Google Gémeaux Avec des résultats de 1,5 Pro, le modèle open-source de DeepSeek est en effet supérieur de plus d'un niveau. Toutefois, en o3-mini Après la mise en ligne, les rôles semblent s'être inversés du jour au lendemain, avec des articles comme celui-ci affirmant que l'OpenAI o3-mini a écrasé le DeepSeek R1, qui a maintenant attiré près de 4 millions de visiteurs.
Le développeur a utilisé l'invite suivante : "écrivez un programme Python qui montre une balle rebondissant à l'intérieur d'un hexagone en rotation. La balle doit être affectée par la gravité et la friction, et elle doit rebondir sur les murs en rotation de manière réaliste". La balle doit être affectée par la gravité et la friction, et elle doit rebondir sur les murs en rotation de manière réaliste".
En d'autres termes, o3-mini et DeepSeek R1 écrivent respectivement un programme python pour une balle rebondissant à l'intérieur d'un hexagone en rotation, la balle rebondissant en suivant les effets de la gravité et de la friction. La présentation finale est la suivante : En termes d'effets, l'o3-mini met bien mieux en valeur les effets de collision et de rebond. En ce qui concerne la gravité et la friction, la version R1 de DeepSeek de la balle semble être un peu dépassée par la plaque de Newton et n'est pas du tout contrôlée par la gravité.
Il ne s'agit pas d'un cas isolé, puisque Yuchen Jin, cofondateur d'@hyperbolic_labs, a également découvert ce problème plus tôt, en tapant les mots suivants dans DeepSeek R1 et o3-mini respectivement : write a python script of a ball bouncing inside a tesseract (write write a Python script of a ball bouncing inside a tesseract (écrire un script Python d'une balle rebondissant à l'intérieur d'un tesseract).
Chaque sommet d'un hypercube à quatre dimensions est adjacent à quatre branches, et chaque branche relie deux cubes. La géométrie en quatre dimensions dépasse la perception intuitive de l'homme. En écoutant ces descriptions, il peut donc être difficile d'imaginer à quoi ressemble un hypercube à quatre dimensions.
Et non seulement o3mini présente une géométrie stable, mais la balle rebondit en quatre dimensions avec une trajectoire plus souple, avec la sensation percutante de frapper le côté d'un cube. En regardant DeepSeek R1, il semble que sa compréhension de la forme de l'hypercube quadridimensionnel ne soit pas assez approfondie. En même temps, la trajectoire de la balle semble un peu bizarre, avec une sensation de "flottement".
Selon Yuchen Jin, il a essayé plusieurs fois et toutes les tentatives avec DeepSeek R1 ont été pires que l'o3-mini jetable, comme celle ci-dessous où la balle a été laissée.
Le cœur de la machine est également un test personnel, le même test Pass@1, DeepSeek R1 cette fois, il y a à la fois la balle et le cadre géométrique, et même la balle changera la couleur de la couleur, malheureusement, il s'agit de l'hypercube quadridimensionnel simplifié en axes de coordonnées spatiales tridimensionnelles.
La performance de o3-mini ressemble un peu à un "spectacle d'acheteur". Évidemment, Yuchen Jin saisit exactement les mêmes invites, mais pourquoi o3-mini ne peut-elle pas faire la même chose ? Pourquoi o3-mini ne peut-elle pas obtenir le "spectacle du vendeur" comme indiqué ci-dessus ?
Il semble que le DeepSeek R1 ne soit pas un échec complet de l'o3-mini dans la génération d'une procédure pour faire rebondir la balle à l'intérieur du cadre géométrique.
Le praticien de l'AIGC @myapdx a testé o3-mini et DeepSeek R1 avec une consigne plus complexe : écrire un script p5.js qui simule 100 boules colorées rebondissant à l'intérieur d'une sphère. Chaque balle doit laisser une trajectoire en fondu enchaîné montrant son chemin le plus proche. La sphère conteneur doit tourner lentement. Assurez-vous d'implémenter une détection de collision correcte afin que les blobs restent à l'intérieur de la sphère.
L'o3-mini fonctionne comme suit : Tant d'exigences dans le mot de repère : rebondir à l'intérieur de la sphère, laisser une trace en fondu, rotation lente du conteneur ..... .o3-mini sont toutes parfaitement satisfaites.
Et le DeepSeek R1 ne semble pas être en mauvais état : Pour ce qui est de la raison d'un tel écart, Yuchen Jin et @myapdx ont tous deux mentionné dans leurs messages que la tâche est sensible à la manière dont le modèle comprend les lois de la physique dans le monde réel. Les modèles doivent combiner leur compréhension du langage, de la géométrie, de la physique et de la programmation pour aboutir aux résultats finaux de la simulation. D'après les résultats des deux premiers tours, il semble que o3-mini ait le potentiel pour devenir le meilleur grand modèle de physique.
Par ailleurs, OpenAI a également souligné dans son blog d'hier que o3-mini-low surpasse o1-mini sur les problèmes scientifiques de niveau doctoral. o3-mini-high a des performances comparables à o1, avec des améliorations significatives sur les problèmes de biologie, de chimie et de physique de niveau doctoral.
Comprendre la gravité et la friction lorsqu'une petite balle rebondit n'est pas difficile pour les humains, mais dans le domaine de la modélisation en langage large, cette capacité à comprendre les "modèles du monde" de l'état physique des objets n'a pas constitué une véritable percée jusqu'à récemment.
Il semblerait également que le DeepSeek R1 soit parfois programmé avec une seule bille. Je me demande si l'un de nos lecteurs en a fait l'expérience ? N'hésitez pas à en discuter.
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...