o3-mini aplasta a DeepSeek R1: un programa en Python que generó casi 4 millones de visitas
Los titulares en el mundo de la IA están siendo DeepSeek Tras diez días de contrataciones, OpenAI finalmente se sentó y lanzó una nueva serie de modelos de inferencia, o3-mini, que no sólo abre por primera vez los modelos de inferencia a los usuarios gratuitos, sino que también reduce el coste en un factor de 15 en comparación con la anterior serie o1.
OpenAI también afirma que se trata del modelo más nuevo y rentable de su familia de modelos de inferencia:
Acaba de lanzarse y algunos internautas están impacientes por compararlo con los grandes modelos de producción nacional que arrasan en el mundo de los grandes modelos. DeepSeek R1 Se hicieron comparaciones.
Hace algún tiempo, la comunidad de IA se obsesionó con el uso de DeepSeek R1 para competir con otros modelos (de inferencia) en esta tarea: "Escribe un script en Python que haga que una pelota rebote dentro de una determinada forma. Haz que la forma gire lentamente y asegúrate de que la pelota permanece dentro de la forma".
Esta prueba de pelota que rebota simulada es un reto clásico de programación. Equivale a un algoritmo de detección de colisiones que requiere que el modelo reconozca cuándo chocan dos objetos (por ejemplo, una pelota y el lateral de una forma). Los algoritmos mal escritos pueden tener errores de física evidentes.
Mientras DeepSeek R1 arrasaba en las búsquedas calientes nacionales e internacionales, y plataformas de computación en nube estadounidenses como Microsoft, NVIDIA y Amazon se apresuraban a introducir R1, este último también acabó aplastando a OpenAI o1 pro en esta tarea.
volver a mirar Claude 3.5 Sonnet y Google Géminis Con resultados de 1,5 Pro, el modelo de código abierto de DeepSeek se sitúa efectivamente más de un nivel por encima. Sin embargo, en o3-mini Tras su lanzamiento, las tornas parecen haber cambiado de la noche a la mañana, con publicaciones como ésta en la que se afirma que el o3-mini de OpenAI ha aplastado al DeepSeek R1, que ya cuenta con casi 4 millones de seguidores.
El desarrollador utilizó la pregunta: "escribe un programa en Python que muestre una pelota rebotando dentro de un hexágono giratorio. La pelota debe verse afectada por la gravedad y la fricción, y debe La pelota debe verse afectada por la gravedad y la fricción, y debe rebotar en las paredes giratorias de forma realista".
Es decir, dejemos que o3-mini y DeepSeek R1 escriban respectivamente un programa python para una pelota que rebota dentro de un hexágono giratorio, con la pelota rebotando siguiendo los efectos de la gravedad y la fricción. La presentación final es la siguiente: En cuanto a los efectos, la o3-mini muestra mucho mejor los efectos de colisión y rebote. Desde la comprensión de la gravedad y la fricción, la versión DeepSeek R1 de la pelota parece un poco abrumado por la placa de ataúd de Newton, y no es controlado por la gravedad en absoluto.
No se trata de un caso aislado, ya que el cofundador de @hyperbolic_labs, Yuchen Jin, también descubrió este problema anteriormente, al escribir las siguientes palabras en DeepSeek R1 y o3-mini respectivamente: write a python script of a ball bouncing inside a tesseract (escribir escribir un script en Python de una pelota rebotando dentro de un teseracto).
Cada vértice de un hipercubo cuatridimensional es adyacente a cuatro puntas, y cada punta conecta dos cubos. La geometría en cuatro dimensiones está más allá de la percepción intuitiva humana, por lo que al escuchar estas descripciones puede resultar difícil imaginar cómo es un hipercubo de cuatro dimensiones.
Y o3mini no sólo muestra una geometría estable, sino que la pelota rebota en cuatro dimensiones con una trayectoria más flexible, con la sensación percusiva de golpear la cara de un cubo. Observando DeepSeek R1, parece que su comprensión de la forma del hipercubo cuatridimensional no es lo suficientemente profunda. Al mismo tiempo, la trayectoria de la bola en él parece un poco extraña, con una sensación de "aleteo".
Según Yuchen Jin, lo intentó muchas veces y todos los intentos con DeepSeek R1 fueron peores que con el o3-mini desechable, como el de abajo, en el que se dejó la pelota.
El corazón de la máquina es también una prueba personal, la misma prueba Pass@1, DeepSeek R1 esta vez hay tanto la pelota y el marco geométrico, e incluso la pelota va a cambiar el color del color, por desgracia, es el hipercubo de cuatro dimensiones simplificado en ejes de coordenadas espaciales tridimensionales.
La actuación de o3-mini es un poco como un "show del comprador". Obviamente, Yuchen Jin introduce exactamente las mismas indicaciones, pero ¿por qué o3-mini no puede hacer lo mismo? ¿Por qué o3-mini no puede conseguir el "show del vendedor" como se muestra arriba?
Parece que DeepSeek R1 no es un completo fracaso para o3-mini en términos de generar un procedimiento para hacer rebotar la pelota dentro del marco geométrico.
El practicante de AIGC @myapdx probó o3-mini y DeepSeek R1 con un taco más complejo de su clase: escribir un script p5.js que simule 100 bolas de colores rebotando dentro de una esfera. Cada bola debe dejar una trayectoria desvanecida que muestre su camino más cercano. La esfera contenedora debería rotar lentamente. Asegúrate de implementar una detección de colisiones adecuada para que las bolitas permanezcan dentro de la esfera.
El o3-mini funciona así: Tantos requisitos en la palabra clave: rebote dentro de la esfera, dejar una pista que se desvanece, rotación lenta del contenedor ..... .o3-mini se cumplen a la perfección.
Y el DeepSeek R1 no parece estar peor: En cuanto a por qué existe tal discrepancia, tanto Yuchen Jin como @myapdx mencionaron en sus posts que la tarea responde a cómo entiende el modelo las leyes de la física en el mundo real. Los modelos tienen que combinar su comprensión del lenguaje, la geometría, la física y la programación para llegar a los resultados finales de la simulación. Por los resultados de las dos primeras rondas, parece que o3-mini tiene potencial para ser el mejor modelo grande de física.
Mientras tanto, OpenAI también destacó ayer en su blog que o3-mini-low supera a o1-mini en problemas científicos de nivel de doctorado. o3-mini-high tiene un rendimiento comparable a o1, con mejoras significativas en problemas de biología, química y física de nivel de doctorado.
Entender la gravedad y la fricción cuando rebota una pelota pequeña no es difícil para los humanos, pero en el campo de la modelización de grandes lenguajes, esta capacidad de comprender el "modelo del mundo" del estado físico de un objeto no ha supuesto un verdadero avance hasta hace poco.
También se especula que el DeepSeek R1 a veces se programa con una sola bola, ¿podría estar pensando demasiado las cosas? Me pregunto si alguno de nuestros lectores ha experimentado esto por sí mismo. No dude en comentarlo.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...