o3-mini aplasta a DeepSeek R1: un programa en Python que generó casi 4 millones de visitas

Noticias AIPublicado hace 1 año Círculo de intercambio de inteligencia artificial

42.4K 00

Los titulares en el mundo de la IA están siendo DeepSeek Tras diez días de contrataciones, OpenAI finalmente se sentó y lanzó una nueva serie de modelos de inferencia, o3-mini, que no sólo abre por primera vez los modelos de inferencia a los usuarios gratuitos, sino que también reduce el coste en un factor de 15 en comparación con la anterior serie o1.

OpenAI también afirma que se trata del modelo más nuevo y rentable de su familia de modelos de inferencia:

o3-mini 碾压DeepSeek R1？一条python程序引发近400万围观 Acaba de lanzarse y algunos internautas están impacientes por compararlo con los grandes modelos de producción nacional que arrasan en el mundo de los grandes modelos. DeepSeek R1 Se hicieron comparaciones.
Hace algún tiempo, la comunidad de IA se obsesionó con el uso de DeepSeek R1 para competir con otros modelos (de inferencia) en esta tarea: "Escribe un script en Python que haga que una pelota rebote dentro de una determinada forma. Haz que la forma gire lentamente y asegúrate de que la pelota permanece dentro de la forma".
Esta prueba de pelota que rebota simulada es un reto clásico de programación. Equivale a un algoritmo de detección de colisiones que requiere que el modelo reconozca cuándo chocan dos objetos (por ejemplo, una pelota y el lateral de una forma). Los algoritmos mal escritos pueden tener errores de física evidentes.
Mientras DeepSeek R1 arrasaba en las búsquedas calientes nacionales e internacionales, y plataformas de computación en nube estadounidenses como Microsoft, NVIDIA y Amazon se apresuraban a introducir R1, este último también acabó aplastando a OpenAI o1 pro en esta tarea.
volver a mirar Claude 3.5 Sonnet y Google Géminis Con resultados de 1,5 Pro, el modelo de código abierto de DeepSeek se sitúa efectivamente más de un nivel por encima.
o3-mini 碾压DeepSeek R1？一条python程序引发近400万围观 Sin embargo, en o3-mini Tras su lanzamiento, las tornas parecen haber cambiado de la noche a la mañana, con publicaciones como ésta en la que se afirma que el o3-mini de OpenAI ha aplastado al DeepSeek R1, que ya cuenta con casi 4 millones de seguidores.
o3-mini 碾压DeepSeek R1？一条python程序引发近400万围观 El desarrollador utilizó la pregunta: "escribe un programa en Python que muestre una pelota rebotando dentro de un hexágono giratorio. La pelota debe verse afectada por la gravedad y la fricción, y debe La pelota debe verse afectada por la gravedad y la fricción, y debe rebotar en las paredes giratorias de forma realista".
Es decir, dejemos que o3-mini y DeepSeek R1 escriban respectivamente un programa python para una pelota que rebota dentro de un hexágono giratorio, con la pelota rebotando siguiendo los efectos de la gravedad y la fricción. La presentación final es la siguiente:
o3-mini 碾压DeepSeek R1？一条python程序引发近400万围观 En cuanto a los efectos, la o3-mini muestra mucho mejor los efectos de colisión y rebote. Desde la comprensión de la gravedad y la fricción, la versión DeepSeek R1 de la pelota parece un poco abrumado por la placa de ataúd de Newton, y no es controlado por la gravedad en absoluto.
No se trata de un caso aislado, ya que el cofundador de @hyperbolic_labs, Yuchen Jin, también descubrió este problema anteriormente, al escribir las siguientes palabras en DeepSeek R1 y o3-mini respectivamente: write a python script of a ball bouncing inside a tesseract (escribir escribir un script en Python de una pelota rebotando dentro de un teseracto).
Cada vértice de un hipercubo cuatridimensional es adyacente a cuatro puntas, y cada punta conecta dos cubos. La geometría en cuatro dimensiones está más allá de la percepción intuitiva humana, por lo que al escuchar estas descripciones puede resultar difícil imaginar cómo es un hipercubo de cuatro dimensiones.
Y o3mini no sólo muestra una geometría estable, sino que la pelota rebota en cuatro dimensiones con una trayectoria más flexible, con la sensación percusiva de golpear la cara de un cubo.
o3-mini 碾压DeepSeek R1？一条python程序引发近400万围观 Observando DeepSeek R1, parece que su comprensión de la forma del hipercubo cuatridimensional no es lo suficientemente profunda. Al mismo tiempo, la trayectoria de la bola en él parece un poco extraña, con una sensación de "aleteo".
o3-mini 碾压DeepSeek R1？一条python程序引发近400万围观 Según Yuchen Jin, lo intentó muchas veces y todos los intentos con DeepSeek R1 fueron peores que con el o3-mini desechable, como el de abajo, en el que se dejó la pelota.
El corazón de la máquina es también una prueba personal, la misma prueba Pass@1, DeepSeek R1 esta vez hay tanto la pelota y el marco geométrico, e incluso la pelota va a cambiar el color del color, por desgracia, es el hipercubo de cuatro dimensiones simplificado en ejes de coordenadas espaciales tridimensionales.
o3-mini 碾压DeepSeek R1？一条python程序引发近400万围观 La actuación de o3-mini es un poco como un "show del comprador". Obviamente, Yuchen Jin introduce exactamente las mismas indicaciones, pero ¿por qué o3-mini no puede hacer lo mismo? ¿Por qué o3-mini no puede conseguir el "show del vendedor" como se muestra arriba?
o3-mini 碾压DeepSeek R1？一条python程序引发近400万围观 Parece que DeepSeek R1 no es un completo fracaso para o3-mini en términos de generar un procedimiento para hacer rebotar la pelota dentro del marco geométrico.
El practicante de AIGC @myapdx probó o3-mini y DeepSeek R1 con un taco más complejo de su clase: escribir un script p5.js que simule 100 bolas de colores rebotando dentro de una esfera. Cada bola debe dejar una trayectoria desvanecida que muestre su camino más cercano. La esfera contenedora debería rotar lentamente. Asegúrate de implementar una detección de colisiones adecuada para que las bolitas permanezcan dentro de la esfera.
El o3-mini funciona así:
o3-mini 碾压DeepSeek R1？一条python程序引发近400万围观 Tantos requisitos en la palabra clave: rebote dentro de la esfera, dejar una pista que se desvanece, rotación lenta del contenedor ..... .o3-mini se cumplen a la perfección.
Y el DeepSeek R1 no parece estar peor:
En cuanto a por qué existe tal discrepancia, tanto Yuchen Jin como @myapdx mencionaron en sus posts que la tarea responde a cómo entiende el modelo las leyes de la física en el mundo real. Los modelos tienen que combinar su comprensión del lenguaje, la geometría, la física y la programación para llegar a los resultados finales de la simulación. Por los resultados de las dos primeras rondas, parece que o3-mini tiene potencial para ser el mejor modelo grande de física.
Mientras tanto, OpenAI también destacó ayer en su blog que o3-mini-low supera a o1-mini en problemas científicos de nivel de doctorado. o3-mini-high tiene un rendimiento comparable a o1, con mejoras significativas en problemas de biología, química y física de nivel de doctorado.
Entender la gravedad y la fricción cuando rebota una pelota pequeña no es difícil para los humanos, pero en el campo de la modelización de grandes lenguajes, esta capacidad de comprender el "modelo del mundo" del estado físico de un objeto no ha supuesto un verdadero avance hasta hace poco.
También se especula que el DeepSeek R1 a veces se programa con una sola bola, ¿podría estar pensando demasiado las cosas? Me pregunto si alguno de nuestros lectores ha experimentado esto por sí mismo. No dude en comentarlo.

Noticias AI

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

La Asociación para el Avance de la Inteligencia Artificial (AAAI) publica un informe de 91 páginas titulado El futuro de la investigación en inteligencia artificial

Noticias AI

hace 1 año

034.7K

OpenAI espera llegar a 1.000 millones de usuarios el próximo año y ampliará agresivamente sus centros de datos

Noticias AI

hace 1 año

039.6K

Anthropic publica el informe AI Economic Index: cómo la IA está reconfigurando el mercado laboral

Noticias AI

hace 1 año

056.4K

「AI搜索」测评基准首期榜单发布！4o领先幅度小，国内大模型表现亮眼，共5大基础11大场景14大模型

Se ha publicado la primera lista de puntos de referencia de la evaluación "AI Search"! El margen de ventaja de 4o es pequeño, y los grandes modelos nacionales rinden brillantemente, con un total de 5 bases, 11 escenarios y 14 modelos.

Noticias AI

hace 1 año

050K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

o3-mini aplasta a DeepSeek R1: un programa en Python que generó casi 4 millones de visitas

Las 5 mejores plataformas de inferencia de IA que utilizan una versión completa y gratuita de DeepSeek-R1

Se demuestra que: la RL supera a la SFT en el aprendizaje de conocimientos generalizables, especialmente en tareas multimodales, mostrando mayores capacidades de razonamiento y reconocimiento visual.

Artículos relacionados

La Asociación para el Avance de la Inteligencia Artificial (AAAI) publica un informe de 91 páginas titulado El futuro de la investigación en inteligencia artificial

OpenAI espera llegar a 1.000 millones de usuarios el próximo año y ampliará agresivamente sus centros de datos

Anthropic publica el informe AI Economic Index: cómo la IA está reconfigurando el mercado laboral

Se ha publicado la primera lista de puntos de referencia de la evaluación "AI Search"! El margen de ventaja de 4o es pequeño, y los grandes modelos nacionales rinden brillantemente, con un total de 5 bases, 11 escenarios y 14 modelos.

Sin comentarios

Últimas colecciones

Últimos artículos

o3-mini aplasta a DeepSeek R1: un programa en Python que generó casi 4 millones de visitas

Las 5 mejores plataformas de inferencia de IA que utilizan una versión completa y gratuita de DeepSeek-R1

Se demuestra que: la RL supera a la SFT en el aprendizaje de conocimientos generalizables, especialmente en tareas multimodales, mostrando mayores capacidades de razonamiento y reconocimiento visual.

Artículos relacionados

La Asociación para el Avance de la Inteligencia Artificial (AAAI) publica un informe de 91 páginas titulado El futuro de la investigación en inteligencia artificial

OpenAI espera llegar a 1.000 millones de usuarios el próximo año y ampliará agresivamente sus centros de datos

Anthropic publica el informe AI Economic Index: cómo la IA está reconfigurando el mercado laboral

Se ha publicado la primera lista de puntos de referencia de la evaluación "AI Search"! El margen de ventaja de 4o es pequeño, y los grandes modelos nacionales rinden brillantemente, con un total de 5 bases, 11 escenarios y 14 modelos.

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos