OpenAI impulsa el nuevo modelo o3-mini, ¿empujado por DeepSeek? El precio sigue siendo insuperable

Modelos de inferencia de IA de alta calidad hacia la popularidad.
A primera hora de esta mañana, OpenAI ha publicado un nuevo modelo de inferenciao3-mini.
OpenAI afirma que se trata de su modelo de inferencia más rentable, con capacidades de inferencia compleja y diálogo significativamente mejoradas, superando a su modelo predecesor o1 en ciencias, matemáticas, programación, etc., al tiempo que mantiene el bajo coste y la baja latencia de o1-mini, yPuede utilizarse junto con la función de búsqueda en la red.

o3-mini ya está disponible en ChatGPT y la API, y el acceso Enterprise estará disponible en eluna semanaLanzamiento.
Al parecer, el ascenso de DeepSeek a lo más alto de las listas gratuitas de la App Store estadounidense ha creado presión sobre OpenAI.
Hoy.Por primera vez, ChatGPT ofrece modelos de inferencia gratuitos a todos los usuariosLos usuarios pueden probar o3-mini seleccionando el botón "Reason" en ChatGPT.

ChatGPT Los usuarios de Pro puedenAcceso ilimitadoEl límite de tarifa para los usuarios Plus y Team se triplicó, pasando de 50 mensajes al día para o1-mini a 50 mensajes al día para o3-mini.150 mensajes.

Los abonados de pago también tienen la opción de una versión más inteligente"o3-mini-alto". Esta versión tarda más en generar una respuesta.

Al igual que el modelo o1, el modelo o3-mini tiene un límite de conocimiento deOctubre de 2023La ventana contextual es de 200.000 tokens con una salida máxima de 100.000 tokens. o3-mini está disponible en versiones baja, media y alta para que los desarrolladores puedan optimizarla para sus casos de uso específicos.

La o3-mini no admite actualmente funciones visuales, por lo que los desarrolladores tendrán que seguir utilizando la o1 para las tareas de razonamiento visual.
Con efecto inmediato, o3-mini está disponible en la API de finalización de chat, la API de asistentes y la API de lotes. openAI afirma que el precio por token se ha reducido en 95% en comparación con el lanzamiento de GPT-4, al tiempo que se mantiene la inferencia de primer nivel. Sin embargo, el precio de la API de o3-mini sigue siendo superior al del modelo DeepSeek.

Comparación de precios de la API del modelo OpenAI frente al modelo DeepSeek
En términos de seguridad, OpenAI descubrió que o3-mini supera significativamente a GPT-4o en lo que respecta a la seguridad de los retos y el jailbreaking.
01. detalle o3-mini: evolución de las capacidades de programación matemática científica con una latencia significativamente menor
Texto completo:Manual del sistema OpenAI o3-mini (chino)
OpenAI ha publicado un informe detallado de 37 páginas sobre o3-mini, que abarca una amplia gama de aspectos como la introducción al modelo, los datos y la formación, el alcance de las pruebas, los retos de seguridad y la evaluación, las pruebas externas del equipo rojo, la evaluación del marco de preparación, el rendimiento multilingüe y las conclusiones.

El o3-mini está optimizado para el razonamiento científico, matemático y de programación, además de ser más sensible. El modelo obtuvo una puntuación de 0,77, 0,80 y 2036 en las pruebas GPQA Diamond (Ciencias, Química y Biología), AIME 2022-2024 (Matemáticas) y Codeforces ELO (Programación), respectivamente. o3-mini iguala o supera al modelo de razonamiento o1.

El o3-mini supera significativamente al o1-mini en el conjunto de pruebas MMLU en 14 idiomas, lo que demuestra su progreso en la comprensión multilingüe.

Las evaluaciones realizadas por evaluadores expertos externos indicaron que o3-mini proporcionaba respuestas más precisas y claras y un mejor razonamiento que o1-mini. En la evaluación de preferencias humanas, los evaluadores prefirieron las respuestas de o3-mini por encima de 561 TP3T y observaron una reducción de 391 TP3T en errores significativos en problemas difíciles del mundo real. o3-mini obtuvo resultados comparables a o1 en algunas de las evaluaciones más exigentes de razonamiento e inteligencia (incluidas la AIME y la GPQA) dentro de la Capacidad de Razonamiento Media.

La inteligencia del o3-mini es comparable a la del o1, proporcionando un rendimiento más rápido y una mayor eficiencia. El modelo también destaca en evaluaciones matemáticas y factuales adicionales en el marco de la capacidad de razonamiento medio. En las pruebas A/B, el o3-mini respondió 241 TP3T más rápido que el o1-mini, con un tiempo medio de respuesta de 7,7 segundos frente a los 10,16 segundos del o1-mini.


En matemáticas, cuando la capacidad de razonamiento es baja, el rendimiento de o3-mini es comparable al de o1-mini, mientras que cuando la capacidad de razonamiento es media, el rendimiento de o3-mini es comparable al de o1. En cambio, con una capacidad de razonamiento alta, o3-mini supera a o1-mini y o1.


El o3-mini con alto poder de razonamiento supera a su predecesor en FrontierMath. En la prueba FrontierMath, cuando se le pidió que utilizara la herramienta Python, o3-mini con alta capacidad de razonamiento resolvió más de 321 TP3T de problemas en el primer intento, incluidos más de 281 TP3T de problemas difíciles (T3).

o3-mini obtiene progresivamente puntuaciones Elo más altas con el aumento de la capacidad de razonamiento, todas ellas superiores a o1-mini. con una capacidad de razonamiento media, su rendimiento es comparable al de o1.


o3-mini es el modelo de OpenAI con mejor rendimiento en la validación SWE-bench.

A continuación se muestran más datos sobre los resultados de la validación de SWE-bench. o3-mini (herramientas) obtuvo el mejor rendimiento con 611 TP3T. o3-mini listing candidate utilizando Agentless en lugar de las herramientas internas obtuvo 391 TP3T. o1 fue el segundo modelo con mejor rendimiento con una puntuación de 481 TP3T.

En la prueba de programación LiveBench, el o3-mini de alto razonamiento obtuvo más puntuación que el o1-high en todas las pruebas.

02. Múltiples evaluaciones de seguridad superan la GPT-4o
OpenAI también detalló el rendimiento de o3-mini en varias evaluaciones de seguridad, afirmando que o3-mini superó significativamente a GPT-4o en las evaluaciones de seguridad desafiante y jailbreak. en la evaluación de contenido no permitido, o3-mini tuvo un rendimiento similar en la evaluación de denegaciones estándar y en la evaluación de denegaciones desafiante en comparación con GPT-4o, pero fue ligeramente peor en XSTest .

En la evaluación de jailbreak, o3-mini obtiene resultados comparables a los de o1-mini en las evaluaciones de jailbreak de producción, ejemplo de mejora de jailbreak, StrongReject y jailbreak de origen humano.

En la evaluación de alucinaciones, utilizando el conjunto de datos PersonQA, la o3-mini obtuvo un índice de precisión de 21,71 TP3T y un índice de alucinaciones de 14,81 TP3T, lo que supuso un rendimiento comparable o mejor en comparación con la GPT-4o y la o1-mini.

En las evaluaciones de imparcialidad y parcialidad, la o3-mini obtuvo resultados similares a la o1-mini en la evaluación BBQ, pero con una ligera disminución de la precisión cuando se trataba de preguntas ambiguas.

Las pruebas externas del equipo rojo mostraron que la o3-mini tenía un rendimiento comparable al de la o1, y que ambas superaban significativamente a la GPT-4o.

En la prueba de jailbreak de Gray Swan Arena, o3-mini obtuvo una tasa media de éxito de ataque de usuario de 3,61 TP3T, ligeramente superior a la de o1-mini y GPT-4o. La evaluación del marco de preparación abarcó cuatro categorías de riesgo: ciberseguridad, CBRN (químico, biológico, radiológico y nuclear), persuasión y autonomía del modelo. o3-mini fue calificado como de "riesgo bajo" para la ciberseguridad, de "riesgo medio" para CBRN, persuasión y autonomía del modelo, y de "riesgo medio" para las amenazas biológicas. riesgo", y cumplía el umbral de "riesgo medio" en cuanto a rendimiento en la creación de amenazas biológicas, pero tenía capacidades limitadas en el desarrollo de armas nucleares y radiológicas.

Según sus calificaciones, sólo los modelos con una puntuación de mitigación "media" o inferior pueden desplegarse, y los modelos con una puntuación "alta" o inferior pueden seguir desarrollándose.
03. La evaluación comparativa de o3 puede costar más de 30 millones de dólares, OpenAI en conversaciones para obtener 290.000 millones en nueva financiación
OpenAI ha estado iterando sus modelos de inferencia desde el lanzamiento de o1 el pasado septiembre, y el modelo o3 publicado a finales del año pasado es su última generación de modelos de inferencia de IA. La versión de gama alta del modelo o3 está destinada a aplicaciones de alta computación, mientras que el modelo o3-mini se dirige a usuarios que necesitan ser rentables y eficientes a la vez. Esto refleja la estrategia de OpenAI de intentar equilibrar la accesibilidad con ofertas premium de pago.
En los últimos dos días, no sé si empujado por DeepSeek o para calentar el o3-mini, el cofundador de OpenAI, Sam Altman, ha estado muy activo en las plataformas de medios sociales, de nuevo alabando DeepSeek R1 como impresionante, diciendo que OpenAI proporcionará mejores modelos, y haciendo hincapié en que más computación es importante.

Ayer hizo un gran anuncioPrimer servidor GB200 NVL72 completo de 8 bastidoresse ejecuta en Microsoft Azure para OpenAI.

El informe Economic Survey 2024-2025 del Gobierno de la India, publicado este viernes, sugiere que OpenAI podría haber gastado más de 1.000 millones de euros en el año 2025.30 millones de dólarespara evaluar su último modelo de inferencia de IA, o3. El informe señala que el gran avance en potencia de procesamiento del modelo o3 de OpenAI tuvo un precio muy alto. la evaluación comparativa ARC-AGI se considera una de las tareas de IA más exigentes, y el modelo de OpenAI, configurado de forma ineficiente, dio como resultado la...$200,000El coste de un modelo eficiente es aún mayor que el de un modelo ineficiente. El coste de un modelo eficiente es aún mayor que el de un modelo ineficiente172 vecesEso es más o menos34,4 millones de dólares.

Altman también publicó el otro día una foto con el presidente y consejero delegado de Microsoft, Satya Nadella, en la que afirmaba que la próxima fase de la asociación de Microsoft con OpenAI va a ser mucho mejor de lo que nadie podría haber imaginado.

Pero la reputación de Microsoft como mayor inversor en OpenAI podría arrebatársela el grupo japonés SoftBank. Recientemente, el fundador y consejero delegado de SoftBank Group, Masayoshi Son, se ha ido acercando a Altman, anunciando la semana pasada que unirían sus manos para poner en marcha un megaproyecto de IA llamado "Stargate", invirtiendo 500.000 millones de dólares (unos 3,6 billones de yuanes) en los próximos cuatro años para construir la infraestructura de IA, y ayer se reveló que sería el líder de la nueva ronda de financiación de OpenAI. Nueva ronda de financiación de OpenAI.
Según informes de medios extranjeros, OpenAI está en conversaciones preliminares para recaudar hasta en una ronda de financiación40.000 millones de dólares (aproximadamente 290.100 millones de RMB)La valoración será300.000 millones de dólares (aproximadamente 2,18 billones de RMB). El grupo japonés SoftBank liderará la ronda y está negociando una inversiónEntre 15.000 y 25.000 millones de dólaresLos fondos restantes procederán de otros inversores. Los fondos restantes procederán de otros inversores, además de la cantidad que SoftBank se ha comprometido previamente a invertir en Stargate.Más de 15.000 millones de dólaresEn última instancia, SoftBank podría estar invirtiendo en una asociación con OpenAI.Más de 40.000 millones de dólares. Será una de las mayores inversiones de SoftBank hasta la fecha.
04. Conclusión: relación calidad/precio disparada, modelos de razonamiento de IA de alta calidad hacia la popularidad
Anteriormente, Musk y otros líderes tecnológicos habían cuestionado públicamente cómo afrontar el enorme coste de construcción del "Stargate". Bajo la influencia del modelo de código abierto de alto rendimiento y bajo coste de DeepSeek, la industria estadounidense de la IA y los inversores de Wall Street se muestran aún más escépticos sobre las estrategias de grandes gastos de otros desarrolladores estadounidenses de IA como OpenAI.
El último lanzamiento de OpenAI, o3-mini, también se considera el último movimiento para defenderse de la embestida de los modelos DeepSeek, de especial interés para el sector.
En un comunicado de prensa, OpenAI afirma que el lanzamiento de la o3-mini supone un paso más en la misión de la empresa de ampliar los límites de la inteligencia rentable y hacer más accesible la IA de alta calidad, y que OpenAI se compromete a estar a la vanguardia de la creación de modelos a gran escala que equilibren inteligencia, eficiencia y seguridad.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...