OpenAI lanza oficialmente o3 y o3-mini, que se convierten en los primeros modelos de IA que superan las pruebas de referencia ARC-AGI

OpenAI正式发布o3和o3-mini,成为首个突破 ARC-AGI 基准测试的 AI 模型

 

A las 2 de la madrugada de hoy, los 12 días de retransmisiones en directo de OpenAI han llegado por fin a su capítulo final: ¡se ha publicado oficialmente openAI o3!

o3 es el sucesor de la familia de modelos o1. Este tipo de modelo se caracteriza por permitir que el modelo dedique más tiempo a pensar (razonar) antes de responder a una pregunta, aumentando así la precisión de la respuesta. Sin embargo, OpenAI omitió o2 en la denominación. Según The Information, se hizo para evitar problemas de derechos de autor, ya que hay una empresa de telecomunicaciones en el Reino Unido que se llama O2, lo que podría haber causado confusión. sam Altman lo confirmó esta tarde en antena.

De hecho, OpenAI lleva calentando el modelo desde ayer. Y los desarrolladores ya han encontrado referencias a la prueba o3_min_safety_test en el sitio web de OpenAI.

OpenAI正式发布o3和o3-mini,成为首个突破 ARC-AGI 基准测试的 AI 模型

 

o3 Fecha de lanzamiento

Ahora, como se rumoreaba, o3 y o3-mini Allá vamos. Lamentablemente, los modelos de la serie o3 no se lanzarán directamente al público, sino que primero se someterán a pruebas de seguridad. sam Altman también ha señalado que hoy no se trata de un lanzamiento, sino sólo de un anuncio.

Sam Altman mencionó que tienen previsto lanzar el o3-mini a finales de enero y el modelo o3 completo poco después.

 

Diferencias entre o3 y o3-mini

o3-mini: o3 mini es una versión más rentable de o3, centrada en mejorar la velocidad de inferencia y reducir el coste de la misma teniendo en cuenta el rendimiento del modelo. Su alto rendimiento y bajo coste lo hacen ideal para la programación.

Admite tres opciones diferentes de tiempo de inferencia: bajo, medio y alto.

 

En comparación con o1, el rendimiento de o3-mini en Codeforces es notablemente rentable, lo que lo convierte en un modelo excelente para programar.

OpenAI正式发布o3和o3-mini,成为首个突破 ARC-AGI 基准测试的 AI 模型

 

Para los problemas matemáticos, o3-mini (low) alcanza una latencia baja comparable a gpt-4o.

OpenAI正式发布o3和o3-mini,成为首个突破 ARC-AGI 基准测试的 AI 模型

 

A continuación se enumeran todas las funciones de la API de o3-mini y sus correspondientes capacidades:

OpenAI正式发布o3和o3-mini,成为首个突破 ARC-AGI 基准测试的 AI 模型

 

o3 Pruebas de aptitud

¿Cómo de fuerte es el o3, comparado con el recién lanzado GoogleGemini 2.0 Flash PensamientoCompara:

OpenAI正式发布o3和o3-mini,成为首个突破 ARC-AGI 基准测试的 AI 模型

 

La capacidad del o3 es un golpe descendente directo a casi todos los modelos, hoy en día. Echa un vistazo a lo que el o3 es capaz de hacer.

OpenAI正式发布o3和o3-mini,成为首个突破 ARC-AGI 基准测试的 AI 模型

A la izquierda.Examen de Ingeniería del Software (SWE-Bench Verified).Esto es como una prueba para escribir programas, por ejemplo, escribes un software para que sea rápido y preciso, y no puede haber bugs (pequeños errores). Esto es para comprobar si o3 puede escribir código perfecto como un ingeniero de software de primera clase. La puntuación de o3: 71,7%, que sigue siendo mucho más fuerte que o1. El benchmark de la derecha es un poco más agresivo, Codeforces, una plataforma de competición de codificación de renombre mundial. La puntuación de o3 es de 2,727, lo que, equivalente al puesto 175 de toda la lista, ya ha superado el 99,99% de los seres humanos.

OpenAI正式发布o3和o3-mini,成为首个突破 ARC-AGI 基准测试的 AI 模型
La capacidad de codificación del o1 ha sido explosiva, y el o3, otro gran paso hacia la cima de la montaña de la AGI.

OpenAI正式发布o3和o3-mini,成为首个突破 ARC-AGI 基准测试的 AI 模型 El concurso de matemáticas AIEM 2024 y el examen de ciencias a nivel de doctorado GPQA Diamond. aIEM 2024 rozó la puntuación perfecta, y si no recuerdo mal sería la primera vez que una IA ha conseguido alcanzar un nivel en el que hubo un AIEM cercano a la puntuación perfecta. Los exámenes de ciencias a nivel de doctorado han evolucionado, pero no tan violentamente como los de matemáticas y programación.

La siguiente prueba de matemáticas es un poco más interesante. OpenAI正式发布o3和o3-mini,成为首个突破 ARC-AGI 基准测试的 AI 模型 rontierMath, una prueba de referencia de matemáticas desarrollada por Epoch AI, fue desarrollada por una colaboración de más de 60 matemáticos de renombre para evaluar la capacidad de la IA en razonamiento matemático avanzado. Y para evitar la contaminación de datos, todas las preguntas son originales y nuevas, nunca antes publicadas.
Anteriormente GPT-4 y Géminis 1.5 Pro Este modelo se presenta a una evaluación con menos de 21 TP3T de éxito, en contraste con la tasa de éxito de más de 901 TP3T en otros benchmarks matemáticos tradicionales como GSM-8K y MATH. Y esta vezo3 directamente a 25,2. Mientras que todos los demás modelos importantes siguen haciendo pruebas matemáticas tradicionales, o3 se ha adentrado realmente en otro mundo.

 

o3 se convierte en el primer modelo de IA que supera las pruebas ARC-AGI

La ARC Prize Fundation es una organización sin ánimo de lucro que pretende "ser la estrella polar en el camino hacia la AGI a través de la evaluación comparativa". El primer punto de referencia de la organización, ARC-AGI, lleva cinco años proponiéndose, pero no ha sido conquistado.

Hasta ahora, Kamradt ha anunciado que o3 ha alcanzado excelentes niveles en el benchmark, convirtiéndose en el primer modelo de IA que supera el benchmark ARC-AGI.

ARC-AGI, presentado por primera vez en 2019, tiene como objetivo poner a prueba las capacidades de los sistemas de IA a través de una serie de tareas de abstracción y razonamiento. Principalmente porque las medidas tradicionales de habilidad no representan eficazmente la inteligencia, ya que tienden a basarse en el conocimiento y la experiencia previos, mientras que la verdadera inteligencia debería reflejarse en una amplia adaptabilidad y generalizabilidad. Así nació ARC-AGI, y dentro de estas tareas se requiere que la IA reconozca patrones y resuelva nuevos problemas, cada tarea consiste en ejemplos de entrada-salida. Estas tareas se presentan en forma de cuadrícula, donde cada cuadrado puede ser de uno de diez colores y el tamaño de la cuadrícula puede variar de 1x1 a 30x30. Los participantes deben generar resultados correctos a partir de las entradas dadas, poniendo a prueba su capacidad de razonamiento y abstracción. Puede entenderse simplemente como encontrar patrones. Probablemente funcione así: OpenAI正式发布o3和o3-mini,成为首个突破 ARC-AGI 基准测试的 AI 模型

 

En la prueba ARC-AGI, la IA tiene que buscar patrones basados en ejemplos emparejados de "entrada-salida" antes de predecir la salida basándose en una entrada. Es posible que quienes se hayan presentado a exámenes de selección de personal o de la función pública no desconozcan este tipo de problemas de razonamiento gráfico.
OpenAI正式发布o3和o3-mini,成为首个突破 ARC-AGI 基准测试的 AI 模型

 

Muy difícil y abstracto. Las clasificaciones de las generaciones anteriores de modelos están aquí:
Se dice que la familia de modelos o3 alcanza un rendimiento mínimo de 75,7% en la prueba de referencia ARC-AGI, y o3 es incluso más capaz de llegar a 87,5% si se le deja pensar durante más tiempo utilizando más recursos computacionales.
OpenAI正式发布o3和o3-mini,成为首个突破 ARC-AGI 基准测试的 AI 模型 De 0% a 5%, tardamos cinco años enteros, pero ahora, de 5% a 87,5%, sólo tardamos medio año. Y la puntuación correspondiente, umbral humano, es de 85%. ya no hay ningún obstáculo en nuestro camino hacia AGI.

 

o3 Funcionamiento del modelo

En este punto sólo podemos especular un poco sobre cómo funciona el modelo o3. El mecanismo central del modelo o3 parece estar en el ficha espacio para la búsqueda y ejecución de programas en lenguaje natural - durante las pruebas, el modelo busca en el espacio de posibles cadenas de pensamiento que describen los pasos necesarios para resolver la tarea, de una manera que puede ser de una manera que puede tener cierto parecido con la búsqueda en árbol Monte-Carlo al estilo de AlphaZero. En el caso de o3, la búsqueda puede estar guiada por algún tipo de modelo de evaluación. Cabe señalar que Demis Hassabis, de DeepMind, insinuó en una entrevista en junio de 2023 que DeepMind ha estado trabajando en este concepto, un trabajo que lleva mucho tiempo en marcha.

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...