Revelados los resultados de ARC-AGI-2: Capacidad de razonamiento del modelo de IA Waterloo para todos

Noticias AIPublicado hace 1 año Círculo de intercambio de inteligencia artificial

Los puntos de referencia para medir el progreso de la inteligencia artificial de propósito general (AGI) son fundamentales. Los puntos de referencia eficaces revelan las capacidades, y los grandes puntos de referencia tienen más probabilidades de inspirar las direcciones de investigación. ARC-AGI La serie de puntos de referencia desempeña ese papel, orientando los esfuerzos de investigación para centrarse en una verdadera inteligencia de propósito general. Los últimos ARC-AGI-2 Los puntos de referencia y los resultados preliminares de sus pruebas son una llamada de atención sobre los actuales problemas de límites y eficiencia de las capacidades de la IA.

ARC-AGI-1 Desde su lanzamiento en 2019, ha desempeñado un papel único en el seguimiento del progreso de la AGI, habiendo ayudado a identificar cuándo la IA comienza a ir más allá de la mera memoria de patrones. Posteriormente ARC Prize 2024 El concurso también ha atraído a un gran número de investigadores que exploran nuevas ideas para la adaptación del tiempo de prueba.

Sin embargo, el camino hacia la AGI aún es largo. Los avances actuales, como OpenAI (utilizado como expresión nominal) o3 Lo que muestran estos sistemas es quizá un avance limitado en la dimensión de la "inteligencia fluida". Estos sistemas no sólo son ineficaces, sino que además requieren mucha supervisión humana. Está claro que se necesita más innovación en la fuente para hacer realidad la AGI.

Un nuevo reto: ARC-AGI-2, diseñado para poner al descubierto los puntos débiles de la IA

Con este fin, la Fundación del Premio ARC ha puesto en marcha el programa ARC-AGI-2 Puntos de referencia. Está diseñado con un objetivo claro: ser significativamente más difícil para la IA (especialmente para los sistemas de razonamiento), manteniendo al mismo tiempo una relativa facilidad de manejo para los humanos. No se trata simplemente de un aumento de la dificultad, sino de un desafío específico a las barreras que los actuales métodos de IA se esfuerzan por superar.

Filosofía de diseño: centrarse en la brecha de inteligencia donde las personas son fáciles y la IA es difícil

A diferencia de muchos otros puntos de referencia de IA que persiguen capacidades sobrehumanas, elARC-AGI Centrarse en tareas que son relativamente fáciles para los humanos, pero extremadamente difíciles para la IA actual. El objetivo de esta estrategia es revelar lagunas en las capacidades que no pueden colmarse simplemente "ampliándolas". En la base de la inteligencia general está la capacidad de generalizar y aplicar eficazmente el conocimiento a partir de una experiencia limitada, que es el punto débil de la IA actual.

ARC-AGI-2: Dificultad creciente, enfrentarse directamente a los puntos débiles del razonamiento de la IA

ARC-AGI-2 existe ARC-AGI-1 Los cimientos de la IA han aumentado considerablemente los requisitos que se le exigen, haciendo hincapié en una combinación de gran adaptabilidad y eficiencia. Analizando los fracasos de la IA de vanguardia en tareas anteriores, laARC-AGI-2 Presentamos más retos que ponen a prueba la capacidad de interpretar símbolos, razonar combinatoriamente, aplicar reglas contextuales y mucho más. Estas tareas están diseñadas para obligar a la IA a ir más allá de la coincidencia superficial de patrones y alcanzar niveles más profundos de abstracción y razonamiento.

ARC-AGI-2: un sombrío reflejo de la realidad

Últimas publicaciones ARC-AGI Los datos de Leaderboard pintan un panorama sombrío de las capacidades actuales de la IA. Estos datos no solo confirman que ARC-AGI-2 desafiante y, lo que es más profundo, revela el enorme abismo existente en la capacidad de razonamiento de propósito general y la eficiencia de la IA.

Visión general de los datos de Leaderboard

Sistema de IA	Organización	Tipo de sistema	ARC-AGI-1	ARC-AGI-2	Coste/Tarea	Código / Papel
Panel humano	Humano	N/A	98.0%	100.0%	$17.00	-
o3 (bajo)*	OpenAI	CoT + Síntesis	75.7%	4.0%	$200.00	📄
o1 (alto)	OpenAI	CoT	32.0%	3.0%	$4.45	💻
ARChitects	Premio ARC 2024	A medida	56.0%	2.5%	$0.200	📄💻
o3-mini (medio)	OpenAI	CoT	29.1%	1.7%	$0.280	💻
Icecuber	Premio ARC 2024	A medida	17.0%	1.6%	$0.130	💻
o3-mini (alto)	OpenAI	CoT	35.0%	1.5%	$0.410	💻
Géminis 2.0 Flash	Google Empresa de Internet	LLM de base	N/A	1.3%	$0.004	💻
o1 (medio)	OpenAI	CoT	31.0%	1.3%	$2.76	💻
Búsqueda profunda R1	Búsqueda profunda	CoT	15.8%	1.3%	$0.080	💻
Gemini-2.5-Pro-Exp-03-25 **	Google Empresa de Internet	CoT	12.5%	1.3%	N/A	💻
o1-pro	OpenAI	CoT + Síntesis	50.0%	1.0%	$39.00	-
Claude 3.7 (8K)	Antrópico	CoT	21.2%	0.9%	$0.360	💻
Géminis 1.5 Pro	Google Empresa de Internet	LLM de base	N/A	0.8%	$0.040	💻
GPT-4.5	OpenAI	LLM de base	10.3%	0.8%	$2.10	💻
o1 (bajo)	OpenAI	CoT	25.0%	0.8%	$1.44	💻
Claude 3.7 (16K)	Antrópico	CoT	28.6%	0.7%	$0.510	💻
Claude 3.7 (1K)	Antrópico	CoT	11.6%	0.4%	$0.140	💻
Claude 3,7	Antrópico	LLM de base	13.6%	0.0%	$0.120	💻
GPT-4o	OpenAI	LLM de base	4.5%	0.0%	$0.080	💻
GPT-4o-mini	OpenAI	LLM de base	N/A	0.0%	$0.010	💻
o3-mini (bajo)	OpenAI	CoT	11.0%	0.0%	$0.060	💻

(Nota: * indica estimaciones preliminares en el cuadro.* denota un modelo experimental)*

Insights: la advertencia tras los datos

Humanos contra IA: una brecha insalvable
No hay nada más sorprendente que el marcado contraste entre el rendimiento humano y el de la IA. En ARC-AGI-2 On, el equipo humano logró una puntuación perfecta de 100%, y el sistema de IA con mejor rendimiento -el OpenAI (utilizado como expresión nominal) o3 (low)con una puntuación de sólo 4,0%. Otros modelos conocidos, como el Gemini 2.0 FlashyDeepseek R1 etc., todos con puntuaciones que rondan el 1,3%. Aún más alarmante es el hecho de que empresas como Claude 3.7yGPT-4oyGPT-4o-mini Estos grandes modelos lingüísticos de base (LLM de base), que han destacado en otros ámbitos, se han utilizado en la ARC-AGI-2 Las puntuaciones del juego fueron directamente a cero. Esto revela implacablemente que, a pesar de ser increíblemente capaz en tareas específicas, la IA sigue siendo fundamentalmente inferior a los humanos cuando se enfrenta a problemas novedosos que requieren habilidades de razonamiento flexibles, abstractas y generalizadas.
De AGI-1 a AGI-2: la caída en picado de las capacidades de la IA
Casi todos los sistemas de IA que participaron en la prueba, tras comenzar con la ARC-AGI-1 transición ARC-AGI-2 tiempo, el rendimiento cayó en picado. Por ejemplo, elo3 (low) cayó de 75,71 TP3T a 4,01 TP3T.o1-pro de aproximadamente 50% a 1,0%.ARChitects de 56,01 TP3T a 2,51 TP3T.Este fenómeno general sugiere fuertemente que laARC-AGI-2 Sí aborda con éxito los "puntos débiles" de las actuales metodologías de IA, ya se basen en CoT, Síntesis u otros enfoques personalizados, que son difíciles de tratar con eficacia. ARC-AGI-2 El desafío de razonamiento representado.
Tipo de sistema y eficiencia: un coste elevado no conlleva una gran inteligencia
La clasificación revela además el papel de los distintos tipos de sistemas de IA en la ARC-AGI-2 Diferencias de rendimiento y graves problemas de eficiencia en el
- CoT + Sistema de síntesis (o3 (low), o1-pro) obtuvieron las puntuaciones de IA relativamente más altas (4,0% y 1,0%), pero a un coste sorprendentemente alto ($200 y $39 por tarea, respectivamente). Esto sugiere que el razonamiento complejo más las estrategias de búsqueda pueden ser capaces de "exprimir" un poco la puntuación, pero es extremadamente ineficiente.
- Sistema CoT puro Los resultados fueron desiguales, con puntuaciones que oscilaron generalmente entre 1%-3% y costes que oscilaron entre unos céntimos y unos dólares. Esto parece indicar que el CoT por sí solo no basta para superar el reto.
- Base LLM (Large Language Model) (GPT-4.5, Gemini 1.5 Pro, Claude 3.7, GPT-4o) fue una debacle, con puntuaciones de 0% o casi, lo que rebate contundentemente la idea de que "el tamaño lo es todo", al menos en el caso de ARC-AGI Esto es cierto para el aspecto medido de la inteligencia fluida generalizada.
- Sistemas personalizados (ARChitects, Icecuber) como ARC Prize 2024 logrando resultados comparables o incluso ligeramente mejores (2,5%, 1,6%) que otros sistemas de IA a un coste muy bajo (~$0,1-$0,2 por tarea). Esto puede sugerir que los algoritmos o arquitecturas específicos y ligeros pueden tener más potencial para resolver este tipo de problemas que los grandes modelos de propósito general, y pone de relieve el valor de los concursos abiertos y la innovación comunitaria.
Crisis de eficacia: la inteligencia no puede limitarse a los resultados
ARC Prize La inclusión del "coste/tarea" como métrica clave en la clasificación es significativa. Los datos muestran que incluso las IA con mejores resultados (o3 (low) obtienen 4%), su coste por tarea ($200) también es más de diez veces superior al de los humanos ($17 obtienen 100%). Mientras que algunos modelos de bajo coste como Gemini 2.0 FlashEsto contrasta fuertemente con la IA, que o tiene una puntuación muy baja, o es costosa, o ambas cosas, aunque tenga un coste muy bajo ($0,004) y puntúe sólo 1,3%. La inteligencia no consiste en obtener la respuesta correcta a cualquier precio; la eficiencia es una propiedad intrínseca. Actualmente, la IA es ARC-AGI-2 La curva "capacidad-coste" mostrada más arriba revela sin duda una profunda "crisis de eficiencia".

Composición del conjunto de datos y detalles del concurso

ARC-AGI-2 Contiene conjuntos calibrados de formación y evaluación del tipo pass@2 Mecanismo de puntuación. Los principales cambios incluyen un aumento del número de tareas, la eliminación de tareas vulnerables a la fuerza bruta, una calibración de la dificultad basada en pruebas humanas y el diseño de nuevas tareas específicas.

Lanzamiento del concurso ARC Prize 2025: un millón de dólares para nuevas ideas

Con este sombrío balance, laARC Prize 2025 El concurso se celebró en Kaggle La plataforma está activa (del 26 de marzo al 3 de noviembre) con una bolsa de premios total de 1 millón de dólares. El entorno del concurso limita el uso de la API y los recursos informáticos (~50 $/envío) y exige que los ganadores abran el código fuente de sus soluciones. Esto refuerza aún más la necesidad de eficiencia e innovación.

Los principales puntos de la competición en 2025, en comparación con 2024, seránRegistro de cambiosIncluido: el uso de ARC-AGI-2 un nuevo mecanismo de informes de clasificación, requisitos de código abierto mejorados, duplicación de los recursos informáticos y medidas adicionales contra el sobreajuste.

Conclusión: urge un nuevo paradigma para lograr avances reales

ARC-AGI-2 Los datos de la tabla de clasificación sirven de espejo que refleja claramente las limitaciones de la IA actual en términos de razonamiento generalizado y eficiencia. Nos recuerdan que el camino hacia la inteligencia artificial dista mucho de ser recto y que no basta con ampliar los modelos o aumentar los recursos informáticos para cruzar el abismo que tenemos ante nosotros. Los verdaderos avances pueden requerir nuevas ideas, arquitecturas diferentes e incluso innovadores ajenos a los grandes laboratorios.ARC Prize 2025 Se trata de una plataforma que exige un nuevo paradigma.

Noticias AI

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

Pika lanza PIKAFFECT: ¡transforma instantáneamente tus fotos en vídeos con efectos especiales!

Noticias AI

hace 1 año

048.3K

Alibaba AI Research Institute lanza CosyVoice 2: un modelo mejorado de síntesis de voz en streaming

Noticias AI

hace 1 año

052.3K

" Lanzamiento del programa chino de evaluación comparativa del razonamiento científico (SuperCLUE-Ciencia)

Noticias AI

hace 1 año

047.3K

Baidu corazón amargo... ...Wenxin Yiyin será completamente gratuito a partir del 1 de abril, y la función de búsqueda profunda en línea

Noticias AI

hace 1 año

042.3K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

Revelados los resultados de ARC-AGI-2: Capacidad de razonamiento del modelo de IA Waterloo para todos

Un nuevo reto: ARC-AGI-2, diseñado para poner al descubierto los puntos débiles de la IA

Filosofía de diseño: centrarse en la brecha de inteligencia donde las personas son fáciles y la IA es difícil

ARC-AGI-2: Dificultad creciente, enfrentarse directamente a los puntos débiles del razonamiento de la IA

ARC-AGI-2: un sombrío reflejo de la realidad

Composición del conjunto de datos y detalles del concurso

Conclusión: urge un nuevo paradigma para lograr avances reales

NVIDIA lanza AI-Q Blueprint, que conecta agentes de IA para dar forma al futuro del trabajo

AI Website Building Dark Horse Lovable: de 0 a 17 millones de dólares de ARR en tres meses

Artículos relacionados

Pika lanza PIKAFFECT: ¡transforma instantáneamente tus fotos en vídeos con efectos especiales!

Alibaba AI Research Institute lanza CosyVoice 2: un modelo mejorado de síntesis de voz en streaming

" Lanzamiento del programa chino de evaluación comparativa del razonamiento científico (SuperCLUE-Ciencia)

Baidu corazón amargo... ...Wenxin Yiyin será completamente gratuito a partir del 1 de abril, y la función de búsqueda profunda en línea

Sin comentarios

Últimas colecciones

Últimos artículos

Revelados los resultados de ARC-AGI-2: Capacidad de razonamiento del modelo de IA Waterloo para todos

Un nuevo reto: ARC-AGI-2, diseñado para poner al descubierto los puntos débiles de la IA

Filosofía de diseño: centrarse en la brecha de inteligencia donde las personas son fáciles y la IA es difícil

ARC-AGI-2: Dificultad creciente, enfrentarse directamente a los puntos débiles del razonamiento de la IA

ARC-AGI-2: un sombrío reflejo de la realidad

Composición del conjunto de datos y detalles del concurso

Conclusión: urge un nuevo paradigma para lograr avances reales

NVIDIA lanza AI-Q Blueprint, que conecta agentes de IA para dar forma al futuro del trabajo

AI Website Building Dark Horse Lovable: de 0 a 17 millones de dólares de ARR en tres meses

Artículos relacionados

Pika lanza PIKAFFECT: ¡transforma instantáneamente tus fotos en vídeos con efectos especiales!

Alibaba AI Research Institute lanza CosyVoice 2: un modelo mejorado de síntesis de voz en streaming

" Lanzamiento del programa chino de evaluación comparativa del razonamiento científico (SuperCLUE-Ciencia)

Baidu corazón amargo... ...Wenxin Yiyin será completamente gratuito a partir del 1 de abril, y la función de búsqueda profunda en línea

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos