Revelados los resultados de ARC-AGI-2: Capacidad de razonamiento del modelo de IA Waterloo para todos

堆友AI
ARC-AGI-2 成绩揭晓:全部 AI 模型推理能力遭遇滑铁卢

Los puntos de referencia para medir el progreso de la inteligencia artificial de propósito general (AGI) son fundamentales. Los puntos de referencia eficaces revelan las capacidades, y los grandes puntos de referencia tienen más probabilidades de inspirar las direcciones de investigación. ARC-AGI La serie de puntos de referencia desempeña ese papel, orientando los esfuerzos de investigación para centrarse en una verdadera inteligencia de propósito general. Los últimos ARC-AGI-2 Los puntos de referencia y los resultados preliminares de sus pruebas son una llamada de atención sobre los actuales problemas de límites y eficiencia de las capacidades de la IA.

ARC-AGI-1 Desde su lanzamiento en 2019, ha desempeñado un papel único en el seguimiento del progreso de la AGI, habiendo ayudado a identificar cuándo la IA comienza a ir más allá de la mera memoria de patrones. Posteriormente ARC Prize 2024 El concurso también ha atraído a un gran número de investigadores que exploran nuevas ideas para la adaptación del tiempo de prueba.

Sin embargo, el camino hacia la AGI aún es largo. Los avances actuales, como OpenAI (utilizado como expresión nominal) o3 Lo que muestran estos sistemas es quizá un avance limitado en la dimensión de la "inteligencia fluida". Estos sistemas no sólo son ineficaces, sino que además requieren mucha supervisión humana. Está claro que se necesita más innovación en la fuente para hacer realidad la AGI.

Un nuevo reto: ARC-AGI-2, diseñado para poner al descubierto los puntos débiles de la IA

Con este fin, la Fundación del Premio ARC ha puesto en marcha el programa ARC-AGI-2 Puntos de referencia. Está diseñado con un objetivo claro: ser significativamente más difícil para la IA (especialmente para los sistemas de razonamiento), manteniendo al mismo tiempo una relativa facilidad de manejo para los humanos. No se trata simplemente de un aumento de la dificultad, sino de un desafío específico a las barreras que los actuales métodos de IA se esfuerzan por superar.

Filosofía de diseño: centrarse en la brecha de inteligencia donde las personas son fáciles y la IA es difícil

A diferencia de muchos otros puntos de referencia de IA que persiguen capacidades sobrehumanas, elARC-AGI Centrarse en tareas que son relativamente fáciles para los humanos, pero extremadamente difíciles para la IA actual. El objetivo de esta estrategia es revelar lagunas en las capacidades que no pueden colmarse simplemente "ampliándolas". En la base de la inteligencia general está la capacidad de generalizar y aplicar eficazmente el conocimiento a partir de una experiencia limitada, que es el punto débil de la IA actual.

ARC-AGI-2: Dificultad creciente, enfrentarse directamente a los puntos débiles del razonamiento de la IA

ARC-AGI-2 existe ARC-AGI-1 Los cimientos de la IA han aumentado considerablemente los requisitos que se le exigen, haciendo hincapié en una combinación de gran adaptabilidad y eficiencia. Analizando los fracasos de la IA de vanguardia en tareas anteriores, laARC-AGI-2 Presentamos más retos que ponen a prueba la capacidad de interpretar símbolos, razonar combinatoriamente, aplicar reglas contextuales y mucho más. Estas tareas están diseñadas para obligar a la IA a ir más allá de la coincidencia superficial de patrones y alcanzar niveles más profundos de abstracción y razonamiento.

ARC-AGI-2: un sombrío reflejo de la realidad

Últimas publicaciones ARC-AGI Los datos de Leaderboard pintan un panorama sombrío de las capacidades actuales de la IA. Estos datos no solo confirman que ARC-AGI-2 desafiante y, lo que es más profundo, revela el enorme abismo existente en la capacidad de razonamiento de propósito general y la eficiencia de la IA.

ARC-AGI-2 成绩揭晓:全部 AI 模型推理能力遭遇滑铁卢

Visión general de los datos de Leaderboard

Sistema de IAOrganizaciónTipo de sistemaARC-AGI-1ARC-AGI-2Coste/TareaCódigo / Papel
Panel humanoHumanoN/A98.0%100.0%$17.00-
o3 (bajo)*OpenAICoT + Síntesis75.7%4.0%$200.00📄
o1 (alto)OpenAICoT32.0%3.0%$4.45💻
ARChitectsPremio ARC 2024A medida56.0%2.5%$0.200📄💻
o3-mini (medio)OpenAICoT29.1%1.7%$0.280💻
IcecuberPremio ARC 2024A medida17.0%1.6%$0.130💻
o3-mini (alto)OpenAICoT35.0%1.5%$0.410💻
Géminis 2.0 FlashGoogle Empresa de InternetLLM de baseN/A1.3%$0.004💻
o1 (medio)OpenAICoT31.0%1.3%$2.76💻
Búsqueda profunda R1Búsqueda profundaCoT15.8%1.3%$0.080💻
Gemini-2.5-Pro-Exp-03-25 **Google Empresa de InternetCoT12.5%1.3%N/A💻
o1-proOpenAICoT + Síntesis50.0%1.0%$39.00-
Claude 3.7 (8K)AntrópicoCoT21.2%0.9%$0.360💻
Géminis 1.5 ProGoogle Empresa de InternetLLM de baseN/A0.8%$0.040💻
GPT-4.5OpenAILLM de base10.3%0.8%$2.10💻
o1 (bajo)OpenAICoT25.0%0.8%$1.44💻
Claude 3.7 (16K)AntrópicoCoT28.6%0.7%$0.510💻
Claude 3.7 (1K)AntrópicoCoT11.6%0.4%$0.140💻
Claude 3,7AntrópicoLLM de base13.6%0.0%$0.120💻
GPT-4oOpenAILLM de base4.5%0.0%$0.080💻
GPT-4o-miniOpenAILLM de baseN/A0.0%$0.010💻
o3-mini (bajo)OpenAICoT11.0%0.0%$0.060💻

(Nota: * indica estimaciones preliminares en el cuadro.* denota un modelo experimental)*

Insights: la advertencia tras los datos

  1. Humanos contra IA: una brecha insalvable
    No hay nada más sorprendente que el marcado contraste entre el rendimiento humano y el de la IA. En ARC-AGI-2 On, el equipo humano logró una puntuación perfecta de 100%, y el sistema de IA con mejor rendimiento -el OpenAI (utilizado como expresión nominal) o3 (low)con una puntuación de sólo 4,0%. Otros modelos conocidos, como el Gemini 2.0 FlashyDeepseek R1 etc., todos con puntuaciones que rondan el 1,3%. Aún más alarmante es el hecho de que empresas como Claude 3.7yGPT-4oyGPT-4o-mini Estos grandes modelos lingüísticos de base (LLM de base), que han destacado en otros ámbitos, se han utilizado en la ARC-AGI-2 Las puntuaciones del juego fueron directamente a cero. Esto revela implacablemente que, a pesar de ser increíblemente capaz en tareas específicas, la IA sigue siendo fundamentalmente inferior a los humanos cuando se enfrenta a problemas novedosos que requieren habilidades de razonamiento flexibles, abstractas y generalizadas.
  2. De AGI-1 a AGI-2: la caída en picado de las capacidades de la IA
    Casi todos los sistemas de IA que participaron en la prueba, tras comenzar con la ARC-AGI-1 transición ARC-AGI-2 tiempo, el rendimiento cayó en picado. Por ejemplo, elo3 (low) cayó de 75,71 TP3T a 4,01 TP3T.o1-pro de aproximadamente 50% a 1,0%.ARChitects de 56,01 TP3T a 2,51 TP3T.Este fenómeno general sugiere fuertemente que laARC-AGI-2 Sí aborda con éxito los "puntos débiles" de las actuales metodologías de IA, ya se basen en CoT, Síntesis u otros enfoques personalizados, que son difíciles de tratar con eficacia. ARC-AGI-2 El desafío de razonamiento representado.
  3. Tipo de sistema y eficiencia: un coste elevado no conlleva una gran inteligencia
    La clasificación revela además el papel de los distintos tipos de sistemas de IA en la ARC-AGI-2 Diferencias de rendimiento y graves problemas de eficiencia en el

    • CoT + Sistema de síntesis (o3 (low)o1-pro) obtuvieron las puntuaciones de IA relativamente más altas (4,0% y 1,0%), pero a un coste sorprendentemente alto ($200 y $39 por tarea, respectivamente). Esto sugiere que el razonamiento complejo más las estrategias de búsqueda pueden ser capaces de "exprimir" un poco la puntuación, pero es extremadamente ineficiente.
    • Sistema CoT puro Los resultados fueron desiguales, con puntuaciones que oscilaron generalmente entre 1%-3% y costes que oscilaron entre unos céntimos y unos dólares. Esto parece indicar que el CoT por sí solo no basta para superar el reto.
    • Base LLM (Large Language Model) (GPT-4.5Gemini 1.5 ProClaude 3.7GPT-4o) fue una debacle, con puntuaciones de 0% o casi, lo que rebate contundentemente la idea de que "el tamaño lo es todo", al menos en el caso de ARC-AGI Esto es cierto para el aspecto medido de la inteligencia fluida generalizada.
    • Sistemas personalizados (ARChitectsIcecuber) como ARC Prize 2024 logrando resultados comparables o incluso ligeramente mejores (2,5%, 1,6%) que otros sistemas de IA a un coste muy bajo (~$0,1-$0,2 por tarea). Esto puede sugerir que los algoritmos o arquitecturas específicos y ligeros pueden tener más potencial para resolver este tipo de problemas que los grandes modelos de propósito general, y pone de relieve el valor de los concursos abiertos y la innovación comunitaria.
  4. Crisis de eficacia: la inteligencia no puede limitarse a los resultados
    ARC Prize La inclusión del "coste/tarea" como métrica clave en la clasificación es significativa. Los datos muestran que incluso las IA con mejores resultados (o3 (low) obtienen 4%), su coste por tarea ($200) también es más de diez veces superior al de los humanos ($17 obtienen 100%). Mientras que algunos modelos de bajo coste como Gemini 2.0 FlashEsto contrasta fuertemente con la IA, que o tiene una puntuación muy baja, o es costosa, o ambas cosas, aunque tenga un coste muy bajo ($0,004) y puntúe sólo 1,3%. La inteligencia no consiste en obtener la respuesta correcta a cualquier precio; la eficiencia es una propiedad intrínseca. Actualmente, la IA es ARC-AGI-2 La curva "capacidad-coste" mostrada más arriba revela sin duda una profunda "crisis de eficiencia".

Composición del conjunto de datos y detalles del concurso

ARC-AGI-2 Contiene conjuntos calibrados de formación y evaluación del tipo pass@2 Mecanismo de puntuación. Los principales cambios incluyen un aumento del número de tareas, la eliminación de tareas vulnerables a la fuerza bruta, una calibración de la dificultad basada en pruebas humanas y el diseño de nuevas tareas específicas.

Lanzamiento del concurso ARC Prize 2025: un millón de dólares para nuevas ideas

Con este sombrío balance, laARC Prize 2025 El concurso se celebró en Kaggle La plataforma está activa (del 26 de marzo al 3 de noviembre) con una bolsa de premios total de 1 millón de dólares. El entorno del concurso limita el uso de la API y los recursos informáticos (~50 $/envío) y exige que los ganadores abran el código fuente de sus soluciones. Esto refuerza aún más la necesidad de eficiencia e innovación.

Los principales puntos de la competición en 2025, en comparación con 2024, seránRegistro de cambiosIncluido: el uso de ARC-AGI-2 un nuevo mecanismo de informes de clasificación, requisitos de código abierto mejorados, duplicación de los recursos informáticos y medidas adicionales contra el sobreajuste.

Conclusión: urge un nuevo paradigma para lograr avances reales

ARC-AGI-2 Los datos de la tabla de clasificación sirven de espejo que refleja claramente las limitaciones de la IA actual en términos de razonamiento generalizado y eficiencia. Nos recuerdan que el camino hacia la inteligencia artificial dista mucho de ser recto y que no basta con ampliar los modelos o aumentar los recursos informáticos para cruzar el abismo que tenemos ante nosotros. Los verdaderos avances pueden requerir nuevas ideas, arquitecturas diferentes e incluso innovadores ajenos a los grandes laboratorios.ARC Prize 2025 Se trata de una plataforma que exige un nuevo paradigma.

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...