Результаты ARC-AGI-2: способность всех моделей ИИ к рассуждениям соответствует Ватерлоо

Контрольные показатели для измерения прогресса в области искусственного интеллекта общего назначения (ИИОН) имеют решающее значение. Эффективные эталоны раскрывают возможности, а отличные эталоны с большей вероятностью вдохновят на развитие направлений исследований.Фонд ARC Prize Foundation стремится обеспечить платформу для развития и распространения AGI через свои ARC-AGI
Серия бенчмарков играет именно такую роль, направляя исследовательские усилия на создание настоящего интеллекта общего назначения. Последний ARC-AGI-2
Бенчмарки и результаты их предварительных тестов - это тревожный сигнал о существующих проблемах границ и эффективности возможностей ИИ.
ARC-AGI-1
С момента своего запуска в 2019 году он играет уникальную роль в отслеживании прогресса AGI, помогая определить, когда ИИ начинает выходить за рамки простого запоминания шаблонов. Впоследствии ARC Prize 2024
Конкурс также привлек большое количество исследователей для изучения новых идей по адаптации к тестовому времени.
Однако путь к AGI еще долог. Текущие достижения, такие как OpenAI
(используется в форме номинального выражения) o3
Эти системы демонстрируют, пожалуй, лишь ограниченный прорыв в области "жидкого интеллекта". Эти системы не только неэффективны, но и требуют большого количества человеческого контроля. Очевидно, что для реализации AGI необходимо больше инноваций на начальном этапе.
Новый вызов: ARC-AGI-2, созданный для выявления слабых мест ИИ
С этой целью Фонд премии ARC запустил программу ARC-AGI-2
Бенчмарки. Он разработан с четкой целью: значительно усложнить задачу для ИИ (особенно для систем рассуждений), сохранив при этом относительную легкость для человека. Это не просто повышение сложности, а целенаправленный вызов барьерам, которые с трудом преодолевают современные методы ИИ.
Философия дизайна: фокусировка на разрыве интеллекта, где людям легко, а ИИ сложно
В отличие от многих других эталонов искусственного интеллекта, которые стремятся к сверхчеловеческим возможностям, этотARC-AGI
Сосредоточьтесь на задачах, которые относительно просты для человека, но крайне сложны для нынешнего ИИ. Эта стратегия направлена на выявление пробелов в возможностях, которые невозможно заполнить простым "наращиванием". В основе общего интеллекта лежит способность эффективно обобщать и применять знания из ограниченного опыта, что является слабым местом нынешнего ИИ.
ARC-AGI-2: Повышение сложности, прямое столкновение со слабыми местами ИИ в рассуждениях
ARC-AGI-2
существовать ARC-AGI-1
Создание искусственного интеллекта значительно повысило требования к нему, сделав акцент на сочетании высокой адаптивности и эффективности. Проанализировав неудачи передового ИИ в решении предыдущих задач, вARC-AGI-2
Представляем новые задачи, проверяющие способность интерпретировать символы, рассуждать комбинаторно, применять контекстные правила и многое другое. Эти задачи призваны заставить ИИ выйти за рамки поверхностного сопоставления шаблонов и перейти на более глубокие уровни абстракции и рассуждений.
Табель ARC-AGI-2: мрачное отражение реальности
Последние опубликованные ARC-AGI
Данные таблицы лидеров рисуют мрачную картину нынешних возможностей ИИ. Эти данные не только подтверждают, что ARC-AGI-2
сложная задача, и, более того, она показывает огромную пропасть в способности ИИ к рассуждениям общего назначения и его эффективности.

Обзор данных таблицы лидеров
Система искусственного интеллекта | Организация | Тип системы | ARC-AGI-1 | ARC-AGI-2 | Стоимость/задача | Код / Бумага |
---|---|---|---|---|---|---|
Человеческая панель | Человек | Н/Д | 98.0% | 100.0% | $17.00 | - |
o3 (низкий)* | OpenAI | CoT + Синтез | 75.7% | 4.0% | $200.00 | 📄 |
o1 (высокий) | OpenAI | CoT | 32.0% | 3.0% | $4.45 | 💻 |
ARChitects | Премия ARC 2024 | Пользовательское | 56.0% | 2.5% | $0.200 | 📄💻 |
o3-mini (средний) | OpenAI | CoT | 29.1% | 1.7% | $0.280 | 💻 |
Icecuber | Премия ARC 2024 | Пользовательское | 17.0% | 1.6% | $0.130 | 💻 |
o3-mini (высокий) | OpenAI | CoT | 35.0% | 1.5% | $0.410 | 💻 |
Близнецы 2.0 Flash | Интернет-компания Google | Базовый LLM | Н/Д | 1.3% | $0.004 | 💻 |
o1 (средний) | OpenAI | CoT | 31.0% | 1.3% | $2.76 | 💻 |
Deepseek R1 | Deepseek | CoT | 15.8% | 1.3% | $0.080 | 💻 |
Gemini-2.5-Pro-Exp-03-25 ** | Интернет-компания Google | CoT | 12.5% | 1.3% | Н/Д | 💻 |
o1-pro | OpenAI | CoT + Синтез | 50.0% | 1.0% | $39.00 | - |
Клод 3.7 (8K) | Антропология | CoT | 21.2% | 0.9% | $0.360 | 💻 |
Gemini 1.5 Pro | Интернет-компания Google | Базовый LLM | Н/Д | 0.8% | $0.040 | 💻 |
GPT-4.5 | OpenAI | Базовый LLM | 10.3% | 0.8% | $2.10 | 💻 |
o1 (низкий) | OpenAI | CoT | 25.0% | 0.8% | $1.44 | 💻 |
Клод 3.7 (16K) | Антропология | CoT | 28.6% | 0.7% | $0.510 | 💻 |
Клод 3.7 (1K) | Антропология | CoT | 11.6% | 0.4% | $0.140 | 💻 |
Клод 3.7 | Антропология | Базовый LLM | 13.6% | 0.0% | $0.120 | 💻 |
GPT-4o | OpenAI | Базовый LLM | 4.5% | 0.0% | $0.080 | 💻 |
GPT-4o-mini | OpenAI | Базовый LLM | Н/Д | 0.0% | $0.010 | 💻 |
o3-mini (низкий) | OpenAI | CoT | 11.0% | 0.0% | $0.060 | 💻 |
(Примечание: * указывает на предварительные оценки в таблице.* обозначает экспериментальную модель)*
Инсайты: предупреждение, скрывающееся за данными
- Люди против ИИ: непреодолимая пропасть
Ничто так не поражает, как разительный контраст между производительностью человека и ИИ. На сайтеARC-AGI-2
На, человеческая команда достигла идеальной оценки 100%, а лучшая система искусственного интеллекта -OpenAI
(используется в форме номинального выражения)o3 (low)
набрав всего 4,0%. Другие известные модели, такие какGemini 2.0 Flash
, иDeepseek R1
и т.д., все с оценками около 1,3%. Еще более тревожным является тот факт, что такие, какClaude 3.7
, иGPT-4o
, иGPT-4o-mini
Эти базовые большие языковые модели (Base Large Language Models, Base LLMs), которые отлично зарекомендовали себя в других областях, были использованы вARC-AGI-2
Оценки в игре сразу обнулились. Это неумолимо свидетельствует о том, что, несмотря на невероятные способности к решению конкретных задач, ИИ все еще фундаментально уступает человеку, когда сталкивается с новыми проблемами, требующими гибких, абстрактных и обобщенных навыков рассуждения. - От AGI-1 к AGI-2: обрыв в развитии возможностей ИИ
Почти все системы искусственного интеллекта, принявшие участие в тестировании, по количеству систем изARC-AGI-1
переходARC-AGI-2
время все показатели пошли на спад. Например.o3 (low)
снизился с 75,71 тп3т до 4,01 тп3т.o1-pro
от примерно 50% до 1,0%.ARChitects
от 56,01 TP3T до 2,51 TP3T. Это общее явление убедительно свидетельствует о том, чтоARC-AGI-2
Он успешно устраняет "болевые точки" современных методологий ИИ, основанных на CoT, Synthesis или других специализированных подходах, с которыми трудно эффективно справиться.ARC-AGI-2
Представлена задача рассуждения. - Тип системы и эффективность: высокая стоимость не приводит к высокому интеллекту
Рейтинг также показывает роль различных типов систем искусственного интеллекта вARC-AGI-2
Разница в производительности и серьезные проблемы с эффективностью на- CoT + система синтеза (
o3 (low)
,o1-pro
) достигли относительно высоких показателей ИИ (4,0% и 1,0%), но с удивительно высокой стоимостью ($200 и $39 за задачу, соответственно). Это говорит о том, что сложные рассуждения плюс поисковые стратегии, возможно, и способны "выжать" немного баллов, но они крайне неэффективны. - Чистая система CoT Результаты оказались неоднозначными: оценки варьировались в пределах 1%-3%, а затраты - от нескольких центов до нескольких долларов. Это указывает на то, что одного CoT недостаточно для решения поставленной задачи.
- Базовая LLM (большая языковая модель) (
GPT-4.5
,Gemini 1.5 Pro
,Claude 3.7
,GPT-4o
) были провальными, с оценками 0% или близкими к ним, что является сильным опровержением идеи "размер - это все", по крайней мере, в случае сARC-AGI
Это справедливо и для измеряемого аспекта обобщенного флюидного интеллекта. - Индивидуальные системы (
ARChitects
,Icecuber
) какARC Prize 2024
продукт, достигая сопоставимых или даже немного лучших результатов (2,5%, 1,6%), чем другие системы ИИ, при очень низкой стоимости (~$0,1-$0,2 за задачу). Это может свидетельствовать о том, что целевые, легкие алгоритмы или архитектуры могут иметь больший потенциал для решения подобных задач, чем крупные модели общего назначения, и подчеркивает ценность открытых конкурсов и инноваций сообщества.
- CoT + система синтеза (
- Кризис эффективности: интеллект не может быть только в баллах
ARC Prize
Включение показателя "стоимость/задача" в качестве ключевой метрики в рейтинге имеет большое значение. Данные показывают, что даже самые высокоэффективные ИИ (напримерo3 (low)
4%), стоимость одной задачи ($200) также более чем в десять раз выше, чем у человека ($17 - 100%). Хотя некоторые недорогие модели, такие какGemini 2.0 Flash
Это резко контрастирует с ИИ, который либо имеет очень низкую оценку, либо является дорогостоящим, либо и то, и другое, хотя его стоимость очень низкая ($0,004), а оценка всего 1,3%. Интеллект - это не получение правильного ответа любой ценой; эффективность - это неотъемлемое свойство. В настоящее время ИИARC-AGI-2
Приведенная выше кривая "мощность-стоимость", несомненно, свидетельствует о глубоком "кризисе эффективности".
Состав набора данных и детали конкурса
ARC-AGI-2
Содержит калиброванные наборы для обучения и оценки, такие как pass@2
Скоринговый механизм. Среди основных изменений - увеличение количества задач, удаление задач, уязвимых для перебора, калибровка сложности на основе человеческого тестирования, а также разработка новых целевых задач.
Стартовал конкурс ARC Prize 2025: вознаграждение в миллион долларов за новые идеи
С таким мрачным табелем о рангахARC Prize 2025
Соревнования проходили в Kaggle
Платформа работает в режиме реального времени (с 26 марта по 3 ноября), а общий призовой фонд составляет 1 миллион долларов. Конкурсная среда ограничивает использование API и вычислительных ресурсов (~50 долларов за заявку) и требует от победителей открытого исходного кода своих решений. Это еще больше подчеркивает необходимость эффективности и инноваций.
По сравнению с 2024 годом, в 2025 году в конкурентной борьбе будут доминироватьЖурнал измененийВ том числе: использование ARC-AGI-2
наборы данных, новый механизм отчетности в виде таблицы лидеров, расширенные требования к открытому исходному коду, удвоение вычислительных ресурсов и дополнительные меры по борьбе с избыточным соответствием.
Вывод: для настоящих прорывов срочно необходима новая парадигма
ARC-AGI-2
Данные таблицы лидеров служат зеркалом, которое наглядно отражает ограничения современного ИИ в плане обобщенных рассуждений и эффективности. Они напоминают нам, что дорога к AGI далеко не прямая и что простого масштабирования моделей или увеличения вычислительных ресурсов может быть недостаточно, чтобы преодолеть пропасть, лежащую перед нами. Для настоящих прорывов могут потребоваться новые идеи, иные архитектуры и, возможно, даже новаторы не из крупных лабораторий.ARC Prize 2025
Это такая платформа, которая требует новой парадигмы.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...