Результаты ARC-AGI-2: способность всех моделей ИИ к рассуждениям соответствует Ватерлоо

Новости ИИОпубликовано 1 год назад Круг обмена ИИ

64.2K 00

Контрольные показатели для измерения прогресса в области искусственного интеллекта общего назначения (ИИОН) имеют решающее значение. Эффективные эталоны раскрывают возможности, а отличные эталоны с большей вероятностью вдохновят на развитие направлений исследований.Фонд ARC Prize Foundation стремится обеспечить платформу для развития и распространения AGI через свои ARC-AGI Серия бенчмарков играет именно такую роль, направляя исследовательские усилия на создание настоящего интеллекта общего назначения. Последний ARC-AGI-2 Бенчмарки и результаты их предварительных тестов - это тревожный сигнал о существующих проблемах границ и эффективности возможностей ИИ.

ARC-AGI-1 С момента своего запуска в 2019 году он играет уникальную роль в отслеживании прогресса AGI, помогая определить, когда ИИ начинает выходить за рамки простого запоминания шаблонов. Впоследствии ARC Prize 2024 Конкурс также привлек большое количество исследователей для изучения новых идей по адаптации к тестовому времени.

Однако путь к AGI еще долог. Текущие достижения, такие как OpenAI (используется в форме номинального выражения) o3 Эти системы демонстрируют, пожалуй, лишь ограниченный прорыв в области "жидкого интеллекта". Эти системы не только неэффективны, но и требуют большого количества человеческого контроля. Очевидно, что для реализации AGI необходимо больше инноваций на начальном этапе.

Новый вызов: ARC-AGI-2, созданный для выявления слабых мест ИИ

С этой целью Фонд премии ARC запустил программу ARC-AGI-2 Бенчмарки. Он разработан с четкой целью: значительно усложнить задачу для ИИ (особенно для систем рассуждений), сохранив при этом относительную легкость для человека. Это не просто повышение сложности, а целенаправленный вызов барьерам, которые с трудом преодолевают современные методы ИИ.

Философия дизайна: фокусировка на разрыве интеллекта, где людям легко, а ИИ сложно

В отличие от многих других эталонов искусственного интеллекта, которые стремятся к сверхчеловеческим возможностям, этотARC-AGI Сосредоточьтесь на задачах, которые относительно просты для человека, но крайне сложны для нынешнего ИИ. Эта стратегия направлена на выявление пробелов в возможностях, которые невозможно заполнить простым "наращиванием". В основе общего интеллекта лежит способность эффективно обобщать и применять знания из ограниченного опыта, что является слабым местом нынешнего ИИ.

ARC-AGI-2: Повышение сложности, прямое столкновение со слабыми местами ИИ в рассуждениях

ARC-AGI-2 существовать ARC-AGI-1 Создание искусственного интеллекта значительно повысило требования к нему, сделав акцент на сочетании высокой адаптивности и эффективности. Проанализировав неудачи передового ИИ в решении предыдущих задач, вARC-AGI-2 Представляем новые задачи, проверяющие способность интерпретировать символы, рассуждать комбинаторно, применять контекстные правила и многое другое. Эти задачи призваны заставить ИИ выйти за рамки поверхностного сопоставления шаблонов и перейти на более глубокие уровни абстракции и рассуждений.

Табель ARC-AGI-2: мрачное отражение реальности

Последние опубликованные ARC-AGI Данные таблицы лидеров рисуют мрачную картину нынешних возможностей ИИ. Эти данные не только подтверждают, что ARC-AGI-2 сложная задача, и, более того, она показывает огромную пропасть в способности ИИ к рассуждениям общего назначения и его эффективности.

Обзор данных таблицы лидеров

Система искусственного интеллекта	Организация	Тип системы	ARC-AGI-1	ARC-AGI-2	Стоимость/задача	Код / Бумага
Человеческая панель	Человек	Н/Д	98.0%	100.0%	$17.00	-
o3 (низкий)*	OpenAI	CoT + Синтез	75.7%	4.0%	$200.00	📄
o1 (высокий)	OpenAI	CoT	32.0%	3.0%	$4.45	💻
ARChitects	Премия ARC 2024	Пользовательское	56.0%	2.5%	$0.200	📄💻
o3-mini (средний)	OpenAI	CoT	29.1%	1.7%	$0.280	💻
Icecuber	Премия ARC 2024	Пользовательское	17.0%	1.6%	$0.130	💻
o3-mini (высокий)	OpenAI	CoT	35.0%	1.5%	$0.410	💻
Близнецы 2.0 Flash	Интернет-компания Google	Базовый LLM	Н/Д	1.3%	$0.004	💻
o1 (средний)	OpenAI	CoT	31.0%	1.3%	$2.76	💻
Deepseek R1	Deepseek	CoT	15.8%	1.3%	$0.080	💻
Gemini-2.5-Pro-Exp-03-25 **	Интернет-компания Google	CoT	12.5%	1.3%	Н/Д	💻
o1-pro	OpenAI	CoT + Синтез	50.0%	1.0%	$39.00	-
Клод 3.7 (8K)	Антропология	CoT	21.2%	0.9%	$0.360	💻
Gemini 1.5 Pro	Интернет-компания Google	Базовый LLM	Н/Д	0.8%	$0.040	💻
GPT-4.5	OpenAI	Базовый LLM	10.3%	0.8%	$2.10	💻
o1 (низкий)	OpenAI	CoT	25.0%	0.8%	$1.44	💻
Клод 3.7 (16K)	Антропология	CoT	28.6%	0.7%	$0.510	💻
Клод 3.7 (1K)	Антропология	CoT	11.6%	0.4%	$0.140	💻
Клод 3.7	Антропология	Базовый LLM	13.6%	0.0%	$0.120	💻
GPT-4o	OpenAI	Базовый LLM	4.5%	0.0%	$0.080	💻
GPT-4o-mini	OpenAI	Базовый LLM	Н/Д	0.0%	$0.010	💻
o3-mini (низкий)	OpenAI	CoT	11.0%	0.0%	$0.060	💻

(Примечание: * указывает на предварительные оценки в таблице.* обозначает экспериментальную модель)*

Инсайты: предупреждение, скрывающееся за данными

Люди против ИИ: непреодолимая пропасть
Ничто так не поражает, как разительный контраст между производительностью человека и ИИ. На сайте ARC-AGI-2 На, человеческая команда достигла идеальной оценки 100%, а лучшая система искусственного интеллекта - OpenAI (используется в форме номинального выражения) o3 (low)набрав всего 4,0%. Другие известные модели, такие как Gemini 2.0 Flash, иDeepseek R1 и т.д., все с оценками около 1,3%. Еще более тревожным является тот факт, что такие, как Claude 3.7, иGPT-4o, иGPT-4o-mini Эти базовые большие языковые модели (Base Large Language Models, Base LLMs), которые отлично зарекомендовали себя в других областях, были использованы в ARC-AGI-2 Оценки в игре сразу обнулились. Это неумолимо свидетельствует о том, что, несмотря на невероятные способности к решению конкретных задач, ИИ все еще фундаментально уступает человеку, когда сталкивается с новыми проблемами, требующими гибких, абстрактных и обобщенных навыков рассуждения.
От AGI-1 к AGI-2: обрыв в развитии возможностей ИИ
Почти все системы искусственного интеллекта, принявшие участие в тестировании, по количеству систем из ARC-AGI-1 переход ARC-AGI-2 время все показатели пошли на спад. Например.o3 (low) снизился с 75,71 тп3т до 4,01 тп3т.o1-pro от примерно 50% до 1,0%.ARChitects от 56,01 TP3T до 2,51 TP3T. Это общее явление убедительно свидетельствует о том, чтоARC-AGI-2 Он успешно устраняет "болевые точки" современных методологий ИИ, основанных на CoT, Synthesis или других специализированных подходах, с которыми трудно эффективно справиться. ARC-AGI-2 Представлена задача рассуждения.
Тип системы и эффективность: высокая стоимость не приводит к высокому интеллекту
Рейтинг также показывает роль различных типов систем искусственного интеллекта в ARC-AGI-2 Разница в производительности и серьезные проблемы с эффективностью на
- CoT + система синтеза (o3 (low), o1-pro) достигли относительно высоких показателей ИИ (4,0% и 1,0%), но с удивительно высокой стоимостью ($200 и $39 за задачу, соответственно). Это говорит о том, что сложные рассуждения плюс поисковые стратегии, возможно, и способны "выжать" немного баллов, но они крайне неэффективны.
- Чистая система CoT Результаты оказались неоднозначными: оценки варьировались в пределах 1%-3%, а затраты - от нескольких центов до нескольких долларов. Это указывает на то, что одного CoT недостаточно для решения поставленной задачи.
- Базовая LLM (большая языковая модель) (GPT-4.5, Gemini 1.5 Pro, Claude 3.7, GPT-4o) были провальными, с оценками 0% или близкими к ним, что является сильным опровержением идеи "размер - это все", по крайней мере, в случае с ARC-AGI Это справедливо и для измеряемого аспекта обобщенного флюидного интеллекта.
- Индивидуальные системы (ARChitects, Icecuber) как ARC Prize 2024 продукт, достигая сопоставимых или даже немного лучших результатов (2,5%, 1,6%), чем другие системы ИИ, при очень низкой стоимости (~$0,1-$0,2 за задачу). Это может свидетельствовать о том, что целевые, легкие алгоритмы или архитектуры могут иметь больший потенциал для решения подобных задач, чем крупные модели общего назначения, и подчеркивает ценность открытых конкурсов и инноваций сообщества.
Кризис эффективности: интеллект не может быть только в баллах
ARC Prize Включение показателя "стоимость/задача" в качестве ключевой метрики в рейтинге имеет большое значение. Данные показывают, что даже самые высокоэффективные ИИ (напримерo3 (low) 4%), стоимость одной задачи ($200) также более чем в десять раз выше, чем у человека ($17 - 100%). Хотя некоторые недорогие модели, такие как Gemini 2.0 FlashЭто резко контрастирует с ИИ, который либо имеет очень низкую оценку, либо является дорогостоящим, либо и то, и другое, хотя его стоимость очень низкая ($0,004), а оценка всего 1,3%. Интеллект - это не получение правильного ответа любой ценой; эффективность - это неотъемлемое свойство. В настоящее время ИИ ARC-AGI-2 Приведенная выше кривая "мощность-стоимость", несомненно, свидетельствует о глубоком "кризисе эффективности".

Состав набора данных и детали конкурса

ARC-AGI-2 Содержит калиброванные наборы для обучения и оценки, такие как pass@2 Скоринговый механизм. Среди основных изменений - увеличение количества задач, удаление задач, уязвимых для перебора, калибровка сложности на основе человеческого тестирования, а также разработка новых целевых задач.

Стартовал конкурс ARC Prize 2025: вознаграждение в миллион долларов за новые идеи

С таким мрачным табелем о рангахARC Prize 2025 Соревнования проходили в Kaggle Платформа работает в режиме реального времени (с 26 марта по 3 ноября), а общий призовой фонд составляет 1 миллион долларов. Конкурсная среда ограничивает использование API и вычислительных ресурсов (~50 долларов за заявку) и требует от победителей открытого исходного кода своих решений. Это еще больше подчеркивает необходимость эффективности и инноваций.

По сравнению с 2024 годом, в 2025 году в конкурентной борьбе будут доминироватьЖурнал измененийВ том числе: использование ARC-AGI-2 наборы данных, новый механизм отчетности в виде таблицы лидеров, расширенные требования к открытому исходному коду, удвоение вычислительных ресурсов и дополнительные меры по борьбе с избыточным соответствием.

Вывод: для настоящих прорывов срочно необходима новая парадигма

ARC-AGI-2 Данные таблицы лидеров служат зеркалом, которое наглядно отражает ограничения современного ИИ в плане обобщенных рассуждений и эффективности. Они напоминают нам, что дорога к AGI далеко не прямая и что простого масштабирования моделей или увеличения вычислительных ресурсов может быть недостаточно, чтобы преодолеть пропасть, лежащую перед нами. Для настоящих прорывов могут потребоваться новые идеи, иные архитектуры и, возможно, даже новаторы не из крупных лабораторий.ARC Prize 2025 Это такая платформа, которая требует новой парадигмы.

Новости ИИ

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

За штормом DeepSeek: Нг предупреждает, что открытое соревнование моделей изменит ландшафт ценностей ИИ в США и Китае

Новости ИИ

1 год назад

041.6K

Mistral AI выпускает модель Small 3.1: очередное обновление мультимодальных возможностей с открытым исходным кодом

Новости ИИ

1 год назад

051.2K

ИИ Amazon способствует улучшению рекомендаций по товарам

Новости ИИ

2 года назад

065.6K

Alibaba AI Research Institute выпускает CosyVoice 2: улучшенную модель потокового синтеза речи

Новости ИИ

1 год назад

051.1K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

Нет комментариев...

Результаты ARC-AGI-2: способность всех моделей ИИ к рассуждениям соответствует Ватерлоо

Новый вызов: ARC-AGI-2, созданный для выявления слабых мест ИИ

Философия дизайна: фокусировка на разрыве интеллекта, где людям легко, а ИИ сложно

ARC-AGI-2: Повышение сложности, прямое столкновение со слабыми местами ИИ в рассуждениях

Табель ARC-AGI-2: мрачное отражение реальности

Состав набора данных и детали конкурса

Вывод: для настоящих прорывов срочно необходима новая парадигма

NVIDIA выпускает проект AI-Q Blueprint, объединяющий агентов ИИ для формирования будущего работы

Темная лошадка ИИ-сайтостроения Lovable: от 0 до $17M ARR за три месяца

Похожие статьи

За штормом DeepSeek: Нг предупреждает, что открытое соревнование моделей изменит ландшафт ценностей ИИ в США и Китае

Mistral AI выпускает модель Small 3.1: очередное обновление мультимодальных возможностей с открытым исходным кодом

ИИ Amazon способствует улучшению рекомендаций по товарам

Alibaba AI Research Institute выпускает CosyVoice 2: улучшенную модель потокового синтеза речи

Нет комментариев

Последние коллекции

Последние статьи

Результаты ARC-AGI-2: способность всех моделей ИИ к рассуждениям соответствует Ватерлоо

Новый вызов: ARC-AGI-2, созданный для выявления слабых мест ИИ

Философия дизайна: фокусировка на разрыве интеллекта, где людям легко, а ИИ сложно

ARC-AGI-2: Повышение сложности, прямое столкновение со слабыми местами ИИ в рассуждениях

Табель ARC-AGI-2: мрачное отражение реальности

Состав набора данных и детали конкурса

Вывод: для настоящих прорывов срочно необходима новая парадигма

NVIDIA выпускает проект AI-Q Blueprint, объединяющий агентов ИИ для формирования будущего работы

Темная лошадка ИИ-сайтостроения Lovable: от 0 до $17M ARR за три месяца

Похожие статьи

За штормом DeepSeek: Нг предупреждает, что открытое соревнование моделей изменит ландшафт ценностей ИИ в США и Китае

Mistral AI выпускает модель Small 3.1: очередное обновление мультимодальных возможностей с открытым исходным кодом

ИИ Amazon способствует улучшению рекомендаций по товарам

Alibaba AI Research Institute выпускает CosyVoice 2: улучшенную модель потокового синтеза речи

Нет комментариев

Избранные инструменты искусственного интеллекта

Последние коллекции

Последние статьи