OpenAI официально выпускает o3 и o3-mini, которые становятся первыми моделями ИИ, преодолевшими критерии ARC-AGI

Новости ИИОпубликовано 8 месяцев назад Круг обмена ИИ
7.6K 00
OpenAI正式发布o3和o3-mini,成为首个突破 ARC-AGI 基准测试的 AI 模型

 

Сегодня в 2 часа ночи 12 дней прямых трансляций OpenAI наконец-то подошли к финальной главе. openAI o3 был официально выпущен!

o3 является преемником семейства моделей o1. Этот тип моделей характеризуется тем, что позволяет модели тратить больше времени на размышления (рассуждения) перед ответом на вопрос, что повышает точность ответа. Однако OpenAI пропустила o2 в названии. По данным The Information, это было сделано, чтобы избежать проблем с авторскими правами, поскольку в Великобритании есть телекоммуникационная компания O2, что могло бы вызвать путаницу. Сэм Альтман подтвердил это в прямом эфире сегодня днем.

На самом деле, OpenAI разогревает модель со вчерашнего дня. И уже разработчики нашли ссылки на o3_min_safety_test на сайте OpenAI.

OpenAI正式发布o3和o3-mini,成为首个突破 ARC-AGI 基准测试的 AI 模型

 

o3 Дата выхода

Теперь, по слухам, o3 и o3-mini Вот и все! К сожалению, модели серии o3 не будут выпущены непосредственно для публики, а сначала пройдут тестирование на безопасность. Сэм Альтман также отметил, что сегодня не запуск, а просто анонс.

Сэм Альтман отметил, что они планируют запустить o3-mini в конце января, а полную модель o3 - вскоре после этого.

 

Различия между o3 и o3-mini

o3-mini: o3 mini - это более экономичная версия o3, ориентированная на повышение скорости вывода и снижение стоимости вывода с учетом производительности модели. Высокая производительность и низкая стоимость делают его идеальным для программирования.

Он поддерживает три варианта времени вывода - низкое, среднее и высокое.

 

По сравнению с o1, производительность o3-mini на Codeforces значительно ниже, что делает его отличной моделью для программирования.

OpenAI正式发布o3和o3-mini,成为首个突破 ARC-AGI 基准测试的 AI 模型

 

Для решения математических задач o3-mini (low) достигает низкой задержки, сравнимой с gpt-4o.

OpenAI正式发布o3和o3-mini,成为首个突破 ARC-AGI 基准测试的 AI 模型

 

Ниже перечислены все API-функции o3-mini и соответствующие им возможности:

OpenAI正式发布o3和o3-mini,成为首个突破 ARC-AGI 基准测试的 AI 模型

 

o3 Тесты на пригодность

Насколько прочен o3 по сравнению с только что выпущенным GoogleБлизнецы 2.0 Флэш-мышлениеСравните:

OpenAI正式发布o3和o3-mini,成为首个突破 ARC-AGI 基准测试的 AI 模型

 

Способности o3 - это прямой нисходящий удар почти по всем моделям, существующим на сегодняшний день. Взгляните, на что способен o3.

OpenAI正式发布o3和o3-mini,成为首个突破 ARC-AGI 基准测试的 AI 模型

Слева.Экзамен по программной инженерии (SWE-Bench Verified).Это похоже на тест по написанию программ, например, вы пишете программу, которая должна быть быстрой и точной, и в ней не должно быть багов (мелких ошибок). Это проверка того, может ли o3 написать идеальный код, как первоклассный инженер-программист. Результат o3: 71,7%, что намного сильнее, чем у o1. Справа находится более агрессивный бенчмарк - Codeforces, всемирно известная платформа для соревнований по кодингу. Результат o3 - 2,727, что соответствует 175-му месту во всем списке и уже превзошел 99,99% человека.

OpenAI正式发布o3和o3-mini,成为首个突破 ARC-AGI 基准测试的 AI 模型
Способность o1 к кодированию была взрывной, а o3 - еще один большой шаг к вершине горы AGI.

OpenAI正式发布o3和o3-mini,成为首个突破 ARC-AGI 基准测试的 AI 模型 Математический конкурс AIEM 2024 и научный экзамен уровня PhD GPQA Diamond. aIEM 2024 был близок к идеальному результату, и, если я правильно помню, это был первый случай, когда ИИ удалось достичь уровня, когда AIEM был близок к идеальному результату. Научные экзамены уровня PhD эволюционировали, но не так стремительно, как математика и программирование.

Следующая контрольная работа по математике немного интереснее. OpenAI正式发布o3和o3-mini,成为首个突破 ARC-AGI 基准测试的 AI 模型 rontierMath, эталонный тест по математике, разработанный компанией Epoch AI, был создан в сотрудничестве с более чем 60 ведущими математиками для оценки способностей искусственного интеллекта в продвинутых математических рассуждениях. Чтобы избежать загрязнения данных, все вопросы являются оригинальными и новыми, которые никогда ранее не публиковались.
Ранее GPT-4 и Близнецы 1.5 Pro Эта модель проходит оценку с менее чем 21 TP3T успешной мощности, в отличие от более чем 901 TP3T успешной мощности в других традиционных математических бенчмарках, таких как GSM-8K и MATH. И на этот раз.o3 непосредственно до 25,2. В то время как все остальные крупные модели продолжают обкатывать традиционные математические бенчмарки, o3 действительно перешел в другой мир.

 

o3 стала первой моделью искусственного интеллекта, преодолевшей контрольные показатели ARC-AGI

ARC Prize Fundation - это некоммерческая организация, цель которой - "стать северной звездой на пути к AGI через бенчмаркинг". Первый бенчмарк организации, ARC-AGI, был предложен уже пять лет назад, но так и не был покорен.

До сих пор Камрадт сообщал, что o3 достигла отличных показателей в бенчмарке, став первой моделью ИИ, преодолевшей отметку ARC-AGI.

ARC-AGI был впервые представлен в 2019 году и направлен на проверку возможностей систем искусственного интеллекта с помощью серии задач на абстрагирование и рассуждение. Главным образом потому, что традиционные меры мастерства не дают эффективного представления об интеллекте, поскольку они, как правило, опираются на предыдущие знания и опыт, в то время как истинный интеллект должен отражаться в широкой адаптивности и обобщенности. Так родился ARC-AGI, внутри которого задачи требуют от ИИ распознавать закономерности и решать новые проблемы, причем каждая задача состоит из примеров ввода-вывода. Эти задачи представлены в виде сетки, где каждый квадрат может быть одного из десяти цветов, а размер сетки может варьироваться от 1x1 до 30x30. От участников требуется сгенерировать правильные выходные данные на основе заданных входных данных, проверяя их умение рассуждать и абстрагироваться. Это можно понять как поиск закономерностей. Возможно, так оно и работает: OpenAI正式发布o3和o3-mini,成为首个突破 ARC-AGI 基准测试的 AI 模型

 

В контрольной задаче ARC-AGI ИИ должен искать закономерности на основе парных примеров "вход - выход", прежде чем предсказать выход на основе одного входа. Те, кто сдавал экзамены на поступление в высшие учебные заведения или на государственную службу, возможно, не знакомы с подобными задачами на графическое мышление.
OpenAI正式发布o3和o3-mini,成为首个突破 ARC-AGI 基准测试的 AI 模型

 

Очень сложно и абстрактно. Рейтинги для прошлых поколений моделей здесь:
Как утверждается, минимальная производительность моделей серии o3 составляет 75,7% в бенчмарке ARC-AGI, и o3 может даже достичь 87,5%, если ему позволить думать в течение более длительных периодов времени, используя больше вычислительных ресурсов.
OpenAI正式发布o3和o3-mini,成为首个突破 ARC-AGI 基准测试的 AI 模型 С 0% до 5% прошло целых пять лет, а теперь, с 5% до 87.5%, прошло всего полгода. А соответствующий, человеческий пороговый показатель - 85%. На нашем пути к AGI больше нет никаких препятствий.

 

o3 Как работает модель

На данный момент мы можем лишь немного порассуждать о том, как работает модель o3. Основной механизм модели o3, по-видимому, находится в жетон пространство для поиска и выполнения программ на естественном языке - во время тестирования модель просматривает пространство возможных цепочек мыслей, описывающих шаги, необходимые для решения задачи, таким образом, что может быть способом, который может иметь некоторое сходство с поиском дерева Монте-Карло в стиле AlphaZero. В случае с o3 поиск может направляться некой оценочной моделью. Стоит отметить, что Демис Хассабис из DeepMind в интервью от июня 2023 года намекнул, что DeepMind работает над этой концепцией - работа, которая ведется уже долгое время.

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...