OpenAI официально выпускает o3 и o3-mini, которые становятся первыми моделями ИИ, преодолевшими критерии ARC-AGI

Сегодня в 2 часа ночи 12 дней прямых трансляций OpenAI наконец-то подошли к финальной главе. openAI o3 был официально выпущен!
o3 является преемником семейства моделей o1. Этот тип моделей характеризуется тем, что позволяет модели тратить больше времени на размышления (рассуждения) перед ответом на вопрос, что повышает точность ответа. Однако OpenAI пропустила o2 в названии. По данным The Information, это было сделано, чтобы избежать проблем с авторскими правами, поскольку в Великобритании есть телекоммуникационная компания O2, что могло бы вызвать путаницу. Сэм Альтман подтвердил это в прямом эфире сегодня днем.
На самом деле, OpenAI разогревает модель со вчерашнего дня. И уже разработчики нашли ссылки на o3_min_safety_test на сайте OpenAI.

o3 Дата выхода
Теперь, по слухам, o3 и o3-mini Вот и все! К сожалению, модели серии o3 не будут выпущены непосредственно для публики, а сначала пройдут тестирование на безопасность. Сэм Альтман также отметил, что сегодня не запуск, а просто анонс.
Сэм Альтман отметил, что они планируют запустить o3-mini в конце января, а полную модель o3 - вскоре после этого.
Различия между o3 и o3-mini
o3-mini: o3 mini - это более экономичная версия o3, ориентированная на повышение скорости вывода и снижение стоимости вывода с учетом производительности модели. Высокая производительность и низкая стоимость делают его идеальным для программирования.
Он поддерживает три варианта времени вывода - низкое, среднее и высокое.
По сравнению с o1, производительность o3-mini на Codeforces значительно ниже, что делает его отличной моделью для программирования.

Для решения математических задач o3-mini (low) достигает низкой задержки, сравнимой с gpt-4o.

Ниже перечислены все API-функции o3-mini и соответствующие им возможности:

o3 Тесты на пригодность
Насколько прочен o3 по сравнению с только что выпущенным GoogleБлизнецы 2.0 Флэш-мышлениеСравните:

Способности o3 - это прямой нисходящий удар почти по всем моделям, существующим на сегодняшний день. Взгляните, на что способен o3.

Слева.Экзамен по программной инженерии (SWE-Bench Verified).Это похоже на тест по написанию программ, например, вы пишете программу, которая должна быть быстрой и точной, и в ней не должно быть багов (мелких ошибок). Это проверка того, может ли o3 написать идеальный код, как первоклассный инженер-программист. Результат o3: 71,7%, что намного сильнее, чем у o1. Справа находится более агрессивный бенчмарк - Codeforces, всемирно известная платформа для соревнований по кодингу. Результат o3 - 2,727, что соответствует 175-му месту во всем списке и уже превзошел 99,99% человека.
Способность o1 к кодированию была взрывной, а o3 - еще один большой шаг к вершине горы AGI.
Математический конкурс AIEM 2024 и научный экзамен уровня PhD GPQA Diamond. aIEM 2024 был близок к идеальному результату, и, если я правильно помню, это был первый случай, когда ИИ удалось достичь уровня, когда AIEM был близок к идеальному результату. Научные экзамены уровня PhD эволюционировали, но не так стремительно, как математика и программирование.
Следующая контрольная работа по математике немного интереснее. rontierMath, эталонный тест по математике, разработанный компанией Epoch AI, был создан в сотрудничестве с более чем 60 ведущими математиками для оценки способностей искусственного интеллекта в продвинутых математических рассуждениях. Чтобы избежать загрязнения данных, все вопросы являются оригинальными и новыми, которые никогда ранее не публиковались.
Ранее GPT-4 и Близнецы 1.5 Pro Эта модель проходит оценку с менее чем 21 TP3T успешной мощности, в отличие от более чем 901 TP3T успешной мощности в других традиционных математических бенчмарках, таких как GSM-8K и MATH. И на этот раз.o3 непосредственно до 25,2. В то время как все остальные крупные модели продолжают обкатывать традиционные математические бенчмарки, o3 действительно перешел в другой мир.
o3 стала первой моделью искусственного интеллекта, преодолевшей контрольные показатели ARC-AGI
ARC Prize Fundation - это некоммерческая организация, цель которой - "стать северной звездой на пути к AGI через бенчмаркинг". Первый бенчмарк организации, ARC-AGI, был предложен уже пять лет назад, но так и не был покорен.
До сих пор Камрадт сообщал, что o3 достигла отличных показателей в бенчмарке, став первой моделью ИИ, преодолевшей отметку ARC-AGI.
ARC-AGI был впервые представлен в 2019 году и направлен на проверку возможностей систем искусственного интеллекта с помощью серии задач на абстрагирование и рассуждение. Главным образом потому, что традиционные меры мастерства не дают эффективного представления об интеллекте, поскольку они, как правило, опираются на предыдущие знания и опыт, в то время как истинный интеллект должен отражаться в широкой адаптивности и обобщенности. Так родился ARC-AGI, внутри которого задачи требуют от ИИ распознавать закономерности и решать новые проблемы, причем каждая задача состоит из примеров ввода-вывода. Эти задачи представлены в виде сетки, где каждый квадрат может быть одного из десяти цветов, а размер сетки может варьироваться от 1x1 до 30x30. От участников требуется сгенерировать правильные выходные данные на основе заданных входных данных, проверяя их умение рассуждать и абстрагироваться. Это можно понять как поиск закономерностей. Возможно, так оно и работает:
В контрольной задаче ARC-AGI ИИ должен искать закономерности на основе парных примеров "вход - выход", прежде чем предсказать выход на основе одного входа. Те, кто сдавал экзамены на поступление в высшие учебные заведения или на государственную службу, возможно, не знакомы с подобными задачами на графическое мышление.
Очень сложно и абстрактно. Рейтинги для прошлых поколений моделей здесь:
Как утверждается, минимальная производительность моделей серии o3 составляет 75,7% в бенчмарке ARC-AGI, и o3 может даже достичь 87,5%, если ему позволить думать в течение более длительных периодов времени, используя больше вычислительных ресурсов. С 0% до 5% прошло целых пять лет, а теперь, с 5% до 87.5%, прошло всего полгода. А соответствующий, человеческий пороговый показатель - 85%. На нашем пути к AGI больше нет никаких препятствий.
o3 Как работает модель
На данный момент мы можем лишь немного порассуждать о том, как работает модель o3. Основной механизм модели o3, по-видимому, находится в жетон пространство для поиска и выполнения программ на естественном языке - во время тестирования модель просматривает пространство возможных цепочек мыслей, описывающих шаги, необходимые для решения задачи, таким образом, что может быть способом, который может иметь некоторое сходство с поиском дерева Монте-Карло в стиле AlphaZero. В случае с o3 поиск может направляться некой оценочной моделью. Стоит отметить, что Демис Хассабис из DeepMind в интервью от июня 2023 года намекнул, что DeepMind работает над этой концепцией - работа, которая ведется уже долгое время.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...