OpenAI официально выпускает o3 и o3-mini, которые становятся первыми моделями ИИ, преодолевшими критерии ARC-AGI

Новости ИИОпубликовано 1 год назад Круг обмена ИИ

51.6K 00

OpenAI正式发布o3和o3-mini，成为首个突破 ARC-AGI 基准测试的 AI 模型

Сегодня в 2 часа ночи 12 дней прямых трансляций OpenAI наконец-то подошли к финальной главе. openAI o3 был официально выпущен!

o3 является преемником семейства моделей o1. Этот тип моделей характеризуется тем, что позволяет модели тратить больше времени на размышления (рассуждения) перед ответом на вопрос, что повышает точность ответа. Однако OpenAI пропустила o2 в названии. По данным The Information, это было сделано, чтобы избежать проблем с авторскими правами, поскольку в Великобритании есть телекоммуникационная компания O2, что могло бы вызвать путаницу. Сэм Альтман подтвердил это в прямом эфире сегодня днем.

На самом деле, OpenAI разогревает модель со вчерашнего дня. И уже разработчики нашли ссылки на o3_min_safety_test на сайте OpenAI.

o3 Дата выхода

Теперь, по слухам, o3 и o3-mini Вот и все! К сожалению, модели серии o3 не будут выпущены непосредственно для публики, а сначала пройдут тестирование на безопасность. Сэм Альтман также отметил, что сегодня не запуск, а просто анонс.

Сэм Альтман отметил, что они планируют запустить o3-mini в конце января, а полную модель o3 - вскоре после этого.

Различия между o3 и o3-mini

o3-mini: o3 mini - это более экономичная версия o3, ориентированная на повышение скорости вывода и снижение стоимости вывода с учетом производительности модели. Высокая производительность и низкая стоимость делают его идеальным для программирования.

Он поддерживает три варианта времени вывода - низкое, среднее и высокое.

По сравнению с o1, производительность o3-mini на Codeforces значительно ниже, что делает его отличной моделью для программирования.

Для решения математических задач o3-mini (low) достигает низкой задержки, сравнимой с gpt-4o.

Ниже перечислены все API-функции o3-mini и соответствующие им возможности:

o3 Тесты на пригодность

Насколько прочен o3 по сравнению с только что выпущенным GoogleБлизнецы 2.0 Флэш-мышлениеСравните:

Способности o3 - это прямой нисходящий удар почти по всем моделям, существующим на сегодняшний день. Взгляните, на что способен o3.

Слева.Экзамен по программной инженерии (SWE-Bench Verified).Это похоже на тест по написанию программ, например, вы пишете программу, которая должна быть быстрой и точной, и в ней не должно быть багов (мелких ошибок). Это проверка того, может ли o3 написать идеальный код, как первоклассный инженер-программист. Результат o3: 71,7%, что намного сильнее, чем у o1. Справа находится более агрессивный бенчмарк - Codeforces, всемирно известная платформа для соревнований по кодингу. Результат o3 - 2,727, что соответствует 175-му месту во всем списке и уже превзошел 99,99% человека.

OpenAI正式发布o3和o3-mini，成为首个突破 ARC-AGI 基准测试的 AI 模型
Способность o1 к кодированию была взрывной, а o3 - еще один большой шаг к вершине горы AGI.

OpenAI正式发布o3和o3-mini，成为首个突破 ARC-AGI 基准测试的 AI 模型 Математический конкурс AIEM 2024 и научный экзамен уровня PhD GPQA Diamond. aIEM 2024 был близок к идеальному результату, и, если я правильно помню, это был первый случай, когда ИИ удалось достичь уровня, когда AIEM был близок к идеальному результату. Научные экзамены уровня PhD эволюционировали, но не так стремительно, как математика и программирование.

Следующая контрольная работа по математике немного интереснее. OpenAI正式发布o3和o3-mini，成为首个突破 ARC-AGI 基准测试的 AI 模型 rontierMath, эталонный тест по математике, разработанный компанией Epoch AI, был создан в сотрудничестве с более чем 60 ведущими математиками для оценки способностей искусственного интеллекта в продвинутых математических рассуждениях. Чтобы избежать загрязнения данных, все вопросы являются оригинальными и новыми, которые никогда ранее не публиковались.
Ранее GPT-4 и Близнецы 1.5 Pro Эта модель проходит оценку с менее чем 21 TP3T успешной мощности, в отличие от более чем 901 TP3T успешной мощности в других традиционных математических бенчмарках, таких как GSM-8K и MATH. И на этот раз.o3 непосредственно до 25,2. В то время как все остальные крупные модели продолжают обкатывать традиционные математические бенчмарки, o3 действительно перешел в другой мир.

o3 стала первой моделью искусственного интеллекта, преодолевшей контрольные показатели ARC-AGI

ARC Prize Fundation - это некоммерческая организация, цель которой - "стать северной звездой на пути к AGI через бенчмаркинг". Первый бенчмарк организации, ARC-AGI, был предложен уже пять лет назад, но так и не был покорен.

До сих пор Камрадт сообщал, что o3 достигла отличных показателей в бенчмарке, став первой моделью ИИ, преодолевшей отметку ARC-AGI.

ARC-AGI был впервые представлен в 2019 году и направлен на проверку возможностей систем искусственного интеллекта с помощью серии задач на абстрагирование и рассуждение. Главным образом потому, что традиционные меры мастерства не дают эффективного представления об интеллекте, поскольку они, как правило, опираются на предыдущие знания и опыт, в то время как истинный интеллект должен отражаться в широкой адаптивности и обобщенности. Так родился ARC-AGI, внутри которого задачи требуют от ИИ распознавать закономерности и решать новые проблемы, причем каждая задача состоит из примеров ввода-вывода. Эти задачи представлены в виде сетки, где каждый квадрат может быть одного из десяти цветов, а размер сетки может варьироваться от 1x1 до 30x30. От участников требуется сгенерировать правильные выходные данные на основе заданных входных данных, проверяя их умение рассуждать и абстрагироваться. Это можно понять как поиск закономерностей. Возможно, так оно и работает: OpenAI正式发布o3和o3-mini，成为首个突破 ARC-AGI 基准测试的 AI 模型

В контрольной задаче ARC-AGI ИИ должен искать закономерности на основе парных примеров "вход - выход", прежде чем предсказать выход на основе одного входа. Те, кто сдавал экзамены на поступление в высшие учебные заведения или на государственную службу, возможно, не знакомы с подобными задачами на графическое мышление.
OpenAI正式发布o3和o3-mini，成为首个突破 ARC-AGI 基准测试的 AI 模型

Очень сложно и абстрактно. Рейтинги для прошлых поколений моделей здесь:
Как утверждается, минимальная производительность моделей серии o3 составляет 75,7% в бенчмарке ARC-AGI, и o3 может даже достичь 87,5%, если ему позволить думать в течение более длительных периодов времени, используя больше вычислительных ресурсов.
OpenAI正式发布o3和o3-mini，成为首个突破 ARC-AGI 基准测试的 AI 模型 С 0% до 5% прошло целых пять лет, а теперь, с 5% до 87.5%, прошло всего полгода. А соответствующий, человеческий пороговый показатель - 85%. На нашем пути к AGI больше нет никаких препятствий.

o3 Как работает модель

На данный момент мы можем лишь немного порассуждать о том, как работает модель o3. Основной механизм модели o3, по-видимому, находится в жетон пространство для поиска и выполнения программ на естественном языке - во время тестирования модель просматривает пространство возможных цепочек мыслей, описывающих шаги, необходимые для решения задачи, таким образом, что может быть способом, который может иметь некоторое сходство с поиском дерева Монте-Карло в стиле AlphaZero. В случае с o3 поиск может направляться некой оценочной моделью. Стоит отметить, что Демис Хассабис из DeepMind в интервью от июня 2023 года намекнул, что DeepMind работает над этой концепцией - работа, которая ведется уже долгое время.

Новости ИИ

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

Smart Spectrum открытая платформа, первая бесплатная мультимодальная модель зрения GLM-4V-Flash на линии, неограниченное использование!

Новости ИИ # Бесплатная большая модель API

1 год назад

077K

免费!! Github联合Azure免费向开发者提供包括o1在内顶级闭源开源模型API调用

БЕСПЛАТНО!!! Github объединяет усилия с Azure, чтобы сделать лучшие закрытые вызовы API модели с открытым исходным кодом, включая o1, бесплатными для разработчиков

Новости ИИ

1 год назад

051.3K

Попрощайтесь с локальными средами разработки! Бесплатные онлайновые IDE для ИИ от Tencent, Microsoft и Google помогут вам начать работу!

Новости ИИ

1 год назад

061.5K

Как инструменты искусственного интеллекта для написания текстов могут помочь повысить конверсию 25%

Новости ИИ

1 год назад

041.2K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

Нет комментариев...

OpenAI официально выпускает o3 и o3-mini, которые становятся первыми моделями ИИ, преодолевшими критерии ARC-AGI

o3 Дата выхода

o3 Тесты на пригодность

o3 стала первой моделью искусственного интеллекта, преодолевшей контрольные показатели ARC-AGI

o3 Как работает модель

БЕСПЛАТНО!!! Github объединяет усилия с Azure, чтобы сделать лучшие закрытые вызовы API модели с открытым исходным кодом, включая o1, бесплатными для разработчиков

Кими запускает визуальную версию o1 для визуального мышления и решения проблем

Похожие статьи

Smart Spectrum открытая платформа, первая бесплатная мультимодальная модель зрения GLM-4V-Flash на линии, неограниченное использование!

БЕСПЛАТНО!!! Github объединяет усилия с Azure, чтобы сделать лучшие закрытые вызовы API модели с открытым исходным кодом, включая o1, бесплатными для разработчиков

Попрощайтесь с локальными средами разработки! Бесплатные онлайновые IDE для ИИ от Tencent, Microsoft и Google помогут вам начать работу!

Как инструменты искусственного интеллекта для написания текстов могут помочь повысить конверсию 25%

Нет комментариев

Последние коллекции

Последние статьи

OpenAI официально выпускает o3 и o3-mini, которые становятся первыми моделями ИИ, преодолевшими критерии ARC-AGI

o3 Дата выхода

o3 Тесты на пригодность

o3 стала первой моделью искусственного интеллекта, преодолевшей контрольные показатели ARC-AGI

o3 Как работает модель

БЕСПЛАТНО!!! Github объединяет усилия с Azure, чтобы сделать лучшие закрытые вызовы API модели с открытым исходным кодом, включая o1, бесплатными для разработчиков

Кими запускает визуальную версию o1 для визуального мышления и решения проблем

Похожие статьи

Smart Spectrum открытая платформа, первая бесплатная мультимодальная модель зрения GLM-4V-Flash на линии, неограниченное использование!

БЕСПЛАТНО!!! Github объединяет усилия с Azure, чтобы сделать лучшие закрытые вызовы API модели с открытым исходным кодом, включая o1, бесплатными для разработчиков

Попрощайтесь с локальными средами разработки! Бесплатные онлайновые IDE для ИИ от Tencent, Microsoft и Google помогут вам начать работу!

Как инструменты искусственного интеллекта для написания текстов могут помочь повысить конверсию 25%

Нет комментариев

Избранные инструменты искусственного интеллекта

Последние коллекции

Последние статьи