OpenAI продвигает новую модель o3-mini, подталкиваемую DeepSeek? Цена все еще не может превзойти ее

Высококачественные модели выводов ИИ становятся все более популярными.
Сегодня рано утром OpenAI выпустила новую модель вывода.o3-mini.
OpenAI утверждает, что это самая экономичная модель умозаключений со значительно улучшенными возможностями сложных умозаключений и диалога, превосходящая свою предшественницу o1 в области естественных наук, математики, программирования и т.д., при этом сохраняя низкую стоимость и низкое время ожидания o1-mini, иМожно использовать в сочетании с функцией поиска в сети.

o3-mini уже доступен в ChatGPT и API, а корпоративный доступ будет доступен водна неделяЗапуск.
Очевидно, что взлет DeepSeek на вершину чарта бесплатных приложений в американском App Store оказал давление на OpenAI.
Сегодня.Впервые ChatGPT предлагает бесплатные модели вывода для всех пользователей: Пользователи могут попробовать o3-mini, выбрав кнопку "Причина" в ChatGPT.

ChatGPT Пользователи Pro могутНеограниченный доступЛимит скорости для пользователей Plus и Team был увеличен в три раза - с 50 сообщений в день для o1-mini до 50 сообщений в день для o3-mini.150 сообщений.

Платным подписчикам также доступна более интеллектуальная версия".o3-мини-высокий". Эта версия требует больше времени для получения ответа.

Как и в модели o1, в модели o3-mini отсечение знаний составляетОктябрь 2023 годаКонтекстное окно составляет 200 000 токенов, а максимальный выход - 100 000 токенов. o3-mini доступен в версиях с низким, средним и высоким уровнем производительности, что позволяет разработчикам оптимизировать его под свои конкретные задачи.

В настоящее время o3-mini не поддерживает визуальные функции, поэтому разработчикам по-прежнему придется использовать o1 для задач визуального рассуждения.
С сегодняшнего дня o3-mini доступен в API завершения чата, API помощников и API пакетной обработки. openAI утверждает, что цена за токен была снижена на 95% по сравнению с запуском GPT-4, при этом сохраняется высококлассный вывод. Однако цены на API o3-mini все еще выше, чем у модели DeepSeek.

Сравнение цен на API модели OpenAI и модели DeepSeek
Что касается безопасности, то OpenAI обнаружил, что o3-mini значительно превосходит GPT-4o по уровню безопасности и джейлбрейку.
01. detail o3-mini: эволюция возможностей научного математического программирования со значительно меньшей задержкой
Полный текст:Руководство по системе OpenAI o3-mini (на китайском языке)
OpenAI выпустила подробный 37-страничный отчет по o3-mini, охватывающий широкий спектр областей, таких как введение в модель, данные и обучение, объем тестирования, проблемы безопасности и оценка, внешнее тестирование "красной команды", оценка подготовительной структуры, многоязычная производительность, а также выводы.

Модель o3-mini оптимизирована для научных, математических и программистских рассуждений, а также более отзывчива. Модель набрала 0,77, 0,80 и 2036 баллов в тестах GPQA Diamond (естественные науки, химия и биология), AIME 2022-2024 (математика) и Codeforces ELO (программирование) соответственно. o3-mini соответствует или превосходит модель рассуждений o1.

o3-mini значительно превосходит o1-mini на тестовом наборе MMLU на 14 языках, демонстрируя свой прогресс в многоязычном понимании.

Оценки внешних экспертов-испытателей показали, что o3-mini дает более точные, четкие ответы и лучше аргументирует свои действия, чем o1-mini. При оценке человеческих предпочтений тестировщики отдали предпочтение ответам o3-mini на 561 TP3T и отметили снижение количества существенных ошибок на 391 TP3T при решении сложных реальных задач. o3-mini показал сопоставимые с o1 результаты в некоторых из самых сложных оценок мышления и интеллекта (включая AIME и GPQA) в разделе "Средняя способность к рассуждению".

Интеллект o3-mini сопоставим с o1, обеспечивая более высокую производительность и эффективность. Модель также превосходит других в математических и фактических оценках в рамках средней способности к рассуждению. В ходе A/B-тестирования o3-mini ответила на 241 TP3T быстрее, чем o1-mini: среднее время ответа составило 7,7 секунды по сравнению с 10,16 секунды у o1-mini.


В математике при низких способностях к рассуждению o3-mini демонстрирует результаты, сравнимые с o1-mini, а при средних способностях к рассуждению o3-mini демонстрирует результаты, сравнимые с o1. В то же время при высоких способностях к рассуждению o3-mini превосходит o1-mini и o1.


o3-mini с высокой мощностью рассуждений превосходит своего предшественника в тесте FrontierMath. В тесте FrontierMath при использовании инструмента Python o3-mini с высокой способностью к рассуждению решил более 321 TP3T задач с первой попытки, в том числе более 281 TP3T сложных задач (T3).

o3-mini постепенно получает все более высокие баллы Эло с ростом способности к рассуждению, и все они превосходят o1-mini. при средних способностях к рассуждению он демонстрирует сравнимые с o1 результаты.


o3-mini - лучшая модель OpenAI в SWE-тестировании.

Ниже приведены дополнительные данные о результатах проверки в SWE-bench. o3-mini (инструменты) показал наилучшую производительность - 611 TP3T. o3-mini listing candidate, использующий Agentless вместо внутренних инструментов, показал 391 TP3T. o1 стала второй по производительности моделью с результатом 481 TP3T.

В тесте программирования LiveBench высокоразумный o3-mini показал более высокие результаты, чем o1-high.

02. Многочисленные оценки безопасности превышают GPT-4o
OpenAI также подробно описал результаты o3-mini в нескольких оценках безопасности, заявив, что o3-mini значительно превзошел GPT-4o в сложных оценках безопасности и джейлбрейка. o3-mini показал одинаковые результаты в стандартной оценке отказа и сложной оценке отказа в оценке запрещенного контента по сравнению с GPT-4o, но был немного хуже в XSTest. .

При оценке взлома o3-mini демонстрирует сопоставимые результаты по сравнению с o1-mini при серийном взломе, улучшении примера взлома, StrongReject и оценке взлома с помощью человека.

При оценке галлюцинаций с помощью набора данных PersonQA точность o3-mini составила 21,71 TP3T, а галлюцинации - 14,81 TP3T, что сравнимо или даже лучше, чем у GPT-4o и o1-mini.

При оценке справедливости и предвзятости o3-мини показал те же результаты, что и o1-мини при оценке BBQ, но с небольшим снижением точности при решении неоднозначных вопросов.

Внешнее тестирование "красной команды" показало, что o3-mini демонстрирует сопоставимые результаты по сравнению с o1, при этом обе модели значительно превосходят GPT-4o.

В тесте джейлбрейка Gray Swan Arena средний показатель успешности атак пользователей o3-mini составил 3,61 TP3T, что несколько выше, чем у o1-mini и GPT-4o. Оценка готовности охватывала четыре категории рисков: кибербезопасность, CBRN (химические, биологические, радиологические, ядерные), убеждение и автономность модели. o3-mini получила оценку "низкий риск" для кибербезопасности, "средний риск" для CBRN, убеждения и автономности модели, и "средний риск" для биологических угроз. В случае кибернетической безопасности o3-mini получил оценку "низкий риск", а также соответствовал порогу "средний риск" в создании биологических угроз, но имел ограниченные возможности в разработке ядерного и радиологического оружия.

Согласно их рейтингу, только модели с оценкой "средняя" или ниже могут быть развернуты, а модели с оценкой "высокая" или ниже могут быть доработаны.
03. Бенчмаркинг o3 может стоить более 30 миллионов долларов, OpenAI ведет переговоры о новом финансировании в размере 290 миллиардов долларов
С момента выпуска o1 в сентябре прошлого года компания OpenAI итерирует свои модели вывода, и модель o3, выпущенная в конце прошлого года, является последним поколением моделей вывода ИИ. Высокотехнологичная версия модели o3 предназначена для высокопроизводительных приложений, а o3-mini ориентирована на пользователей, которым требуется экономичность и эффективность. Это отражает стратегию OpenAI, направленную на обеспечение баланса между доступностью и платными предложениями премиум-класса.
В последние два дня, не знаю, подталкиваемый ли DeepSeek или для разогрева o3-mini, соучредитель OpenAI Сэм Альтман был очень активен в социальных сетях, снова расхваливая DeepSeek R1 как впечатляющий, говоря, что OpenAI предоставит лучшие модели, и подчеркивая, что больше вычислений очень важно.

Вчера он сделал громкое заявление.Первый готовый 8-стоечный сервер GB200 NVL72работает на платформе Microsoft Azure для OpenAI.

Отчет правительства Индии Economic Survey 2024-2025, опубликованный в эту пятницу, предполагает, что OpenAI, возможно, потратила более30 миллионов долларовдля бенчмарка своей последней модели выводов ИИ, o3. В отчете говорится, что за прорыв в вычислительной мощности модели OpenAI o3 пришлось заплатить очень высокую цену. Бенчмарк ARC-AGI считается одной из самых сложных задач ИИ, и неэффективно настроенная модель OpenAI привела к тому, что$200,000Стоимость эффективной модели даже выше, чем стоимость неэффективной. Стоимость эффективной модели даже выше, чем стоимость неэффективной модели172 разаЭто примерно34,4 миллиона долларов.

На днях Альтман также опубликовал фотографию с председателем совета директоров и генеральным директором Microsoft Сатьей Наделлой, заявив, что следующий этап сотрудничества Microsoft с OpenAI будет намного лучше, чем кто-либо мог себе представить.

Но репутацию Microsoft как крупнейшего инвестора в OpenAI может отнять японская компания SoftBank Group. В последнее время основатель и генеральный директор SoftBank Group Масайоши Сон сближается с Альтманом, объявив на прошлой неделе, что они объединят усилия для создания мегапроекта ИИ под названием "Звездные врата", инвестировав 500 миллиардов долларов США (около 3,6 триллиона юаней) в ближайшие четыре года в создание инфраструктуры ИИ, а вчера стало известно, что он возглавит новый раунд финансирования OpenAI. Новый раунд финансирования OpenAI.
По сообщениям зарубежных СМИ, OpenAI ведет предварительные переговоры о привлечении финансирования в размере до40 миллиардов долларов США (около 290,1 миллиарда юаней)Оценка будет300 миллиардов долларов США (около 2,18 триллиона юаней). Японская компания SoftBank Group возглавит раунд и ведет переговоры об инвестицияхОт $15 млрд до $25 млрдОставшиеся средства поступят от других инвесторов. Оставшиеся средства поступят от других инвесторов в дополнение к сумме, которую SoftBank ранее обязался инвестировать в Stargate.Более 15 миллиардов долларовВ конечном итоге SoftBank может инвестировать в партнерство с OpenAIБолее 40 миллиардов долларов. Это будет одна из крупнейших инвестиций SoftBank на сегодняшний день.
04.Вывод: дико растущее соотношение цена/производительность и высокое качество моделей выводов ИИ на пути к популярности
Ранее Маск и другие технологические лидеры публично задавались вопросом, как можно позволить себе огромные затраты на строительство "Звездных врат". Под влиянием высокопроизводительной и недорогой модели DeepSeek с открытым исходным кодом американская индустрия ИИ и инвесторы с Уолл-стрит стали еще более скептически относиться к стратегиям больших расходов других американских разработчиков ИИ, таких как OpenAI.
Последний запуск OpenAI, o3-mini, также рассматривается как очередной шаг, направленный на борьбу с натиском моделей DeepSeek, которые представляют особый интерес для индустрии.
В пресс-релизе OpenAI говорится, что выпуск o3-mini - это еще один шаг в реализации миссии компании по расширению границ рентабельного интеллекта и повышению доступности высококачественного ИИ, и что OpenAI стремится быть в авангарде создания крупномасштабных моделей, обеспечивающих баланс интеллекта, эффективности и безопасности.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...