o3-mini разбивает DeepSeek R1: программа на Python, собравшая почти 4 миллиона просмотров

Новости ИИОпубликовано 11 месяцев назад Круг обмена ИИ

31.3K 00

Заголовки газет в мире искусственного интеллекта DeepSeek После десяти дней переговоров OpenAI наконец-то собрался с силами и запустил новую серию моделей вывода, o3-mini, которая не только впервые открывает модели вывода для бесплатных пользователей, но и снижает их стоимость в 15 раз по сравнению с предыдущей серией o1.

OpenAI также утверждает, что это самая новая и экономически эффективная модель в семействе моделей вывода:

o3-mini 碾压DeepSeek R1？一条python程序引发近400万围观 Он только что был запущен, и некоторым нетизенам не терпится сравнить его с большими моделями отечественного производства, которые заполонили мир больших моделей. DeepSeek R1 Были проведены сравнения.
Некоторое время назад ИИ-сообщество стало одержимо идеей использовать DeepSeek R1, чтобы соревноваться с другими моделями (inference) в решении такой задачи: "Напишите скрипт на Python, который заставляет мяч подпрыгивать внутри определенной формы. Заставьте форму медленно вращаться и убедитесь, что мяч остается внутри формы".
Этот тест с имитацией прыгающего мяча - классическая задача программирования. Он эквивалентен алгоритму обнаружения столкновений, который требует, чтобы модель распознавала, когда два объекта (например, мяч и боковая сторона фигуры) сталкиваются. Неправильно написанные алгоритмы могут содержать очевидные ошибки физики.
В то время как DeepSeek R1 заполонил внутренние и международные горячие поисковые запросы, а американские платформы облачных вычислений, такие как Microsoft, NVIDIA и Amazon, бросились внедрять R1, R1 также закончил разгром OpenAI o1 pro в этой задаче.
посмотреть ещё раз Клод 3.5 Сонет и Google's Близнецы С результатами 1,5 Pro модель DeepSeek с открытым исходным кодом действительно более чем на один уровень выше.
o3-mini 碾压DeepSeek R1？一条python程序引发近400万围观 Однако в o3-mini После выхода в эфир таблица, похоже, перевернулась в одночасье: в постах, подобных этому, утверждается, что OpenAI o3-mini разгромил DeepSeek R1, который на данный момент привлек около 4 миллионов посетителей.
o3-mini 碾压DeepSeek R1？一条python程序引发近400万围观 Разработчик использовал предложение: "Напишите программу на Python, которая показывает, как мяч подпрыгивает внутри вращающегося шестиугольника. На мяч должны воздействовать гравитация и трение, и он На мяч должны действовать гравитация и трение, и он должен реалистично отскакивать от вращающихся стенок".
То есть пусть o3-mini и DeepSeek R1 соответственно напишут на python программу для мяча, прыгающего внутри вращающегося шестиугольника, причем мяч будет прыгать под действием гравитации и трения. Итоговое представление выглядит следующим образом:
o3-mini 碾压DeepSeek R1？一条python程序引发近400万围观 С точки зрения эффектов, o3-mini гораздо лучше демонстрирует эффекты столкновения и отскока. Если судить по гравитации и трению, то в версии DeepSeek R1 мяч, кажется, немного перегружен гробовой плитой Ньютона и вообще не контролируется гравитацией.
Это не единичный случай, так как соучредитель @hyperbolic_labs Ючен Джин также обнаружил эту проблему ранее, введя в DeepSeek R1 и o3-mini соответственно слова подсказки: напишите скрипт на Python о мяче, прыгающем внутри тессеракта (write написать скрипт Python о мяче, прыгающем внутри тессеракта).
Каждая вершина четырехмерного гиперкуба примыкает к четырем зубцам, а каждый зубец соединяет два куба. Геометрия в четырех измерениях находится за пределами человеческого интуитивного восприятия, поэтому, слушая эти описания, может быть трудно представить, как выглядит четырехмерный гиперкуб.
И не только o3mini демонстрирует стабильную геометрию, мяч отскакивает в четырех измерениях с более гибкой траекторией, с ударным ощущением удара о грани куба.
o3-mini 碾压DeepSeek R1？一条python程序引发近400万围观 Глядя на DeepSeek R1, кажется, что ее понимание формы четырехмерного гиперкуба недостаточно глубоко. В то же время траектория полета шара в нем кажется немного странной, с ощущением "порхания".
o3-mini 碾压DeepSeek R1？一条python程序引发近400万围观 По словам Ючен Джина, он пробовал много раз, и все попытки с DeepSeek R1 были хуже, чем с одноразовым o3-mini, как, например, на снимке ниже, где мяч был оставлен.
o3-mini 碾压DeepSeek R1？一条python程序引发近400万围观 Сердце машины - тоже персональный тест, тот же Pass@1, DeepSeek R1 на этот раз есть и шар, и геометрическая рамка, и даже шар будет менять цвет, к сожалению, это четырехмерный гиперкуб, упрощенный до трехмерных пространственных координатных осей.
o3-mini 碾压DeepSeek R1？一条python程序引发近400万围观 Выступление o3-mini немного напоминает "шоу покупателя". Очевидно, что Ючен Джин вводит точно такие же подсказки, но почему o3-mini не может сделать то же самое? Почему o3-mini не может получить "шоу продавца", как показано выше?
o3-mini 碾压DeepSeek R1？一条python程序引发近400万围观 Похоже, что DeepSeek R1 не является полным провалом для o3-mini в плане генерации процедуры подпрыгивания мяча внутри геометрической рамки.
Практик AIGC @myapdx протестировал o3-mini и DeepSeek R1 с помощью более сложной в своем роде подсказки: напишите скрипт p5.js, который имитирует 100 цветных шариков, прыгающих внутри сферы. Каждый шарик должен оставлять затухающую траекторию, показывающую его ближайший путь. Сфера-контейнер должна медленно вращаться. Убедитесь, что реализовано правильное обнаружение столкновений, чтобы шарики оставались внутри сферы.
o3-mini работает следующим образом:
o3-mini 碾压DeepSeek R1？一条python程序引发近400万围观 Так много требований в этом слове: подпрыгивание внутри сферы, оставление затухающего трека, медленное вращение контейнера ...... .o3-mini - все они выполнены идеально.
А DeepSeek R1, похоже, ничуть не хуже:
o3-mini 碾压DeepSeek R1？一条python程序引发近400万围观 Что касается причин такого расхождения, то и Ючен Джин, и @myapdx упомянули в своих постах, что задача реагирует на то, как модель понимает законы физики в реальном мире. Модели должны объединить свое понимание языка, геометрии, физики и программирования, чтобы прийти к окончательным результатам моделирования. Судя по результатам первых двух раундов, похоже, что o3-mini имеет потенциал стать лучшей большой моделью для физики.
Тем временем OpenAI в своем вчерашнем блоге отметила, что o3-mini-low превосходит o1-mini в решении научных задач уровня PhD. o3-mini-high работает сопоставимо с o1, значительно улучшая решение задач уровня PhD по биологии, химии и физике.
Понимание гравитации и трения при отскоке маленького мяча не представляет сложности для человека, но в области моделирования на большом языке эта способность понимать "модели мира" физического состояния объектов до недавнего времени не была настоящим прорывом.
Есть также предположение, что DeepSeek R1 иногда программируется только на один шар, может быть, он перемудрил? Интересно, сталкивался ли кто-нибудь из наших читателей с подобным? Не стесняйтесь обсуждать.

Новости ИИ

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

Полное объяснение функции "Блокноты": бесшовное совместное использование контекста между редактором курсора и чатом

Новости ИИ

1 год назад

031.4K

Qwen2.5-Max на основе архитектуры MoE полностью превосходит DeepSeek V3

Новости ИИ

11 месяцев назад

038.6K

DeepSeek R1 vs o3-mini：谁才是2025年成本效益最高的推理模型？

DeepSeek R1 против o3-mini: кто является наиболее экономически эффективной моделью вывода для 2025 года?

Новости ИИ

11 месяцев назад

029.9K

YouTube Shorts интегрирует Veo 2 для создания искусственного фона видео и генерации клипов

Новости ИИ

11 месяцев назад

028.9K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

Нет комментариев...

o3-mini разбивает DeepSeek R1: программа на Python, собравшая почти 4 миллиона просмотров

Топ-5 платформ для выводов ИИ, которые используют полнокровную версию DeepSeek-R1 бесплатно

Похожие статьи

Полное объяснение функции "Блокноты": бесшовное совместное использование контекста между редактором курсора и чатом

Qwen2.5-Max на основе архитектуры MoE полностью превосходит DeepSeek V3

DeepSeek R1 против o3-mini: кто является наиболее экономически эффективной моделью вывода для 2025 года?

YouTube Shorts интегрирует Veo 2 для создания искусственного фона видео и генерации клипов

Нет комментариев

Последние коллекции

Последние статьи

o3-mini разбивает DeepSeek R1: программа на Python, собравшая почти 4 миллиона просмотров

Топ-5 платформ для выводов ИИ, которые используют полнокровную версию DeepSeek-R1 бесплатно

Похожие статьи

Полное объяснение функции "Блокноты": бесшовное совместное использование контекста между редактором курсора и чатом

Qwen2.5-Max на основе архитектуры MoE полностью превосходит DeepSeek V3

DeepSeek R1 против o3-mini: кто является наиболее экономически эффективной моделью вывода для 2025 года?

YouTube Shorts интегрирует Veo 2 для создания искусственного фона видео и генерации клипов

Нет комментариев

Избранные инструменты искусственного интеллекта

Последние коллекции

Последние статьи