o3-mini разбивает DeepSeek R1: программа на Python, собравшая почти 4 миллиона просмотров
Заголовки газет в мире искусственного интеллекта DeepSeek После десяти дней переговоров OpenAI наконец-то собрался с силами и запустил новую серию моделей вывода, o3-mini, которая не только впервые открывает модели вывода для бесплатных пользователей, но и снижает их стоимость в 15 раз по сравнению с предыдущей серией o1.
OpenAI также утверждает, что это самая новая и экономически эффективная модель в семействе моделей вывода:
Он только что был запущен, и некоторым нетизенам не терпится сравнить его с большими моделями отечественного производства, которые заполонили мир больших моделей. DeepSeek R1 Были проведены сравнения.
Некоторое время назад ИИ-сообщество стало одержимо идеей использовать DeepSeek R1, чтобы соревноваться с другими моделями (inference) в решении такой задачи: "Напишите скрипт на Python, который заставляет мяч подпрыгивать внутри определенной формы. Заставьте форму медленно вращаться и убедитесь, что мяч остается внутри формы".
Этот тест с имитацией прыгающего мяча - классическая задача программирования. Он эквивалентен алгоритму обнаружения столкновений, который требует, чтобы модель распознавала, когда два объекта (например, мяч и боковая сторона фигуры) сталкиваются. Неправильно написанные алгоритмы могут содержать очевидные ошибки физики.
В то время как DeepSeek R1 заполонил внутренние и международные горячие поисковые запросы, а американские платформы облачных вычислений, такие как Microsoft, NVIDIA и Amazon, бросились внедрять R1, R1 также закончил разгром OpenAI o1 pro в этой задаче.
посмотреть ещё раз Клод 3.5 Сонет и Google's Близнецы С результатами 1,5 Pro модель DeepSeek с открытым исходным кодом действительно более чем на один уровень выше. Однако в o3-mini После выхода в эфир таблица, похоже, перевернулась в одночасье: в постах, подобных этому, утверждается, что OpenAI o3-mini разгромил DeepSeek R1, который на данный момент привлек около 4 миллионов посетителей.
Разработчик использовал предложение: "Напишите программу на Python, которая показывает, как мяч подпрыгивает внутри вращающегося шестиугольника. На мяч должны воздействовать гравитация и трение, и он На мяч должны действовать гравитация и трение, и он должен реалистично отскакивать от вращающихся стенок".
То есть пусть o3-mini и DeepSeek R1 соответственно напишут на python программу для мяча, прыгающего внутри вращающегося шестиугольника, причем мяч будет прыгать под действием гравитации и трения. Итоговое представление выглядит следующим образом: С точки зрения эффектов, o3-mini гораздо лучше демонстрирует эффекты столкновения и отскока. Если судить по гравитации и трению, то в версии DeepSeek R1 мяч, кажется, немного перегружен гробовой плитой Ньютона и вообще не контролируется гравитацией.
Это не единичный случай, так как соучредитель @hyperbolic_labs Ючен Джин также обнаружил эту проблему ранее, введя в DeepSeek R1 и o3-mini соответственно слова подсказки: напишите скрипт на Python о мяче, прыгающем внутри тессеракта (write написать скрипт Python о мяче, прыгающем внутри тессеракта).
Каждая вершина четырехмерного гиперкуба примыкает к четырем зубцам, а каждый зубец соединяет два куба. Геометрия в четырех измерениях находится за пределами человеческого интуитивного восприятия, поэтому, слушая эти описания, может быть трудно представить, как выглядит четырехмерный гиперкуб.
И не только o3mini демонстрирует стабильную геометрию, мяч отскакивает в четырех измерениях с более гибкой траекторией, с ударным ощущением удара о грани куба. Глядя на DeepSeek R1, кажется, что ее понимание формы четырехмерного гиперкуба недостаточно глубоко. В то же время траектория полета шара в нем кажется немного странной, с ощущением "порхания".
По словам Ючен Джина, он пробовал много раз, и все попытки с DeepSeek R1 были хуже, чем с одноразовым o3-mini, как, например, на снимке ниже, где мяч был оставлен.
Сердце машины - тоже персональный тест, тот же Pass@1, DeepSeek R1 на этот раз есть и шар, и геометрическая рамка, и даже шар будет менять цвет, к сожалению, это четырехмерный гиперкуб, упрощенный до трехмерных пространственных координатных осей.
Выступление o3-mini немного напоминает "шоу покупателя". Очевидно, что Ючен Джин вводит точно такие же подсказки, но почему o3-mini не может сделать то же самое? Почему o3-mini не может получить "шоу продавца", как показано выше?
Похоже, что DeepSeek R1 не является полным провалом для o3-mini в плане генерации процедуры подпрыгивания мяча внутри геометрической рамки.
Практик AIGC @myapdx протестировал o3-mini и DeepSeek R1 с помощью более сложной в своем роде подсказки: напишите скрипт p5.js, который имитирует 100 цветных шариков, прыгающих внутри сферы. Каждый шарик должен оставлять затухающую траекторию, показывающую его ближайший путь. Сфера-контейнер должна медленно вращаться. Убедитесь, что реализовано правильное обнаружение столкновений, чтобы шарики оставались внутри сферы.
o3-mini работает следующим образом: Так много требований в этом слове: подпрыгивание внутри сферы, оставление затухающего трека, медленное вращение контейнера ...... .o3-mini - все они выполнены идеально.
А DeepSeek R1, похоже, ничуть не хуже: Что касается причин такого расхождения, то и Ючен Джин, и @myapdx упомянули в своих постах, что задача реагирует на то, как модель понимает законы физики в реальном мире. Модели должны объединить свое понимание языка, геометрии, физики и программирования, чтобы прийти к окончательным результатам моделирования. Судя по результатам первых двух раундов, похоже, что o3-mini имеет потенциал стать лучшей большой моделью для физики.
Тем временем OpenAI в своем вчерашнем блоге отметила, что o3-mini-low превосходит o1-mini в решении научных задач уровня PhD. o3-mini-high работает сопоставимо с o1, значительно улучшая решение задач уровня PhD по биологии, химии и физике.
Понимание гравитации и трения при отскоке маленького мяча не представляет сложности для человека, но в области моделирования на большом языке эта способность понимать "модели мира" физического состояния объектов до недавнего времени не была настоящим прорывом.
Есть также предположение, что DeepSeek R1 иногда программируется только на один шар, может быть, он перемудрил? Интересно, сталкивался ли кто-нибудь из наших читателей с подобным? Не стесняйтесь обсуждать.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...