Данные бенчмарка Grok 3 "занижены"? Сотрудник OpenAI утверждает, что xAI может искажать данные о производительности

Новости ИИОпубликовано 1 год назад Круг обмена ИИ

77.4K 00

Споры о бенчмаркинге ИИ и о том, как лаборатории ИИ публикуют свои результаты, становятся все более публичными. Производительность ИИ уже давно измеряется и сообщается спорными способами, и теперь эти закулисные дебаты наконец-то оказались в центре внимания.

На этой неделе сотрудник OpenAI публично обвинил компанию xAI, основанную Элоном Маском, в публикации недостоверных результатов бенчмарков для продвижения своих новейших моделей ИИ. Grok 3. Игорь Бабушкин, один из основателей xAI, немедленно отреагировал на обвинения, настаивая на том, что в подходе xAI нет ничего плохого. Публичные дебаты, безусловно, выдвинули на первый план вопрос о прозрачности оценки эффективности ИИ.

Grok 3 基准测试数据“掺水”？ OpenAI 员工爆料 xAI 或虚报性能

Но истина, возможно, лежит где-то между двумя сторонами. Как и во многих других спорах в технической сфере, истина часто лежит под поверхностью и требует более глубокого изучения.

В своем официальном блоге xAI представила диаграмму, иллюстрирующую превосходство Grok 3 в бенчмарке AIME 2025. AIME 2025 - это набор вопросов из недавнего пригласительного экзамена по математике с высокими ставками, который считается лакмусовой бумажкой математических возможностей ИИ. Однако стоит отметить, что эксперты уже давно ставят под сомнение обоснованность AIME как эталона ИИ. Будет интересно узнать, каковы были намерения xAI, выбравших столь спорный эталон для демонстрации возможностей модели. Тем не менее, AIME 2025 и его ранние версии по-прежнему широко используются для оценки математического мышления моделей ИИ.

xAI утверждает, что обе версии Grok 3, Grok 3 Reasoning Beta и Grok 3 mini Reasoning, превзошли текущую современную модель OpenAI, o3-mini-high, в тесте AIME 2025. Однако сотрудники OpenAI быстро отметили на платформе X, что таблица xAI имеет критический недостаток: в ней отсутствуют результаты теста AIME 2025, полученные o3-mini-high в условиях "cons@64". Такое выборочное представление данных вызывает вопросы о намерениях xAI.

Вы можете спросить: "Что именно такое "консенсус@64"? Проще говоря, это "консенсус@64" - особый метод оценки. В этом методе модель 64 раза пытается ответить на каждый вопрос эталонного теста, и наиболее часто встречающийся ответ становится окончательным. Неудивительно, что механизм "cons@64", как правило, значительно повышает оценку модели в бенчмарке. xAI намеренно опускает данные "cons@64" в своих графиках, что может создать впечатление, что Grok 3 превосходит другие модели, но это может быть не так. Не является ли такой "хитрый" подход честной игрой?

Если посмотреть на фактические данные, то и Grok 3 Reasoning Beta, и Grok 3 mini Reasoning набрали меньше баллов, чем o3-mini-high на AIME 2025 в условии "@1", т. е. оценка модели при первой попытке бенчмаркинга. Даже результаты Grok 3 Reasoning Beta лишь немного опережают результаты модели o1 от OpenAI (настроенной на "средние" вычисления). Однако даже при таком сравнении данных xAI по-прежнему рекламирует Grok 3 как "самый умный ИИ в мире". Эта рекламная стратегия не основана на строгих научных данных, а является скорее маркетинговой тактикой, направленной на привлечение внимания рынка. В то время, когда технологии ИИ стремительно меняются, важнее ли добиться приземленного технологического прогресса или завоевать будущее с помощью преувеличенной маркетинговой шумихи? Возможно, над этим вопросом стоит серьезно задуматься всей индустрии ИИ.

Новости ИИ

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

Интервью главного директора по продуктам OpenAI в 10 000 слов: как менеджеры по продуктам могут создавать превосходные продукты в эпоху искусственного интеллекта

Новости ИИ

1 год назад

050K

Как боты OpenAI "действовали как DDoS-атака", чтобы уничтожить сайт компании, состоящей из семи человек

Новости ИИ

1 год назад

042.4K

40 популярных в стране и за рубежом инструментов искусственного интеллекта: инструменты для написания текстов, создания изображений и создания видео.

Новости ИИ

1 год назад

050.7K

Зарубежные новости ИИ: "Грэмми" столкнулись с грозным соперником - искусственным интеллектом

Новости ИИ

2 года назад

046.8K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

Нет комментариев...

Данные бенчмарка Grok 3 "занижены"? Сотрудник OpenAI утверждает, что xAI может искажать данные о производительности

Zero One Everything: Может ли выделение бизнеса стать новой движущей силой роста при точном стратегическом подходе?

Модель генерации видео VBench возглавляет чарты... Вершина чартов - WanX 2.1 скоро станет открытым исходным кодом!

Похожие статьи

Интервью главного директора по продуктам OpenAI в 10 000 слов: как менеджеры по продуктам могут создавать превосходные продукты в эпоху искусственного интеллекта

Как боты OpenAI "действовали как DDoS-атака", чтобы уничтожить сайт компании, состоящей из семи человек

40 популярных в стране и за рубежом инструментов искусственного интеллекта: инструменты для написания текстов, создания изображений и создания видео.

Зарубежные новости ИИ: "Грэмми" столкнулись с грозным соперником - искусственным интеллектом

Нет комментариев

Последние коллекции

Последние статьи

Данные бенчмарка Grok 3 "занижены"? Сотрудник OpenAI утверждает, что xAI может искажать данные о производительности

Zero One Everything: Может ли выделение бизнеса стать новой движущей силой роста при точном стратегическом подходе?

Модель генерации видео VBench возглавляет чарты... Вершина чартов - WanX 2.1 скоро станет открытым исходным кодом!

Похожие статьи

Интервью главного директора по продуктам OpenAI в 10 000 слов: как менеджеры по продуктам могут создавать превосходные продукты в эпоху искусственного интеллекта

Как боты OpenAI "действовали как DDoS-атака", чтобы уничтожить сайт компании, состоящей из семи человек

40 популярных в стране и за рубежом инструментов искусственного интеллекта: инструменты для написания текстов, создания изображений и создания видео.

Зарубежные новости ИИ: "Грэмми" столкнулись с грозным соперником - искусственным интеллектом

Нет комментариев

Избранные инструменты искусственного интеллекта

Последние коллекции

Последние статьи