Данные бенчмарка Grok 3 "занижены"? Сотрудник OpenAI утверждает, что xAI может искажать данные о производительности

Новости ИИОпубликовано 6 месяцев назад Круг обмена ИИ
6.7K 00

Споры о бенчмаркинге ИИ и о том, как лаборатории ИИ публикуют свои результаты, становятся все более публичными. Производительность ИИ уже давно измеряется и сообщается спорными способами, и теперь эти закулисные дебаты наконец-то оказались в центре внимания.

На этой неделе сотрудник OpenAI публично обвинил компанию xAI, основанную Элоном Маском, в публикации недостоверных результатов бенчмарков для продвижения своих новейших моделей ИИ. Grok 3. Игорь Бабушкин, один из основателей xAI, немедленно отреагировал на обвинения, настаивая на том, что в подходе xAI нет ничего плохого. Публичные дебаты, безусловно, выдвинули на первый план вопрос о прозрачности оценки эффективности ИИ.

Grok 3 基准测试数据“掺水”? OpenAI 员工爆料 xAI 或虚报性能

Но истина, возможно, лежит где-то между двумя сторонами. Как и во многих других спорах в технической сфере, истина часто лежит под поверхностью и требует более глубокого изучения.

В своем официальном блоге xAI представила диаграмму, иллюстрирующую превосходство Grok 3 в бенчмарке AIME 2025. AIME 2025 - это набор вопросов из недавнего пригласительного экзамена по математике с высокими ставками, который считается лакмусовой бумажкой математических возможностей ИИ. Однако стоит отметить, что эксперты уже давно ставят под сомнение обоснованность AIME как эталона ИИ. Будет интересно узнать, каковы были намерения xAI, выбравших столь спорный эталон для демонстрации возможностей модели. Тем не менее, AIME 2025 и его ранние версии по-прежнему широко используются для оценки математического мышления моделей ИИ.

Grok 3 基准测试数据“掺水”? OpenAI 员工爆料 xAI 或虚报性能

xAI утверждает, что обе версии Grok 3, Grok 3 Reasoning Beta и Grok 3 mini Reasoning, превзошли текущую современную модель OpenAI, o3-mini-high, в тесте AIME 2025. Однако сотрудники OpenAI быстро отметили на платформе X, что таблица xAI имеет критический недостаток: в ней отсутствуют результаты теста AIME 2025, полученные o3-mini-high в условиях "cons@64". Такое выборочное представление данных вызывает вопросы о намерениях xAI.

Вы можете спросить: "Что именно такое "консенсус@64"? Проще говоря, это "консенсус@64" - особый метод оценки. В этом методе модель 64 раза пытается ответить на каждый вопрос эталонного теста, и наиболее часто встречающийся ответ становится окончательным. Неудивительно, что механизм "cons@64", как правило, значительно повышает оценку модели в бенчмарке. xAI намеренно опускает данные "cons@64" в своих графиках, что может создать впечатление, что Grok 3 превосходит другие модели, но это может быть не так. Не является ли такой "хитрый" подход честной игрой?

Если посмотреть на фактические данные, то и Grok 3 Reasoning Beta, и Grok 3 mini Reasoning набрали меньше баллов, чем o3-mini-high на AIME 2025 в условии "@1", т. е. оценка модели при первой попытке бенчмаркинга. Даже результаты Grok 3 Reasoning Beta лишь немного опережают результаты модели o1 от OpenAI (настроенной на "средние" вычисления). Однако даже при таком сравнении данных xAI по-прежнему рекламирует Grok 3 как "самый умный ИИ в мире". Эта рекламная стратегия не основана на строгих научных данных, а является скорее маркетинговой тактикой, направленной на привлечение внимания рынка. В то время, когда технологии ИИ стремительно меняются, важнее ли добиться приземленного технологического прогресса или завоевать будущее с помощью преувеличенной маркетинговой шумихи? Возможно, над этим вопросом стоит серьезно задуматься всей индустрии ИИ.

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...