¿Los datos de referencia de Grok 3 están "aguados"? Un empleado de OpenAI dice que xAI podría estar falseando el rendimiento
El debate sobre la evaluación comparativa de la IA y la forma en que los laboratorios de IA publican sus resultados es cada vez más público. El rendimiento de la IA se ha medido y comunicado durante mucho tiempo de forma controvertida, y ahora estos debates entre bastidores salen por fin a la luz.
Esta semana, un empleado de OpenAI acusó públicamente a xAI, la empresa de IA fundada por Elon Musk, de publicar resultados de referencia engañosos para promocionar sus últimos modelos de IA. Grok 3. Igor Babushkin, uno de los cofundadores de xAI, respondió inmediatamente a las acusaciones, insistiendo en que no había nada malo en el planteamiento de xAI. No cabe duda de que el debate público ha puesto en primer plano la cuestión de la transparencia en la evaluación del rendimiento de la IA.

Pero la verdad, tal vez, se encuentre en algún lugar entre ambas partes. Como ocurre con muchas disputas en el ámbito técnico, la verdad suele estar bajo la superficie y requiere una excavación y un escrutinio más profundos.
En una entrada del blog oficial de xAI, xAI presenta un gráfico que ilustra el rendimiento superior de Grok 3 en la prueba de referencia AIME 2025. AIME 2025 es una colección de preguntas de un reciente examen de matemáticas por invitación de alto nivel, y se considera una prueba de fuego de las capacidades matemáticas de la IA. Sin embargo, cabe señalar que los expertos llevan tiempo cuestionando la validez del AIME como punto de referencia de la IA. Sería interesante saber cuáles eran las intenciones de xAI al elegir una referencia tan controvertida para demostrar la capacidad del modelo. No obstante, AIME 2025 y sus versiones anteriores siguen utilizándose ampliamente para evaluar el razonamiento matemático de los modelos de IA.

xAI afirmaba en su gráfico que ambas versiones de Grok 3, Grok 3 Reasoning Beta y Grok 3 mini Reasoning, superaban al actual modelo de última generación de OpenAI, o3-mini-high, en la prueba AIME 2025. Sin embargo, el personal de OpenAI se apresuró a señalar en la plataforma X que el gráfico de xAI tenía un fallo crítico: omitía los resultados de la prueba AIME 2025 de o3-mini-high en condiciones "cons@64". Esta presentación selectiva de los datos plantea dudas sobre las intenciones de xAI.
Quizás se pregunte: "¿Qué es exactamente "consensus@64"? En pocas palabras, significa "consensus@64" y es un tipo especial de método de evaluación. En este método, el modelo intenta responder 64 veces a cada pregunta de la prueba de referencia, y la respuesta más frecuente es la respuesta final. Como era de esperar, el mecanismo "cons@64" tiende a mejorar significativamente la puntuación de referencia de un modelo. xAI omite deliberadamente los datos "cons@64" de sus gráficos, lo que puede dar la impresión de que Grok 3 supera a otros modelos, pero puede que no sea así. ¿No es justo este enfoque "tramposo"?
Si nos fijamos en los datos reales, tanto Grok 3 Reasoning Beta como Grok 3 mini Reasoning obtuvieron puntuaciones inferiores a o3-mini-high en AIME 2025 en la condición "@1", es decir, en el primer intento de puntuación del modelo en la prueba comparativa. Incluso las puntuaciones de Grok 3 Reasoning Beta están sólo ligeramente por delante del modelo o1 de OpenAI (configurado en computación "media"). Sin embargo, incluso con este tipo de comparación de datos, xAI sigue anunciando Grok 3 como "la IA más inteligente del mundo". Esta estrategia publicitaria no se basa en pruebas científicas rigurosas, sino que es más bien una táctica de marketing para captar la atención del mercado. En un momento en que la tecnología de la IA cambia rápidamente, ¿es más importante lograr avances tecnológicos realistas o ganar el futuro mediante exageraciones de marketing? Quizá sea una pregunta que toda la industria de la IA debería plantearse seriamente.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...