¿Los datos de referencia de Grok 3 están "aguados"? Un empleado de OpenAI dice que xAI podría estar falseando el rendimiento

Noticias AIPublicado hace 11 meses Círculo de intercambio de inteligencia artificial

63.7K 00

El debate sobre la evaluación comparativa de la IA y la forma en que los laboratorios de IA publican sus resultados es cada vez más público. El rendimiento de la IA se ha medido y comunicado durante mucho tiempo de forma controvertida, y ahora estos debates entre bastidores salen por fin a la luz.

Esta semana, un empleado de OpenAI acusó públicamente a xAI, la empresa de IA fundada por Elon Musk, de publicar resultados de referencia engañosos para promocionar sus últimos modelos de IA. Grok 3. Igor Babushkin, uno de los cofundadores de xAI, respondió inmediatamente a las acusaciones, insistiendo en que no había nada malo en el planteamiento de xAI. No cabe duda de que el debate público ha puesto en primer plano la cuestión de la transparencia en la evaluación del rendimiento de la IA.

Grok 3 基准测试数据“掺水”？ OpenAI 员工爆料 xAI 或虚报性能

Pero la verdad, tal vez, se encuentre en algún lugar entre ambas partes. Como ocurre con muchas disputas en el ámbito técnico, la verdad suele estar bajo la superficie y requiere una excavación y un escrutinio más profundos.

En una entrada del blog oficial de xAI, xAI presenta un gráfico que ilustra el rendimiento superior de Grok 3 en la prueba de referencia AIME 2025. AIME 2025 es una colección de preguntas de un reciente examen de matemáticas por invitación de alto nivel, y se considera una prueba de fuego de las capacidades matemáticas de la IA. Sin embargo, cabe señalar que los expertos llevan tiempo cuestionando la validez del AIME como punto de referencia de la IA. Sería interesante saber cuáles eran las intenciones de xAI al elegir una referencia tan controvertida para demostrar la capacidad del modelo. No obstante, AIME 2025 y sus versiones anteriores siguen utilizándose ampliamente para evaluar el razonamiento matemático de los modelos de IA.

xAI afirmaba en su gráfico que ambas versiones de Grok 3, Grok 3 Reasoning Beta y Grok 3 mini Reasoning, superaban al actual modelo de última generación de OpenAI, o3-mini-high, en la prueba AIME 2025. Sin embargo, el personal de OpenAI se apresuró a señalar en la plataforma X que el gráfico de xAI tenía un fallo crítico: omitía los resultados de la prueba AIME 2025 de o3-mini-high en condiciones "cons@64". Esta presentación selectiva de los datos plantea dudas sobre las intenciones de xAI.

Quizás se pregunte: "¿Qué es exactamente "consensus@64"? En pocas palabras, significa "consensus@64" y es un tipo especial de método de evaluación. En este método, el modelo intenta responder 64 veces a cada pregunta de la prueba de referencia, y la respuesta más frecuente es la respuesta final. Como era de esperar, el mecanismo "cons@64" tiende a mejorar significativamente la puntuación de referencia de un modelo. xAI omite deliberadamente los datos "cons@64" de sus gráficos, lo que puede dar la impresión de que Grok 3 supera a otros modelos, pero puede que no sea así. ¿No es justo este enfoque "tramposo"?

Si nos fijamos en los datos reales, tanto Grok 3 Reasoning Beta como Grok 3 mini Reasoning obtuvieron puntuaciones inferiores a o3-mini-high en AIME 2025 en la condición "@1", es decir, en el primer intento de puntuación del modelo en la prueba comparativa. Incluso las puntuaciones de Grok 3 Reasoning Beta están sólo ligeramente por delante del modelo o1 de OpenAI (configurado en computación "media"). Sin embargo, incluso con este tipo de comparación de datos, xAI sigue anunciando Grok 3 como "la IA más inteligente del mundo". Esta estrategia publicitaria no se basa en pruebas científicas rigurosas, sino que es más bien una táctica de marketing para captar la atención del mercado. En un momento en que la tecnología de la IA cambia rápidamente, ¿es más importante lograr avances tecnológicos realistas o ganar el futuro mediante exageraciones de marketing? Quizá sea una pregunta que toda la industria de la IA debería plantearse seriamente.

Noticias AI

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

OpenAI se transforma oficialmente en una empresa sin ánimo de lucro, utilizando sus ganancias para apoyar la parte sin ánimo de lucro de la empresa, que son relativamente independientes entre sí

Noticias AI

hace 1 año

031.9K

智谱 AI 发布开源 GLM 模型家族：MIT 许可、Z.ai 平台与高速推理服务同步亮相

Smart Spectrum AI lanza una familia de modelos GLM de código abierto: licencia MIT, plataforma Z.ai y servicio de inferencia de alta velocidad.

Noticias AI

hace 9 meses

046.9K

Lanzamiento de Qwen2.5-VL: admite comprensión de vídeo de larga duración, localización visual, salida estructurada, código abierto ajustable con precisión

Noticias AI

hace 12 meses

092.9K

Laminar: plataforma de código abierto de ingeniería de productos de IA para facilitar el seguimiento y la evaluación de la visualización de datos

Noticias AI # AI Java Proyecto de código abierto

hace 1 año

035.4K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

¿Los datos de referencia de Grok 3 están "aguados"? Un empleado de OpenAI dice que xAI podría estar falseando el rendimiento

Zero One Everything: ¿pueden las escisiones empresariales convertirse en un nuevo motor de crecimiento con un enfoque estratégico afinado?

El modelo de generación de vídeo VBench encabeza las listas... WanX 2.1 pronto será de código abierto.

Artículos relacionados

OpenAI se transforma oficialmente en una empresa sin ánimo de lucro, utilizando sus ganancias para apoyar la parte sin ánimo de lucro de la empresa, que son relativamente independientes entre sí

Smart Spectrum AI lanza una familia de modelos GLM de código abierto: licencia MIT, plataforma Z.ai y servicio de inferencia de alta velocidad.

Lanzamiento de Qwen2.5-VL: admite comprensión de vídeo de larga duración, localización visual, salida estructurada, código abierto ajustable con precisión

Laminar: plataforma de código abierto de ingeniería de productos de IA para facilitar el seguimiento y la evaluación de la visualización de datos

Sin comentarios

Últimas colecciones

Últimos artículos

¿Los datos de referencia de Grok 3 están "aguados"? Un empleado de OpenAI dice que xAI podría estar falseando el rendimiento

Zero One Everything: ¿pueden las escisiones empresariales convertirse en un nuevo motor de crecimiento con un enfoque estratégico afinado?

El modelo de generación de vídeo VBench encabeza las listas... WanX 2.1 pronto será de código abierto.

Artículos relacionados

OpenAI se transforma oficialmente en una empresa sin ánimo de lucro, utilizando sus ganancias para apoyar la parte sin ánimo de lucro de la empresa, que son relativamente independientes entre sí

Smart Spectrum AI lanza una familia de modelos GLM de código abierto: licencia MIT, plataforma Z.ai y servicio de inferencia de alta velocidad.

Lanzamiento de Qwen2.5-VL: admite comprensión de vídeo de larga duración, localización visual, salida estructurada, código abierto ajustable con precisión

Laminar: plataforma de código abierto de ingeniería de productos de IA para facilitar el seguimiento y la evaluación de la visualización de datos

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos