Aprendizagem pessoal com IA
e orientação prática
Recomendação de recursos 1

Dados de referência do Grok 3 "diluídos"? Funcionário da OpenAI diz que a xAI pode estar deturpando o desempenho

O debate sobre benchmarking de IA e como os laboratórios de IA publicam seus resultados está se tornando cada vez mais público. Há muito tempo, o desempenho da IA é medido e relatado de maneiras controversas, e agora esses debates nos bastidores estão finalmente se tornando públicos.

Esta semana, um funcionário da OpenAI acusou publicamente a xAI, a empresa de IA fundada por Elon Musk, de publicar resultados de benchmark enganosos para promover seus modelos de IA mais recentes. Grok 3. Igor Babushkin, um dos cofundadores da xAI, respondeu imediatamente às acusações, insistindo que não havia nada de errado com a abordagem da xAI. O debate público certamente trouxe à tona a questão da transparência na avaliação do desempenho da IA.


Dados de referência do Grok 3 "diluídos"? Funcionário da OpenAI revela que a xAI pode ter deturpado o desempenho-1

Mas a verdade, talvez, esteja em algum lugar entre os dois lados. Assim como acontece com muitas disputas no campo técnico, a verdade geralmente está abaixo da superfície e requer escavações e análises mais profundas.

Em uma publicação no blog oficial da xAI, a xAI apresenta um gráfico que ilustra o desempenho superior do Grok 3 no benchmark AIME 2025. O AIME 2025 é uma coleção de perguntas de um recente exame de matemática para convidados de alto risco e é considerado um teste decisivo para as capacidades matemáticas da IA. No entanto, vale a pena observar que há muito tempo os especialistas questionam a validade do AIME como referência de IA. Pode ser interessante ver quais foram as intenções da xAI ao escolher um benchmark tão controverso para demonstrar a capacidade do modelo. No entanto, o AIME 2025 e suas versões anteriores ainda são amplamente usados para avaliar o raciocínio matemático dos modelos de IA.

Dados de referência do Grok 3 "diluídos"? Funcionário da OpenAI revela que a xAI pode ter deturpado o desempenho-1

Em seus gráficos, a xAI afirma que ambas as versões do Grok 3, Grok 3 Reasoning Beta e Grok 3 mini Reasoning, superam o modelo atual de última geração da OpenAI, o3-mini-high, no teste AIME 2025. No entanto, a equipe da OpenAI foi rápida em apontar na plataforma X que os gráficos da xAI tinham uma falha crítica: omitiam as pontuações do teste AIME 2025 do o3-mini-high em condições "cons@64". Essa apresentação seletiva de dados levanta dúvidas sobre as verdadeiras intenções da xAI.

Você pode se perguntar: "O que é exatamente "consensus@64"? Simplificando, significa "consensus@64" e é um tipo especial de método de avaliação. Nesse método, o modelo tenta responder 64 vezes a cada pergunta do teste de benchmark, e a resposta mais frequente é a resposta final. Como era de se esperar, o mecanismo "cons@64" tende a melhorar significativamente a pontuação de benchmark de um modelo. A xAI omite deliberadamente os dados "cons@64" de seus gráficos, o que pode dar a impressão de que o Grok 3 supera outros modelos, mas esse pode não ser o caso. Essa abordagem "complicada" não é justa?

Analisando os dados reais, tanto o Grok 3 Reasoning Beta quanto o Grok 3 mini Reasoning obtiveram pontuações inferiores ao o3-mini-high no AIME 2025 na condição "@1", ou seja, a primeira tentativa do modelo de pontuar no benchmark. Até mesmo as pontuações do Grok 3 Reasoning Beta estão apenas ligeiramente à frente do modelo o1 da OpenAI (definido para computação "média"). No entanto, mesmo com esse tipo de comparação de dados, a xAI ainda anuncia o Grok 3 como "a IA mais inteligente do mundo". Essa estratégia de publicidade não se baseia em evidências científicas rigorosas, mas é mais uma tática de marketing para chamar a atenção do mercado. Em um momento em que a tecnologia de IA está mudando rapidamente, é mais importante fazer um progresso tecnológico realista ou é mais importante conquistar o futuro por meio de um exagero de marketing? Essa pode ser uma pergunta que todo o setor de IA deveria considerar seriamente.

Conteúdo3
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Dados de referência do Grok 3 "diluídos"? Funcionário da OpenAI diz que a xAI pode estar deturpando o desempenho

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil