Dados de referência do Grok 3 "diluídos"? Funcionário da OpenAI diz que a xAI pode estar deturpando o desempenho

Notícias sobre IAPublicado há 6 meses Círculo de compartilhamento de IA

8.8K 00

O debate sobre benchmarking de IA e como os laboratórios de IA publicam seus resultados está se tornando cada vez mais público. Há muito tempo, o desempenho da IA é medido e relatado de maneiras controversas, e agora esses debates nos bastidores estão finalmente se tornando públicos.

Esta semana, um funcionário da OpenAI acusou publicamente a xAI, a empresa de IA fundada por Elon Musk, de publicar resultados de benchmark enganosos para promover seus modelos de IA mais recentes. Grok 3. Igor Babushkin, um dos cofundadores da xAI, respondeu imediatamente às acusações, insistindo que não havia nada de errado com a abordagem da xAI. O debate público certamente trouxe à tona a questão da transparência na avaliação do desempenho da IA.

Grok 3 基准测试数据“掺水”？ OpenAI 员工爆料 xAI 或虚报性能

Mas a verdade, talvez, esteja em algum lugar entre os dois lados. Assim como acontece com muitas disputas no campo técnico, a verdade geralmente está abaixo da superfície e requer escavações e análises mais profundas.

Em uma publicação no blog oficial da xAI, a xAI apresenta um gráfico que ilustra o desempenho superior do Grok 3 no benchmark AIME 2025. O AIME 2025 é uma coleção de perguntas de um recente exame de matemática para convidados de alto risco e é considerado um teste decisivo para as capacidades matemáticas da IA. No entanto, vale a pena observar que há muito tempo os especialistas questionam a validade do AIME como referência de IA. Pode ser interessante ver quais foram as intenções da xAI ao escolher um benchmark tão controverso para demonstrar a capacidade do modelo. No entanto, o AIME 2025 e suas versões anteriores ainda são amplamente usados para avaliar o raciocínio matemático dos modelos de IA.

Em seus gráficos, a xAI afirma que ambas as versões do Grok 3, Grok 3 Reasoning Beta e Grok 3 mini Reasoning, superam o modelo atual de última geração da OpenAI, o3-mini-high, no teste AIME 2025. No entanto, a equipe da OpenAI foi rápida em apontar na plataforma X que os gráficos da xAI tinham uma falha crítica: omitiam as pontuações do teste AIME 2025 do o3-mini-high em condições "cons@64". Essa apresentação seletiva de dados levanta dúvidas sobre as verdadeiras intenções da xAI.

Você pode se perguntar: "O que é exatamente "consensus@64"? Simplificando, significa "consensus@64" e é um tipo especial de método de avaliação. Nesse método, o modelo tenta responder 64 vezes a cada pergunta do teste de benchmark, e a resposta mais frequente é a resposta final. Como era de se esperar, o mecanismo "cons@64" tende a melhorar significativamente a pontuação de benchmark de um modelo. A xAI omite deliberadamente os dados "cons@64" de seus gráficos, o que pode dar a impressão de que o Grok 3 supera outros modelos, mas esse pode não ser o caso. Essa abordagem "complicada" não é justa?

Analisando os dados reais, tanto o Grok 3 Reasoning Beta quanto o Grok 3 mini Reasoning obtiveram pontuações inferiores ao o3-mini-high no AIME 2025 na condição "@1", ou seja, a primeira tentativa do modelo de pontuar no benchmark. Até mesmo as pontuações do Grok 3 Reasoning Beta estão apenas ligeiramente à frente do modelo o1 da OpenAI (definido para computação "média"). No entanto, mesmo com esse tipo de comparação de dados, a xAI ainda anuncia o Grok 3 como "a IA mais inteligente do mundo". Essa estratégia de publicidade não se baseia em evidências científicas rigorosas, mas é mais uma tática de marketing para chamar a atenção do mercado. Em um momento em que a tecnologia de IA está mudando rapidamente, é mais importante fazer um progresso tecnológico realista ou é mais importante conquistar o futuro por meio de um exagero de marketing? Essa pode ser uma pergunta que todo o setor de IA deveria considerar seriamente.

Notícias sobre IA

Direitos autorais do artigo Círculo de compartilhamento de IA A todos, favor não reproduzir sem permissão.

Relatório de avaliação dos melhores produtos de IA para empresas do mundo

Notícias sobre IA

6 meses atrás

09.8K

Esses pequenos dispositivos estranhos na Consumer Electronics Show (CES) 2025

Notícias sobre IA

8 meses atrás

07.9K

Deep Research：一款深度探索知识并生成报告的新工具，Google给出的主题知识研究新范式

Deep Research: uma nova ferramenta para explorar o conhecimento em profundidade e gerar relatórios, um novo paradigma para a pesquisa de conhecimento sobre o assunto fornecido pelo Google

Notícias sobre IA

8 meses atrás

010.6K

Modelo de código aberto R1-1776 da Perplexity AI: superando preconceitos e censura

Notícias sobre IA # Análise de dados de IA

6 meses atrás

011.9K

Sem comentários

Você precisa estar conectado para participar dos comentários!

Faça login agora

Nenhum comentário...

Dados de referência do Grok 3 "diluídos"? Funcionário da OpenAI diz que a xAI pode estar deturpando o desempenho

Zero One Everything: os spin-offs de empresas podem se tornar um novo mecanismo de crescimento com um foco estratégico bem ajustado?

O modelo de geração de vídeo VBench está no topo das paradas... No topo das paradas - WanX 2.1 em breve será de código aberto!

Artigos relacionados

Relatório de avaliação dos melhores produtos de IA para empresas do mundo

Esses pequenos dispositivos estranhos na Consumer Electronics Show (CES) 2025

Deep Research: uma nova ferramenta para explorar o conhecimento em profundidade e gerar relatórios, um novo paradigma para a pesquisa de conhecimento sobre o assunto fornecido pelo Google

Modelo de código aberto R1-1776 da Perplexity AI: superando preconceitos e censura

Sem comentários

Últimas coleções

Artigos mais recentes

Dados de referência do Grok 3 "diluídos"? Funcionário da OpenAI diz que a xAI pode estar deturpando o desempenho

Zero One Everything: os spin-offs de empresas podem se tornar um novo mecanismo de crescimento com um foco estratégico bem ajustado?

O modelo de geração de vídeo VBench está no topo das paradas... No topo das paradas - WanX 2.1 em breve será de código aberto!

Artigos relacionados

Relatório de avaliação dos melhores produtos de IA para empresas do mundo

Esses pequenos dispositivos estranhos na Consumer Electronics Show (CES) 2025

Deep Research: uma nova ferramenta para explorar o conhecimento em profundidade e gerar relatórios, um novo paradigma para a pesquisa de conhecimento sobre o assunto fornecido pelo Google

Modelo de código aberto R1-1776 da Perplexity AI: superando preconceitos e censura

Sem comentários

Ferramentas de IA selecionadas

Últimas coleções

Artigos mais recentes