Les données de référence de Grok 3 " diluées " ? Un employé d'OpenAI déclare que xAI pourrait fausser les performances
Le débat sur l'étalonnage des performances de l'IA et la manière dont les laboratoires d'IA publient leurs résultats devient de plus en plus public. Les performances de l'IA sont depuis longtemps mesurées et communiquées de manière controversée, et ces débats en coulisses sont désormais sous les feux de la rampe.
Cette semaine, un employé d'OpenAI a publiquement accusé xAI, l'entreprise d'IA fondée par Elon Musk, de publier des résultats de référence trompeurs pour promouvoir ses derniers modèles d'IA. Grok 3. Igor Babushkin, l'un des cofondateurs de xAI, a immédiatement réagi aux accusations, insistant sur le fait que l'approche de xAI n'avait rien de répréhensible. Le débat public a certainement mis au premier plan la question de la transparence dans l'évaluation des performances de l'IA.

Mais la vérité se trouve peut-être quelque part entre les deux parties. Comme pour de nombreux litiges dans le domaine technique, la vérité se trouve souvent sous la surface et nécessite un examen plus approfondi.
Dans un article publié sur son blog officiel, xAI présente un graphique illustrant les performances supérieures de Grok 3 dans le test AIME 2025. AIME 2025 est un ensemble de questions tirées d'un récent examen de mathématiques sur invitation à fort enjeu, et est considéré comme un test décisif des capacités mathématiques de l'IA. Toutefois, il convient de noter que les experts remettent depuis longtemps en question la validité de l'AIME en tant que test de référence pour l'IA. Il serait intéressant de voir quelles étaient les intentions de xAI en choisissant une référence aussi controversée pour démontrer la capacité du modèle. Néanmoins, AIME 2025 et ses versions antérieures sont encore largement utilisées pour évaluer le raisonnement mathématique des modèles d'IA.

xAI a affirmé dans son tableau que les deux versions de Grok 3, Grok 3 Reasoning Beta et Grok 3 mini Reasoning, ont surpassé le modèle de pointe actuel d'OpenAI, o3-mini-high, dans le test AIME 2025. Cependant, le personnel d'OpenAI s'est empressé de souligner sur la plateforme X que le tableau de xAI présentait une faille critique : il omettait les résultats du test AIME 2025 de o3-mini-high dans les conditions "cons@64". Cette présentation sélective des données soulève des questions sur les intentions de xAI.
Vous vous demandez peut-être : "Qu'est-ce que le "consensus@64" ? En termes simples, il s'agit d'un "consensus@64" et d'une méthode d'évaluation particulière. Dans cette méthode, le modèle essaie 64 fois de répondre à chaque question du test de référence, et la réponse la plus fréquente est la réponse finale. Sans surprise, le mécanisme "cons@64" tend à améliorer de manière significative le score de référence d'un modèle. xAI omet délibérément les données "cons@64" dans ses graphiques, ce qui peut donner l'impression que Grok 3 surpasse les autres modèles, mais ce n'est peut-être pas le cas. Cette approche "délicate" n'est-elle pas équitable ?
Si l'on examine les données réelles, Grok 3 Reasoning Beta et Grok 3 mini Reasoning ont tous deux obtenu des scores inférieurs à o3-mini-high sur AIME 2025 dans la condition "@1", c'est-à-dire lors de la première tentative du modèle pour obtenir un score dans le benchmark. Même les scores de Grok 3 Reasoning Beta ne sont que légèrement supérieurs à ceux du modèle o1 d'OpenAI (réglé sur le calcul "moyen"). Cependant, même avec ce type de comparaison de données, xAI continue de présenter Grok 3 comme "l'IA la plus intelligente du monde". Cette stratégie publicitaire ne repose pas sur des preuves scientifiques rigoureuses, mais relève davantage d'une tactique de marketing visant à attirer l'attention du marché. À l'heure où la technologie de l'IA évolue rapidement, est-il plus important de réaliser des progrès technologiques concrets ou de conquérir l'avenir par un battage publicitaire exagéré ? C'est peut-être une question à laquelle l'ensemble du secteur de l'IA devrait sérieusement réfléchir.
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...