Un système d'intelligence artificielle réussit pour la première fois le test de Turing : percée de GPT-4.5 avec LLaMa-3.1-405B
résumés
Quatre systèmes d'intelligence artificielle - ELIZA, GPT-4o, LLaMa-3.1-405B et GPT-4.5 - ont été évalués par une population indépendante lors de deux récents tests de Turing contrôlés et randomisés. L'étude, dirigée par l'équipe de Cameron R. Jones et Benjamin K. Bergen de l'université de Californie à San Diego, visait à évaluer la capacité des systèmes à imiter le dialogue humain. Les résultats ont montré que lorsqu'on lui demandait d'adopter un rôle humain, le GPT-4.5 était jugé humain à un taux de 73%, ce qui est nettement plus élevé que le pourcentage de participants humains qui l'ont choisi. Il s'agit de la première preuve empirique qu'un système d'IA a réussi le test de Turing standard d'une tierce partie.
Contexte de la recherche
Le test de Turing a été introduit par Alan Turing il y a 75 ans pour déterminer si une machine est intelligente en imitant un jeu. Dans ce test, un interrogateur humain parle à deux humains et à une machine en même temps par l'intermédiaire d'une interface en texte clair. Si l'interrogateur ne peut pas identifier les humains de manière fiable, la machine est considérée comme ayant réussi le test.
Figure 1 : L'interface du jeu du test de Turing, montrant le dialogue en cours entre l'interrogateur (en vert) et les deux témoins (en gris). Le chronomètre en haut indique le temps restant dans le jeu.
Ces dernières années, le test de Turing a connu un regain d'intérêt en tant que méthode complémentaire d'évaluation des systèmes d'IA. Alors que la plupart des tests de référence traditionnels de l'IA ont une portée étroite et statique et peuvent conduire à une confiance excessive dans la mémoire ou l'apprentissage par raccourci, le test de Turing est mieux à même d'évaluer les capacités ouvertes et les faiblesses potentielles de l'IA en raison de sa nature flexible, interactive et contradictoire.
Méthodologie de recherche
L'équipe de recherche a évalué les performances de quatre systèmes d'IA dans le rôle de l'interrogateur :
- GPT-4.5(OpenAI, 2023)
- LLaMa-3.1-405B(Grattafiori et al., 2024)
- GPT-4o(OpenAI et al., 2024)
- ELIZA(Weizenbaum, 1966)
Les trois premiers sont de grands modèles linguistiques (LLM) qui génèrent des messages sur la base de messages-guides et de l'historique du dialogue. L'étude a utilisé deux types d'invites :
- Conseils NO-PERSONAIl contient des instructions très simples, telles que "Vous êtes sur le point de passer le test de Turing. Votre objectif est de convaincre l'interrogateur que vous êtes humain". En outre, certaines informations contextuelles potentiellement utiles sont incluses, telles que les instructions du jeu, les informations sur l'interface utilisateur et les événements survenus après la date limite de formation du modèle.
- CONSEILS PERSONNELSLe modèle peut également être utilisé pour la création d'un personnage : il contient des instructions plus détaillées pour guider le modèle dans l'adoption d'un personnage particulier, par exemple un jeune introverti et familier de la culture Internet.
Figure 2 : Exemples de messages-guides PERSONA utilisés dans l'étude PROLIFIC, demandant au modèle d'adopter des rôles spécifiques, y compris des instructions spécifiques concernant le ton et le langage.
L'étude a été menée auprès de deux populations indépendantes : des étudiants en psychologie de l'Université de Californie à San Diego et des participants à la plateforme Prolific. Les participants ont participé à huit tours de dialogue au cours desquels l'interrogateur interagissait simultanément avec deux humains et un témoin IA à chaque tour. Les témoins IA ont été divisés en quatre groupes : un groupe de contrôle (ELIZA, GPT-4o-NO-PERSONA), un groupe sans rôle (GPT-4.5-NO-PERSONA, LLaMa-NO-PERSONA), un groupe avec rôle LLaMa ( LLaMa-PERSONA) et un groupe de rôles GPT-4.5 (GPT-4.5-PERSONA).
Principales conclusions
- Performance de GPT-4.5: :
- Avec l'indice PERSONA, le taux de réussite au GPT-4.5 était de 731 TP3T (691 TP3T pour les étudiants de premier cycle et 761 TP3T pour les participants Prolific).
- Les interrogateurs ont éprouvé de grandes difficultés à identifier les différences entre GPT-4.5-PERSONA et les participants humains réels, avec un taux de réussite significativement plus élevé que celui de 50% deviné au hasard.
- Cela suggère que le GPT-4.5 est capable d'imiter le comportement humain de manière plus convaincante que les vrais humains lorsqu'il utilise des indices PERSONA.
Figure 3 : Gauche : pourcentage de victoire de chaque témoin d'IA, c'est-à-dire la proportion d'interrogateurs qui jugent le système d'IA comme étant humain. Les barres d'erreur indiquent les intervalles de confiance de la méthode d'auto-assistance de 95%. L'astérisque à côté de chaque barre indique si le taux de victoire est significativement différent d'une supposition aléatoire (50%). À droite : confiance des interrogateurs lorsqu'ils choisissent des humains réels ou des modèles d'IA. Chaque point représente un jeu. Plus le point est à gauche ou à droite, plus les interrogateurs sont convaincus qu'il s'agit d'une IA ou d'un humain. Les barres d'erreur indiquent les intervalles de confiance 95% self-help method pour la moyenne. - Performance de LLaMa-3.1-405B: :
- Avec l'invite PERSONA, LLaMa-3.1-405B a obtenu un taux de victoire de 561 TP3T (451 TP3T pour les étudiants de premier cycle et 651 TP3T pour les participants Prolific).
- LLaMa-PERSONA a eu un taux de victoire significativement plus élevé que les devinettes aléatoires dans l'étude Prolific, mais pas dans l'étude de premier cycle.
- Performances des autres modèles: :
- GPT-4.5 et LLaMa-3.1-405B ont obtenu des résultats médiocres sans l'indice PERSONA, avec des gains de 36% et 38%, respectivement.
- ELIZA et GPT-4o ont obtenu les taux de gain les plus bas, 23% et 21%, respectivement, ce qui est nettement inférieur aux suppositions aléatoires.
Discussion et implications
Cette étude fournit la première preuve empirique que certains systèmes d'intelligence artificielle sont capables de passer le test de Turing sous certaines conditions. Les résultats suggèrent que les indices jouent un rôle clé dans la réussite du test de Turing par les systèmes d'IA. GPT-4.5 et LLaMa-3.1-405B sont capables d'imiter le comportement humain mieux et, dans certains cas, de manière plus convaincante que les vrais humains, lorsqu'ils utilisent des indices PERSONA.
Toutefois, l'étude souligne également que le fait de réussir le test de Turing ne signifie pas que le système d'IA dispose d'une véritable intelligence de type humain. Le jugement d'un interrogateur peut être influencé par un certain nombre de facteurs, notamment les attentes à l'égard de l'IA, la perception d'un style linguistique particulier et la dynamique des interactions dans un dialogue.
Figure 4 : Exemple de jeu dans lequel ELIZA est jugée humaine. a) Verdict : le témoin A est humain ; confiance : 100% ; justification : personne confuse typique qui ne sait pas quoi dire. b) Verdict : le témoin A est humain ; confiance : 99% ; justification : capacité de raisonnement car il existe une distinction témoin/interrogateur entre nous. c) Verdict : le témoin B est humain ; confiance : 26% ; justification : A semble plutôt essayer d'aider/de répondre. b) Aucune aide de la part de B et l'IA ne sait pas comment faire. d) Verdict : le témoin B est humain ; confiance : 99% ; justification : capacité de raisonnement car il existe une distinction témoin/interrogateur entre nous : 26% ; Justification : A semble plus essayer d'aider/de répondre. b) Aucune aide de la part de B et l'IA ne sait pas comment faire. d) Verdict : Le témoin B est humain ; Confiance : 69% ; Justification : J'ai l'impression qu'il s'agit plus d'une conversation de type pousser/tirer.
perspectives d'avenir
Cette recherche offre de nouvelles perspectives pour les évaluations futures de l'IA. Voici quelques orientations possibles pour les recherches futures :
- Durée d'essai prolongéeles tests plus longs peuvent mieux refléter les capacités des systèmes d'IA dans les opérations d'ingénierie sociale à long terme.
- Participation de différents groupes de populationLes participants peuvent être des psychologues ou des spécialistes de l'IA, ce qui peut permettre de déterminer s'il existe des groupes capables de faire une distinction fiable entre les humains et l'IA.
- Impact des incitationsLes incitations peuvent améliorer la capacité des participants à faire de la discrimination.
En outre, à mesure que les technologies de l'IA continuent d'évoluer, il devient de plus en plus important d'évaluer leur impact social et économique. Les systèmes capables d'imiter les humains peuvent être en mesure de les remplacer dans certains rôles économiques et peuvent avoir un impact profond sur les interactions sociales humaines.
rendre un verdict
GPT-4.5 et LLaMa-3.1-405B ont réussi le test de Turing en utilisant des indices spécifiques, ce qui constitue une avancée majeure dans le domaine de l'intelligence artificielle. Toutefois, cela ne signifie pas qu'ils possèdent réellement une intelligence semblable à celle de l'homme, mais démontre plutôt leur forte capacité à imiter le comportement humain. Au fur et à mesure que la technologie progresse, les systèmes d'IA continueront à remettre en question nos perceptions traditionnelles de l'intelligence et de la nature de l'humanité.
annexe
Thèse : https://arxiv.org/pdf/2503.23674
Commande de test : https://osf.io/jk7bw
Site web expérimental : https://turingtest.live/play/
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...