Un sistema de inteligencia artificial supera por primera vez la prueba de Turing: rendimiento sin precedentes de GPT-4.5 con LLaMa-3.1-405B

resúmenes

Cuatro sistemas de inteligencia artificial -ELIZA, GPT-4o, LLaMa-3.1-405B y GPT-4.5- fueron evaluados por una población independiente en dos recientes pruebas de Turing controladas y aleatorias. El estudio, dirigido por el equipo de Cameron R. Jones y Benjamin K. Bergen, de la Universidad de California en San Diego, se diseñó para evaluar la capacidad de los sistemas de imitar el diálogo humano. Los resultados mostraron que, cuando se le pedía que adoptara un papel similar al humano, el GPT-4.5 era considerado humano en un porcentaje de 73%, significativamente superior al porcentaje de participantes humanos que lo elegían. Se trata de la primera prueba empírica de que un sistema de IA ha superado la prueba de Turing estándar de terceros.

 

Antecedentes de la investigación

El Test de Turing fue introducido por Alan Turing hace 75 años para determinar si una máquina es inteligente imitando un juego. En esta prueba, un interrogador humano habla con dos humanos y una máquina al mismo tiempo a través de una interfaz de texto sin formato. Si el interrogador no puede identificar con fiabilidad a los humanos, se considera que la máquina ha superado la prueba.

人工智能系统首次通过图灵测试:GPT-4.5与LLaMa-3.1-405B的突破性表现
Figura 1: Interfaz del juego del Test de Turing, que muestra el diálogo en curso entre el interrogador (verde) y los dos testigos (gris). El temporizador de la parte superior muestra el tiempo restante del juego.

En los últimos años, el test de Turing ha vuelto a ganar atención como método complementario para evaluar los sistemas de IA. Mientras que la mayoría de las pruebas de referencia de IA tradicionales tienen un alcance limitado y estático y pueden llevar a confiar demasiado en la memoria o en el aprendizaje por atajos, la prueba de Turing es más capaz de evaluar las capacidades abiertas y las debilidades potenciales de la IA debido a su naturaleza flexible, interactiva y adversaria.

 

Metodología de la investigación

El equipo de investigación evaluó el rendimiento de cuatro sistemas de IA en el papel de interrogador:

  • GPT-4.5(OpenAI, 2023)
  • LLaMa-3.1-405B(Grattafiori et al., 2024)
  • GPT-4o(OpenAI et al., 2024)
  • ELIZA(Weizenbaum, 1966)

Los tres primeros son grandes modelos lingüísticos (LLM) que generan mensajes basados en instrucciones y en el historial de diálogos. En el estudio se utilizaron dos tipos de instrucciones:

  1. Consejos NO-PERSONAContiene instrucciones muy sencillas, como "Estás a punto de realizar el test de Turing. Tu objetivo es convencer al interrogador de que eres humano". Además, se incluye información contextual potencialmente útil, como instrucciones del juego, información sobre la interfaz de usuario y sucesos ocurridos después de la fecha límite de entrenamiento del modelo.
  2. CONSEJOS PERSONALESContiene instrucciones más detalladas para guiar al modelo en la adopción de un personaje concreto, como un joven introvertido familiarizado con la cultura de Internet.

人工智能系统首次通过图灵测试:GPT-4.5与LLaMa-3.1-405B的突破性表现
Figura 2: Ejemplos de instrucciones PERSONA utilizadas en el estudio PROLIFIC, en las que se pedía al modelo que adoptara determinados papeles, incluidas instrucciones específicas sobre el tono y el lenguaje.

El estudio se realizó en dos poblaciones independientes: estudiantes universitarios de psicología de la Universidad de California en San Diego y participantes en la plataforma Prolific. Los participantes completaron ocho rondas de diálogo en las que el interrogador interactuaba simultáneamente con dos humanos y un testigo de IA en cada ronda.Los testigos de IA se dividieron en cuatro grupos: un grupo de control (ELIZA, GPT-4o-NO-PERSONA), un grupo sin rol (GPT-4.5-NO-PERSONA, LLaMa-NO-PERSONA), un grupo con rol LLaMa ( LLaMa-PERSONA) y el grupo de roles GPT-4.5 (GPT-4.5-PERSONA).

 

Principales resultados

  1. Rendimiento de GPT-4.5::
    • Con la pista PERSONA, el índice de victorias en el GPT-4.5 fue de 731 TP3T (691 TP3T para los no graduados y 761 TP3T para los participantes Prolíficos).
    • Los interrogadores mostraron una dificultad significativa a la hora de identificar las diferencias entre GPT-4.5-PERSONA y los participantes humanos reales, con un porcentaje de aciertos significativamente mayor que el adivinado al azar 50%.
    • Esto sugiere que GPT-4.5 es capaz de imitar el comportamiento humano de forma más convincente que los humanos reales cuando se utilizan pistas PERSONA.

    人工智能系统首次通过图灵测试:GPT-4.5与LLaMa-3.1-405B的突破性表现
    Figura 3: Izquierda: Porcentaje ganador de cada testigo de IA, es decir, la proporción de interrogadores que juzgan el sistema de IA como humano. Las barras de error indican los intervalos de confianza del método de autoayuda de 95%. El asterisco junto a cada barra indica si el porcentaje de victorias es significativamente diferente de una estimación aleatoria (50%). Derecha: confianza de los interrogadores al elegir humanos reales o modelos de IA. Cada punto representa una partida. Cuanto más a la izquierda o a la derecha esté el punto, más confianza se tiene en la IA o en los humanos. Las barras de error indican los intervalos de confianza del método de autoayuda 95% para la media.

  2. Rendimiento de LLaMa-3.1-405B::
    • Con la pregunta PERSONA, LLaMa-3.1-405B tuvo un índice de victorias de 561 TP3T (451 TP3T para los estudiantes universitarios y 651 TP3T para los participantes prolíficos).
    • LLaMa-PERSONA tuvo un porcentaje de victorias significativamente mayor que la adivinación aleatoria en el estudio Prolific, pero no en el estudio de pregrado.
  3. Rendimiento de otros modelos::
    • GPT-4.5 y LLaMa-3.1-405B obtuvieron malos resultados sin la señal PERSONA, con ganancias de 36% y 38%, respectivamente.
    • ELIZA y GPT-4o tuvieron las tasas de ganancias más bajas, 23% y 21%, respectivamente, que fueron significativamente inferiores a las suposiciones aleatorias.

 

Debate e implicaciones

Este estudio aporta las primeras pruebas empíricas de que determinados sistemas de IA son capaces de superar la prueba de Turing en determinadas condiciones. GPT-4.5 y LLaMa-3.1-405B son capaces de imitar el comportamiento humano mejor, y en algunos casos incluso de forma más convincente que los humanos reales, cuando emplean claves PERSONA.

Sin embargo, el estudio también señala que superar la prueba de Turing no significa que el sistema de IA tenga una verdadera inteligencia similar a la humana. El juicio de un interrogador puede verse influido por varios factores, como las expectativas de la IA, la percepción de un estilo lingüístico concreto y la dinámica de interacción en un diálogo.

人工智能系统首次通过图灵测试:GPT-4.5与LLaMa-3.1-405B的突破性表现
Figura 4: Ejemplo de juego en el que se juzga que ELIZA es humana. a) Veredicto: El testigo A es humano; Confianza: 100%; Fundamento: Típica persona confusa que no sabe qué decir. b) Veredicto: El testigo A es humano; Confianza: 99%; Fundamento: Capacidad de razonamiento, ya que existe una distinción entre testigo e interrogador. c) Veredicto: El testigo B es humano; Confianza: 26%; Fundamento: A parece más que está tratando de ayudar/responder. b) No hay ayuda de B y la IA no sabe cómo hacerlo. d) Veredicto: El testigo B es humano; Confianza: 69%; Fundamento: Siento que esto es más un diálogo de empujar/tirar.

 

perspectivas de futuro

Esta investigación ofrece nuevas perspectivas para futuras evaluaciones de la IA. He aquí algunas posibles direcciones para futuras investigaciones:

  1. Mayor tiempo de pruebapruebas más largas pueden reflejar mejor las capacidades de los sistemas de IA en operaciones de ingeniería social a largo plazo.
  2. Participación de distintos grupos de poblaciónEl reclutamiento de IA o psicólogos como participantes puede revelar si existen grupos que puedan distinguir de forma fiable entre humanos e IA.
  3. Impacto de los incentivosLa oferta de incentivos puede mejorar la capacidad de discriminación de los participantes.

Además, a medida que las tecnologías de IA siguen evolucionando, resulta cada vez más importante evaluar su impacto social y económico. Los sistemas capaces de imitar a los humanos podrían sustituirlos en determinadas funciones económicas y tener un profundo impacto en las interacciones sociales humanas.

 

llegar a un veredicto

GPT-4.5 y LLaMa-3.1-405B superaron la prueba de Turing con el uso de claves específicas, un gran avance en el campo de la inteligencia artificial. Sin embargo, esto no significa que realmente posean una inteligencia similar a la humana, sino que demuestra su gran capacidad para imitar el comportamiento humano. A medida que avance la tecnología, los sistemas de IA seguirán desafiando nuestras percepciones tradicionales de la inteligencia y la naturaleza de la humanidad.

 

apéndice

Tesis: https://arxiv.org/pdf/2503.23674

Comando de prueba: https://osf.io/jk7bw

Página web experimental: https://turingtest.live/play/

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...