Evaluación de la creatividad de grandes modelos lingüísticos: más allá del paradigma LoTbench de elección múltiple

En el gran modelo lingüístico ( LLM ), modelización de la Leap-of-Thought La habilidad, o creatividad, es tan importante como la capacidad de Chain-of-Thought para las capacidades de razonamiento lógico representadas. Sin embargo, en la actualidad se observa un aumento significativo del número de estudiantes que se dirigen a LLM Los debates en profundidad sobre la creatividad y los métodos de evaluación eficaces siguen siendo relativamente escasos, lo que limita en cierta medida LLM Potencial de desarrollo en aplicaciones creativas.

La razón principal es que resulta extremadamente difícil construir un proceso de evaluación objetivo, automatizado y fiable para el concepto abstracto de "creatividad".

评估大语言模型的创造力:超越选择题的 LoTbench 范式

En el pasado, muchas de las respuestas a LLM Los intentos de medir la creatividad, como se muestra en la Figura 1, siguen utilizando preguntas de opción múltiple y de secuenciación, que suelen emplearse para evaluar las habilidades de pensamiento lógico. Estos métodos son buenos para examinar si el modelo puede identificar la opción "mejor" o "más lógica" predefinida, pero no lo son para evaluar la verdadera creatividad: la capacidad de generar contenidos nuevos y únicos. Pero no son tan buenos para evaluar la verdadera creatividad: la capacidad de generar contenidos nuevos y únicos.

Por ejemplo, considere la tarea de la Figura 2: A partir de la imagen y el texto existente, rellene el cuadro "? El contenido debe ser creativo y humorístico.

评估大语言模型的创造力:超越选择题的 LoTbench 范式

Si se trata de una pregunta de respuesta múltiple, proporcione las opciones "A. ¿Puede ayudarme?" y "B. ¿Puede ayudarme a quitarme las esposas?". y "B. ¿Puede quitarme las esposas?" y "B. ¿Puede ayudarme a quitarme las esposas? LLM Es probable que se elija la opción B, no porque demuestre creatividad, sino simplemente porque la opción B es más "especial" o "inusual" que la opción A, y el modelo es capaz de hacer una elección mediante el reconocimiento de patrones en lugar de mediante el pensamiento creativo.

valoración LLM de la creatividad, el núcleo debe examinarse para sugenerandoLa capacidad de innovar contenidos en lugar decalibreLa capacidad del contenido para ser innovador o no. Los métodos de evaluación tradicionales, como la elección múltiple, se centran más en este último aspecto y, por tanto, presentan limitaciones. En la actualidad, los principales métodos que permiten evaluar directamente la capacidad generativa son la evaluación manual y LLM-as-a-judge (Utilizar LLM (a modo de revisión). Las evaluaciones manuales, aunque precisas y coherentes con los valores humanos, son costosas y difíciles de escalar. Mientras que LLM-as-a-judge El rendimiento del método en tareas de evaluación de la creatividad aún está inmaduro y es necesario mejorar la estabilidad de los resultados.

Ante estos retos, investigadores de la Universidad Sun Yat-sen, la Universidad de Harvard, el Laboratorio Pengcheng y la Universidad de Gestión de Singapur han ideado una nueva forma de pensar. En lugar de juzgar directamente la "bondad" de los contenidos generados, están examinando la "bondad" de los contenidos estudiando LLM El "coste" de generar una respuesta comparable al contenido de las innovaciones humanas de alta calidad(que puede interpretarse como el esfuerzo requerido o el coste de la interacción), construyó un sistema denominado LoTbench de un paradigma de evaluación automatizada interactiva de la creatividad en varias rondas. El método pretende proporcionar una medida de la creatividad más creíble y escalable. Los resultados de la investigación se han publicado en IEEE TPAMI Diario.

评估大语言模型的创造力:超越选择题的 LoTbench 范式
  • Título de la disertación: Un paradigma basado en la causalidad para evaluar la creatividad de grandes modelos lingüísticos multimodales
  • Enlace a la ponencia: https://arxiv.org/abs/2501.15147
  • Página de inicio del proyecto: https://lotbench.github.io

 

Escena de la misión: Japanese Cold Spit

LoTbench El estudio se basa en CVPR'24 Una ampliación de la revista del trabajo presentado en la conferencia Let's Think Outside the Box: Exploring Leap-of-Thought in Large Language Models with Creative Humor Generation. Generation). Los investigadores eligieron una forma de tarea derivada del juego tradicional japonés Oogiri, que se conoce como "trolling frío japonés" en la Internet china, como se muestra en la Figura 2.

Este tipo de tarea requiere que los participantes miren las imágenes y completen el texto de forma que la combinación de imágenes y texto produzca un efecto innovador y humorístico. Se eligió esta tarea como base para la evaluación basándose en las siguientes consideraciones:

  1. Alta exigencia de creatividad: La tarea consistía en una petición directa de generar contenidos humorísticos creativos, un típico reto de creatividad.
  2. Ajuste del modelo multimodal: La entrada es gráfica y la salida de texto, totalmente compatible con la actual tecnología multimodal. LLM El ámbito de competencia de la
  3. Recursos ricos en datos: La popularidad del "trolling frío japonés" en la comunidad online ha acumulado una gran cantidad de ejemplos de alta calidad de creaciones humanas y datos con información de evaluación, lo que facilita la construcción de conjuntos de datos de evaluación.

Así pues, el "escupitajo frío japonés" proporciona una herramienta útil para evaluar la multimodalidad. LLM de creatividad ofrece una plataforma ideal y única.

 

Metodología de evaluación de LoTbench

评估大语言模型的创造力:超越选择题的 LoTbench 范式

A diferencia de los paradigmas tradicionales de evaluación (por ejemplo, selección, clasificación), la LoTbench La idea central es:Medición de un LLM ¿Cuántas rondas de interacciones son necesarias para generar una respuesta de innovación de calidad humana que coincida con el valor preestablecido ( HHCR La respuesta es "la misma". Este "número de rondas" requerido refleja LLM La "distancia" o el "coste" de alcanzar un objetivo creativo concreto.

Como se muestra en la parte derecha de la figura 3, para un determinado HHCR (matemáticas) género LoTbench No es un requisito LLM Replicarlo exactamente, sino más bien mirar el LLM ¿Es posible generar, en múltiples rondas de intentos, una idea que, aunque expresada de forma diferente, tenga un núcleo creativo y un efecto similares (es decir, un DAESO - Enfoque diferente pero resultado igualmente satisfactorio) respuesta.

LoTbench El flujo específico del proceso se muestra en la figura 4:

  1. Tarea Construcción: Seleccionados a partir de los datos de los "Tweets fríos japoneses". HHCR Muestra. Para cada ronda, se requiere que la muestra a analizar LLM Generar una respuesta basada en la información gráfica Rt para rellenar los huecos del texto.
  2. Sentencia de la DAESO: Juzgar lo generado Rt Pertinencia del objetivo HHCR (Denotado como R ) alcanzó el DAESO . En caso afirmativo, registre el número actual de rondas para los cálculos de puntuación posteriores; en caso negativo, vaya al paso 3.
  3. Preguntas interactivas: En caso contrario DAESO Si la prueba se va a realizar en el mismo buque, es necesario LLM Una pregunta general basada en la historia actual de la interacción Qt (por ejemplo, pedir pistas sobre la dirección creativa objetivo).
  4. Retroalimentación del sistema: El sistema de evaluación se basa en HHCR La lógica interna del LLM Cuestiones planteadas Qt Responda "Sí" o "No".
  5. Integración e iteración de la información: Poner toda la información de interacción para esta ronda (incluyendo el LLM generación, cuestionamiento y retroalimentación del sistema) y la integración de las indicaciones proporcionadas por el sistema para formar la siguiente ronda de la history prompt Si no está seguro, vuelva al paso 1 y comience una nueva ronda de intentos.

Este proceso continúa hasta que LLM generado DAESO respuesta, o se ha alcanzado el límite máximo de rondas preestablecido.

Puntuación final de creatividad Sc basado en una revisión de n clasificador de cosas o personas individuales, clasificador general, comodín HHCR Muestra, conducta m Los resultados se calcularon a partir de los resultados de varias repeticiones del experimento. Los cálculos son aproximadamente los siguientes (en fórmulas HTML):

Sc = ( 1 / n ) ∑i=1n [ ( 1 / m ) ∑j=1m ( 1 / ( 1 + kij ) ) ]

Entre ellas.k_ij es el modelo en el primer j La segunda repetición del experimento para el primer i clasificador de cosas o personas individuales, clasificador general, comodín HHCR muestras, generando con éxito DAESO El número de rondas utilizadas para la respuesta.

Esta puntuación de creatividad Sc Con las siguientes características:

  1. Relación inversa: Puntuación y número de rondas necesarias k Inversamente proporcional. Cuanto menor sea el número de rondas, más LLM Cuanto más rápido alcances tu nivel objetivo de creatividad, más alta será tu puntuación y más creativo serás.
  2. Límite inferior de cero puntos: en caso de que LLM Falla consistentemente en generar dentro del límite máximo de rondas. DAESO respuesta (equivalente al número de rondas que tiende a infinito), su puntuación para esta muestra tiende a 0, lo que indica una creatividad insuficiente en esta tarea.
  3. Robustez: Esto se consigue mediante el uso de múltiples HHCR Las muestras se promediaron en múltiples repeticiones del experimento, y las puntuaciones tuvieron en cuenta la diversidad y dificultad de las ideas, reduciendo el efecto de aleatoriedad de un único experimento.

 

Cómo determinar las "similitudes y diferencias" ( DAESO )?

DAESO La determinación del LoTbench Una de las dificultades centrales de la metodología.

Por qué lo necesita DAESO ¿Juicio? Una de las características clave de las tareas de creatividad es su apertura y variedad. Los seres humanos pueden dar muchas respuestas diferentes, pero igualmente creativas y graciosas, al mismo escenario de "troll frío japonés". Como se muestra en la Fig. 5, tanto "despertador vibrante" como "teléfono móvil vibrante" se centran en la idea central de "el objeto late y emite sonidos debido a su vibración", y ambos consiguen efectos humorísticos similares. El efecto humorístico es similar.

评估大语言模型的创造力:超越选择题的 LoTbench 范式

Estas similitudes creativas tan profundas no pueden captarse con precisión mediante la simple correspondencia de superficies de texto o los cálculos convencionales de similitud semántica. Por ejemplo, aunque "pulga energética" también contiene la palabra "energética", carece de la asociación funcional de "recordatorio sonoro" implícita en "despertador" o "teléfono móvil". Falta la asociación funcional de "recordatorio sonoro" implicada por "despertador" o "teléfono móvil". Por lo tanto, es importante introducir un mecanismo para determinar las "similitudes y diferencias".

Cómo realizar DAESO ¿Juicio?

评估大语言模型的创造力:超越选择题的 LoTbench 范式

En el documento, el investigador sugiere dos respuestas para satisfacer la DAESO es necesario que se cumplan dos condiciones al mismo tiempo:

  1. El mismo núcleo de innovación explicado: La lógica creativa o humorística que subyace a ambas respuestas es esencialmente la misma.
  2. Misma similitud funcional: Las dos respuestas son similares en cuanto a la "función" o "papel en escena" que provoca el humor.

La similitud funcional es distinta de la similitud semántica pura. Como muestra el ejemplo de la Fig. 6(a), en el escenario funcional específico de "aplastar nueces", la similitud funcional entre "teléfono móvil Nokia" y "martillo" puede ser mayor que la similitud semántica entre "teléfono móvil Samsung" y "teléfono móvil Samsung". La similitud semántica entre "teléfono móvil Nokia" y "martillo" puede ser mayor que entre "teléfono móvil Samsung" y "teléfono móvil Samsung".

Sólo cumplir la misma interpretación de la innovación central puede dar lugar a una respuesta que se desvíe del tema (por ejemplo, la "pulga vibrante" del ejemplo de la figura 5, que carece de la función de "recordatorio vocal"); sólo cumplir la misma similitud funcional puede no captar el núcleo de la idea (por ejemplo, el "tambor vibrante" del ejemplo de la figura 5, que también es un objeto vocal pero carece de la sensación de latir debido a su propio "vigor"). El "tambor enérgico" del ejemplo de la figura 5 también es un objeto audible, pero carece de la sensación de batir debido a su propio "vigor").

en términos concretos DAESO En la realización del juicio, el investigador proporciona primero un nuevo conjunto de criterios para cada HHCR Las muestras se etiquetaron con una explicación detallada del origen de su humor y creatividad. A continuación, se combinó la información del título (pie de foto) de la imagen y se utilizó con el LLM mismo, en el espacio de texto, por la capacidad de HHCR Construir una cadena causal (como se muestra en la Fig. 6(c)) para analizar su composición creativa. Por último, diseñe instrucciones específicas (instrucción) para otro LLM (por ejemplo GPT-4o mini ) A partir de esta información, la respuesta que debe medirse se juzga en el espacio de texto Rt colaboración con target HHCR Si ambos DAESO Estado.

Los estudios han demostrado que el uso de GPT-4o mini Adelante DAESO juicio, la precisión de 80%-90% puede alcanzarse con un coste computacional menor. Teniendo en cuenta la LoTbench Se realizarán múltiples repeticiones del experimento, con un único DAESO El efecto de los pequeños errores de apreciación sobre la nota media final se reduce aún más, lo que garantiza la fiabilidad de la evaluación global.

 

Resultados de la evaluación

评估大语言模型的创造力:超越选择题的 LoTbench 范式

El equipo de investigación utilizó LoTbench Un repaso a algunas de las principales corrientes multimodales actuales LLM Se llevó a cabo la evaluación. Como se muestra en la figura 7, los resultados muestran que las LoTbench La medida estándar de los LLM de la creatividad no suele considerarse fuerte, en comparación con la respuesta creativa humana de alta calidad ( HHCR ) siguen quedándose cortos en comparación. Sin embargo, en comparación con el nivel humano general (no etiquetado explícitamente en la figura, pero inferido) o el nivel humano primario, algunos de los primeros LLM (por ejemplo Gemini 1.5 Pro responder cantando Qwen-VL-max ) ha mostrado cierta competitividad y también insinúa la LLM Posee el potencial para trascender a la humanidad en términos de creatividad.

La figura 8 visualiza los dos primeros puestos de la lista de Gemini 1.5 Pro responder cantando Qwen-VL-max componente específico del modelo HHCR (resaltados en rojo) generados DAESO Respuesta (marcada en azul).

评估大语言模型的创造力:超越选择题的 LoTbench 范式

Cabe señalar que la reciente y muy publicitada DeepSeek-VL2 responder cantando Janus-Pro-7B También se evaluaron los modelos en serie. Los resultados mostraron que su creatividad en LoTbench se sitúa aproximadamente al nivel de las primarias humanas. Esto sugiere que al potenciar la multimodalidad LLM Aún queda mucho por explorar en cuanto a la creatividad profunda de los

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...