EQ-Bench Cómo evaluar la inteligencia emocional y la creatividad en grandes modelos lingüísticos
Base de conocimientos de IAPublicado hace 5 meses Círculo de intercambio de inteligencia artificial 10.4K 00
Con el rápido desarrollo de las capacidades de modelado lingüístico a gran escala (LLM), los puntos de referencia tradicionales como el MMLU
Las limitaciones a la hora de distinguir entre los mejores modelos se van haciendo patentes. Ya no es posible basarse únicamente en cuestionarios de conocimientos o pruebas estandarizadas para medir de forma exhaustiva las competencias sutiles que son fundamentales para los modelos en las interacciones del mundo real, como la inteligencia emocional, la creatividad, el juicio y la capacidad de comunicación. En este contexto se han puesto en marcha una serie de programas de investigación denominados EQ-Bench
Ha surgido un nuevo marco de evaluación que pretende profundizar en los resultados del LLM en estas complejas dimensiones.
EQ-Bench
y su conjunto de pruebas asociado ofrecen una perspectiva diversa que ya no se limita a simples juicios correctos o incorrectos, sino que se centra en la calidad del comportamiento del modelo y la toma de decisiones en escenarios reales simulados.
DeepSeek existeLas ilusiones abundan en las revisiones de los conocimientosPero el aspecto creativo de la escritura de la consideración de la relación calidad-precio se puede decir que carnicero de la lista, lo cual no es sorprendente, y muchas personas realmente utilizan la experiencia es también básicamente el mismo.
Canales de presentación y requisitos
Actualmente, el programa sólo acepta solicitudes que puedan presentarse a través del HuggingFace
Modelos de ponderación abiertos y disponibles públicamente para su mención y prueba. Se pedirá a los remitentes que faciliten un enlace al modelo, el formato óptimo de cueing y la configuración de generación, así como sus propios resultados de las pruebas por correo electrónico o Twitter. EQ-Bench
Puntuaciones. El proyecto validará los resultados y actualizará la clasificación. Dado que el proyecto está autofinanciado y cuenta con recursos informáticos limitados, los participantes deben saber que el proceso de validación puede llevar tiempo.
💙 EQ-Bench 3: Evaluación de la capacidad de mediación de conflictos
EQ-Bench 3
es una prueba de referencia de inteligencia emocional que se centra en las habilidades proactivas de mediación de conflictos. Evalúa la capacidad de los modelos lingüísticos para tratar cuestiones emocionales complejas en escenarios desafiantes y diversos. La prueba ya no se parece a la inicial EQ-Bench
De ese modo sólo predice estados emocionales, sino que examina directamente la capacidad del modelo para aplicar la inteligencia emocional activa.
Métodos de ensayo.
- Estructura. La prueba consiste en múltiples rondas de diálogo (hasta 21 rondas) entre el modelo sometido a prueba, que actúa como mediador de conflictos, y un modelo "actor" (actualmente en uso) que desempeña el papel de cliente o litigante.
gemini-2.0-flash-001
) para interactuar. Cada escena contiene una caracterización detallada con estados emocionales y trasfondos específicos. - Criterios de evaluación. La base de la puntuación incluye:
- Habilidades básicas de inteligencia emocional (reconocer emociones, expresar empatía)
- Competencias profesionales relacionadas con la terapia o la mediación
- Evitar errores profesionales graves
- Mecanismos de funcionamiento. La evaluación comparativa utiliza tres modelos: el modelo sometido a prueba, el modelo de actor y el modelo de árbitro (
Claude-3.7-Sonnet
). El modelo árbitro se encarga de puntuar el rendimiento del modelo sometido a prueba. - Valoración. La puntuación final combina puntuaciones en múltiples áreas de habilidad, así como un recuento de los errores identificados y su gravedad. El modelo de árbitro también proporcionará un análisis crítico de errores específicos, calificándolos como leves, moderados o graves, identificando así con precisión las deficiencias del modelo en el diálogo profesional real.
El problema de la autorreferencia en la modelización de árbitros.
Una preocupación común es que los adjudicadores de LLM puedan ser parciales, favoreciendo en particular los resultados de sus propios modelos. Para explorar este fenómeno, elEQ-Bench 3
utilizar Claude-3.7-Sonnet
responder cantando gpt-4o-2024-11-20
Dos modelos de árbitro sirvieron de referencia al modelo superior.

Los resultados muestran que, al menos entre los dos modelos de árbitro, no se observó una clara autopreferencia y sus puntuaciones fueron casi idénticas. Esto proporciona cierta confianza a la hora de utilizar el LLM como árbitro, pero sigue siendo necesario tener en cuenta la posibilidad de un posible sesgo.
Se espera que el código correspondiente y la documentación completa estén disponibles en breve en EQ-Bench
Liberación del almacén.
💗 EQ-Bench (Legacy): pruebas comparativas de reconocimiento de emociones
primera generación EQ-Bench
Está diseñado para evaluar la inteligencia emocional de los modelos lingüísticos, que es una parte crítica de la experiencia del usuario y no ha sido probada explícitamente por otros puntos de referencia. Su única ventaja es que es relativamente difícil "retocar" las puntuaciones mediante un ajuste fino, lo que hace que la clasificación refleje mejor las verdaderas capacidades del modelo.
La prueba está formateada de tal manera que se pide al modelo que lea el diálogo y evalúe la fuerza de las posibles reacciones emocionales de uno de los personajes (para 4 emociones predefinidas). El proceso de evaluación no requiere la intervención de un modelo árbitro, es de bajo coste (solo 171 preguntas) y los resultados son coherentes con las preferencias humanas (Arena ELO
) y pruebas comparativas multidominio (MMLU
) mostraron una fuerte correlación.
🧙 MAGI-Hard: un subconjunto de pruebas discriminatorias de alta dificultad.
Dado que los puntos de referencia LLM existentes se enfrentan a un rendimiento saturado y a la dificultad de diferenciar entre los mejores modelos.MAGI-Hard
se presentó. Se trata de un ejemplo de MMLU
responder cantando AGIEval
Un subconjunto cuidadosamente seleccionado de estos modelos está destinado a mejorar la diferenciación de los modelos de alta capacidad. Los desarrolladores pueden aprovechar los EleutherAI lm-evaluation-harness
Rama a ejecutar MAGI
Conjuntos de pruebas.
🎨 Escritura creativa v3: Evaluación mejorada de la escritura creativa
Creative Writing Benchmark ha recibido la versión 3, con importantes actualizaciones:
- Nuevo consejo. El objetivo es diferenciar mejor y comprobar la "sensación de ambiente".
- Sistema de puntuación híbrido. Combina la Rúbrica y
Elo
que mejora significativamente la diferenciación de los modelos superiores y el rango dinámico de la prueba. - Mejora de la página de salida de muestras.
Proceso de evaluación comparativa.
- El modelo se ejecutó durante 3 iteraciones (96 ítems en total) utilizando 32 indicaciones de escritura con la temperatura fijada en 0,7 y min_p en 0,1.
- utilizar
Claude 3.7 Sonnet
Como árbitro, puntúa el resultado de acuerdo con las reglas generales de puntuación. - Modelo inicial de inferencia basado en las puntuaciones de las reglas
Elo
Valoración. - Se realizan comparaciones por pares con los modelos vecinos en la tabla de clasificación (muestreo disperso), y el ganador recibe hasta 5 "+" en función de las puntuaciones de múltiples criterios.
- utilizar
Glicko
Sistema de puntuación (modificado para tener en cuenta el margen de victoria del número de "+") CálculosElo
puntuaciones, ciclando hasta que la clasificación se estabilice. - Se han realizado comparaciones exhaustivas con los modelos vecinos finalizados para calcular la clasificación final.
Elo
.
Reglas de puntuación Puntuación frente a puntuación Elo.
Coexisten dos tipos de puntuación. La puntuación de las reglas es el resultado de la evaluación independiente de los resultados de cada modelo por parte de un árbitro;Elo
La puntuación, en cambio, es una clasificación relativa producida por la confrontación directa dos a dos entre modelos. La diferencia entre ambos se deriva de la forma en que se evalúan: las comparaciones por parejas facilitan a los jueces la detección de matices, pero también pueden introducir distintos sesgos. Los criterios de puntuación también difieren entre los dos modelos.
Normalización de las puntuaciones.
Para contrarrestar Elo
La incorporación de nuevos modelos al sistema ha provocado un problema con la desviación de la puntuación global, y las tablas de clasificación serán DeepSeek-R1
con una puntuación anclada en 1500.ministral-3b
Anclado a 200.
Filosofía de la evaluación comparativa.
Es muy difícil juzgar la escritura creativa de forma fiable y de acuerdo con las preferencias humanas. La versión v3 hace más difícil juzgar la escritura creativa introduciendo comparaciones por pares y Elo
Sistema de clasificación para mejorar la diferenciación. Las palabras clave se seleccionan cuidadosamente para poner a prueba los puntos débiles del modelo, creando así un gradiente de evaluación más pronunciado para los jueces. La prueba contiene aspectos de humor, romance, conciencia espacial, perspectivas no tradicionales en primera persona y otros aspectos que los LLM suelen tener dificultades para alcanzar a nivel humano.
Mitigación de costes y sesgos.
A pesar del sistema híbrido de puntuación, la realización de una evaluación sigue costando unos 10 dólares. Las comparaciones por pares introdujeron nuevos problemas de sesgo que el equipo del proyecto intentó mitigar:
- Longitud sesgada. Se controla truncando la salida a 4000 caracteres.
- Sesgo posicional. La mitigación se consigue evaluando y promediando los valores en ambas direcciones.
- Sesgo de redundancia compleja. La escala de puntuación incluye penalizaciones por vocabulario demasiado vistoso.
- Sesgo de oscuridad poética: la El sistema de puntuación intenta penalizar la prosa excesivamente poética e inconexa.
Sesgo incontrolado.
- Prejuicios personales. Los árbitros incontrolados pueden favorecer su propia salida.
- Sesgo positivo. La dirección y el impacto aún no están claros.
- Smut Bias. Los árbitros tienden a penalizar severamente los contenidos que se inclinan hacia lo erótico.
- Sesgo de estilo y contenido: el Las preferencias de los árbitros pueden diferir de las preferencias de los usuarios o de las personas en general.
- Sesgo de bazofia. Los árbitros pueden favorecer ciertos tropos o estilos comúnmente utilizados por los LLM.
Criterios básicos para la emisión de juicios por parejas. Autenticidad de los personajes, diversión y originalidad, calidad de la redacción, coherencia, grado de seguimiento de las instrucciones, construcción del mundo y de la atmósfera, evitación de clichés, evitación de redundancias floridas, evitación de metáforas excesivas.
Limitaciones.
Los resultados de la evaluación son sólo una indicación aproximada de la capacidad de escritura. La escritura creativa es muy subjetiva, por lo que se recomienda a los candidatos que emitan su propio juicio tras leer los resultados. Este parámetro no es una evaluación de juegos de rol (RP), no evalúa rondas múltiples de diálogo y se limita únicamente a la escritura en inglés.
🎨 Escritura creativa (Legacy v2): antigua evaluación de escritura creativa
Uso antiguo (v2) Claude 3.5 Sonnet
actúa como árbitro, evaluando la capacidad del modelo para escribir en una serie de preguntas. Introduce las métricas "Vocab Complexity" y "GPT-Slop" y permite al usuario ajustar las penalizaciones de ambas mediante un control deslizante. Esta versión evalúa 24 preguntas utilizando reglas de puntuación y resultados de referencia, con 10 iteraciones para mejorar la estabilidad. Del mismo modo, intenta mitigar el sesgo de longitud a través de los criterios de puntuación y el control deslizante de longitud, pero reconoce que aún puede existir sesgo.
⚖️ Judgemark V2: evaluación de la capacidad de modelización de juicios
Judgemark V2
Lo que se evalúa es la capacidad de los modelos lingüísticos para actuar como "jueces" por derecho propio, es decir, evalúan la escritura creativa según unas normas detalladas. puntuación numérica La capacidad para hacerlo. Esta prueba es más compleja que una simple prueba de preferencia por parejas, ya que exige que el modelo de árbitro comprenda instrucciones complejas, analice el texto y puntúe hasta 36 dimensiones de calidad literaria.
Mejoras importantes en la versión V2.
- Multiplicar por 6 el tamaño de la muestra reduce la varianza de la carrera.
- Métricas de puntuación refinadas: medidas de discriminación (distinción entre textos fuertes y débiles), estabilidad (consistencia en la clasificación a lo largo de las ejecuciones) y relevancia para las preferencias humanas.
- Hay disponibles puntuaciones brutas y calibradas: esta última las hace más comparables entre jueces al estandarizar la distribución.
- Se introdujo una prueba de estabilidad de la perturbación (temp=0,5, top_k=3) para evaluar la solidez de los resultados.
- Base de código independiente simplificada.
Pruebas de repetibilidad. derecha Llama-3.1-70B-instruct
Se realizaron veinte pruebas, que mostraron que la desviación típica de la puntuación final era de aproximadamente 1,0, lo que indica cierta estabilidad en los resultados.
Tareas de evaluación. El modelo de jurado lee piezas creativas breves generadas por 17 niveles diferentes de "modelos de escritor" y emite puntuaciones numéricas basadas en largas indicaciones que contienen criterios positivos y negativos (por ejemplo, "carácter detallado: 0-10", "pretencioso: 0-10", este último tanto más bajo cuanto mejor). 10", este último tanto más bajo cuanto mejor). Final Judgemark
La puntuación se basa en la suma ponderada de varias métricas calculadas, como la discriminación, la estabilidad y la relevancia para las preferencias humanas.
Se trata de una tarea extremadamente exigente para los LLM, ya que requiere una meticulosa capacidad de crítica literaria y la habilidad de seguir instrucciones de puntuación numérica multidimensional.
🎤 BuzzBench: un punto de referencia para el análisis del humor
BuzzBench
Analizando los concursos musicales británicos Never Mind The Buzzcocks
La capacidad de comprensión del humor del LLM se evaluó presentando chistes a los invitados al programa. La tarea requería no sólo explicar la mecánica del chiste, sino también predecir lo "gracioso" que sería el chiste para el público y para el guionista de la comedia.
Diseños desafiantes.
- La selección de los chistes del programa aumentó la dificultad de identificar a los LLM debido a su variedad de estilos (sutil, aventurero, burdo, oscuro, obvio, ingenioso).
- El requisito de predecir los "niveles de diversión" implica la modelización de las respuestas humanas.
- Utilice "respuestas de oro" escritas por humanos como referencia para las puntuaciones de los jueces.
La prueba se diseñó para poner a prueba la comprensión mental teórica y el conocimiento complejo de la mecánica de funcionamiento de los chistes. Se eligió el modelo de árbitro Claude 3.5 Sonnet
Porque está en el Judgemark
y parecían tener menos preferencia por las respuestas largas y excesivamente analizadas. Una vez más, hay que prestar atención a las autopreferencias subyacentes de los árbitros.
🌍 DiploBench: un marco para evaluar las negociaciones estratégicas (experimental)
DiploBench
Es un juego de mesa de estrategia que utiliza Diplomacy
Un marco experimental para evaluar las capacidades de negociación estratégica de LLM. El modelo sometido a prueba desempeña Austria-Hungary
(Austria-Hungría), un papel desafiante que requiere habilidades superiores de negociación y planificación estratégica. Los modelos deben comunicarse con otros jugadores de la IA, establecer alianzas, reconocer el engaño y tomar decisiones tácticas.
Características principales.
- Prensa completa. Múltiples rondas de negociaciones antes de la operación.
- Entornos corporales multiinteligentes. Cada país está controlado por un LLM independiente.
- Simulación diplomática realista. Poner a prueba las habilidades de alineación, negociación y reconocimiento del engaño.
- Apertura desafiante.
Austria-Hungary
Su ubicación central la hace vulnerable pero estratégica.
El juego dura hasta 50 rondas, con 4 rondas de negociación antes de cada ronda de acción. El marco pone a prueba de forma única las capacidades de LLM en planificación estratégica a largo plazo, negociación multiinteligencia, atención teórica y detección del engaño.
Nota: Debido a la gran variación en los resultados de la ejecución del juego, elDiploBench
Sigue siendo un marco experimental y los resultados deben interpretarse con cautela.
Reflexiones finales
EQ-Bench
proporciona un valioso conjunto de herramientas que llevan la evaluación del LLM más allá de las métricas tradicionales, hacia dimensiones complejas de competencia que responden mejor a las necesidades de la interacción humana. Aunque siguen existiendo retos como la parcialidad del árbitro y la subjetividad de la evaluación, el diseño y la iteración de estos puntos de referencia (por ejemplo, las mejoras en v2, v3, la discusión explícita de la parcialidad y los intentos de mitigarla) representan un paso importante en la evolución del campo de la evaluación LLM hacia un nivel más profundo y matizado. Para los desarrolladores e investigadores, estas herramientas no sólo proporcionan un criterio para medir el progreso del modelo, sino que también apuntan en la dirección de futuras mejoras clave de las capacidades del modelo: inteligencia emocional, creatividad, juicio y comunicación eficaz en interacciones sociales complejas.
Clasificación EQ-Bench 3

https://eqbench.com/
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...