EQ-Bench Comment évaluer l'intelligence émotionnelle et la créativité dans les grands modèles linguistiques

Base de connaissances sur l'IAPosté il y a 5 mois Cercle de partage de l'IA

11.1K 00

Avec le développement rapide des capacités de modélisation linguistique à grande échelle (LLM), les critères de référence traditionnels tels que le MMLULes limites de la distinction entre les meilleurs mannequins deviennent progressivement évidentes. Il n'est plus possible de s'appuyer uniquement sur des questionnaires de connaissances ou des tests standardisés pour mesurer de manière exhaustive les compétences subtiles qui sont essentielles pour les mannequins dans les interactions du monde réel, telles que l'intelligence émotionnelle, la créativité, le jugement et les compétences en matière de communication. C'est dans ce contexte qu'une série de programmes de recherche appelés EQ-Bench Un nouveau cadre d'évaluation a vu le jour, qui vise à approfondir les performances de l'apprentissage tout au long de la vie sur ces dimensions complexes.

EQ-Bench et sa suite de tests associée offrent une perspective diversifiée qui ne se limite plus à de simples jugements justes ou faux, mais se concentre sur la qualité du comportement et de la prise de décision du modèle dans des scénarios simulés de la vie réelle.

DeepSeek existentLes illusions abondent dans les examens de rappel des connaissancesMais on peut dire que l'aspect créatif de l'écriture de la considération du rapport qualité-prix massacre la liste, ce qui n'est pas surprenant, et beaucoup de gens utilisent en fait l'expérience est aussi fondamentalement la même.

Canaux de soumission et exigences

Actuellement, le programme n'accepte que les candidatures qui peuvent être soumises par l'intermédiaire du site web de l'Union européenne. HuggingFace Modèles de pondération ouverts et accessibles au public, à mentionner et à tester. Les auteurs seront invités à fournir un lien vers le modèle, le format de repère optimal et la configuration de la génération, ainsi que les résultats de leurs propres tests par courrier électronique ou sur Twitter. EQ-Bench Les résultats. Le projet validera les résultats et mettra à jour le classement. Le projet étant autofinancé et disposant de ressources informatiques limitées, les candidats doivent comprendre que le processus de validation peut prendre du temps.

💙 EQ-Bench 3 : Évaluation de la capacité de médiation des conflits

EQ-Bench 3 est un test de référence sur l'intelligence émotionnelle qui se concentre sur les compétences proactives en matière de médiation des conflits. Il évalue la capacité des modèles linguistiques à gérer des questions émotionnelles complexes dans des scénarios difficiles et variés. Le test ne ressemble plus à la version initiale du EQ-Bench De cette manière, il ne prédit que les états émotionnels, mais examine directement la capacité du modèle à appliquer l'intelligence émotionnelle active.

Méthodes d'essai.

Structure. Le test consiste en plusieurs tours de dialogue (jusqu'à 21 tours) entre le modèle testé, qui joue le rôle d'un médiateur de conflit, et un modèle "acteur", qui joue le rôle d'un client ou d'un contestataire (actuellement utilisé comme modèle "acteur"). gemini-2.0-flash-001) pour interagir. Chaque scène contient une caractérisation détaillée avec des états émotionnels et des contextes spécifiques.
Critères d'évaluation. La base de notation comprend
- Compétences de base en intelligence émotionnelle (reconnaissance des émotions, expression de l'empathie)
- Compétences professionnelles liées à la thérapie ou à la médiation
- Éviter les erreurs professionnelles graves
Mécanismes de fonctionnement. L'évaluation comparative utilise trois modèles : le modèle testé, le modèle de l'acteur et le modèle de l'arbitre (Claude-3.7-Sonnet). Le modèle arbitre est chargé de noter les performances du modèle testé.
Evaluation. La note finale combine des évaluations dans plusieurs domaines de compétences ainsi qu'un décompte des erreurs identifiées et de leur gravité. Le modèle d'arbitre fournira également une analyse critique des erreurs spécifiques, les classant comme mineures, modérées ou graves, identifiant ainsi avec précision les lacunes du modèle dans le cadre d'un véritable dialogue professionnel.

Le problème de l'autoréférence dans la modélisation des arbitres.

Une préoccupation commune est que les adjudicateurs du LLM peuvent être biaisés, en particulier en favorisant les résultats de leurs propres modèles. Afin d'explorer ce phénomène, leEQ-Bench 3 utiliser Claude-3.7-Sonnet répondre en chantant gpt-4o-2024-11-20 Deux modèles d'arbitre ont servi de référence au modèle supérieur.

Les résultats montrent que, du moins entre les deux modèles d'arbitres, aucune préférence personnelle n'a été observée et que leurs scores étaient presque identiques. Cela donne une certaine confiance dans l'utilisation du LLM en tant qu'arbitre, mais il faut toujours garder à l'esprit la possibilité d'un biais potentiel.

Le code correspondant et la documentation complète devraient être bientôt disponibles sur le site suivant EQ-Bench Libération de l'entrepôt.

💗 EQ-Bench (Legacy) : Tests de reconnaissance des émotions

première génération EQ-Bench Il est conçu pour évaluer l'intelligence émotionnelle des modèles de langage, qui est un élément essentiel de l'expérience utilisateur et qui n'a pas été explicitement testé par d'autres benchmarks. Son avantage unique réside dans le fait qu'il est relativement difficile d'améliorer les scores par un réglage fin, ce qui rend le classement plus représentatif des capacités réelles du modèle.

Le test est formaté de telle sorte que le modèle doit lire le dialogue et évaluer la force des réactions émotionnelles possibles de l'un des personnages (pour 4 émotions prédéfinies). Le processus d'évaluation ne nécessite pas l'intervention d'un modèle référent, est peu coûteux (seulement 171 questions) et les résultats sont cohérents avec les préférences humaines (Arena ELO) et des benchmarks multi-domaines (MMLU) ont montré une forte corrélation.

🧙 MAGI-Hard : un sous-ensemble de tests discriminatoires de haute difficulté

Étant donné que les critères de référence existants pour le LLM sont saturés et qu'il est difficile de différencier les meilleurs modèles.MAGI-Hard a été présenté. Il s'agit d'un exemple d'un exemple de la MMLU répondre en chantant AGIEval Un sous-ensemble soigneusement sélectionné de ces modèles est destiné à améliorer la différenciation des modèles à haute capacité. Les développeurs peuvent tirer parti de l'outil EleutherAI lm-evaluation-harness Branche à gérer MAGI Ensembles de tests.

🎨 Écriture créative v3 : Évaluation améliorée de l'écriture créative

Le test d'évaluation de l'écriture créative a reçu une version 3, avec des mises à jour importantes :

Nouveau conseil. L'objectif est de mieux différencier et de vérifier le "sens de l'atmosphère".
Système de notation hybride. Combine la grille d'évaluation et Elo qui améliore considérablement la discrimination du modèle le plus performant et la gamme dynamique du test.
Amélioration de la page de sortie des échantillons.

Processus d'étalonnage des performances.

Le modèle a été exécuté pour 3 itérations (96 éléments au total) à l'aide de 32 invites d'écriture, la température étant fixée à 0,7 et le min_p à 0,1.
utiliser Claude 3.7 Sonnet En tant qu'arbitre, notez les résultats selon les règles de notation complètes.
Modèle d'inférence initial basé sur les scores des règles Elo Evaluation.
Des comparaisons par paires avec les modèles voisins du classement (échantillonnage clairsemé) sont effectuées, le gagnant recevant jusqu'à 5 "+" sur la base des scores de critères multiples.
utiliser Glicko Système de notation (modifié pour tenir compte de la marge de victoire du nombre de "+") Calculs Elo et faire des cycles jusqu'à ce que les classements se stabilisent.
Des comparaisons exhaustives ont été effectuées avec les modèles voisins finalisés afin de calculer le classement final. Elo.

Règles de notation Score vs Score Elo.

Deux types de notation coexistent. La notation des règles est le résultat de l'évaluation indépendante par un arbitre des résultats de chaque modèle ;Elo La notation, quant à elle, est un classement relatif produit par une confrontation directe deux à deux entre les modèles. La différence entre les deux tient à la manière dont ils sont évalués : les comparaisons par paires permettent aux juges de déceler plus facilement les nuances, mais peuvent aussi introduire différents biais. Les critères de notation diffèrent également entre les deux modèles.

Standardisation des scores.

Pour contrecarrer Elo L'ajout de nouveaux modèles dans le système a fait dériver le score global, et les classements seront DeepSeek-R1 avec un score ancré à 1500.ministral-3b Ancré à 200.

Philosophie de l'étalonnage.

Il est très difficile de juger l'écriture créative de manière fiable et conformément aux préférences humaines. La version v3 rend l'évaluation de l'écriture créative encore plus difficile en introduisant des comparaisons par paires et en utilisant des outils d'évaluation de l'écriture créative. Elo Système de classement pour améliorer la différenciation. Les mots d'incitation sont soigneusement sélectionnés pour remettre en question les faiblesses du modèle, créant ainsi une pente d'évaluation plus raide pour les juges. Le test contient des aspects humoristiques, romantiques, spatiaux, des perspectives non traditionnelles à la première personne, ainsi que d'autres aspects que les LLM ont généralement du mal à atteindre au niveau humain.

Coût et atténuation des biais.

Malgré le système de notation hybride, l'exécution d'une évaluation coûte toujours environ 10 dollars. Les comparaisons par paires ont introduit de nouveaux problèmes de biais que l'équipe de projet a tenté d'atténuer :

Longueur du biais. Contrôlé en tronquant la sortie à 4000 caractères.
Préjugé de position. L'atténuation est obtenue par l'évaluation et le calcul de la moyenne des valeurs dans les deux directions.
Biais de redondance complexe. Le barème de notation prévoit des pénalités pour un vocabulaire trop voyant.
Biais d'obscurité poétique : le Le barème de notation tente de pénaliser la prose trop poétique et décousue.

Biais non contrôlé.

Préjugés. Les arbitres non contrôlés peuvent favoriser leur propre production.
Biais positif. L'orientation et l'impact ne sont pas encore clairs.
Biais de Smut. Les arbitres ont tendance à pénaliser sévèrement les contenus à caractère érotique.
Biais de style et de contenu : le Les préférences des arbitres peuvent différer des préférences des utilisateurs ou des humains en général.
Le parti pris de la pente. Les arbitres peuvent privilégier certains tropes ou styles couramment utilisés par le LLM.

Critères de base pour les questions de jugement par paires. Authenticité des personnages, plaisir et originalité, qualité de l'écriture, cohérence, respect des instructions, construction d'un monde et d'une atmosphère, évitement des clichés, de la redondance florissante et des métaphores excessives.

Limites.

Les résultats de l'évaluation ne sont qu'une indication approximative de la capacité à écrire. L'écriture créative est très subjective et il est recommandé de se faire sa propre opinion en lisant des exemples de résultats. Ce test n'est pas une évaluation de jeu de rôle (RP), ne teste pas plusieurs tours de dialogue et se limite à l'écriture en anglais.

🎨 Creative Writing (Legacy v2) : ancienne évaluation de la création littéraire

Utilisation plus ancienne (v2) Claude 3.5 Sonnet agit comme un arbitre, évaluant la capacité du modèle à écrire sur une série d'invites. Il introduit les mesures "Vocab Complexity" et "GPT-Slop" et permet à l'utilisateur d'ajuster les poids de pénalité pour les deux via un curseur. Cette version évalue 24 invites à l'aide de règles de notation et de résultats de référence, en effectuant 10 itérations pour améliorer la stabilité. De même, elle tente d'atténuer les biais liés à la longueur grâce à des critères de notation et à un curseur de contrôle de la longueur, mais reconnaît que des biais peuvent encore exister.

⚖️ Judgemark V2 : évaluation de la capacité de modélisation des jugements

Judgemark V2 Ce qui est évalué, c'est la capacité des modèles linguistiques à agir comme des "juges" à part entière, c'est-à-dire qu'ils évaluent l'écriture créative selon des règles détaillées. note numérique La capacité à le faire. Il s'agit d'un test plus complexe qu'un simple test de préférence par paires, qui exige du modèle de référence qu'il comprenne des instructions complexes, qu'il analyse le texte et qu'il évalue jusqu'à 36 dimensions de la qualité littéraire.

Améliorations majeures dans la version V2.

Une multiplication par 6 de la taille de l'échantillon réduit la variance des résultats.
Mesures de notation affinées : mesures de discrimination (distinction entre les textes forts et les textes faibles), de stabilité (cohérence du classement d'une série à l'autre) et de pertinence par rapport aux préférences humaines.
Les notes brutes et les notes calibrées sont disponibles : ces dernières rendent les notes plus comparables entre les juges en standardisant la distribution.
Un test de stabilité des perturbations (temp=0,5, top_k=3) a été introduit pour évaluer la robustesse des résultats.
Base de code autonome simplifiée.

Tests de répétabilité. droit Llama-3.1-70B-instruct Vingt tests ont été effectués, montrant que l'écart-type de la note finale était d'environ 1,0, ce qui indique une certaine stabilité des résultats.

Tâches de jugement. Le modèle d'évaluation lit de courts textes créatifs générés par 17 niveaux différents de "modèles d'écrivains" et attribue des notes numériques basées sur de longs messages-guides contenant des critères positifs et négatifs (par exemple, "caractère détaillé : 0-10", "prétentieux : 0-10", ces derniers étant d'autant plus faibles qu'ils sont meilleurs). 10", ce dernier critère étant d'autant plus important qu'il est bas). Finale Judgemark Le score est basé sur la somme pondérée de plusieurs mesures calculées, telles que la discrimination, la stabilité et la pertinence par rapport aux préférences humaines.

Il s'agit d'une tâche extrêmement difficile pour le LLM, car elle exige des compétences méticuleuses en matière de critique littéraire et la capacité de suivre des instructions de notation numérique multidimensionnelle.

🎤 BuzzBench : un benchmark pour l'analyse de l'humour

BuzzBench En analysant les jeux télévisés musicaux britanniques Never Mind The Buzzcocks La capacité du LLM à comprendre l'humour a été évaluée en présentant des blagues aux invités de l'émission. La tâche consistait non seulement à expliquer les mécanismes de la blague, mais aussi à prédire à quel point la blague serait "drôle" pour le public et l'auteur de la comédie.

Des conceptions stimulantes.

La sélection des blagues de programme a accru la difficulté d'identifier les LLM en raison de la variété de leurs styles (subtil, aventureux, grossier, obscur, évident, astucieux).
L'obligation de prévoir les "niveaux d'amusement" implique la modélisation des réactions humaines.
Utiliser des "réponses en or" rédigées par des humains comme point de référence pour les notes attribuées par les juges.

Le test de référence a été conçu pour tester la compréhension mentale théorique et la connaissance complexe des mécanismes de fonctionnement des blagues. Le modèle d'arbitre a été choisi Claude 3.5 SonnetParce que c'est dans la Judgemark Les arbitres ont obtenu des notes élevées et semblent avoir moins de préférence pour les réponses longues et sur-analysées. Là encore, il convient de prêter attention aux préférences personnelles sous-jacentes des arbitres.

🌍 DiploBench : un cadre pour l'évaluation des négociations stratégiques (expérimental)

DiploBench Il s'agit d'un jeu de société qui fait appel à la stratégie Diplomacy Un cadre expérimental pour évaluer les capacités de négociation stratégique du LLM. Le modèle testé joue Austria-Hungary (Autriche-Hongrie), un rôle difficile qui exige des compétences supérieures en matière de négociation et de planification stratégique. Les modèles doivent communiquer avec d'autres joueurs IA, conclure des alliances, reconnaître la tromperie et prendre des décisions tactiques.

Caractéristiques principales.

Pleine presse. Plusieurs cycles de négociations avant l'opération.
Environnements corporels multi-intelligents. Chaque pays est contrôlé par un LLM indépendant.
Simulation diplomatique réaliste. Tester les compétences en matière d'alignement, de négociation et de reconnaissance de la tromperie.
Une ouverture stimulante. Austria-Hungary Sa situation centrale la rend vulnérable mais stratégique.

Le jeu peut durer jusqu'à 50 tours, avec 4 tours de négociation avant chaque tour d'action. Ce cadre permet de tester de manière unique les capacités du LLM en matière de planification stratégique à long terme, de négociation multi-intelligence, de vigilance théorique et de détection de la tromperie.

Note : En raison de la grande variance dans les résultats du jeu, les résultats de l'enquête de laDiploBench Il s'agit encore d'un cadre expérimental et les résultats doivent être interprétés avec prudence.

Conclusions

EQ-Bench fournit un ensemble précieux d'outils qui poussent l'évaluation du LLM au-delà des mesures traditionnelles vers des dimensions complexes de compétence qui répondent mieux aux besoins de l'interaction humaine. Bien que des défis tels que la partialité des arbitres et la subjectivité de l'évaluation demeurent, la conception et l'itération de ces repères (par exemple, les améliorations dans v2, v3, la discussion explicite sur la partialité et les tentatives pour l'atténuer) représentent une étape importante dans l'évolution du domaine de l'évaluation du LLM à un niveau plus profond et plus nuancé. Pour les développeurs et les chercheurs, ces outils ne fournissent pas seulement un critère pour mesurer les progrès du modèle, mais indiquent également la direction des améliorations futures clés des capacités du modèle : intelligence émotionnelle, créativité, jugement et communication efficace dans des interactions sociales complexes.