EQ-Bench Как оценить эмоциональный интеллект и креативность в больших языковых моделях

База знаний по искусственному интеллектуОпубликовано 1 год назад Круг обмена ИИ

С быстрым развитием возможностей крупномасштабного моделирования языка (LLM) традиционные эталоны, такие как MMLUПостепенно становятся очевидными недостатки в определении лучших моделей. Уже невозможно полагаться только на викторины или стандартизированные тесты для всестороннего измерения тонких компетенций, которые имеют решающее значение для моделей в реальном взаимодействии, таких как эмоциональный интеллект, креативность, умение оценивать ситуацию и коммуникативные навыки. Именно на этом фоне серия исследовательских программ под названием EQ-Bench Появилась новая система оценки, которая призвана более глубоко проанализировать работу LLM по этим сложным параметрам.

EQ-Bench и связанный с ним набор тестов обеспечивают разнообразную перспективу, которая больше не ограничивается простыми правильными и неправильными суждениями, а фокусируется на качестве поведения модели и принятии решений в смоделированных реальных сценариях.

DeepSeek существоватьИллюзии в отзывах о знанияхНо писательский творческий аспект рассмотрения соотношения цены и качества, можно сказать, выбивается из общего списка, что неудивительно, и многие люди на самом деле используют опыт тоже в основном одинаковый.

Каналы подачи и требования

В настоящее время программа принимает только те заявки, которые можно подать через HuggingFace Публично доступные открытые модели взвешивания для упоминания и тестирования. Участникам будет предложено предоставить ссылку на модель, оптимальный формат подсказки и конфигурацию генерации, а также результаты собственного тестирования по электронной почте или в Twitter. EQ-Bench Баллы. Проект будет проверять результаты и обновлять таблицу лидеров. Поскольку проект финансируется самостоятельно и имеет ограниченные вычислительные ресурсы, участники должны понимать, что процесс проверки может занять некоторое время.

💙 EQ-Bench 3: Оценка потенциала посредничества в конфликтах

EQ-Bench 3 Это эталонный тест на эмоциональный интеллект, направленный на развитие навыков проактивной медиации в конфликтах. Он оценивает способность языковых моделей справляться со сложными эмоциональными проблемами в сложных и разнообразных сценариях. Тест больше не похож на первоначальный EQ-Bench Таким образом, модель только предсказывает эмоциональные состояния, но вместо этого непосредственно исследует способность модели применять активный эмоциональный интеллект.

Методы испытаний.

Структура. Тест состоит из нескольких раундов диалога (до 21 раунда) между тестируемой моделью, выступающей в роли посредника в конфликте, и моделью "актера" (используемой в настоящее время), играющей роль клиента или участника спора. gemini-2.0-flash-001), чтобы взаимодействовать. Каждая сцена содержит подробную характеристику персонажей с определенными эмоциональными состояниями и предысторией.
Критерии оценки. Базы для забивания включают:
- Базовые навыки эмоционального интеллекта (распознавание эмоций, выражение сочувствия)
- Профессиональные навыки, связанные с терапией или медиацией
- Избегайте серьезных профессиональных ошибок
Механизмы управления. В бенчмаркинге используются три модели: тестируемая модель, модель актера и модель судьи (Claude-3.7-Sonnet). Судья модели отвечает за оценку производительности тестируемой модели.
Рейтинг. Итоговый балл объединяет оценки по нескольким областям навыков, а также подсчет выявленных ошибок и их тяжести. Модель рефери также предоставляет критический анализ конкретных ошибок, оценивая их как незначительные, умеренные или серьезные, таким образом точно определяя недостатки модели в реальном профессиональном диалоге.

Проблема самопредпочтения в моделировании рефери.

Распространенной проблемой является то, что судьи LLM могут быть предвзятыми, особенно отдавая предпочтение результатам своих собственных моделей. Чтобы изучить это явление, вEQ-Bench 3 пользоваться Claude-3.7-Sonnet ответить пением gpt-4o-2024-11-20 Две судейские модели составили бенчмарк с топовой моделью.

Результаты показывают, что, по крайней мере, между двумя моделями референтов не наблюдалось явного предпочтения себя и их оценки были практически идентичны. Это дает некоторую уверенность в использовании LLM в качестве рефери, но возможность потенциальной предвзятости все же следует иметь в виду.

Соответствующий код и полная документация, как ожидается, скоро будут доступны на EQ-Bench Складской релиз.

💗 EQ-Bench (Legacy): бенчмарки распознавания эмоций

раннее поколение EQ-Bench Он предназначен для оценки эмоционального интеллекта языковых моделей, который является критически важной частью пользовательского опыта и не был явно протестирован другими бенчмарками. Его уникальным преимуществом является то, что сравнительно сложно "подтянуть" баллы за счет тонкой настройки, что делает таблицу лидеров более отражающей истинные возможности модели.

Тест составлен таким образом, что модели предлагается прочитать диалог и оценить силу возможных эмоциональных реакций одного из персонажей (для 4 предопределенных эмоций). Процесс оценки не требует вмешательства модели-референта, не требует больших затрат (всего 171 вопрос), а результаты соответствуют предпочтениям человека (Arena ELO) и многодоменные эталоны (MMLU) показали сильную корреляцию.

🧙 MAGI-Hard: подмножество дискриминационных тестов высокой сложности

Учитывая, что существующие бенчмарки LLM отличаются насыщенной производительностью и сложностью дифференциации между топовыми моделями.MAGI-Hard была представлена. Это пример из MMLU ответить пением AGIEval Тщательно отобранное подмножество этих моделей предназначено для повышения дифференциации моделей с высокими возможностями. Разработчики могут воспользоваться предоставленными EleutherAI lm-evaluation-harness Ветвь для запуска MAGI Наборы для тестирования.

🎨 Creative Writing v3: Обновленная оценка творческих работ

Тест Creative Writing Benchmark получил релиз v3, в который вошли основные обновления:

Новая подсказка. Цель - лучше различать и проверять "чувство атмосферы".
Гибридная система подсчета очков. Сочетает в себе рубрику и Elo система оценок, которая значительно улучшает дискриминацию топовой модели и динамический диапазон теста.
Улучшена страница вывода примеров.

Процесс бенчмаркинга.

Модель была запущена на 3 итерации (всего 96 предметов) с использованием 32 письменных подсказок с температурой, установленной на 0,7, и min_p на 0,1.
пользоваться Claude 3.7 Sonnet В качестве судьи оцените результат в соответствии с комплексными правилами подсчета очков.
Первоначальная модель вывода на основе оценок правил Elo Рейтинг.
Проводится попарное сравнение с соседними моделями в таблице лидеров (разреженная выборка), победитель получает до 5 "+" на основе оценок по нескольким критериям.
пользоваться Glicko Система подсчета очков (модифицирована с учетом перевеса в количестве "+") Подсчеты Elo набирайте баллы, циклически повторяя их до тех пор, пока рейтинг не стабилизируется.
Для расчета итоговой турнирной таблицы были проведены всесторонние сравнения с соседними моделями. Elo.

Правила подсчета очков Очки против очков Эло.

Существуют два типа оценки. Оценка по правилам - это результат независимой оценки судьей отдельных результатов моделирования;Elo С другой стороны, скоринг - это относительное ранжирование, полученное путем прямого сравнения моделей по принципу "два на два". Разница между ними обусловлена способом оценки: при парном сравнении судьям легче заметить нюансы, но при этом могут возникнуть различные предубеждения. Критерии оценки также различаются между двумя моделями.

Стандартизация оценок.

Для противодействия Elo Добавление новых моделей в систему вызвало проблему с дрейфом общего результата, и таблицы лидеров будут DeepSeek-R1 с результатом 1500.ministral-3b Якорь на 200.

Философия бенчмаркинга.

Очень сложно достоверно оценить творческие работы в соответствии с человеческими предпочтениями. Версия v3 усложняет оценку творческих работ, вводя парные сравнения и Elo Система ранжирования для улучшения дифференциации. Слова-подсказки тщательно подобраны, чтобы выявить слабые места модели, что создает более крутой градиент оценки для судей. Тест содержит аспекты юмора, романтики, пространственного восприятия, нетрадиционной точки зрения от первого лица и другие аспекты, которые обычно с трудом удаются LLM на человеческом уровне.

Стоимость и снижение предвзятости.

Несмотря на гибридную систему подсчета баллов, стоимость проведения оценки через API составляет около 10 долларов. При парных сравнениях возникли новые проблемы, связанные с предвзятостью, которые команда проекта попыталась устранить:

Смещение длины. Контролируется путем обрезания вывода до 4000 символов.
Позиционная предвзятость. Смягчение достигается путем оценки и усреднения значений в обоих направлениях.
Сложное смещение избыточности. Шкала оценок включает штрафы за излишнюю демонстративность словарного запаса.
Поэтическое предубеждение против неясности: The В схеме оценивания сделана попытка наказать слишком поэтичную и разрозненную прозу.

Неконтролируемая предвзятость.

Самообман. Неконтролируемые судьи могут отдать предпочтение своему собственному результату.
Позитивная предвзятость. Направление и последствия пока не ясны.
Smut Bias. Судьи, как правило, строго наказывают контент, который склоняется к эротике.
Предвзятость стиля и содержания: The Предпочтения референтов могут отличаться от предпочтений пользователей или обычных людей.
Слоп-биас. Рецензенты могут отдавать предпочтение определенным тропам или стилям, обычно используемым в LLM.

Основные критерии для подсказок парных суждений. Подлинность персонажей, увлекательность и оригинальность, качество написания, связность, насколько хорошо соблюдаются инструкции, создание мира и атмосферы, избегание клише, избегание витиеватой избыточности, избегание чрезмерных метафор.

Ограничения.

Результаты оценки являются лишь приблизительным показателем писательских способностей. Творческое письмо очень субъективно, и мы рекомендуем вам вынести собственное суждение, ознакомившись с образцами работ. Данный тест не является оценкой ролевой игры (RP), не проверяет многоразовые диалоги и ограничивается только английским языком.

🎨 Творческое письмо (Legacy v2): старая оценка творческого письма

Использование более старой версии (v2) Claude 3.5 Sonnet выступает в роли судьи, оценивая способность модели писать по ряду заданий. В ней введены метрики "Сложность вокабуляра" и "GPT-Slop", и пользователь может регулировать вес штрафа для обеих метрик с помощью ползунка. В этой версии оцениваются 24 подсказки с использованием правил подсчета баллов и эталонных результатов, выполняется 10 итераций для повышения стабильности. В ней также сделана попытка уменьшить смещение длины с помощью критериев оценки и ползунка контроля длины, но признается, что смещение все равно может существовать.

⚖️ Judgemark V2: оценка возможностей моделирования суждений

Judgemark V2 Оценивается способность языковых моделей выступать в роли "судей", т.е. они оценивают творческие работы в соответствии с подробными правилами. числовой показатель Способность делать это. Это более сложный тест, чем простой тест парного предпочтения, требующий от рефери-модели понимания сложных инструкций, анализа текста и оценки до 36 параметров литературного качества.

Основные улучшения в версии V2.

Увеличение размера выборки в 6 раз уменьшает дисперсию пробега.
Уточненные метрики оценки: меры дискриминации (различение сильных и слабых текстов), стабильности (постоянство ранжирования в разных прогонах) и соответствия человеческим предпочтениям.
Доступны сырые и калиброванные оценки: последняя делает их более сопоставимыми для разных судей, стандартизируя распределение.
Для оценки устойчивости результатов был введен тест на устойчивость к возмущениям (temp=0,5, top_k=3).
Упрощенная автономная кодовая база.

Испытания на повторяемость. справа Llama-3.1-70B-instruct Было проведено двадцать тестов, которые показали, что стандартное отклонение итогового балла составляет примерно 1,0, что свидетельствует о некоторой стабильности результатов.

Судейские задачи. Модель судьи читает короткие творческие работы, сгенерированные 17 различными уровнями "моделей писателей", и выставляет числовые оценки на основе длинных подсказок, содержащих как положительные, так и отрицательные критерии (например, "детальный характер: 0-10", "претенциозность: 0-10", причем чем меньше, тем лучше). 10", причем чем меньше, тем лучше). Итоговый Judgemark Оценка основана на взвешенной сумме нескольких расчетных показателей, таких как дискриминация, стабильность и соответствие предпочтениям человека.

Это чрезвычайно сложная задача для LLM, поскольку она требует скрупулезных навыков литературной критики и умения следовать многомерным цифровым инструкциям по подсчету баллов.

🎤 BuzzBench: эталон для анализа юмора

BuzzBench Проанализировав британские музыкальные викторины Never Mind The Buzzcocks Способность LLM понимать юмор оценивалась путем представления шуток гостям шоу. Задание требовало не только объяснить механику шутки, но и предсказать, насколько "смешной" она окажется для зрителей и автора комедии.

Сложные конструкции.

Выбор программных шуток увеличил сложность идентификации LLM из-за разнообразия их стилей (тонкие, авантюрные, грубые, непонятные, очевидные, умные).
Требование прогнозировать "уровень развлечений" предполагает моделирование реакции людей.
Используйте написанные человеком "золотые ответы" в качестве эталона для оценки судьями.

Эталон был разработан для проверки теоретического умственного понимания и комплексного знания механики работы шуток. Была выбрана модель рефери Claude 3.5 SonnetПотому что это в Judgemark набрали высокие баллы и, как оказалось, меньше предпочитали пространные, чрезмерно аналитичные ответы. Опять же, необходимо обратить внимание на самооценку референтов.

🌍 DiploBench: система оценки стратегических переговоров (экспериментальная)

DiploBench Это настольная игра, в которой используется стратегия Diplomacy Экспериментальная схема оценки способности LLM к стратегическим переговорам. Тестируемая модель играет Austria-Hungary (Австро-Венгрия) - сложная роль, требующая превосходных навыков ведения переговоров и стратегического планирования. Модели должны общаться с другими игроками ИИ, заключать союзы, распознавать обман и принимать тактические решения.

Ключевые особенности.

Полная пресса. Несколько раундов переговоров перед операцией.
Мультиинтеллектуальные телесные среды. Каждая страна контролируется независимым LLM.
Реалистичный дипломатический симулятор. Проверьте навыки согласования, ведения переговоров и распознавания обмана.
Сложное открытие. Austria-Hungary Центральное расположение делает его уязвимым, но стратегически важным.

Игра длится до 50 раундов, при этом перед каждым раундом действий проводится 4 раунда переговоров. Игра позволяет проверить способности LLM в области долгосрочного стратегического планирования, ведения переговоров с несколькими разведчиками, теоретического мышления и обнаружения обмана.

Примечание: В связи с большим разбросом результатов игрового прогонаDiploBench Это все еще экспериментальная система, и результаты следует интерпретировать с осторожностью.

Заключительные мысли

EQ-Bench Серия эталонов представляет собой ценный набор инструментов, позволяющих вывести оценку LLM за рамки традиционных показателей и перейти к сложным измерениям компетентности, которые в большей степени отвечают потребностям человеческого взаимодействия. Хотя такие проблемы, как предвзятость судей и субъективность оценки, остаются, разработка и итерации этих эталонов (например, усовершенствования в v2 и v3, открытое обсуждение предвзятости и попыток ее смягчения) представляют собой важный шаг в эволюции области оценки LLM на более глубокий, более тонкий уровень. Для разработчиков и исследователей эти инструменты не только служат мерилом для измерения прогресса модели, но и указывают направление для будущих ключевых улучшений возможностей модели: эмоционального интеллекта, креативности, суждения и эффективной коммуникации в сложных социальных взаимодействиях.