대규모 언어 모델에서 감성 지능과 창의성을 평가하는 EQ-Bench 방법

42.9K 00

대규모 언어 모델링(LLM) 기능이 빠르게 발전함에 따라 다음과 같은 기존 벤치마크는 MMLU최고의 모델을 구별하는 데 있어 한계가 점차 분명해지고 있습니다. 감성 지능, 창의성, 판단력, 의사소통 능력 등 실제 상호작용에서 모델에게 중요한 미묘한 역량을 종합적으로 측정하기 위해 지식 퀴즈나 표준화된 테스트에만 의존하는 것은 더 이상 불가능합니다. 이러한 배경에서 다음과 같은 일련의 연구 프로그램이 시작되었습니다. EQ-Bench 이러한 복잡한 차원에서 LLM의 성과를 보다 심층적으로 조사하는 것을 목표로 하는 새로운 평가 프레임워크가 등장했습니다.

EQ-Bench 및 관련 테스트 스위트는 더 이상 단순한 옳고 그름 판단에 국한되지 않고 시뮬레이션된 실제 시나리오에서 모델의 행동과 의사 결정의 품질에 초점을 맞춘 다양한 관점을 제공합니다.

DeepSeek 존재지식 리콜 리뷰에는 환상이 가득합니다.그러나 가격 대비 가치를 고려한 창의적인 측면의 글쓰기는 목록을 도살한다고 할 수 있으며, 실제로 많은 사람들이 실제로 사용하는 경험도 기본적으로 동일합니다.

제출 채널 및 요구 사항

현재 이 프로그램은 다음을 통해 제출할 수 있는 신청서만 접수합니다. HuggingFace 멘션 및 테스트를 위해 공개적으로 사용 가능한 개방형 가중치 모델. 제출자는 이메일 또는 트위터를 통해 모델 링크, 최적의 큐잉 형식 및 생성 구성, 자체 테스트 결과를 제공해야 합니다. EQ-Bench 점수. 프로젝트에서 결과를 검증하고 순위표를 업데이트합니다. 프로젝트는 자체적으로 자금을 조달하고 컴퓨팅 리소스가 제한되어 있으므로 제출자는 검증 프로세스에 시간이 걸릴 수 있음을 이해해야 합니다.

💙 EQ-Bench 3: 갈등 중재 역량 평가

EQ-Bench 3 는 능동적인 갈등 중재 기술에 초점을 맞춘 감성 지능 벤치마크 테스트입니다. 이 테스트는 까다롭고 다양한 시나리오에서 복잡한 감정 문제를 처리하는 언어 모델의 능력을 평가합니다. 이 테스트는 더 이상 초기 EQ-Bench 이렇게 하면 감정 상태만 예측하는 대신 모델의 능동적 감성 지능 적용 능력을 직접 검사할 수 있습니다.

테스트 방법.

구조. 테스트는 갈등 중재자 역할을 하는 테스트 대상 모델과 고객 또는 분쟁 당사자 역할을 하는 '배우' 모델(현재는 '배우' 모델로 사용) 간의 여러 라운드(최대 21라운드)의 대화로 구성됩니다. gemini-2.0-flash-001)를 사용하여 상호 작용할 수 있습니다. 각 장면에는 특정 감정 상태와 배경을 가진 세부적인 캐릭터가 포함되어 있습니다.
평가 기준. 채점의 기준은 다음과 같습니다:
- 기본 감성 지능 기술(감정 인식, 공감 표현)
- 치료 또는 중재와 관련된 전문 기술
- 심각한 업무상 실수 방지
운영 메커니즘. 벤치마킹에는 테스트 대상 모델, 행위자 모델, 심판 모델의 세 가지 모델이 사용됩니다(Claude-3.7-Sonnet). 심판 모델은 테스트 중인 모델의 성능을 채점할 책임이 있습니다.
등급. 최종 점수는 여러 기술 영역에 대한 등급과 식별된 오류의 수 및 그 심각도를 결합합니다. 또한 심판 모델은 특정 오류에 대한 비판적 분석을 제공하여 경미, 보통 또는 심각으로 평가하여 실제 전문 대화에서 모델의 단점을 정확하게 파악할 수 있습니다.

심판 모델링의 자기 선호도 문제.

일반적인 우려는 LLM 심사위원이 편향적일 수 있으며, 특히 자신이 만든 모델의 결과를 선호할 수 있다는 것입니다. 이러한 현상을 조사하기 위해EQ-Bench 3 활용 Claude-3.7-Sonnet 노래로 응답 gpt-4o-2024-11-20 두 명의 심판 모델이 상위 모델을 벤치마킹했습니다.

그 결과, 적어도 두 심판 모델 간에는 뚜렷한 자기 선호도가 관찰되지 않았고 점수도 거의 동일했습니다. 이는 LLM을 심판으로 사용하는 데 어느 정도 확신을 주지만, 잠재적인 편향의 가능성을 염두에 두어야 합니다.

관련 코드와 전체 문서는 곧 다음 사이트에서 확인할 수 있을 예정입니다. EQ-Bench 창고 릴리스.

💗 EQ-Bench(레거시): 감정 인식 벤치마크

초기 세대 EQ-Bench 사용자 경험의 중요한 부분이며 다른 벤치마크에서는 명시적으로 테스트하지 않은 언어 모델의 감성 지능을 평가하도록 설계되었습니다. 미세 조정을 통해 점수를 "브러시 업"하는 것이 상대적으로 어렵기 때문에 리더보드가 모델의 실제 능력을 더 잘 반영한다는 것이 이 평가의 고유한 장점입니다.

이 테스트는 모델이 대화를 읽고 캐릭터 중 한 명의 가능한 감정 반응의 강도를 평가하도록 요청하는 방식으로 형식이 지정됩니다 (사전 정의 된 4 가지 감정에 대해). 평가 과정은 심판 모델의 개입이 필요하지 않고, 비용이 저렴하며(171개 문항만), 결과가 사람의 선호도와 일치합니다(Arena ELO) 및 멀티도메인 벤치마크(MMLU)는 강한 상관관계를 보였습니다.

🧙 MAGI-Hard: 고난이도 변별력 테스트의 하위 세트

기존 LLM 벤치마크는 포화 상태의 성능과 상위 모델 간의 차별화에 어려움을 겪고 있습니다.MAGI-Hard 가 발표되었습니다. 이 예시는 MMLU 노래로 응답 AGIEval 이러한 모델 중 엄선된 하위 집합은 고성능 모델의 차별화를 강화하기 위한 것입니다. 개발자는 제공된 EleutherAI lm-evaluation-harness 실행할 브랜치 MAGI 테스트 세트.

🎨 창의적 글쓰기 v3: 업그레이드된 창의적 글쓰기 평가

크리에이티브 글쓰기 벤치마크는 다음과 같은 주요 업데이트가 포함된 v3 버전을 출시했습니다:

새로운 팁. 목표는 '분위기'를 더 잘 구분하고 확인하는 것입니다.
하이브리드 채점 시스템. 루브릭과 Elo 최고 모델의 변별력과 테스트의 동적 범위를 크게 향상시키는 채점 시스템입니다.
샘플 출력 페이지가 개선되었습니다.

벤치마킹 프로세스.

온도를 0.7로 설정하고 min_p를 0.1로 설정한 상태에서 32개의 쓰기 프롬프트를 사용하여 모델을 3회 반복(총 96개 항목) 실행했습니다.
활용 Claude 3.7 Sonnet 심판은 종합적인 채점 규칙에 따라 결과물을 채점합니다.
규칙 점수를 기반으로 한 초기 추론 모델 Elo 등급.
리더보드의 이웃 모델과 쌍으로 비교(희소 샘플링)하여 여러 기준 점수에 따라 최대 5개의 '+'를 받는 승자가 결정됩니다.
활용 Glicko 채점 시스템 ("+" 수의 승리 마진을 고려하도록 수정됨) 계산 방법 Elo 점수를 매기고 순위가 안정될 때까지 순환합니다.
최종 리그 테이블을 계산하기 위해 확정된 이웃 모델과 종합적으로 비교했습니다. Elo.

채점 규칙 점수 대 Elo 점수.

두 가지 유형의 채점이 공존합니다. 규칙 채점은 심판이 개별 모델 결과에 대해 독립적으로 평가한 결과입니다;Elo 반면 채점은 모델 간의 직접적인 2대2 대결을 통해 생성되는 상대적인 순위입니다. 두 모델의 차이는 평가 방식에서 비롯되는데, 쌍으로 비교하면 심사위원이 미묘한 차이를 쉽게 파악할 수 있지만 다른 편견이 개입될 수도 있습니다. 채점 기준도 두 모델 간에 다릅니다.

점수 표준화.

대응을 위해 Elo 시스템에 새로운 모델이 추가됨에 따라 전체 점수가 변동되었으며 순위표는 다음과 같습니다. DeepSeek-R1 점수가 1500에 고정되어 있습니다.ministral-3b 200에 고정.

벤치마킹 철학.

v3 버전은 쌍별 비교를 도입하여 창의적인 글쓰기를 안정적이고 사람의 취향에 맞게 판단하는 것이 매우 어렵습니다. Elo 변별력을 높이기 위한 순위 시스템. 모델들의 약점을 공략하기 위해 신중하게 선택된 문제들이 출제되어 심사위원들에게 더 가파른 평가 경사를 만들어줍니다. 이 테스트에는 유머, 로맨스, 공간 인식, 비 전통적인 1인칭 시점 등 일반적으로 LLM이 인간 수준에서 달성하기 어려운 측면이 포함되어 있습니다.

비용 및 편향성 완화.

하이브리드 채점 시스템에도 불구하고 평가를 실행하는 데는 여전히 약 $10의 API 비용이 발생합니다. 쌍별 비교는 프로젝트 팀에서 완화하려고 시도한 새로운 편향성 문제를 야기했습니다:

길이 편향. 출력을 4000자로 잘라내어 제어합니다.
위치 편향. 완화는 양방향의 값을 평가하고 평균을 내어 달성합니다.
복잡한 중복 편향. 채점 척도에는 지나치게 화려한 어휘에 대한 감점이 포함되어 있습니다.
시적 모호성 편향: 시적 모호성 편향 이 채점 방식은 지나치게 시적이고 일관성이 없는 산문에 불이익을 주려고 합니다.

통제되지 않는 편향성.

자기 편견. 통제되지 않은 심판은 자신의 결과를 선호할 수 있습니다.
긍정적 편향. 그 방향과 영향은 아직 명확하지 않습니다.
스모트 편견. 심판은 에로틱한 콘텐츠에 대해 엄격하게 페널티를 부과하는 경향이 있습니다.
스타일 및 콘텐츠 편향성 심판 기본 설정은 사용자 또는 일반인의 선호도와 다를 수 있습니다.
슬로프 바이어스. 심판은 LLM에서 일반적으로 사용하는 특정 비유나 스타일을 선호할 수 있습니다.

짝을 이루는 판단 프롬프트의 핵심 기준. 캐릭터의 진정성, 재미와 독창성, 글의 질, 일관성, 지침을 얼마나 잘 따르는지, 세계와 분위기 구축, 진부한 표현 피하기, 불필요한 중복 피하기, 과도한 은유 피하기 등을 평가합니다.

제한 사항.

평가 결과는 작문 능력의 대략적인 지표일 뿐입니다. 창의적 글쓰기는 매우 주관적인 영역이므로 샘플 결과물을 읽고 스스로 판단하는 것이 좋습니다. 이 벤치마크는 역할극(RP) 평가가 아니며, 여러 차례의 대화를 테스트하지 않으며, 영어 작문으로만 제한됩니다.

🎨 창의적 글쓰기(레거시 v2): 이전 창의적 글쓰기 평가

이전 버전(v2) 사용 Claude 3.5 Sonnet 는 심판 역할을 하며 다양한 프롬프트에 대한 모델의 작문 능력을 평가합니다. '어휘 복잡도' 및 'GPT-Slop' 지표를 도입하고 사용자가 슬라이더를 통해 이 두 가지에 대한 벌점 가중치를 조정할 수 있습니다. 이 버전은 채점 규칙과 참조 출력을 사용하여 24개의 프롬프트를 평가하고 10회의 반복을 실행하여 안정성을 개선합니다. 마찬가지로 채점 기준과 길이 제어 슬라이더를 통해 길이 편향을 완화하려고 시도하지만 편향이 여전히 존재할 수 있음을 인정합니다.

⚖️ 판단 마크 V2: 판단 모델링 역량 평가

Judgemark V2 평가 대상은 언어 모델이 그 자체로 '심사위원' 역할을 하는 능력, 즉 세부 규칙에 따라 창의적인 글을 평가하는 능력입니다. 수치 점수 이를 수행할 수 있는 능력. 이는 단순한 쌍 선호도 테스트보다 더 복잡하며, 심판 모델이 복잡한 지침을 이해하고, 텍스트를 분석하고, 최대 36개의 문학 품질 차원에 점수를 매겨야 합니다.

버전 V2의 주요 개선 사항.

샘플 크기가 6배 증가하면 실행 분산이 감소합니다.
개선된 채점 지표: 변별력(강한 텍스트와 약한 텍스트 구분), 안정성(실행 간 순위의 일관성), 사람 선호도와의 관련성 측정.
원시 점수와 보정된 점수를 사용할 수 있습니다. 후자는 분포를 표준화하여 심사자 간 비교 가능성을 높입니다.
결과의 견고성을 평가하기 위해 섭동 안정성 테스트(temp=0.5, top_k=3)를 도입했습니다.
간소화된 독립형 코드 기반.

반복성 테스트. 오른쪽 Llama-3.1-70B-instruct 20번의 테스트를 실시한 결과, 최종 점수의 표준편차는 약 1.0으로 나타나 어느 정도 안정된 결과를 보여주었습니다.

심사 작업. 심사자 모델은 17가지 수준의 '작가 모델'이 생성한 짧은 창작물을 읽고 긍정 및 부정 기준이 모두 포함된 긴 프롬프트(예: "세부적인 캐릭터: 0-10", "가식적: 0-10", 후자가 낮을수록 좋음)에 따라 수치 점수를 출력합니다. 10", 후자는 낮을수록 좋음). 최종 Judgemark 점수는 차별성, 안정성, 사용자 선호도와의 관련성 등 여러 가지 계산된 지표의 가중치 합계를 기반으로 합니다.

이는 세심한 문학 비평 기술과 다차원적인 수치 채점 지침을 따르는 능력이 필요하기 때문에 LLM에게는 매우 어려운 작업입니다.

🎤 버즈벤치: 유머 분석을 위한 벤치마크

BuzzBench 영국 음악 퀴즈 쇼를 분석하여 Never Mind The Buzzcocks LLM의 유머 이해 능력은 쇼에 출연한 게스트에게 농담을 소개하는 것으로 평가되었습니다. 이 과제는 농담의 메커니즘을 설명하는 것뿐만 아니라 청중과 코미디 작가에게 농담이 얼마나 '재미있을지' 예측하는 것도 필요했습니다.

도전적인 디자인.

프로그램 농담의 스타일(미묘한, 모험적인, 투박한, 모호한, 명백한, 영리한)이 다양하기 때문에 LLM을 식별하는 것이 더 어려워졌습니다.
'즐거움의 수준'을 예측하려면 사람의 반응을 모델링해야 합니다.
심사위원의 점수에 대한 기준으로 사람이 직접 작성한 '황금 답안'을 사용합니다.

이 벤치마크는 농담이 작동하는 메커니즘에 대한 이론적 정신 이해와 복잡한 지식을 테스트하기 위해 고안되었습니다. 심판 모델이 선택되었습니다. Claude 3.5 Sonnet왜냐하면 Judgemark 에서 높은 점수를 받았으며, 장황하고 지나치게 분석된 답변에 대한 선호도가 낮은 것으로 나타났습니다. 다시 말하지만, 심판의 근본적인 자기 선호도에 주의를 기울일 필요가 있습니다.

🌍 디플로벤치: 전략적 협상 평가를 위한 프레임워크(실험 중)

DiploBench 전략을 사용하는 보드 게임입니다. Diplomacy LLM의 전략적 협상 능력을 평가하기 위한 실험적 프레임워크입니다. 테스트 중인 모델은 다음과 같이 재생됩니다. Austria-Hungary (오스트리아-헝가리)는 뛰어난 협상 기술과 전략적 계획이 요구되는 도전적인 역할입니다. 모델은 다른 AI 플레이어와 소통하고, 동맹을 맺고, 속임수를 알아차리고, 전술적 결정을 내려야 합니다.

주요 기능

전체 보기. 운영 전에 여러 차례의 협상을 거칩니다.
다중 지능형 신체 환경. 각 국가는 독립적인 LLM이 관리합니다.
현실적인 외교 시뮬레이션. 조정, 협상 및 속임수 인식 기술을 테스트합니다.
도전적인 오프닝. Austria-Hungary 중앙에 위치하여 취약하지만 전략적으로 중요합니다.

게임은 최대 50라운드까지 진행되며, 각 라운드 전에 4라운드의 협상이 진행됩니다. 이 프레임워크는 장기 전략 계획, 다중 지능 협상, 이론적 사고력, 속임수 탐지에 대한 LLM의 능력을 독특하게 테스트합니다.

참고: 게임 실행 결과의 편차가 크기 때문에DiploBench 아직 실험적인 프레임워크이므로 결과를 신중하게 해석해야 합니다.

결론

EQ-Bench 시리즈는 기존의 지표를 넘어 인간 상호 작용의 요구에 더 잘 반응하는 복잡한 차원의 역량으로 LLM 평가를 확장하는 유용한 도구 세트를 제공합니다. 심판 편향성 및 평가 주관성과 같은 문제는 여전히 남아 있지만, 이러한 벤치마크의 설계와 반복(예: v2, v3의 개선, 편향성에 대한 명시적인 논의 및 이를 완화하려는 시도)은 LLM 평가 분야가 더 깊고 미묘한 수준으로 진화하는 중요한 단계입니다. 개발자와 연구자에게 이러한 도구는 모델 진행 상황을 측정하는 척도를 제공할 뿐만 아니라 감성 지능, 창의성, 판단력, 복잡한 사회적 상호작용에서의 효과적인 의사소통 등 향후 모델 기능의 주요 개선 방향을 제시합니다.