随着大型语言模型 (LLM) 能力的飞速发展,传统的基准测试,如 MMLU
,在区分顶尖模型方面逐渐显现出局限性。仅仅依靠知识问答或标准化测试,已难以全面衡量模型在真实世界交互中至关重要的细微能力,例如情商、创造力、判断力和沟通技巧。正是在这一背景下,一系列名为 EQ-Bench
的新型评估框架应运而生,旨在更深入地探测 LLM 在这些复杂维度上的表现。
EQ-Bench
及其相关测试套件提供了一个多元化的视角,不再局限于简单的对错判断,而是关注模型在模拟真实场景中的行为和决策质量。
DeepSeek 在知识召回评测中幻觉丛生,但写作创意方面考虑性价比可以说屠榜,这并不意外,和很多人实际使用体验也基本一致。
提交渠道与要求
目前,该项目仅接受可通过 HuggingFace
公开获取的开放权重模型的提测。提交者需通过电子邮件或 Twitter 提供模型链接、最佳提示格式与生成配置,以及自行测试得到的 EQ-Bench
分数。项目方会进行结果验证并更新排行榜。由于项目为自筹资金,计算资源有限,提交者需理解验证过程可能需要时间。
💙 EQ-Bench 3: 冲突调解能力评估
EQ-Bench 3
是一个专注于主动冲突调解技巧的情商基准测试。它评估语言模型在充满挑战和多样化的场景中处理复杂情感问题的能力。该测试不再像初代 EQ-Bench
那样仅仅预测情绪状态,而是直接考察模型的主动情商应用能力。
测试方法:
- 结构: 测试包含多轮对话 (最多 21 轮),由被测模型扮演冲突调解员,与扮演客户或争议方的“演员”模型 (目前使用
gemini-2.0-flash-001
) 进行互动。每个场景都包含详细的角色设定,具有特定的情绪状态和背景。 - 评估标准: 评分依据包括:
- 基本情商技能 (识别情绪、表达同理心)
- 治疗或调解相关的专业技能
- 避免严重的专业失误
- 运作机制: 基准测试使用三个模型:被测模型、演员模型和裁判模型 (
Claude-3.7-Sonnet
)。裁判模型负责对被测模型的表现进行打分。 - 评分: 最终得分结合了多个技能领域的评分以及识别出的失误及其严重程度的计数。裁判模型还会提供对具体错误的批判性分析,将其评为轻微、中度或严重,从而精确识别模型在真实专业对话中的短板。
裁判模型的自我偏好问题:
一个常见的担忧是 LLM 裁判可能存在偏见,特别是偏爱自身模型的输出。为了探究这一现象,EQ-Bench 3
使用 Claude-3.7-Sonnet
和 gpt-4o-2024-11-20
两个裁判模型对顶级模型进行了基准测试。
结果显示,至少在这两个裁判模型之间,并未观察到明显的自我偏好,它们的评分几乎一致。这为使用 LLM 作为裁判提供了一定的信心,但仍需注意潜在偏见的可能性。
相关代码和完整文档预计很快将在 EQ-Bench
仓库发布。
💗 EQ-Bench (Legacy): 情绪识别基准
初代 EQ-Bench
旨在评估语言模型的情绪智能,这部分能力对用户体验至关重要,并且未被其他基准明确测试。其独特的优势在于,通过微调来“刷分”相对困难,使得排行榜更能反映模型的真实能力。
该测试采用特定格式,要求模型阅读对话并评估其中一个角色可能情绪反应的强度 (针对 4 种预设情绪)。评估过程无需裁判模型介入,成本较低 (仅 171 个问题),且结果与人类偏好 (Arena ELO
) 及多领域基准 (MMLU
) 表现出较强的相关性。
🧙 MAGI-Hard: 高难度判别性测试子集
鉴于现有 LLM 基准测试面临性能饱和、难以区分顶尖模型的问题,MAGI-Hard
被提出。它是一个从 MMLU
和 AGIEval
中精心挑选出的子集,旨在增强对高能力模型的区分度。开发者可以利用提供的 EleutherAI lm-evaluation-harness
分支来运行 MAGI
测试集。
🎨 Creative Writing v3: 升级版创意写作评估
创意写作基准测试迎来了 v3 版本,主要更新包括:
- 新提示词: 旨在更好地进行区分度和“氛围感”检查。
- 混合评分系统: 结合了评分细则 (Rubric) 和
Elo
评分系统,显著提升了顶尖模型的区分度和测试的动态范围。 - 改进的样本输出页面。
基准测试流程:
- 使用 32 个写作提示运行模型 3 次迭代 (共 96 项),温度设置为 0.7,min_p 为 0.1。
- 使用
Claude 3.7 Sonnet
作为裁判,根据全面的评分细则对输出进行评分。 - 基于细则得分推断模型的初始
Elo
评分。 - 与排行榜上相邻的模型进行成对比较 (稀疏抽样),根据多个标准评分,胜者获得最多 5 个 "+"。
- 使用
Glicko
评分系统 (修改后考虑 "+" 数量的胜负幅度) 计算Elo
分数,循环直至排名稳定。 - 与最终确定的相邻模型进行全面比较,计算最终的排行榜
Elo
。
评分细则得分 vs Elo 得分:
两种评分方式并存。细则评分是裁判独立评估单个模型输出的结果;Elo
评分则是通过模型间的直接两两对抗产生的相对排名。两者的差异源于评估方式:成对比较使裁判更容易发现细微差别,但也可能引入不同偏见。评分标准在两种模式下也有所不同。
分数标准化:
为 counteract Elo
系统中新模型加入导致整体分数漂移的问题,排行榜将 DeepSeek-R1
的分数锚定为 1500,ministral-3b
锚定为 200。
基准测试哲学:
可靠地、符合人类偏好地评判创意写作非常困难。v3 版本通过引入成对比较和 Elo
排名系统来提升区分度。提示词经过精心筛选,旨在挑战模型弱点,从而为裁判创造更陡峭的评估梯度。测试内容包含幽默、浪漫、空间意识、非传统第一人称视角等 LLM 通常难以达到人类水平的方面。
成本与偏见缓解:
尽管采用了混合评分系统,但运行一次评估仍需约 10 美元的 API 费用。成对比较引入了新的偏见挑战,项目方尝试缓解了:
- 长度偏见: 通过将输出截断为 4000 字符来控制。
- 位置偏见: 通过双向评估并取平均值来缓解。
- 复杂冗词偏见: 评分标准包含对过度炫技词汇的惩罚。
- 诗意晦涩偏见: 评分标准试图惩罚过度诗意化和不连贯的散文。
未控制的偏见:
- 自我偏见: 未控制裁判可能偏爱自身输出。
- 积极性偏见: 方向和影响尚不明确。
- 低俗内容偏见 (Smut Bias): 裁判倾向于严厉惩罚偏向情色的内容。
- 风格与内容偏见: 裁判的偏好可能与用户或普遍人类偏好不同。
- 套话偏见 (Slop Bias): 裁判可能偏爱 LLM 常用的某些套话或风格。
成对评判提示核心标准: 角色真实性、趣味与原创性、写作质量、连贯性、指令遵循度、世界与氛围构建、避免陈词滥调、避免华丽冗词、避免过度隐喻。
局限性:
评估结果仅为写作能力的粗略参考。创意写作主观性强,建议结合阅读样本输出来自行判断。该基准并非角色扮演 (RP) 评估,不测试多轮对话,且仅限英语写作。
🎨 Creative Writing (Legacy v2): 旧版创意写作评估
旧版 (v2) 使用 Claude 3.5 Sonnet
作为裁判,评估模型在一系列提示下的写作能力。它引入了 "Vocab Complexity" (词汇复杂度) 和 "GPT-Slop" (GPT 套话) 指标,并允许用户通过滑块调整对这两项的惩罚权重。该版本采用评分细则和参考输出来评估 24 个提示,运行 10 次迭代以提高稳定性。同样,它也尝试通过评分标准和长度控制滑块来缓解长度偏见,但承认偏见可能依然存在。
⚖️ Judgemark V2: 裁判模型能力评估
Judgemark V2
评估的是语言模型作为“裁判”本身的能力,即它们根据详细的细则对创意写作进行 数值评分 的能力。这比简单的成对偏好测试更复杂,要求裁判模型理解复杂指令,分析文本,并为多达 36 个文学质量维度打分。
V2 版本主要改进:
- 样本量增加 6 倍,减少运行方差。
- 精炼的评分指标:衡量区分度 (区分强弱文本)、稳定性 (跨运行排名一致性) 及与人类偏好的相关性。
- 提供原始分数和校准分数:后者通过标准化分布使不同裁判更具可比性。
- 引入扰动稳定性测试 (temp=0.5, top_k=3) 来评估结果的稳健性。
- 简化的独立代码库。
可重复性测试: 对 Llama-3.1-70B-instruct
进行 20 次测试,显示最终得分标准差约为 1.0,表明结果具有一定的稳定性。
评判任务: 裁判模型需阅读由 17 个不同水平“写手模型”生成的短篇创意作品,并根据包含正反两方面标准的长提示 (如“细致的角色: 0-10”,“矫揉造作: 0-10”,后者分数越低越好) 输出数值评分。最终 Judgemark
分数是基于区分度、稳定性、与人类偏好相关性等多个计算指标的加权总和。
这是一个对 LLM 极具挑战性的任务,因为它需要细致的文学评论能力和遵循多维数值评分指令的能力。
🎤 BuzzBench: 幽默分析基准
BuzzBench
通过分析英国音乐问答节目 Never Mind The Buzzcocks
中的嘉宾介绍笑话,来评估 LLM 的幽默理解能力。任务不仅要求解释笑话的机制,还要预测笑话对观众和喜剧作家的“好笑程度”。
挑战性设计:
- 选用节目笑话,因其风格多样(微妙、冒险、粗糙、晦涩、明显、巧妙),增加了 LLM 的辨别难度。
- 要求预测“好笑程度”,涉及对人类反应的建模。
- 使用人类撰写的“黄金答案”作为裁判评分的基准。
该基准旨在测试理论心智理解和对笑话运作机制的复杂认知。裁判模型选用 Claude 3.5 Sonnet
,因为它在 Judgemark
上得分高,且似乎较少偏爱冗长、过度分析的回答。同样需要注意裁判的潜在自我偏好。
🌍 DiploBench: 战略谈判评估框架 (实验性)
DiploBench
是一个利用策略棋盘游戏 Diplomacy
评估 LLM 战略谈判能力的实验性框架。被测模型扮演 Austria-Hungary
(奥匈帝国),一个需要高超谈判技巧和战略规划的挑战性角色。模型需与其他 AI 玩家沟通、结盟、识别欺骗并做出战术决策。
主要特点:
- 完全沟通模式 (Full-press): 行动前进行多轮谈判。
- 多智能体环境: 每个国家由独立的 LLM 控制。
- 现实外交模拟: 测试结盟、谈判、欺骗识别能力。
- 挑战性开局:
Austria-Hungary
的中心位置使其脆弱但具战略意义。
游戏最多运行 50 回合,每回合行动前有 4 轮谈判。该框架独特地测试了 LLM 在长期战略规划、多智能体谈判、理论心智和欺骗检测方面的能力。
注意:由于游戏运行结果方差较大,DiploBench
目前仍是实验性框架,结果解读需谨慎。
总结思考
EQ-Bench
系列提供了一套有价值的工具,推动 LLM 评估超越传统指标,转向更符合人类交互需求的复杂能力维度。虽然诸如裁判偏见、评估主观性等挑战依然存在,但这些基准的设计和迭代(如 v2、v3 的改进,对偏见的明确讨论和缓解尝试)代表了 LLM 评估领域向更深层次、更细致化方向发展的重要一步。对于开发者和研究者而言,这些工具不仅提供了衡量模型进步的标尺,也指明了未来提升模型能力的关键方向:情商、创造力、判断力以及在复杂社交互动中的有效沟通。
EQ-Bench 3 排行
https://eqbench.com/