评估大语言模型的创造力：超越选择题的 LoTbench 范式

1.3K 00

在大语言模型（ LLM ）的研究领域，模型的 Leap-of-Thought 能力，即创造力，其重要性不亚于以 Chain-of-Thought 为代表的逻辑推理能力。然而，目前针对 LLM 创造力的深入讨论和有效评估方法仍然相对匮乏，这在一定程度上制约了 LLM 在创意应用方面的发展潜力。

造成这一现状的主要原因在于，为“创造力”这一抽象概念构建一个客观、自动化且可靠的评估流程极其困难。

过去许多对 LLM 创造力的测评尝试，如图 1 所示，依然沿用评估逻辑思维能力时常用的选择题、排序题等形式。这类方法擅长考察模型是否能识别出预设的“最优”或“最符合逻辑”的选项，但对于评估真正的创造力——生成新颖、独特内容的能力——则显得力不从心。

例如，考虑图 2 中的任务：根据图片和已有文字，填补“？”处，要求内容富有创造性和幽默感。

如果这是一个选择题，提供选项“A. 可以帮忙扶一下我吗？”和“B. 可以帮我解开手铐吗？”。 LLM 很可能选择 B，并非因为它展现了创造力，而仅仅是因为 B 选项相对于 A 选项更“特别”或“不寻常”，模型能够通过模式识别而非创造性思考来完成选择。

评估 LLM 的创造力，核心应该是考察其生成创新内容的能力，而不是判定内容是否创新的能力。传统的评估方法，如多项选择，更侧重于后者，因此存在局限性。当前，能够直接评估生成能力的方法主要是人工评估和 LLM-as-a-judge （使用 LLM 作为评审）。人工评估虽然准确且符合人类价值观，但成本高昂且难以规模化。而 LLM-as-a-judge 方法在创造力评估任务上的表现尚不成熟，结果稳定性也有待提高。

面对这些挑战，来自中山大学、哈佛大学、鹏城实验室和新加坡管理大学的研究者提出了一种新的思路。他们不再直接评判生成内容的“好坏”，而是通过研究 LLM 产生与人类高质量创新内容相当的响应所需要的“代价”（可以理解为所需付出的努力或交互成本），构建了一个名为 LoTbench 的多轮交互式自动化创造力评估范式。该方法旨在提供一个更可信、可扩展的创造力衡量标准。相关研究成果已发表于 IEEE TPAMI 期刊。

论文题目： A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models
论文链接： https://arxiv.org/abs/2501.15147
项目主页： https://lotbench.github.io

任务场景：日式冷吐槽

LoTbench 的研究基于 CVPR'24 会议上提出的“梗王”大模型（Let's Think Outside the Box: Exploring Leap-of-Thought in Large Language Models with Creative Humor Generation）工作的期刊扩展。研究者选择了一种源自日本传统游戏“大喜利”（Oogiri）、在中文互联网上被称为“日式冷吐槽”的任务形式，如图 2 所示。

这种任务要求参与者观看图片，并补全文字，使得图文结合后产生创新且幽默的效果。选择该任务作为评估基础，主要基于以下几点考虑：

高创造力要求： 该任务直接要求生成创意幽默内容，是典型的创造力挑战。
契合多模态模型： 输入为图文，输出为文字补全，完全符合当前多模态 LLM 的能力范畴。
丰富的数据资源： “日式冷吐槽”在网络社区流行度高，积累了大量高质量的人类创作实例及带有评价信息的数据，便于构建评测数据集。

因此，“日式冷吐槽”为评估多模态 LLM 的创造力提供了一个理想且独特的平台。

LoTbench 评估方法

与传统评估范式（如选择、排序）不同， LoTbench 的核心思想是：测量一个 LLM 需要经过多少轮交互才能生成一个与预设的人类高质量创新响应（ HHCR ）“异曲同工”的答案。 这个所需的“轮数”反映了 LLM 达到特定创意目标的“距离”或“成本”。

如图 3 右侧所示，对于一个给定的 HHCR ， LoTbench 并非要求 LLM 精确复制它，而是看 LLM 能否在多轮尝试中，生成一个虽然表达方式不同、但创意核心和效果相似（即 DAESO - Different Approach but Equally Satisfactory Outcome）的响应。

LoTbench 的具体流程如图 4 所示：

任务构建： 从“日式冷吐槽”数据中精选 HHCR 样本。每一轮，要求待测 LLM 根据图文信息，生成一个响应 Rt 来补全文字空缺。
DAESO 判断： 判定生成的 Rt 是否与目标 HHCR （记为 R ）达到了 DAESO 。如果是，则记录当前轮数，用于后续计算分数；如果否，则进入步骤 3。
交互式提问： 若未达到 DAESO ，则要求待测 LLM 根据当前的交互历史，提出一个一般疑问句 Qt （例如，询问关于目标创意方向的线索）。
系统反馈： 评测系统根据 HHCR 的内在逻辑，对 LLM 提出的问题 Qt 回答“是”或“否”。
信息整合与迭代： 将本轮的所有交互信息（包括 LLM 的生成、提问、系统的反馈）以及系统提供的提示整合，形成下一轮的 history prompt ，返回步骤 1，开始新一轮的尝试。

这个过程持续进行，直到 LLM 生成了 DAESO 响应，或者达到了预设的最大轮数上限。

最终的创造力分数 Sc 基于对 n 个 HHCR 样本、进行 m 次重复实验的结果计算得出。其计算方式大致如下（以 HTML 公式表示）：

S_c = ( 1 / n ) ∑_i=1ⁿ [ ( 1 / m ) ∑_j=1^m ( 1 / ( 1 + k_ij ) ) ]

其中，k_ij 是模型在第 j 次重复实验中，针对第 i 个 HHCR 样本，成功生成 DAESO 响应所用的轮数。

这个创造力分数 Sc 具有以下特点：

反比关系： 分数与所需轮数 k 成反比。轮数越少，表明 LLM 越快达到目标创意水平，得分越高，创造力越强。
零分下限： 如果 LLM 在最大轮数限制内始终无法生成 DAESO 响应（相当于轮数趋于无限），其对应该样本的分数趋近于 0，表示在此任务上创造力不足。
鲁棒性： 通过对多个 HHCR 样本进行多次重复实验取平均，分数考虑了创意的多样性和难度，减少了单次实验的随机性影响。

如何判断“异曲同工之妙”（ `DAESO` ）？

DAESO 的判定是 LoTbench 方法的核心难点之一。

为何需要 DAESO 判定？ 创造力任务的关键特征之一是其开放性和多样性。对于同一个“日式冷吐槽”场景，人类可以想出很多种不同但同样具有创意和幽默感的答案。如图 5 所示，“有活力的闹钟”和“有活力的手机”都围绕“物品因充满活力而跳动并发出声音”这一核心创意点，达到了相似的幽默效果。

简单地通过文字表面匹配或常规的语义相似度计算，无法准确捕捉这种深层次的创意相似性。例如，“有活力的跳蚤”虽然也有“活力”，但缺少了“闹钟”或“手机”所暗示的“发出声音提醒”的功能关联。因此，必须引入对“异曲同工之妙”的判定机制。

如何实现 DAESO 判定？

研究者在论文中提出，两个响应若要满足 DAESO ，需要同时满足两个条件：

相同的核心创新解释： 两个响应背后的创意逻辑或幽默点是基本一致的。
相同的功能相似性： 两个响应在引发幽默的“功能”或“场景角色”上是相似的。

功能相似性不同于纯粹的语义相似性。如图 6(a) 的例子所示，在“砸核桃”这个特定功能场景下，“诺基亚手机”与“锤子”的功能相似性，可能高于它与“三星手机”的语义相似性。

仅满足核心创新解释相同，可能导致响应偏离主题（如图 5 例子中的“有活力的跳蚤”，缺少“发声提醒”功能）；仅满足功能相似性相同，则可能未能抓住创意的核心（如图 5 例子中的“有活力的鼓”，同样是发声物体，但缺少了因自身“活力”而跳动的感觉）。

在具体的 DAESO 判断实现中，研究者首先为每个 HHCR 样本标注了详细的解释，说明其幽默和创意的来源。然后，结合图像的标题（caption）信息，利用 LLM 本身的能力，在文本空间中为 HHCR 构建因果链条（如图 6(c) 所示），解析其创意构成。最后，设计特定的指令（instruction），让另一个 LLM （如 GPT-4o mini ）根据这些信息，在文本空间中判断待测响应 Rt 与目标 HHCR 是否同时满足上述两个 DAESO 条件。

研究表明，使用 GPT-4o mini 进行 DAESO 判断，可以在较低的计算成本下达到 80%-90% 的准确率。考虑到 LoTbench 会进行多次重复实验，单次 DAESO 判断的微小误差对最终平均得分的影响会进一步减小，从而保证了整体评估的可靠性。

测评结果

研究团队使用 LoTbench 对当前一些主流的多模态 LLM 进行了测评。如图 7 所示，结果显示，以 LoTbench 的标准衡量，现有 LLM 的创造力普遍不算强，与人类高质量创意响应（ HHCR ）相比仍有差距。然而，与普通人类水平（图中未明确标出，但可推断）或初级人类水平相比，部分顶尖 LLM （如 Gemini 1.5 Pro 和 Qwen-VL-max ）已经展现出一定的竞争力，也暗示了 LLM 在创造力方面具备超越人类的潜力。

图 8 可视化了榜单中排名前二的 Gemini 1.5 Pro 和 Qwen-VL-max 模型针对部分 HHCR （红色标注）生成的 DAESO 响应（蓝色标注）。

值得一提的是，近期备受关注的 DeepSeek-VL2 和 Janus-Pro-7B 系列模型也接受了评估。结果表明，它们的创造力在 LoTbench 框架下，大致处于人类初级阶段的水平。这表明在提升多模态 LLM 的深度创造力方面，仍有相当大的探索空间。