AI个人学习
和实操指南

评估大语言模型的创造力:超越选择题的 LoTbench 范式

在大语言模型( LLM )的研究领域,模型的 Leap-of-Thought 能力,即创造力,其重要性不亚于以 Chain-of-Thought 为代表的逻辑推理能力。然而,目前针对 LLM 创造力的深入讨论和有效评估方法仍然相对匮乏,这在一定程度上制约了 LLM 在创意应用方面的发展潜力。

造成这一现状的主要原因在于,为“创造力”这一抽象概念构建一个客观、自动化且可靠的评估流程极其困难。


图 1

过去许多对 LLM 创造力的测评尝试,如图 1 所示,依然沿用评估逻辑思维能力时常用的选择题、排序题等形式。这类方法擅长考察模型是否能识别出预设的“最优”或“最符合逻辑”的选项,但对于评估真正的创造力——生成新颖、独特内容的能力——则显得力不从心。

例如,考虑图 2 中的任务:根据图片和已有文字,填补“?”处,要求内容富有创造性和幽默感。

图 2

如果这是一个选择题,提供选项“A. 可以帮忙扶一下我吗?”和“B. 可以帮我解开手铐吗?”。 LLM 很可能选择 B,并非因为它展现了创造力,而仅仅是因为 B 选项相对于 A 选项更“特别”或“不寻常”,模型能够通过模式识别而非创造性思考来完成选择。

评估 LLM 的创造力,核心应该是考察其生成创新内容的能力,而不是判定内容是否创新的能力。传统的评估方法,如多项选择,更侧重于后者,因此存在局限性。当前,能够直接评估生成能力的方法主要是人工评估和 LLM-as-a-judge (使用 LLM 作为评审)。人工评估虽然准确且符合人类价值观,但成本高昂且难以规模化。而 LLM-as-a-judge 方法在创造力评估任务上的表现尚不成熟,结果稳定性也有待提高。

面对这些挑战,来自中山大学、哈佛大学、鹏城实验室和新加坡管理大学的研究者提出了一种新的思路。他们不再直接评判生成内容的“好坏”,而是通过研究 LLM 产生与人类高质量创新内容相当的响应所需要的“代价”(可以理解为所需付出的努力或交互成本),构建了一个名为 LoTbench 的多轮交互式自动化创造力评估范式。该方法旨在提供一个更可信、可扩展的创造力衡量标准。相关研究成果已发表于 IEEE TPAMI 期刊。

图 3

  • 论文题目: A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models
  • 论文链接: https://arxiv.org/abs/2501.15147
  • 项目主页: https://lotbench.github.io

 

任务场景:日式冷吐槽

LoTbench 的研究基于 CVPR'24 会议上提出的“梗王”大模型(Let's Think Outside the Box: Exploring Leap-of-Thought in Large Language Models with Creative Humor Generation)工作的期刊扩展。研究者选择了一种源自日本传统游戏“大喜利”(Oogiri)、在中文互联网上被称为“日式冷吐槽”的任务形式,如图 2 所示。

这种任务要求参与者观看图片,并补全文字,使得图文结合后产生创新且幽默的效果。选择该任务作为评估基础,主要基于以下几点考虑:

  1. 高创造力要求: 该任务直接要求生成创意幽默内容,是典型的创造力挑战。
  2. 契合多模态模型: 输入为图文,输出为文字补全,完全符合当前多模态 LLM 的能力范畴。
  3. 丰富的数据资源: “日式冷吐槽”在网络社区流行度高,积累了大量高质量的人类创作实例及带有评价信息的数据,便于构建评测数据集。

因此,“日式冷吐槽”为评估多模态 LLM 的创造力提供了一个理想且独特的平台。

 

LoTbench 评估方法

图 4

与传统评估范式(如选择、排序)不同, LoTbench 的核心思想是:测量一个 LLM 需要经过多少轮交互才能生成一个与预设的人类高质量创新响应( HHCR )“异曲同工”的答案。 这个所需的“轮数”反映了 LLM 达到特定创意目标的“距离”或“成本”。

如图 3 右侧所示,对于一个给定的 HHCR , LoTbench 并非要求 LLM 精确复制它,而是看 LLM 能否在多轮尝试中,生成一个虽然表达方式不同、但创意核心和效果相似(即 DAESO - Different Approach but Equally Satisfactory Outcome)的响应。

LoTbench 的具体流程如图 4 所示:

  1. 任务构建: 从“日式冷吐槽”数据中精选 HHCR 样本。每一轮,要求待测 LLM 根据图文信息,生成一个响应 Rt 来补全文字空缺。
  2. DAESO 判断: 判定生成的 Rt 是否与目标 HHCR (记为 R )达到了 DAESO 。如果是,则记录当前轮数,用于后续计算分数;如果否,则进入步骤 3。
  3. 交互式提问: 若未达到 DAESO ,则要求待测 LLM 根据当前的交互历史,提出一个一般疑问句 Qt (例如,询问关于目标创意方向的线索)。
  4. 系统反馈: 评测系统根据 HHCR 的内在逻辑,对 LLM 提出的问题 Qt 回答“是”或“否”。
  5. 信息整合与迭代: 将本轮的所有交互信息(包括 LLM 的生成、提问、系统的反馈)以及系统提供的提示整合,形成下一轮的 history prompt ,返回步骤 1,开始新一轮的尝试。

这个过程持续进行,直到 LLM 生成了 DAESO 响应,或者达到了预设的最大轮数上限。

最终的创造力分数 Sc 基于对 n 个 HHCR 样本、进行 m 次重复实验的结果计算得出。其计算方式大致如下(以 HTML 公式表示):

Sc = ( 1 / n ) ∑i=1n [ ( 1 / m ) ∑j=1m ( 1 / ( 1 + kij ) ) ]

其中,k_ij 是模型在第 j 次重复实验中,针对第 i 个 HHCR 样本,成功生成 DAESO 响应所用的轮数。

这个创造力分数 Sc 具有以下特点:

  1. 反比关系: 分数与所需轮数 k 成反比。轮数越少,表明 LLM 越快达到目标创意水平,得分越高,创造力越强。
  2. 零分下限: 如果 LLM 在最大轮数限制内始终无法生成 DAESO 响应(相当于轮数趋于无限),其对应该样本的分数趋近于 0,表示在此任务上创造力不足。
  3. 鲁棒性: 通过对多个 HHCR 样本进行多次重复实验取平均,分数考虑了创意的多样性和难度,减少了单次实验的随机性影响。

 

如何判断“异曲同工之妙”( DAESO )?

DAESO 的判定是 LoTbench 方法的核心难点之一。

为何需要 DAESO 判定? 创造力任务的关键特征之一是其开放性和多样性。对于同一个“日式冷吐槽”场景,人类可以想出很多种不同但同样具有创意和幽默感的答案。如图 5 所示,“有活力的闹钟”和“有活力的手机”都围绕“物品因充满活力而跳动并发出声音”这一核心创意点,达到了相似的幽默效果。

图 5

简单地通过文字表面匹配或常规的语义相似度计算,无法准确捕捉这种深层次的创意相似性。例如,“有活力的跳蚤”虽然也有“活力”,但缺少了“闹钟”或“手机”所暗示的“发出声音提醒”的功能关联。因此,必须引入对“异曲同工之妙”的判定机制。

如何实现 DAESO 判定?

图 6

研究者在论文中提出,两个响应若要满足 DAESO ,需要同时满足两个条件:

  1. 相同的核心创新解释: 两个响应背后的创意逻辑或幽默点是基本一致的。
  2. 相同的功能相似性: 两个响应在引发幽默的“功能”或“场景角色”上是相似的。

功能相似性不同于纯粹的语义相似性。如图 6(a) 的例子所示,在“砸核桃”这个特定功能场景下,“诺基亚手机”与“锤子”的功能相似性,可能高于它与“三星手机”的语义相似性。

仅满足核心创新解释相同,可能导致响应偏离主题(如图 5 例子中的“有活力的跳蚤”,缺少“发声提醒”功能);仅满足功能相似性相同,则可能未能抓住创意的核心(如图 5 例子中的“有活力的鼓”,同样是发声物体,但缺少了因自身“活力”而跳动的感觉)。

在具体的 DAESO 判断实现中,研究者首先为每个 HHCR 样本标注了详细的解释,说明其幽默和创意的来源。然后,结合图像的标题(caption)信息,利用 LLM 本身的能力,在文本空间中为 HHCR 构建因果链条(如图 6(c) 所示),解析其创意构成。最后,设计特定的指令(instruction),让另一个 LLM (如 GPT-4o mini )根据这些信息,在文本空间中判断待测响应 Rt 与目标 HHCR 是否同时满足上述两个 DAESO 条件。

研究表明,使用 GPT-4o mini 进行 DAESO 判断,可以在较低的计算成本下达到 80%-90% 的准确率。考虑到 LoTbench 会进行多次重复实验,单次 DAESO 判断的微小误差对最终平均得分的影响会进一步减小,从而保证了整体评估的可靠性。

 

测评结果

图 7

研究团队使用 LoTbench 对当前一些主流的多模态 LLM 进行了测评。如图 7 所示,结果显示,以 LoTbench 的标准衡量,现有 LLM 的创造力普遍不算强,与人类高质量创意响应( HHCR )相比仍有差距。然而,与普通人类水平(图中未明确标出,但可推断)或初级人类水平相比,部分顶尖 LLM (如 Gemini 1.5 Pro 和 Qwen-VL-max )已经展现出一定的竞争力,也暗示了 LLM 在创造力方面具备超越人类的潜力。

图 8 可视化了榜单中排名前二的 Gemini 1.5 Pro 和 Qwen-VL-max 模型针对部分 HHCR (红色标注)生成的 DAESO 响应(蓝色标注)。

图 8

值得一提的是,近期备受关注的 DeepSeek-VL2 和 Janus-Pro-7B 系列模型也接受了评估。结果表明,它们的创造力在 LoTbench 框架下,大致处于人类初级阶段的水平。这表明在提升多模态 LLM 的深度创造力方面,仍有相当大的探索空间。

未经允许不得转载:首席AI分享圈 » 评估大语言模型的创造力:超越选择题的 LoTbench 范式
zh_CN简体中文