解惑o1、DeepSeek-R1之类推理模型到底有没有在思考？

1.8K 00

发现一篇好玩的论文《Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs》，主题是分析o1 类推理模型思考路径频繁切换、思维缺乏聚焦，简称为“思考不足”（underthinking），同时给出缓解方法。这篇文章同时解答了推理模型到底又没在在思考，希望读者找到自己的答案。

一、背景：

近年来，以OpenAI的o1模型为代表的大语言模型（LLMs）在复杂推理任务中展现出卓越能力，其通过扩展推理过程中的计算量，模拟了人类的深度思考。然而，现有研究对LLMs的思考深度提出了质疑：这些模型是否真的在深入思考？

为了回答这个问题，本文作者提出了“思考不足”（underthinking）的概念，并对其进行了系统分析。作者认为，思考不足是指o1类LLMs在解决复杂问题时，过早放弃有希望的推理路径，导致思考深度不足，最终影响模型性能。这种现象在数学难题中尤为突出。

二、思考与研究方法：

为了深入探究思考不足现象，作者进行了以下研究：

1. 定义与观察思考不足现象

定义思考： 作者将“思考”定义为模型在推理过程中产生的中间认知步骤，并使用“alternatively”等术语作为思考切换的标志。
- 示例： 在图2中，作者展示了一个包含25个思考步骤的模型输出示例，并将其与过度思考的输出进行了对比。
实验设计：
- 测试集： 作者选择了三个具有挑战性的测试集：
  - MATH500: 包含来自高中数学竞赛的题目，难度从1到5不等。
  - GPQA Diamond: 包含物理、化学和生物领域的研究生水平多选题。
  - AIME2024: 来自美国数学邀请赛的题目，涵盖代数、计数、几何、数论和概率等多个领域。
- 模型选择： 作者选择了两个具有可见长链式思考的o1类开源模型：QwQ-32B-Preview 和 DeepSeek-R1-671B，并使用 DeepSeek-R1-Preview 作为补充，以展示R1系列模型的发展。

2. 分析思考不足的表现形式

思考切换频率与问题难度：
- 作者发现，随着问题难度的增加，所有模型生成的推理思考数量和生成的token数量均有所增加（见图3）。
- 这表明o1类LLMs能够动态调整推理过程以应对更复杂的问题。
思考切换与错误响应：
- 在所有测试集中，o1类LLMs在生成错误答案时表现出更频繁的思考切换（见图1和图4）。
- 这表明，尽管模型旨在动态调整认知过程以解决问题，但更频繁的思考切换并不一定带来更高的准确性。

3. 深入探究思考不足的本质

评估思考的正确性：
- 作者使用两个基于Llama和Qwen的模型（DeepSeek-R1-Distill-Llama-70B 和 DeepSeek-R1-Distill-Qwen-32B）来评估每个思考步骤是否正确。
- 结果表明，在错误响应中，早期思考步骤中有相当一部分是正确的，但未被充分探索（见图5）。
- 这表明模型在面对复杂问题时，倾向于过早放弃有希望的推理路径，导致思考深度不足。
思考正确性分布：
- 作者发现，超过70%的错误响应中至少包含一个正确的思考步骤（见图6）。
- 这进一步支持了上述观点：o1类模型能够启动正确的推理路径，但可能难以继续这些路径以得出正确结论。

4. 量化思考不足：提出新的评估指标

思考不足指标（UT）：
- 该指标通过衡量生成错误响应时token的效率来量化思考不足的程度。
- 具体来说，UT指标计算的是在错误响应中，从开始到第一个正确思考的token数量占总token数量的比例。
- UT值越高，表示思考不足程度越高，即模型在错误响应中生成的token中，有更大比例未能有效贡献于生成正确的思考。

5. 思考不足对模型性能的影响：

作者发现，思考不足现象在不同数据集和任务中表现不同：
- 在MATH500-Hard和GPQA Diamond数据集上，DeepSeek-R1-671B模型虽然准确率更高，但UT值也更高，表明其错误响应中存在更多的思考不足。
- 在AIME2024测试集上，DeepSeek-R1-671B模型不仅准确率更高，而且UT值更低，表明其推理过程更加专注和高效。