人工智能领域近年来取得了令人瞩目的进展,尤其是在大语言模型 (LLM) 方面。 许多模型,例如 Qwen,展现出惊人的能力,甚至能够自我检查答案并纠正错误。 然而,并非所有模型都具备同等的自我改进能力。 同样是给予额外的计算资源和 “思考” 时间,有些模型能够充分利用这些资源,性能大幅提升,而另一些模型却收效甚微。 这一现象引发了人们的思考: 究竟是什么因素导致了这种差异?
正如人类在面对难题时会花费更多时间深入思考一样,一些先进的大语言模型在通过强化学习进行自我改进训练时,也开始展现出类似的推理行为。 然而,在相同的强化学习训练下,不同模型之间的自我改进能力却存在显著差异。 例如,在 Countdown 游戏中,Qwen-2.5-3B 的自我改进能力就远超 Llama-3.2-3B。 尽管两个模型在初始阶段表现都相对较弱,但在强化学习训练结束后,Qwen 的准确率达到了约 60%,而 Llama 仅为 30% 左右。 这种显著的差距背后隐藏着怎样的机制?
最近,斯坦福大学的一项研究深入挖掘了大模型自我改进能力背后的机制,揭示了基础语言模型中关键 认知行为 的重要性。 这项研究为我们理解和提升 AI 系统的自我改进能力提供了新的视角。
这项研究一经发布便引起了广泛讨论。 Synth Labs 的 CEO 就认为,这项发现令人振奋,因为它有望被整合到任何模型中,从而提升模型的性能。
四种关键认知行为
为了探究不同模型自我改进能力差异的原因,研究人员将重点放在 Qwen-2.5-3B 和 Llama-3.2-3B 这两款基础模型上。 通过在 Countdown 游戏中对它们进行强化学习训练,研究人员观察到了明显的差异: Qwen 的问题解决能力得到显著提升,而 Llama-3 在相同的训练过程中提升却相对有限。 那么,究竟是哪些模型属性导致了这种差异?
为了系统地研究这个问题,研究团队开发了一个框架,用于分析对解决问题至关重要的认知行为。 该框架描述了四种关键的认知行为:
- 验证 (Verification): 系统性地检查错误。
- 回溯 (Backtracking): 放弃失败的方法,并尝试新的路径。
- 子目标设定 (Sub-goal Setting): 将复杂问题分解为可管理的步骤。
- 逆向思考 (Reverse Thinking): 从期望的结果反向推导至初始输入。
这些行为模式与专家级问题解决者处理复杂任务的方式高度相似。 例如,数学家在进行证明时,会仔细验证每一步的推导; 当遇到矛盾时,会回溯检查之前的步骤; 也会将复杂的定理拆解为更简单的引理来逐步证明。
初步分析表明,Qwen 模型自然地展现出这些推理行为,尤其是在验证和回溯方面,而 Llama-3 模型则明显缺乏这些行为。 基于这些观察,研究人员提出了核心假设: 初始策略中的某些推理行为,对于模型有效利用增加的测试时间计算至关重要。 换句话说,如果 AI 模型想要在拥有更多 “思考” 时间时变得更 “聪明”, 必须首先具备一些基本的思考能力,例如检查错误、验证结果的习惯。 如果模型一开始就缺乏这些基本的思考方法, 即使给予再多的思考时间和计算资源,也无法有效地提升其性能。 这与人类的学习过程非常相似—— 如果学生缺乏基本的自我检查和纠错能力, 仅仅延长考试时间也难以显著提高其成绩。
实验验证:认知行为的重要性
为了验证上述假设,研究人员进行了一系列巧妙的干预实验。
首先,他们尝试使用包含特定认知行为 (特别是回溯) 的人工合成推理轨迹来引导 Llama-3 模型。 结果表明,经过这种引导的 Llama-3 模型在强化学习过程中表现出显著的改善, 性能提升甚至可以与 Qwen-2.5-3B 相媲美。
其次,即使引导所用的推理轨迹包含错误的答案,只要这些轨迹展现出正确的推理模式,Llama-3 模型依然能够取得进步。 这一发现表明, 真正驱动模型自我改进的关键因素是推理行为的存在, 而非答案本身的正确性。
最后,研究人员从 OpenWebMath 数据集中筛选出强调这些推理行为的内容,并利用这些数据对 Llama-3 模型进行了预训练。 实验结果表明, 这种有针对性的预训练数据调整能够有效地诱导出模型有效利用计算资源所需的推理行为模式。 经过调整预训练的 Llama-3 模型,其性能提升轨迹与 Qwen-2.5-3B 模型表现出惊人的一致性。
这些实验结果有力地揭示了模型的初始推理行为与其自我改进能力之间存在着紧密的联系。 这种联系有助于解释为什么某些语言模型能够有效地利用额外的计算资源, 而另一些模型则停滞不前。 深入理解这些动态变化,对于开发能够显著提升问题解决能力的 AI 系统至关重要。
Countdown 游戏与模型选择
这项研究以一个令人惊讶的观察结果开篇: 来自不同模型家族、规模相近的语言模型,在通过强化学习进行训练后,展现出截然不同的性能提升能力。 为了深入探究这一现象,研究人员选择了 Countdown 游戏作为主要的测试平台。
Countdown 游戏是一个数学难题, 玩家需要使用加、减、乘、除四种基本运算,将一组给定的数字组合起来,以达到目标数字。 例如,给定数字 25、30、3、4 和目标数字 32,玩家需要通过一系列运算得到精确的 32,例如: (30 − 25 + 3) × 4 = 32。
之所以选择 Countdown 游戏进行研究, 是因为它既能考察模型的数学推理、规划和搜索策略能力, 又提供了一个相对受限的搜索空间, 使得研究人员能够进行深入分析。 与更复杂的领域相比, Countdown 游戏降低了分析的难度, 同时仍然能够有效考察复杂的推理能力。 此外,与其他数学任务相比, Countdown 游戏的成功更多地依赖于问题解决能力, 而非单纯的数学知识。
研究人员选择了 Qwen-2.5-3B 和 Llama-3.2-3B 这两款基础模型, 以对比不同模型家族之间的学习差异。 强化学习实验基于 VERL 库, 并利用 TinyZero 实现。 他们使用 PPO (Proximal Policy Optimization) 算法训练模型 250 步, 每次提示采样 4 个轨迹。 选择 PPO 算法的原因是, 相较于 GRPO 和 REINFORCE 等其他强化学习算法, PPO 在各种超参数设置下表现出更优的稳定性, 尽管不同算法之间的整体性能差异并不显著。 (编者注: 疑似原文 “GRPO” 为笔误,应为 PPO。)
实验结果揭示了两种模型截然不同的学习轨迹。 尽管在任务开始时,两者的表现相近,得分都较低, 但 Qwen-2.5-3B 在训练的第 30 步左右表现出 “质的飞跃”, 具体表现为模型生成的回复明显变长, 且准确性显著提高。 训练结束时,Qwen-2.5-3B 的准确率达到了约 60%, 远超 Llama-3.2-3B 的 30%。
在训练后期,研究人员观察到 Qwen-2.5-3B 行为的一个有趣转变: 模型逐渐从使用显式的验证语句 (例如 “8*35 是 280,太高了”) 过渡到隐式的解决方案检查。 模型会 последовательно (俄语,译为 “ последовательно 地” 或 “ 依序地”) 尝试不同的解法, 直到找到正确的答案, 而不再使用文字来评估自身的工作。 这种对比鲜明地引出了一个核心问题: 究竟是哪些潜在的能力, 使得模型能够成功地实现基于推理的自我改进? 要解答这个问题, 就需要构建一个系统的框架, 用于分析认知行为。
认知行为分析框架
为了深入理解这两种模型迥异的学习轨迹, 研究人员开发了一个框架, 用于识别和分析模型输出中的关键认知行为。 该框架重点关注以下四种基本行为:
- 回溯 (Backtracking): 在检测到错误时, 显式地修改方法 (例如, “这种方法行不通, 因为 ...”)。
- 验证 (Verification): 系统地检查中间结果 (例如, “让我们通过 ... 来验证这个结果”)。
- 子目标设定 (Sub-goal Setting): 将复杂问题分解为可管理的步骤 (例如, “要解决这个问题, 我们首先需要 ...”)。
- 逆向思考 (Reverse Thinking): 在目标导向的推理问题中, 从期望的结果出发, 逐步向后推导, 找到解决问题的路径 (例如, “要达到 75 的目标, 我们需要一个能被 ... 整除的数字”)。
选择这些行为的原因在于, 它们代表了与语言模型中常见的线性、单调推理模式截然不同的问题解决策略。 这些认知行为使得更加动态、类似搜索的推理轨迹成为可能, 解决方案可以以非线性的方式演进。 虽然这组行为并非详尽无遗, 但研究人员选择它们是因为它们易于识别, 并且与 Countdown 游戏以及更广泛的数学推理任务 (例如数学证明构建) 中人类的问题解决策略自然契合。
每种认知行为都可以通过其在推理 token 序列中的特定模式来识别。 例如, 回溯表现为显式否定并替换先前步骤的 token 序列; 验证表现为生成将结果与解决方案标准进行比较的 token; 逆向思考表现为从目标出发, 逐步构建通往初始状态的解决方案路径的 token; 而子目标设定则表现为显式地提出在通往最终目标的路径上需要达成的中间步骤。 研究人员开发了一个使用 GPT-4o-mini 模型的分类 pipeline, 能够可靠地识别模型输出中的这些模式。
初始行为对自我提升的影响
将上述分析框架应用于初始实验, 得到了一个关键的洞察: Qwen-2.5-3B 模型性能的显著提升, 与认知行为的出现是同步发生的, 特别是验证和回溯行为。 相比之下, Llama-3.2-3B 模型在整个训练过程中, 几乎没有表现出这些行为的迹象。
为了更深入地理解这种差异, 研究人员进一步分析了三个模型的基线推理模式: Qwen-2.5-3B、 Llama-3.2-3B 和 Llama-3.1-70B。 分析结果显示, 相较于 Llama-3.2-3B 和 Llama-3.1-70B 这两个 Llama 模型变体, Qwen-2.5-3B 模型产生各种认知行为的比例都更高。 尽管规模更大的 Llama-3.1-70B 模型在这些行为的激活频率上普遍高于 Llama-3.2-3B 模型, 但这种提升并不均衡, 特别是回溯行为, 即使在更大的模型中, 其表现仍然有限。
这些观察结果揭示了两个重要的洞察:
- 初始策略中存在的某些认知行为, 可能是模型通过扩展推理序列, 有效利用增加的测试时间计算所必需的先决条件。
- 增加模型规模可以在一定程度上改善这些认知行为的上下文激活频率。
这种模式至关重要, 因为强化学习只能放大在成功轨迹中已经出现的行为。 这意味着, 初始具备这些认知行为能力, 是模型实现有效学习的先决条件。
干预初始行为:引导模型学习
在确立了基础模型中认知行为的重要性之后, 接下来的问题是: 是否可以通过有针对性的干预手段, 人为地诱导模型产生这些行为? 研究人员提出的假设是, 通过在强化学习训练之前, 创建选择性地展现特定认知行为的基础模型变体, 可以更深入地理解哪些行为模式对于实现有效的学习至关重要。
为了验证这一假设, 他们首先使用 Countdown 游戏设计了七个不同的启动数据集。 其中五个数据集分别强调不同的行为组合: 所有策略组合、 仅回溯、 回溯与验证、 回溯与子目标设定, 以及回溯与逆向思考。 他们利用 Claude-3.5-Sonnet 模型生成这些数据集, 因为 Claude-3.5-Sonnet 具备生成具有精确指定行为特征的推理轨迹的能力。
为了验证性能的提升是源于特定的认知行为, 而非简单的计算时间增加, 研究人员还引入了两个控制条件: 一个空的思维链 (Empty Chain of Thought), 以及一个填充了占位符 token 链, 且数据点长度与 “所有策略组合” 数据集相匹配的控制条件。 这些控制数据集帮助研究人员验证, 观察到的任何性能改进是否确实源于特定的认知行为, 而非仅仅是计算时间的增加。
此外, 研究人员还创建了 “全策略组合” 数据集的变体, 其中仅包含不正确的解决方案, 但保留了所需的推理模式。 这个变体的目的是区分认知行为的重要性与解决方案准确性之间的差异。
实验结果表明, 当使用包含回溯行为的数据集进行初始化时, Llama-3 和 Qwen-2.5-3B 模型都通过强化学习训练表现出明显的性能改进。 行为分析进一步表明, 强化学习会选择性地放大在经验上被证明有用的行为, 同时抑制其他行为。 例如, 在 “全策略组合” 条件下, 模型会保留并加强回溯和验证行为, 同时减少逆向思考和子目标设定行为的频率。 然而, 当仅与回溯行为配对时, 被抑制的行为 (例如逆向思考和子目标设定) 会在整个训练过程中持续存在。
当使用空的思维链作为控制条件进行启动时, 两种模型的性能都与基本 Llama-3 模型相当 (准确率约为 30%-35%)。 这表明, 仅仅分配额外的 token, 而不包含认知行为, 无法有效地利用测试时间计算。 更令人惊讶的是, 使用空的思维链进行训练甚至会产生不利影响, Qwen-2.5-3B 模型会停止探索新的行为模式。 这进一步印证了 这些认知行为对于模型通过更长的推理序列, 有效利用扩展计算资源至关重要。
更令人惊讶的是, 使用不正确的解决方案进行初始化, 但具有正确认知行为的模型, 与在包含正确解决方案的数据集上训练的模型, 取得了几乎相同的性能水平。 这一结果强有力地表明, 认知行为的存在 (而非获得正确答案) 是通过强化学习成功实现自我改进的关键因素。 因此, 来自相对较弱模型的推理模式, 可以有效地引导学习过程, 从而构建更强大的模型。 这再次证明了 认知行为的存在比结果的正确性更为重要。
预训练数据中的行为选择
上述实验结果表明, 某些认知行为对于模型的自我完善至关重要。 然而, 前述研究中, 研究人员诱导初始模型产生特定行为的方法, 是领域特定的, 并且依赖于 Countdown 游戏。 这可能会对最终推理的泛化能力产生不利影响。 那么, 是否可以通过修改模型的预训练数据分布, 来增加有益推理行为的频率, 从而实现更通用的自我完善能力呢?
为了探究预训练数据中认知行为的频率, 研究人员首先分析了预训练数据中认知行为的自然频率。 他们重点关注 OpenWebMath 和 FineMath 数据集, 这两个数据集是专门为数学推理而构建的。 研究人员使用 Qwen-2.5-32B 模型作为分类器, 分析了从这两个数据集中随机抽取的 20 万份文档, 以查找目标认知行为的存在情况。 分析结果显示, 即使在这些以数学为重点的语料库中, 回溯和验证等认知行为的出现频率仍然很低。 这表明, 标准的预训练过程对这些关键行为模式的接触是有限的。
为了测试人为增加认知行为的接触是否能够增强模型的自我提升潜力, 研究人员从 OpenWebMath 数据集出发, 开发了一个有针对性的持续预训练数据集。 他们首先使用 Qwen-2.5-32B 模型作为分类器, 分析来自预训练语料库的数学文档, 以识别目标推理行为的存在情况。 在此基础上, 他们创建了两个对比数据集: 一个包含丰富的认知行为, 另一个是极少包含认知内容的控制数据集。 然后, 他们使用 Qwen-2.5-32B 模型将这两个数据集中的每个文档重写为结构化的问答格式, 同时保留源文档中认知行为的自然存在或缺失状态。 最终的预训练数据集, 每个都包含了总共 830 万个 token。 这种方法使得研究人员能够有效地隔离推理行为的影响, 同时控制预训练期间数学内容的格式和数量。
在这些数据集上对 Llama-3.2-3B 模型进行预训练, 并应用强化学习后, 研究人员观察到:
- 行为丰富的预训练模型, 最终实现了与 Qwen-2.5-3B 模型相当的性能水平, 而控制模型的性能改进则相对有限。
- 对训练后模型的行为分析表明, 行为丰富的预训练模型变体, 在整个训练过程中始终保持着推理行为的高激活度, 而控制模型则表现出与基本 Llama-3 模型相似的行为模式。
这些实验结果有力地证明, 有针对性地修改预训练数据, 可以通过强化学习成功地生成有效自我改进所必需的关键认知行为。 这项研究为我们深入理解和有效提升大语言模型的自我改进能力, 提供了新的思路和方法。 更多详细信息, 请参阅原始论文。