研究表明:RL 在学习可泛化知识方面优于 SFT，尤其在多模态任务中展现出更强的推理与视觉识别能力

1.9K 00

简介

在人工智能领域，基础模型（如大型语言模型和视觉语言模型）已经成为推动技术进步的核心力量。然而，如何有效地提升这些模型的泛化能力，使其能够适应各种复杂多变的现实场景，仍然是一个重大挑战。当前，监督微调（SFT）和强化学习（RL）是两种广泛采用的后训练方法，但它们在提升模型泛化能力方面的具体作用和效果仍不明确。

本论文通过一项深入的比较研究，系统地探讨了 SFT 和 RL 对基础模型泛化能力的影响。我们重点关注以下两个关键方面：

基于文本规则的泛化： 我们设计了一个名为 GeneralPoints 的算术推理卡片游戏，评估模型在不同规则变体下的表现。
视觉泛化： 我们采用了 V-IRL 任务，一个基于真实世界视觉输入的导航环境，测试模型在视觉输入变化下的适应能力。

通过一系列严谨的实验和分析，我们得出了以下重要结论：

RL 在规则和视觉泛化方面均优于 SFT： RL 能够有效地学习并应用新规则，同时在视觉输入变化的情况下也能保持良好的性能。相比之下，SFT 倾向于记忆训练数据，难以适应未见过的变体。
RL 提升了视觉识别能力： 在视觉语言模型（VLM）中，RL 不仅提高了推理能力，还增强了视觉识别能力，而 SFT 则会降低视觉识别能力。
SFT 对 RL 训练至关重要： 当主干模型不具备良好的指令跟随能力时，SFT 是 RL 训练成功的关键因素。它能够稳定模型的输出格式，使 RL 能够充分发挥其性能优势。
扩大验证迭代次数可提升 RL 泛化能力： 在 RL 训练中，增加验证迭代次数可以进一步提高模型的泛化能力。

这些发现为未来的 AI 研究和应用提供了宝贵的见解，表明 RL 在复杂多模态任务中具有更大的潜力。我们的研究不仅揭示了 SFT 和 RL 的不同作用，还为如何更有效地结合这两种方法以构建更强大、更可靠的基础模型提供了新的思路。

无论您是 AI 研究人员、工程师，还是对人工智能的未来发展充满兴趣的读者，这篇论文都将为您提供深刻的见解和实用的指导。 让我们一起深入探索 SFT 和 RL 的奥秘，揭示基础模型泛化的关键路径。

原文：https://tianzhechu.com/SFTvsRL/assets/sftvsrl_paper.pdf

快速阅读

1. RL 在规则泛化方面优于 SFT

结论：
RL 能够有效地学习并泛化基于文本的规则，而 SFT 则倾向于记忆训练数据，难以适应未见过的规则变体。

示例：
在 GeneralPoints 和 V-IRL 任务中，RL 在分布外（OOD）性能上均优于 SFT。

GeneralPoints (GP-L)：
- RL: 成功率为 15.0%，相比初始检查点的 11.5% 提高了 +3.5%。
- SFT: 成功率为 3.4%，相比初始检查点的 11.5% 下降了 -8.1%。
V-IRL (V-IRL-L)：
- RL: 每步准确率为 91.8%，相比初始检查点的 80.8% 提高了 +11.0%。
- SFT: 每步准确率为 1.3%，相比初始检查点的 80.8% 下降了 -79.5%。

研究表明:RL 在学习可泛化知识方面优于 SFT，尤其在多模态任务中展现出更强的推理与视觉识别能力
图 6：对于每个子图，RL 和 SFT 使用相同的计算量进行训练，它们的共享初始检查点（标记为 Init）被设为基线。详细设置见附录 C.3。

2. RL 在视觉 OOD 任务中也能实现泛化，而 SFT 则表现不佳

结论：
即使在包含视觉模态的任务中，RL 仍然能够泛化到未见过的视觉变体，而 SFT 则会遭遇性能下降。

示例：
在 GeneralPoints-VI 和 V-IRL-VL 任务中：

GeneralPoints-VI (GP-VI)：
- RL: 成功率为 41.2%，相比初始检查点的 23.6% 提高了 +17.6%。
- SFT: 成功率为 13.7%，相比初始检查点的 23.6% 下降了 -9.9%。
V-IRL-VL (V-IRL-VL)：
- RL: 每步准确率为 77.8%，相比初始检查点的 16.7% 提高了 +61.1%。
- SFT: 每步准确率为 11.1%，相比初始检查点的 16.7% 下降了 -5.6%。

研究表明:RL 在学习可泛化知识方面优于 SFT，尤其在多模态任务中展现出更强的推理与视觉识别能力

图 7：与图 5 和图 6 类似，我们展示了视觉分布外评估的性能动态（显示为线条）和最终性能（显示为条形）。之前在 V− IRL VLN 小型基准测试上的最先进水平（Yang 等，2024a）用橙色标记。详细评估设置（和曲线平滑）见附录 C.3。

3. RL 提高了 VLM 的视觉识别能力

结论：
RL 不仅能提高模型的推理能力，还能增强其视觉识别能力，而 SFT 则会降低视觉识别能力。

示例：
在 GeneralPoints-VI 任务中：

RL: 随着训练计算量的增加，视觉识别准确率和整体成功率均有所提高。
SFT: 随着训练计算量的增加，视觉识别准确率和整体成功率均有所下降。

研究表明:RL 在学习可泛化知识方面优于 SFT，尤其在多模态任务中展现出更强的推理与视觉识别能力 图 8：GP-VL 不同变体下强化学习 (RL) 和监督微调 (SFT) 的识别率与成功率对比。 图中展示了识别率 (y 轴) 和单幕成功率 (x 轴) 的表现，分别对应分布内数据 (红色) 和分布外数据 (蓝色)。数据点的透明度（颜色条）代表训练计算量。用线条连接的 (⋆-◦) 数据对是使用相同的检查点评估的。结果表明，随着后训练计算量的增加，强化学习 (RL) 在识别率和整体准确率上均有所提升，而监督微调 (SFT) 则呈现相反的趋势。

4. SFT 对于 RL 训练是必要的

结论：
当主干模型不具备良好的指令跟随能力时，SFT 对于 RL 训练是必要的。

示例：
在没有 SFT 初始化的情况下，直接应用端到端 RL 对 Llama-3.2 进行后训练的所有实验均以失败告终。

失败案例分析：
- 模型生成冗长、离题和无结构的响应，无法检索与 RL 训练相关的信息和奖励。
- 例如，模型尝试通过编写代码来解决 24 点游戏，但未能完成代码生成，导致验证失败。

图 20：我们使用与图 11 所示的提示相似的提示记录模型响应。结果表明，Llama-3.2-Vision-11B 无法正确遵循指令。我们省略了试图通过代码解决难题的冗长响应，但未能完成在有限上下文长度内完成。

5. 扩大验证迭代次数可以提高 RL 的泛化能力

结论：
在 RL 训练中，增加验证迭代次数可以提高模型的泛化能力。

示例：
在 GeneralPoints-Language (GP-L) 任务中：

1 次验证迭代: OOD 性能仅提高了 +0.48%。
3 次验证迭代: OOD 性能提高了 +2.15%。
5 次验证迭代: OOD 性能提高了 +2.99%。
10 次验证迭代: OOD 性能提高了 +5.99%。

研究表明:RL 在学习可泛化知识方面优于 SFT，尤其在多模态任务中展现出更强的推理与视觉识别能力
图 10：我们记录了具有不同数量的验证迭代（VIter）的 RL 实验，作为扩大训练计算量（颜色透明度度）。

6. SFT 过度拟合到推理标记，而忽略了识别标记

结论：
SFT 倾向于过度拟合到推理标记，而对识别标记的关注不足，这可能是由于推理标记的频率较高。

示例：
在 GeneralPoints-VI 任务中，SFT 无法实现与 RL 可比的分布内性能，即使在调整超参数后也是如此。

SFT 消融研究:
- 调整学习率和其他可调组件后，SFT 的成功率均未超过 30%，且没有显示出增长趋势。

研究表明:RL 在学习可泛化知识方面优于 SFT，尤其在多模态任务中展现出更强的推理与视觉识别能力
图 16：GeneralPoints-VL SFT 的消融研究。 我们对学习率进行了消融实验，并报告了所有实验的分布内单幕成功率 (%)。所有实验的成功率都没有超过 30%，并且没有表现出增长的趋势。