快速阅读
体验:DeepSeek 官方网站:chat.deepseek.com 与 DeepSeek-R1 聊天,并开启“深度思考”按钮。访问 兼容OpenAI 格式的 API 。
总结:上下文长度:128K,2.19 美元/每百万输出令牌(大模型界拼多多),性能与 OpenAI-o1 相当,全开源模型自由蒸馏和商业化使用,编写前端功能很有想象力
基础模型: DeepSeek-R1-Zero 与 DeepSeek-R1 均基于 DeepSeek-V3-Base 训练,DeepSeek-R1 经过少量长CoT数据强化学习,输出内容更结构化且简约。
蒸馏模型(整体提升现有开源小模型能力): 将 DeepSeek-R1 蒸馏到多个更小的模型,这些模型包括:( Ollama 中可下载)
问题,API的上下文长度在编程中可能不够
基准评价
-
强大的推理能力:
-
在数学问题上表现出色,达到了与 OpenAI-01-1217 相当的性能。在 MATH-500 基准测试上获得了惊人的高分(97.3%)。
-
在编码算法任务(如 Codeforces 和 LiveCodeBench)中表现出很强的竞争力。
-
在需要复杂推理的任务(如 FRAMES)上展现出强大的能力。
-
-
通用能力强:
-
在 MMLU, MMLU-Pro 和 GPQA Diamond 等知识性基准测试中表现优异。
-
在写作、开放领域问题回答以及其他各种任务中也表现出色。
-
在 AlpacaEval 2.0 和 ArenaHard 等基准上取得了优异的长度控制获胜率,表明它能智能处理非考试导向的查询。
-
能够生成简洁的摘要,避免长度偏差。
-
-
可读性良好:通过冷启动数据和训练流程中的特定设计,DeepSeek-R1 输出的内容更易于阅读,使用了恰当的格式和结构。
-
多语言能力:虽然目前主要优化了中文和英文,但在处理多种语言的查询时,也能表现出一定的能力。
-
对指令的遵循能力:在 IF-Eval 基准测试上表现出色,展示了它能够很好地理解和遵循指令的能力。
-
自我进化能力:通过强化学习,模型可以自主地学习和改进自身的推理能力,能够通过增加思考时间来处理复杂问题。
-
优秀的蒸馏潜力:DeepSeek-R1 可以作为教师模型,将推理能力蒸馏到更小的模型,且蒸馏后的模型具有出色的性能,例如 DeepSeek-R1-Distill-Qwen-32B,在多个基准上都明显优于其他模型。
关于本地编程能力
如果你觉得v3在编程方面已经不错,那么桌面替代蒸馏模型是哪个呢?相比较DeepSeek V3,哪个蒸馏模型能够媲美?按照LiveCodeBench评分,DeepSeek V3得分42.2,蒸馏模型Qwen 14B得分53.1,具有相当的性能,而且尺寸相对来说属于桌面级能跑,推荐大家在桌面上使用14B。
《DeepSeek-R1:通过强化学习激励LLM的推理能力》
发布者:DeepSeek-AI
原文:https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
摘要
我们介绍了我们的第一代推理模型,DeepSeek-R1-Zero和DeepSeek-R1。 DeepSeek-R1-Zero,一个通过大规模强化学习(RL)训练的模型,没有经过初步的监督微调(SFT)步骤,展示了卓越的推理能力。通过RL,DeepSeek-R1-Zero自然地涌现出许多强大而有趣的推理行为。然而,它也遇到了一些挑战,例如可读性差和语言混合。为了解决这些问题并进一步提高推理性能,我们引入了DeepSeek-R1,它在RL之前结合了多阶段训练和冷启动数据。 DeepSeek-R1在推理任务上达到了与OpenAI-01-1217相当的性能。为了支持研究社区,我们开源了DeepSeek-R1-Zero,DeepSeek-R1以及六个基于Qwen和Llama提炼的密集模型(1.5B,7B,8B,14B,32B,70B)。
目录
1 介绍
1.1 贡献
1.2 评估结果总结
2 方法
2.1 概述
2.2 DeepSeek-R1-Zero:基于基础模型的强化学习
2.2.1 强化学习算法
2.2.2 奖励建模
2.2.3 训练模板
2.2.4 DeepSeek-R1-Zero的性能,自我演化过程和顿悟时刻
2.3 DeepSeek-R1:带有冷启动的强化学习
2.3.1 冷启动
2.3.2 面向推理的强化学习
2.3.3 拒绝采样和监督微调
2.3.4 所有场景的强化学习
2.4 蒸馏:用推理能力增强小型模型
3 实验
3.1 DeepSeek-R1评估
3.2 蒸馏模型评估
4 讨论
4.1 蒸馏 vs. 强化学习
4.2 失败的尝试
5 结论、局限性和未来工作
1. 介绍
近年来,大型语言模型(LLM)经历了快速的迭代和发展(Anthropic, 2024; Google, 2024; OpenAI, 2024a),逐渐缩小了通向人工通用智能(AGI)的差距。
最近,后训练已成为完整训练流程的一个重要组成部分。它被证明可以提高推理任务的准确性,与社会价值观保持一致,并适应用户偏好,同时相对于预训练而言,所需的计算资源相对较少。在推理能力方面,OpenAI的o1(OpenAI,2024b)系列模型首次引入了通过增加思维链推理过程的长度来实现推理时的缩放。这种方法在各种推理任务中取得了显著的进步,例如数学、编码和科学推理。然而,对于研究界来说,有效的测试时缩放的挑战仍然是一个悬而未决的问题。一些先前的工作探索了各种方法,包括基于过程的奖励模型(Lightman et al., 2023; Uesato et al., 2022; Wang et al., 2023),强化学习(Kumar et al., 2024)以及蒙特卡洛树搜索和束搜索等搜索算法(Feng et al., 2024; Trinh et al., 2024; Xin et al., 2024)。然而,这些方法都未能实现与OpenAI的o1系列模型相当的通用推理性能。
在本文中,我们迈出了利用纯强化学习(RL)改进语言模型推理能力的第一步。我们的目标是探索LLM在没有任何监督数据的情况下发展推理能力的潜力,重点是通过纯粹的RL过程进行自我演化。具体来说,我们使用DeepSeek-V3-Base作为基础模型,并采用GRPO(Shao et al., 2024)作为RL框架来提高模型在推理方面的性能。在训练过程中,DeepSeek-R1-Zero自然地涌现出许多强大而有趣的推理行为。经过数千个RL步骤后,DeepSeek-R1-Zero在推理基准上表现出优异的性能。例如,AIME 2024的pass@1得分从15.6%提高到71.0%,并且通过多数投票,得分进一步提高到86.7%,达到了OpenAI-01-0912的性能水平。
然而,DeepSeek-R1-Zero遇到了可读性差和语言混合等挑战。为了解决这些问题并进一步提高推理性能,我们引入了DeepSeek-R1,它结合了少量的冷启动数据和一个多阶段训练流程。具体来说,我们首先收集数千个冷启动数据,以微调DeepSeek-V3-Base模型。在此之后,我们执行类似于DeepSeek-R1-Zero的面向推理的RL。在RL过程中接近收敛时,我们通过对RL检查点进行拒绝采样来创建新的SFT数据,并结合来自DeepSeek-V3在写作、事实问答和自我认知等领域的监督数据,然后重新训练DeepSeek-V3-Base模型。在使用新数据进行微调后,该检查点会进行额外的RL过程,其中考虑了所有场景的提示。经过这些步骤后,我们获得了一个称为DeepSeek-R1的检查点,它在性能上与OpenAI-01-1217相当。
我们进一步探索了从DeepSeek-R1到较小密集模型的蒸馏。使用Qwen2.5-32B(Qwen,2024b)作为基础模型,从DeepSeek-R1直接进行蒸馏的性能优于在其上应用RL。这表明,较大的基础模型发现的推理模式对于提高推理能力至关重要。我们开源了蒸馏的Qwen和Llama(Dubey et al., 2024)系列模型。值得注意的是,我们蒸馏的14B模型大幅超越了最先进的开源QwQ-32B-Preview(Qwen,2024a),并且蒸馏的32B和70B模型在密集模型中的推理基准上创造了新的记录。
1.1 贡献
后训练:基于基础模型的大规模强化学习
- 我们直接将强化学习(RL)应用于基础模型,而不依赖于监督微调(SFT)作为初步步骤。这种方法允许模型探索解决复杂问题的思维链(CoT),从而开发出DeepSeek-R1-Zero。DeepSeek-R1-Zero展示了自我验证、反思和生成长CoT等能力,标志着研究界的一个重要里程碑。值得注意的是,这是第一个公开研究验证LLM的推理能力可以通过纯粹的RL来激励,而不需要SFT。这一突破为该领域的未来发展铺平了道路。
- 我们介绍了开发DeepSeek-R1的流程。该流程包含两个RL阶段,旨在发现改进的推理模式并与人类偏好保持一致,以及两个SFT阶段,作为模型推理和非推理能力的种子。我们相信,该流程将通过创建更好的模型来造福该行业。
蒸馏:小型模型也可以很强大
- 我们证明了大型模型的推理模式可以被蒸馏到较小的模型中,与在小型模型上通过RL发现的推理模式相比,可以获得更好的性能。开源的DeepSeek-R1及其API将有利于研究界在未来蒸馏出更好的小型模型。
- 通过使用DeepSeek-R1生成的推理数据,我们对研究界广泛使用的几种密集模型进行了微调。评估结果表明,蒸馏后的小型密集模型在基准测试中表现出色。DeepSeek-R1-Distill-Qwen-7B在AIME 2024上达到55.5%的成绩,超过了QwQ-32B-Preview。此外,DeepSeek-R1-Distill-Qwen-32B在AIME 2024上得分为72.6%,在MATH-500上得分为94.3%,在LiveCodeBench上得分为57.2%。这些结果显著优于以前的开源模型,并且与o1-mini相当。我们向社区开源了基于Qwen2.5和Llama3系列的蒸馏1.5B、7B、8B、14B、32B和70B检查点。
1.2 评估结果总结
- 推理任务:(1)DeepSeek-R1在AIME 2024上获得79.8%的pass@1得分,略微超过OpenAI-o1-1217。在MATH-500上,它获得了惊人的97.3%的得分,与OpenAI-o1-1217的性能相当,并且显著优于其他模型。(2)在编码相关任务上,DeepSeek-R1在代码竞赛任务中展示了专家级水平,因为它在Codeforces上获得了2,029 Elo评级,超过了该竞赛中96.3%的人类参与者。对于工程相关的任务,DeepSeek-R1的表现略好于DeepSeek-V3,这有助于开发者在现实世界中开展工作。
- ****知识:在MMLU、MMLU-Pro和GPQA Diamond等基准上,DeepSeek-R1取得了出色的成绩,显著优于DeepSeek-V3,在MMLU上得分为90.8%,在MMLU-Pro上得分为84.0%,在GPQA Diamond上得分为71.5%。虽然其性能略低于OpenAI-01-1217在这些基准上的表现,但DeepSeek-R1超过了其他闭源模型,展示了其在教育任务中的竞争优势。在事实基准SimpleQA上,DeepSeek-R1的性能优于DeepSeek-V3,展示了其处理基于事实的查询的能力。在OpenAI-o1超越4o的该基准测试中观察到了类似的趋势。
- 其他: DeepSeek-R1在各种任务中也表现出色,包括创意写作、一般问题回答、编辑、摘要等等。它在AlpacaEval 2.0上取得了87.6%的长度控制获胜率,在ArenaHard上取得了92.3%的获胜率,展示了其智能处理非考试导向查询的强大能力。此外,DeepSeek-R1在需要长上下文理解的任务中表现出色,在长上下文基准测试中显著优于DeepSeek-V3。
2. 方法
2.1 概述
先前的工作严重依赖于大量的监督数据来提高模型性能。在本研究中,我们证明了推理能力可以通过大规模强化学习(RL)得到显著提高,即使不使用监督微调(SFT)作为冷启动也是如此。此外,通过包含少量的冷启动数据,性能可以得到进一步增强。在以下章节中,我们介绍:(1)DeepSeek-R1-Zero,它在没有任何SFT数据的情况下直接将RL应用于基础模型,以及(2)DeepSeek-R1,它从用数千个长思维链(CoT)示例微调的检查点开始应用RL。3)将DeepSeek-R1的推理能力蒸馏到小型密集模型中。
2.2 DeepSeek-R1-Zero:基于基础模型的强化学习
强化学习已在推理任务中表现出显著的有效性,这在我们先前的工作中得到了证明(Shao et al., 2024; Wang et al., 2023)。然而,这些工作很大程度上依赖于监督数据,而监督数据的收集需要耗费大量的时间。在本节中,我们探索了LLM在没有任何监督数据的情况下发展推理能力的潜力,重点是通过纯粹的强化学习过程进行自我演化。我们首先简要概述我们的强化学习算法,然后介绍一些令人兴奋的结果,希望这能为社区提供有价值的见解。
组相对策略优化 为了节省RL的训练成本,我们采用了组相对策略优化(GRPO)(Shao et al., 2024),它放弃了通常与策略模型大小相同的评论家模型,而是从组分数中估计基线。具体而言,对于每个问题q,GRPO从旧策略πθold中采样一组输出{o1, o2,…, oG},然后通过最大化以下目标来优化策略模型πθ:
其中ɛ和β是超参数,而Ai是优势,使用每个组内输出对应的奖励{r1,r2, . . ., rG}进行计算:
奖励是训练信号的来源,它决定了RL的优化方向。为了训练DeepSeek-R1-Zero,我们采用了一个基于规则的奖励系统,该系统主要由以下两种奖励组成:
- 准确性奖励: 准确性奖励模型评估响应是否正确。例如,对于具有确定性结果的数学问题,模型需要在指定格式(例如,在一个框内)中提供最终答案,从而可以可靠地进行基于规则的正确性验证。类似地,对于LeetCode问题,可以使用编译器根据预定义的测试用例生成反馈。
- 格式奖励: 除了准确性奖励模型外,我们还采用了强制模型将思维过程放在''和''标签之间的格式奖励模型。
我们没有在DeepSeek-R1-Zero的开发中使用结果或过程神经奖励模型,因为我们发现神经奖励模型在大型强化学习过程中可能会遭受奖励黑客攻击,并且重新训练奖励模型需要额外的训练资源,这会使整个训练流程变得复杂。
为了训练DeepSeek-R1-Zero,我们首先设计了一个简单的模板,该模板指导基础模型遵守我们指定的指令。如表1所示,此模板要求DeepSeek-R1-Zero首先生成推理过程,然后生成最终答案。我们有意将约束限制在此结构格式中,避免任何特定于内容的偏见,例如强制反思推理或促进特定的解决问题策略,以确保我们可以准确观察模型在强化学习(RL)过程中的自然进展。
用户与助手之间的对话。用户提出一个问题,助手解决该问题。
助手首先在脑海中思考推理过程,然后为用户提供答案。
推理过程和答案分别用 <think> </think> 和 <answer> </answer> 标签括起来,即:
<think> 此处为推理过程 </think>
<answer> 此处为答案 </answer>。
用户:提示。助手:
表1 | DeepSeek-R1-Zero的模板。训练期间,提示将替换为特定的推理问题。
DeepSeek-R1-Zero的性能 图2描述了DeepSeek-R1-Zero在整个强化学习(RL)训练过程中在AIME 2024基准上的性能轨迹。如图所示,随着RL训练的推进,DeepSeek-R1-Zero的性能表现出稳定且持续的增强。值得注意的是,AIME 2024的平均pass@1得分显示出显著的增长,从最初的15.6%跃升至令人印象深刻的71.0%,达到了与OpenAI-01-0912相当的性能水平。这一显著的改进凸显了我们的RL算法在优化模型性能方面的有效性。
表2提供了DeepSeek-R1-Zero和OpenAI的o1-0912模型在各种推理相关基准上的比较分析。研究结果表明,RL使
DeepSeek-R1-Zero无需任何监督微调数据即可获得强大的推理能力。这是一项值得注意的成就,因为它强调了模型仅通过RL就能有效学习和泛化的能力。此外,DeepSeek-R1-Zero的性能可以通过应用多数投票得到进一步增强。例如,当在AIME基准测试中使用多数投票时,DeepSeek-R1-Zero的性能从71.0%提升到86.7%,从而超过了OpenAI-01-0912的性能。DeepSeek-R1-Zero在有和没有多数投票的情况下都能达到如此有竞争力的性能,突显了其强大的基础能力及其在推理任务方面进一步发展的潜力。
DeepSeek-R1-Zero的自我演化过程 DeepSeek-R1-Zero的自我演化过程是RL如何驱动模型自主提高推理能力的引人入胜的演示。通过直接从基础模型启动RL,我们可以在不受监督微调阶段影响的情况下密切监控模型的进展。这种方法提供了模型随时间推移如何演变的清晰视图,尤其是在处理复杂推理任务的能力方面。
如图3所示,DeepSeek-R1-Zero的思考时间显示出在整个训练过程中持续的提高。这种改进不是外部调整的结果,而是模型内部的一种内在发展。DeepSeek-R1-Zero通过利用扩展的测试时计算,自然地获得了解决日益复杂的推理任务的能力。这种计算的范围从生成数百到数千个推理标记不等,从而使模型能够更深入地探索和完善其思维过程。
这种自我演化最显著的方面之一是随着测试时计算的增加,复杂的行为的出现。反思——即模型重新访问并重新评估其先前的步骤——以及对替代问题解决方法的探索——会自发出现。这些行为不是显式编程的,而是作为模型与强化学习环境交互的结果而出现的。这种自发发展显著增强了DeepSeek-R1-Zero的推理能力,使其能够以更高的效率和准确性处理更具挑战性的任务。
DeepSeek-R1-Zero的顿悟时刻 在DeepSeek-R1-Zero的训练过程中观察到的一个特别有趣的现象是“顿悟时刻”的发生。如表3所示,这一时刻发生在模型的中间版本中。在此阶段,DeepSeek-R1-Zero通过重新评估其初始方法,学习将更多思考时间分配给问题。这种行为不仅证明了模型不断增长的推理能力,而且也是强化学习如何能够带来意想不到和复杂结果的引人入胜的例子。
这个时刻不仅是模型的一个“顿悟时刻”,也是观察其行为的研究人员的一个顿悟时刻。它强调了强化学习的力量和美感:我们不是明确地教模型如何解决问题,而是简单地为其提供正确的激励,它就会自主地开发出先进的问题解决策略。“顿悟时刻”有力地提醒我们RL在解锁人工智能系统的新水平智能方面的潜力,为未来更自主和自适应的模型铺平了道路。
DeepSeek-R1-Zero的缺点 虽然DeepSeek-R1-Zero表现出强大的推理能力并自主开发出意想不到且强大的推理行为,但它也面临着一些问题。例如,DeepSeek-R1-Zero在可读性差和语言混合等方面存在困难。为了使推理过程更具可读性并与开放社区共享,我们探索了DeepSeek-R1,这是一种利用具有人类友好冷启动数据的RL的方法。
2.3 DeepSeek-R1:带有冷启动的强化学习
受到DeepSeek-R1-Zero的良好结果的启发,出现了两个自然的问题:1) 通过结合少量高质量数据作为冷启动,推理性能能否得到进一步提高或加速收敛?2) 我们如何训练一个用户友好的模型,该模型不仅产生清晰连贯的思维链(CoT),而且还展示出强大的通用能力?为了解决这些问题,我们设计了一个训练DeepSeek-R1的流程。该流程包括四个阶段,概述如下。
与DeepSeek-R1-Zero不同,为了防止RL训练从基础模型开始时的早期不稳定冷启动阶段,对于DeepSeek-R1,我们构建并收集了少量长CoT数据,以微调模型作为初始RL参与者。为了收集此类数据,我们探索了几种方法:使用带有长CoT作为示例的少样本提示,直接提示模型生成带有反思和验证的详细答案,以可读格式收集DeepSeek-R1-Zero的输出,以及通过人工注释者对结果进行后处理。
在这项工作中,我们收集了数千个冷启动数据,以微调DeepSeek-V3-Base作为RL的起点。与DeepSeek-R1-Zero相比,冷启动数据的优势包括:
- 可读性: DeepSeek-R1-Zero的一个主要局限性在于其内容通常不适合阅读。响应可能会混合多种语言或缺少用于突出用户答案的标记格式。相反,在为DeepSeek-R1创建冷启动数据时,我们设计了一种可读的模式,该模式在每个响应的末尾包含一个摘要,并过滤掉不方便阅读的响应。在这里,我们将输出格式定义为| special_token | <推理过程> | special_token | <摘要>,其中推理过程是查询的CoT,摘要用于总结推理结果。
- 潜力: 通过使用人类先验精心设计冷启动数据的模式,我们观察到针对DeepSeek-R1-Zero更好的性能。我们认为迭代训练是推理模型更好的方式。
在冷启动数据上微调DeepSeek-V3-Base之后,我们应用了与DeepSeek-R1-Zero中采用的相同的大规模强化学习训练过程。此阶段的重点是增强模型的推理能力,尤其是在需要推理的任务中,例如涉及明确问题的编码、数学、科学和逻辑推理。在训练过程中,我们观察到CoT经常表现出语言混合,特别是在RL提示涉及多种语言时。为了缓解语言混合问题,我们在RL训练期间引入了一种语言一致性奖励,该奖励计算为CoT中目标语言单词的比例。尽管消融实验表明,这种对齐会导致模型性能略有下降,但这种奖励与人类的偏好相一致,使其更具可读性。最后,我们通过直接将它们相加形成最终奖励,从而将推理任务的准确性和语言一致性的奖励结合在一起。然后,我们在微调后的模型上应用强化学习(RL)训练,直到它在推理任务上达到收敛。
当面向推理的RL收敛时,我们利用生成的检查点来收集SFT(监督微调)数据以用于后续轮次。与主要关注推理的初始冷启动数据不同,此阶段结合了来自其他领域的数据,以增强模型在写作、角色扮演和其他通用任务中的能力。具体来说,我们生成数据并按如下所述微调模型。
推理数据 我们策划了推理提示,并通过从上述RL训练的检查点执行拒绝采样来生成推理轨迹。在上一阶段中,我们仅包含可以使用基于规则的奖励进行评估的数据。但是,在此阶段,我们通过结合更多数据来扩展数据集,其中一些数据使用生成奖励模型,方法是将真实标签和模型预测输入到DeepSeek-V3中进行判断。此外,由于模型输出有时是混乱且难以阅读的,因此我们过滤掉了具有混合语言、长段落和代码块的思维链。对于每个提示,我们采样多个响应并仅保留正确的响应。我们总共收集了约60万个与推理相关的训练样本。
非推理数据 对于非推理数据,例如写作、事实性问答、自我认知和翻译,我们采用DeepSeek-V3流程并重用DeepSeek-V3的SFT数据集的部分。对于某些非推理任务,我们调用DeepSeek-V3,在回答问题之前通过提示来生成潜在的思维链。但是,对于简单的查询(例如“hello”),我们在响应中不提供CoT。最后,我们总共收集了大约20万个与推理无关的训练样本。
我们使用上述约80万个样本的策划数据集对DeepSeek-V3-Base进行了两个时期的微调。
为了进一步使模型与人类偏好保持一致,我们实施了第二阶段的强化学习,旨在提高模型的有用性和无害性,同时不断改进其推理能力。具体来说,我们使用奖励信号和各种提示分布的组合来训练模型。对于推理数据,我们坚持使用DeepSeek-R1-Zero中概述的方法,该方法利用基于规则的奖励来指导数学、代码和逻辑推理领域中的学习过程。对于一般数据,我们依赖奖励模型来捕捉复杂和细致场景中的人类偏好。我们以DeepSeek-V3流程为基础,并采用相似的偏好对和训练提示分布。为了提供帮助,我们专门关注最终摘要,确保评估强调响应对用户的实用性和相关性,同时最大限度地减少对底层推理过程的干扰。为了提供无害性,我们评估模型的整个响应,包括推理过程和摘要,以识别和减轻在生成过程中可能出现的任何潜在风险、偏见或有害内容。最终,奖励信号和各种数据分布的集成使我们能够训练出一个擅长推理并同时优先考虑有用性和无害性的模型。
2.4 蒸馏:用推理能力增强小型模型
为了使更多高效的小型模型具有像DeepSeek-R1一样的推理能力,我们使用DeepSeek-R1整理的80万个样本(如§2.3.3中所详述)直接对诸如Qwen (Qwen, 2024b) 和Llama (AI@Meta, 2024) 之类的开源模型进行了微调。我们的发现表明,这种简单的蒸馏方法可以显著增强小型模型的推理能力。我们在此使用的基础模型是Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-14B、Qwen2.5-32B、Llama-3.1-8B和Llama-3.3-70B-Instruct。我们选择Llama-3.3是因为其推理能力略好于Llama-3.1。
对于蒸馏模型,我们仅应用SFT,不包括RL阶段,尽管合并RL可以显著提高模型性能。我们在此的主要目标是展示蒸馏技术的有效性,将RL阶段的探索留给更广泛的研究社区。
3. 实验
基准测试 我们在 MMLU (Hendrycks et al., 2020), MMLU-Redux (Gema et al., 2024), MMLU-Pro (Wang et al., 2024), C-Eval (Huang et al., 2023), 和 CMMLU (Li et al., 2023), IFEval (Zhou et al., 2023), FRAMES (Krishna et al., 2024), GPQA Diamond (Rein et al., 2023), SimpleQA (OpenAI, 2024c), C-SimpleQA (He et al., 2024), SWE-Bench Verified (OpenAI, 2024d), Aider¹ , LiveCodeBench (Jain et al., 2024) (2024-08 – 2025-01), Codeforces², Chinese National High School Mathematics Olympiad (CNMO 2024)³, 和 American Invitational Mathematics Examination 2024 (AIME 2024) (MAA, 2024) 上评估模型。除了标准基准测试之外,我们还使用 LLM 作为评委评估我们模型在开放式生成任务上的表现。具体来说,我们遵循 AlpacaEval 2.0 (Dubois et al., 2024) 和 Arena-Hard (Li et al., 2024) 的原始配置,它们利用 GPT-4-Turbo-1106 作为成对比较的评委。在这里,我们只将最终摘要提供给评估,以避免长度偏差。对于蒸馏模型,我们报告在 AIME 2024、MATH-500、GPQA Diamond、Codeforces 和 LiveCodeBench 上的代表性结果。
评估提示 遵循 DeepSeek-V3 中的设置,标准基准测试如 MMLU、DROP、GPQA Diamond 和 SimpleQA 使用来自 simple-evals 框架的提示进行评估。对于 MMLU-Redux,我们在零样本设置中采用 Zero-Eval 提示格式 (Lin, 2024)。就 MMLU-Pro、C-Eval 和 CLUE-WSC 而言,由于原始提示是少样本的,我们稍微修改提示为零样本设置。少样本中的 CoT 可能会损害 DeepSeek-R1 的性能。其他数据集遵循其创建者提供的带有默认提示的原始评估协议。对于代码和数学基准测试,HumanEval-Mul 数据集涵盖八种主流编程语言(Python、Java、C++、C#、JavaScript、TypeScript、PHP 和 Bash)。使用 CoT 格式评估 LiveCodeBench 上的模型性能,数据收集于 2024 年 8 月至 2025 年 1 月之间。使用来自 10 个 Div.2 竞赛的问题以及专家制作的测试用例评估 Codeforces 数据集,然后计算竞争对手的预期评级和百分比。通过无代理框架 (Xia et al., 2024) 获取 SWE-Bench 验证的结果。使用 “diff” 格式测量 AIDER 相关基准测试。DeepSeek-R1 输出的上限为每个基准测试 32,768 个 token。
基线 我们针对几个强大的基线进行了全面的评估,包括 DeepSeek-V3、Claude-Sonnet-3.5-1022、GPT-40-0513、OpenAI-01-mini 和 OpenAI-01-1217。由于在中国大陆访问 OpenAI-01-1217 API 具有挑战性,我们基于官方报告报告其性能。对于蒸馏模型,我们还比较了开源模型 QwQ-32B-Preview (Qwen, 2024a)。
生成设置 对于我们所有模型,最大生成长度设置为 32,768 个 token。对于需要采样的基准测试,我们使用 0.6 的温度,0.95 的 top-p 值,并为每个查询生成 64 个响应以估计 pass@1。
3.1 DeepSeek-R1 评估
对于面向教育的知识基准测试(如 MMLU、MMLU-Pro 和 GPQA Diamond),DeepSeek-R1 展示了比 DeepSeek-V3 更优异的性能。 这种改进主要归因于 STEM 相关问题中准确性的提高,其中通过大规模强化学习 (RL) 取得了显著的收益。此外,DeepSeek-R1 在 FRAMES(一项长上下文依赖的 QA 任务)上表现出色,展示了其强大的文档分析能力。 这凸显了推理模型在 AI 驱动的搜索和数据分析任务中的潜力。 在事实性基准 SimpleQA 上,DeepSeek-R1 的性能优于 DeepSeek-V3,展示了其处理基于事实的查询的能力。 在 OpenAI-01 在此基准测试中超越 GPT-40 时,观察到了类似的趋势。 然而,DeepSeek-R1 在中文 SimpleQA 基准测试上的表现不如 DeepSeek-V3,这主要是由于其在安全 RL 之后倾向于拒绝回答某些查询。 在没有安全 RL 的情况下,DeepSeek-R1 可以实现 70% 以上的准确率。
DeepSeek-R1 在 IF-Eval 上也取得了令人印象深刻的结果,IF-Eval 是一种旨在评估模型遵循格式指令能力的基准测试。 这些改进可能与监督微调 (SFT) 和 RL 训练的最后阶段中包含的指令遵循数据有关。 此外,在 AlpacaEval2.0 和 ArenaHard 上观察到了卓越的性能,表明 DeepSeek-R1 在写作任务和开放领域的问题回答方面具有优势。其显著优于 DeepSeek-V3 的性能突显了大规模 RL 的泛化优势,这不仅提高了推理能力,而且还提高了跨多个领域的性能。 此外,DeepSeek-R1 生成的摘要长度简洁,ArenaHard 上的平均 token 为 689 个,AlpacaEval 2.0 上的平均字符为 2,218 个。 这表明 DeepSeek-R1 在基于 GPT 的评估期间避免引入长度偏差,从而进一步巩固了其在多项任务中的稳健性。
在数学任务方面,DeepSeek-R1 的性能与 OpenAI-01-1217 的性能相当,大幅超越其他模型。 在诸如 LiveCodeBench 和 Codeforces 等编码算法任务中观察到了类似的趋势,其中以推理为中心的模型在这些基准测试中占主导地位。 在面向工程的编码任务方面,OpenAI-01-1217 在 Aider 上的性能优于 DeepSeek-R1,但在 SWE Verified 上实现了相当的性能。 我们相信,工程任务方面 DeepSeek-R1 的性能将在下一版本中得到提高,因为相关 RL 训练数据的量目前仍然非常有限。
3.2 蒸馏模型评估
如表 5 所示,简单地蒸馏 DeepSeek-R1 的输出使得高效的 DeepSeek-R1-7B(即 DeepSeek-R1-Distill-Qwen-7B,以下简称此名称)能够在各个方面都超越 GPT-40-0513 等非推理模型。 DeepSeek-R1-14B 在所有评估指标上都超越了 QwQ-32B-Preview,而 DeepSeek-R1-32B 和 DeepSeek-R1-70B 在大多数基准测试中都显著优于 o1-mini。 这些结果证明了蒸馏的强大潜力。 此外,我们发现将 RL 应用于这些蒸馏模型会带来显著的进一步收益。 我们认为这值得进一步探索,因此此处仅呈现简单 SFT 蒸馏模型的结果。
4. 讨论
4.1 蒸馏 vs. 强化学习
在3.2节中,我们可以看到,通过蒸馏DeepSeek-R1,小型模型可以取得令人印象深刻的结果。但是,仍然存在一个问题:模型是否可以通过本文讨论的大规模RL训练(而无需蒸馏)获得可比的性能?
为了回答这个问题,我们使用数学、代码和 STEM 数据对 Qwen-32B-Base 进行了大规模 RL 训练,训练超过 1 万步,最终得到了 DeepSeek-R1-Zero-Qwen-32B。 实验结果(如图 6 所示)表明,32B 的基础模型在经过大规模 RL 训练后,性能达到了与 QwQ-32B-Preview 相当的水平。 然而,从 DeepSeek-R1 蒸馏得到的 DeepSeek-R1-Distill-Qwen-32B 在所有基准测试中的表现都显著优于 DeepSeek-R1-Zero-Qwen-32B。 因此,我们可以得出两个结论:首先,将更强大的模型蒸馏为较小的模型会产生出色的结果,而依赖本文中提到的大规模 RL 的较小模型则需要巨大的计算能力,甚至可能无法达到蒸馏的性能。 其次,虽然蒸馏策略既经济又有效,但要超越智能的边界可能仍然需要更强大的基础模型和更大规模的强化学习。
4.2 失败的尝试
在DeepSeek-R1的早期开发阶段,我们也遇到了一些失败和挫折。我们在此处分享我们的失败经历以提供见解,但这并不意味着这些方法无法开发有效的推理模型。
过程奖励模型(PRM) PRM是指导模型采用更好方法来解决推理任务的一种合理方法(Lightman et al., 2023; Uesato et al., 2022; Wang et al., 2023)。但是,实际上,PRM有三个主要的局限性可能会阻碍其最终成功。首先,很难在一般的推理中明确定义细粒度的步骤。其次,确定当前中间步骤是否正确是一项艰巨的任务。使用模型进行自动注释可能无法产生令人满意的结果,而手动注释不利于扩展。第三,一旦引入基于模型的PRM,它将不可避免地导致奖励黑客攻击(Gao et al., 2022),并且重新训练奖励模型需要额外的训练资源,这会使整个训练流程复杂化。总之,虽然PRM展示了重新排序模型生成的top-N响应或辅助引导搜索的良好能力(Snell et al., 2024),但与我们在实验中大规模强化学习过程中引入的额外计算开销相比,其优势有限。
蒙特卡洛树搜索(MCTS) 受AlphaGo(Silver et al., 2017b)和AlphaZero(Silver et al., 2017a)的启发,我们探索了使用蒙特卡洛树搜索(MCTS)来增强测试时计算的可扩展性。这种方法涉及将答案分解为更小的部分,以允许模型系统地探索解空间。为了促进这一点,我们提示模型生成多个标签,这些标签对应于搜索所必需的特定推理步骤。对于训练,我们首先使用收集的提示,通过由预训练价值模型指导的MCTS来找到答案。随后,我们使用生成的问答对来训练actor模型和价值模型,从而迭代地改进该过程。
然而,这种方法在扩大训练规模时遇到了一些挑战。首先,与国际象棋搜索空间相对明确的情况不同,标记生成呈现指数级更大的搜索空间。为了解决这个问题,我们为每个节点设置了最大扩展限制,但这可能会导致模型陷入局部最优。其次,价值模型直接影响生成的质量,因为它指导着搜索过程的每一步。训练细粒度的价值模型本身就很困难,这使得模型难以迭代改进。虽然AlphaGo的核心成功依赖于训练价值模型来逐步提高其性能,但由于标记生成的复杂性,该原则在我们的设置中难以复制。
总之,虽然当与预训练价值模型配对时,MCTS可以提高推理时的性能,但在自我搜索过程中迭代地提升模型性能仍然是一项艰巨的挑战。
5. 结论,局限性和未来工作
在本文中,我们分享了我们通过强化学习(RL)增强模型推理能力的过程。DeepSeek-R1-Zero代表了一种纯粹的RL方法,不依赖冷启动数据,在各种任务中取得了强大的性能。DeepSeek-R1更强大,它利用了冷启动数据和迭代的RL微调。最终,DeepSeek-R1在各种任务中实现了与OpenAI-01-1217相当的性能。
我们进一步探索了将推理能力蒸馏到小型密集模型中。我们使用DeepSeek-R1作为教师模型来生成800K数据,并微调几个小型密集模型。结果很有希望:DeepSeek-R1-Distill-Qwen-1.5B在数学基准测试中超越了GPT-40和Claude-3.5-Sonnet,AIME得分为28.9%,MATH得分为83.9%。其他密集模型也取得了令人印象深刻的结果,显著优于基于相同底层检查点的其他指令微调模型。
未来,我们计划在以下方面对DeepSeek-R1进行研究:
- 通用能力: 目前,DeepSeek-R1在诸如函数调用、多轮对话、复杂角色扮演和json输出等任务中的能力不足DeepSeek-V3。展望未来,我们计划探索如何利用长CoT来增强这些领域中的任务。
- 语言混合: DeepSeek-R1目前针对中文和英文进行了优化,这可能会在处理其他语言的查询时导致语言混合问题。例如,即使查询使用英语或中文以外的语言,DeepSeek-R1也可能会使用英语进行推理和响应。我们旨在在未来的更新中解决此限制。
- 提示工程: 在评估DeepSeek-R1时,我们发现它对提示很敏感。少样本提示会持续降低其性能。因此,我们建议用户直接描述问题并使用零样本设置指定输出格式以获得最佳结果。
- 软件工程任务: 由于评估时间较长,这会影响RL流程的效率,因此尚未在软件工程任务中广泛应用大规模RL。因此,DeepSeek-R1在软件工程基准测试上的表现尚未较DeepSeek-V3有巨大提升。未来的版本将通过在软件工程数据上实施拒绝采样或在RL流程中合并异步评估来解决此问题,从而提高效率。