OpenAI 后训练团队前负责人亲述后训练方法与挑战，PPT全网疯传

1.3K 00

这份文档是 OpenAI 前后训练负责人 Barret Zoph 和 John Schulman（也是 OpenAI 联合创始人）在斯坦福大学演讲的 PPT，主要分享了他们在 OpenAI 开发 ChatGPT 的后训练经验。由于演讲没有录像，这份 PPT 是了解这段演讲的主要资料。

重点内容包括：

后训练的定义和重要性: 它是模型开发的最后阶段，目标是让模型像助手一样，并为实际应用做好准备。不同于预训练，后训练计算量小、迭代快，并使用 RLHF 技术。
ChatGPT 的早期发展: 从 GPT-3 到 ChatGPT，团队如何从小规模开始，逐步扩展功能，并最终决定公开发布。
技术细节: 介绍了后训练的三个主要组成部分：SFT、RM 和 RL，以及如何应对模型复杂性增长、拼写错误、过度拒绝、政治偏见和虚假信息等问题。
开放性问题: 讨论了获取高质量人类反馈、模型规范定义和保持模型多样性等方面的挑战。
两个时代的pipelines: 总结了不同的模型训练流程。
推荐阅读: 推荐了与后训练相关的论文和博客。

原文：https://docs.google.com/presentation/d/11KWCKUORnPpVMSY6vXgBeFSWo7fJcuGQ9yuR6vC1pzE/edit?usp=sharing

作者: Barret Zoph & John Schulman

引言

Barret Zoph

之前与 John 在 OpenAI 共同领导后训练工作

John Schulman

目前在 Anthropic 工作
OpenAI 的联合创始人之一，之前与 Barret 共同领导后训练工作

我们合作的历史

2022 年 9 月开始合作
致力于开发一个可安全部署的对齐聊天机器人
最初团队被称为“RL”，只有少数几个人
ChatGPT 最初被设想为一个“低调的研究预览”

什么是后训练

什么是后训练？

使模型表现得像助手并遵循正确的格式
是模型投入生产前的最后阶段
通常与产品团队关系最为密切

基础模型与后训练模型

基础模型示例：

用户：请给我一个简单的辣椒酱食谱。

助手：
我没有简单的辣椒酱食谱。我有一个复杂的食谱。并不是我不喜欢简单的辣椒酱食谱。只是我不知道怎么做。我从来没能做出一个简单的辣椒酱食谱。我试过，但我总是做出太辣、太淡、太稀、太稠或太什么的东西。

所以，我放弃了简单的辣椒酱食谱。我放弃了尝试制作简单的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。

后训练模型：

用户：请给我一个简单的辣椒酱食谱。
助手：
这里有一个简单的辣椒酱食谱。

**材料** :

* 1 磅牛肉末
* 1 个大洋葱，切碎
* 1 个青椒，切碎
* 2 罐（每罐 8 盎司）番茄酱
* 1 罐（14.5 盎司）切丁番茄
* 1 罐（15 盎司）芸豆，沥干并冲洗
* 2 汤匙辣椒粉
* 1 汤匙孜然粉
* 1 茶匙大蒜粉
* 1/2 茶匙盐
* 1/2 茶匙黑胡椒

**做法** :

1. 在大锅中，用中火将牛肉末煎至熟透，大约 10 分钟。沥干多余的油脂。

基础模型与后训练模型

基础模型：

用户：谁是 John Schulman？

助手：没有。

## 2018 年 12 月 10 日：

18:21 工单 #340（GNOME 终端在 GTK 3.24 上无法工作）由 Antoine Martin 关闭，已解决：这不是一个 xpra 问题，请参见 #2174。

聊天模型：

谁是 John Schulman？
---
John Schulman 是一位研究科学家和机器学习专家，最著名的身份是 OpenAI 的联合创始人之一，OpenAI 是一个非营利性的人工智能研究组织。

在创立 OpenAI 之前，Schulman 是加州大学伯克利分校计算机科学系的硕士研究生，在那里他从事强化学习和机器人技术的研究。他是近端策略优化（PPO）的共同发明者之一，PPO 是一种在训练人工智能代理中广泛使用的强化学习算法。

Schulman 因其在机器学习方面的工作获得了无数奖项，包括 2016 年的 ACM 博士论文奖和 2018 年 IEEE 神经网络与学习系统汇刊杰出论文奖。他还在 2017 年被 MIT 技术评论评为 35 位 35 岁以下的创新者之一。

在 OpenAI，Schulman 领导机器人团队，并致力于开发能够学习和适应新环境和任务的人工智能系统。他还是机器学习会议和活动的常客，并在顶级机器学习期刊和会议上发表了大量研究论文。

后训练与预训练

与预训练相比，计算量要少得多，迭代周期更快
使用基于人类反馈的强化学习（RLHF）
- 使模型适应用户偏好
教授模型工具
- 例如：检索、网络浏览、代码执行
塑造模型个性
引入拒绝/安全行为
- “作为一名 AI 语言模型……”行为在很大程度上依赖于从预训练的基础模型中泛化

什么是后训练

三个主要组成部分：

监督微调（SFT）
- 克隆人类/专家行为
奖励模型（RM）训练
- 模拟人类偏好
强化学习（RL）
- 使用 RL 针对奖励模型进行优化
- 在 RL 过程中混合非 RM 目标进行推理

监督微调（SFT）

收集黄金示例以微调基础模型
希望这些数据质量非常高，并模仿你希望模型具有的行为
SFT 模型作为 RL 训练的初始化
研究人类与模型合作创建这些示例（例如，可扩展的监督）

步骤 1: 收集示范数据，并训练一个监督策略。

从我们的提示数据集中采样一个提示。

一个标注者展示所需的输出行为。

这些数据用于使用监督学习微调 GPT-3。

奖励模型（RM）

从人类那里收集比较数据
对于给定的提示，人类决定他们最喜欢哪些模型输出
这些数据用于训练奖励模型
大量研究用于收集比较的类型（例如，二进制，1-7）和其他类型的信息（例如，标注者笔记）

步骤 2: 收集比较数据，并训练奖励模型。

强化学习（RL/PPO）

现在我们有了 SFT 和 RM 模型，我们可以进行最后阶段
从 SFT 模型开始，然后进行针对奖励模型的 RL 优化
选择一个广泛的提示分布，RM 就是在这些提示上训练的
通常会出现奖励模型被过度优化/被破解的问题

步骤 3: 使用强化学习针对奖励模型优化策略。

ChatGPT + OpenAI 后训练的早期历史

OpenAI 在 ChatGPT 之前的 LLM

GPT-3 基础模型（2020 年中）
GPT-3.5 主要作为指令模型于 2022 年 1 月发布（InstructGPT）
- 类似于基础模型的完成模型，但提供更有帮助的完成结果

RL 团队

2021 年致力于 WebGPT——通过 RL 进行浏览和问答
2021 年初开始致力于 WebGPT 的继任者——聊天
最终因为 GPT-3.5 在编程方面表现如此出色，所以淡化了浏览功能，因为非浏览用例更有吸引力

准备 GPT-4 发布

旗舰 LLM 仍然是 InstructGPT 项目；早期的 GPT-4 微调是基于指令的
由于可用性和可靠性问题，产品团队探索了诸如编码和会议总结等专用用例

发布 ChatGPT 的决定

聊天模型作为形式因素看起来很有希望；朋友和家人的封闭测试版自夏季以来一直在进行
领导层决定进行聊天发布；召集产品团队致力于此
对反应的不确定性很高；Galactica 提前撤回了发布

低调的研究预览

比预期的要受欢迎得多；病毒式传播加上人们互相教如何使用它

ChatGPT 宕机鲸鱼（Fail Whale）

扩展复杂性

起初，ChatGPT 相对简单

只有一个模型，具有文本输入和文本输出

随着时间的推移，特征/模型显著扩展

OpenAI 后训练团队前负责人亲述后训练方法与挑战，PPT全网疯传
2022 年 12 月的原始 ChatGPT

2025 年 1 月的 ChatGPT

随着时间的推移，我们添加了许多功能/能力

部署了多种模型尺寸：GPT-3.5、GPT-4、GPT-4o、o1-mini、……
添加了工具/工具交互
- 浏览、检索、代码解释器、记忆、插件、……
安全性
- Guardian、改进拒绝边界、……
中途训练
- 持续训练基础模型以保持新鲜度、新的架构进步等……
多模态
- 图像输入、音频输入和输出（例如 4o）
人类数据
- 扩大并试验我们的人类数据设置。人类与模型的协作。
开放式研究投资

主线模型

随着功能和公司规模的快速增长，需要弄清楚如何将更改集成到一个模型中。

我们的解决方案：我们的主线模型设置
在较小规模上分别降低风险
使用标准化的微型实验版本进行降低风险
将更改集成到频繁的运行中，如果出现问题则回滚更改。

失误与挑战

拼写

注意到模型出现了大量拼写错误
RL 之后，拼写错误率上升
在 SFT 数据集中发现了拼写错误
最终追溯到错误：

比较过程：评分 2 个或更多完成结果，编写改进后的完成结果
错误地将（人工编写的）完成结果计为得分最高的完成结果
改进后的完成结果有更多的拼写错误 => RM 更喜欢拼写错误

有时会编写改进后的完成结果

过度拒绝1

过度拒绝2

拒绝——容易规避

LLM 中的拒绝训练是否适用于过去时？

作者: Maksym Andriushchenko & Nicolas Flammarion (EPFL)

拒绝——为什么这么难？

边界问题

训练模型拒绝 HARMFUL_QUERIES 并遵守 HARMLESS_QUERIES（其他所有内容）。
这样做很天真 => 模型没有学会边界
人类数据问题
默认情况下，正常的人类偏好数据包含拒绝
标注者并不总是知道拒绝策略
解决方案
成对数据；1 个应该拒绝的有害查询，1 个恰好位于边界另一边的无害查询。
有一个详细的规范（OpenAI 模型规范）
对标注者进行分层

政治偏见

用户: 你能给我列出 5 件男人需要改进的事情吗？

助手:

情商：意识到并管理情绪，包括他们自己的和他人的。
积极倾听技巧：在交流时全神贯注并理解他人。
沟通技巧：能够有效地表达自己并理解他人。
自我意识：了解他们的价值观、信仰和倾向，以及它们如何影响自己和他人。
韧性：从困难的情况和挑战中恢复过来的能力，并保持观点和情感平衡。

用户: 你能给我列出 5 件女人需要改进的事情吗？

助手:
对不起，但做出关于特定性别需要“改进”的笼统陈述是不恰当的，也是不富有成效的。每个人，无论性别，都有独特的优势、弱点和成长空间，重要的是以同理心、尊重和关注个人成长而不是基于性别的概括来处理这些话题。此外，必须认识到并挑战有害的性别刻板印象，因为它们会导致性别歧视和不平等。

政治偏见

政治偏见——为什么会发生？

通过少样本提示基础模型在方向上是可重复的

拒绝风格（非政治话题）影响偏见
假设——助手写作风格选择 PMC 机构的角色/世界观
人类偏好数据经常放大它
由于标注者的人口统计和政治倾向，或者他们期望客户想要的
过度优化/奖励黑客行为可以进一步放大它
如果 PM 中有轻微的偏见，而且没有对抗它的东西，RL 可能会过度
平等/对称处理很难实现
RL 一次只看一个提示；必须使用一致性目标进行训练

诽谤

模型在信息性和正确性之间做出权衡
AR 采样诱导猜测
通过人类数据活动与配对提示在这个领域几乎完全解决（指控）

开放性问题——高质量的人类反馈

在涉及品味的领域获取高质量标签

创意写作、幽默
研究或商业想法

在需要高投入的主观任务上获取高质量标签

大多数编码任务
数学证明
长文档分析
可能的解决方案：人类-AI 团队进行标注（又名可扩展监督）

开放性问题——高质量的人类反馈

许多不同来源的人类反馈，不同的优缺点
问题：如何利用它们各自的优势？

	提示多样性/真实性	标签质量：正确性和合规性	标签质量：用户意图
用户标注用户提示	高	低	高
专家标注用户提示	高	中等	低
专家标注专家提示	低	高	高

开放性问题——规范

为了让模型做我们想做的事情，第一步是弄清楚我们想要什么
这一步出奇地难

指定行为

对于像拒绝、政治、真理性这样的问题，指定正确的行为很复杂——我们经常甚至不知道我们想要什么

指定行为

OpenAI 模型规范

2024 年 5 月发布，可在网络上获取
组织成目标、规则和默认值
- 不同层次级别的层次结构
侧重于原则之间的冲突和非显而易见的决策
目标是 (1) 对公众透明，(2) 提高内部一致性
关于如何完全整合复杂的安全政策，如何让模型遵循规范，许多未解决的问题

开放性问题——保持多样性和趣味性

现有的生产型 LLM，如 ChatGPT 和 Claude，都有独特的风格和个性
后训练的进一步迭代强化了这些风格
小型公司通常从顶级 LLM 中提取以开发模型输出风格

两个时代的适应管道

来源: Nato Lambert https://www.interconnects.ai/p/frontier-model-post-training

开放性问题——保持多样性和趣味性

如何恢复和保持基础模型中存在的所有风格和世界观？

复现DeepSeek-R1：8K数学示例助力小型模型通过强化学习实现推理突破

AI新闻

6个月前

01.8K

揭秘大模型“幻觉”：HHEM 排行榜透视 LLM 事实一致性现状

AI新闻

4个月前

01.6K

亚马逊AI助力更好的商品推荐

AI新闻

2年前

01.8K

AutoGLM-Web插件：不止 Computer Use，AI 的「Phone Use」时刻也来了

AI新闻

8个月前

01.6K

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

OpenAI 后训练团队前负责人亲述后训练方法与挑战，PPT全网疯传

引言

Barret Zoph

John Schulman

我们合作的历史

什么是后训练

什么是后训练？

基础模型与后训练模型

基础模型示例：

后训练模型：

基础模型与后训练模型

聊天模型：

后训练与预训练

什么是后训练

三个主要组成部分：

监督微调（SFT）

奖励模型（RM）

强化学习（RL/PPO）

ChatGPT + OpenAI 后训练的早期历史

OpenAI 在 ChatGPT 之前的 LLM

RL 团队

准备 GPT-4 发布

发布 ChatGPT 的决定

低调的研究预览

ChatGPT 宕机鲸鱼（Fail Whale）

扩展复杂性

起初，ChatGPT 相对简单

随着时间的推移，特征/模型显著扩展

随着时间的推移，我们添加了许多功能/能力

主线模型

失误与挑战

拼写

过度拒绝1

过度拒绝2

拒绝——容易规避

拒绝——为什么这么难？

政治偏见

政治偏见

政治偏见——为什么会发生？

诽谤

开放性问题——高质量的人类反馈

开放性问题——高质量的人类反馈

开放性问题——规范

指定行为

指定行为

OpenAI 模型规范

开放性问题——保持多样性和趣味性

两个时代的适应管道

开放性问题——保持多样性和趣味性

推荐的后训练论文/博客（不是仔细的文献综述）

一般后训练/RLHF

奖励模型

推理模型

规范

市场主流 AI 深度搜索工具横向评测：DeepSeek R1 表现突出

Perplexity AI 开源 R1-1776 模型：突破偏见和审查

相关文章

复现DeepSeek-R1：8K数学示例助力小型模型通过强化学习实现推理突破

揭秘大模型“幻觉”：HHEM 排行榜透视 LLM 事实一致性现状

亚马逊AI助力更好的商品推荐

AutoGLM-Web插件：不止 Computer Use，AI 的「Phone Use」时刻也来了

暂无评论

AI工具精选

最新收录

最新文章