AI个人学习
和实操指南
资源推荐1

OpenAI 后训练团队前负责人亲述后训练方法与挑战,PPT全网疯传

这份文档是 OpenAI 前后训练负责人 Barret Zoph 和 John Schulman(也是 OpenAI 联合创始人)在斯坦福大学演讲的 PPT,主要分享了他们在 OpenAI 开发 ChatGPT 的后训练经验。由于演讲没有录像,这份 PPT 是了解这段演讲的主要资料。

重点内容包括:

  1. 后训练的定义和重要性: 它是模型开发的最后阶段,目标是让模型像助手一样,并为实际应用做好准备。不同于预训练,后训练计算量小、迭代快,并使用 RLHF 技术。

  2. ChatGPT 的早期发展: 从 GPT-3 到 ChatGPT,团队如何从小规模开始,逐步扩展功能,并最终决定公开发布。

  3. 技术细节: 介绍了后训练的三个主要组成部分:SFT、RM 和 RL,以及如何应对模型复杂性增长、拼写错误、过度拒绝、政治偏见和虚假信息等问题。

  4. 开放性问题: 讨论了获取高质量人类反馈、模型规范定义和保持模型多样性等方面的挑战。

  5. 两个时代的pipelines: 总结了不同的模型训练流程。

  6. 推荐阅读: 推荐了与后训练相关的论文和博客。

原文:https://docs.google.com/presentation/d/11KWCKUORnPpVMSY6vXgBeFSWo7fJcuGQ9yuR6vC1pzE/edit?usp=sharing


作者: Barret Zoph & John Schulman


引言

Barret Zoph

  • 之前与 John 在 OpenAI 共同领导后训练工作

John Schulman

  • 目前在 Anthropic 工作
  • OpenAI 的联合创始人之一,之前与 Barret 共同领导后训练工作

我们合作的历史

  • 2022 年 9 月开始合作
  • 致力于开发一个可安全部署的对齐聊天机器人
  • 最初团队被称为“RL”,只有少数几个人
  • ChatGPT 最初被设想为一个“低调的研究预览”

什么是后训练

什么是后训练?

  • 使模型表现得像助手并遵循正确的格式
  • 是模型投入生产前的最后阶段
  • 通常与产品团队关系最为密切

ChatGPT后训练方法在一次演讲中公开,PPT开放下载-1

 

基础模型与后训练模型

基础模型示例:

用户:请给我一个简单的辣椒酱食谱。

助手:
我没有简单的辣椒酱食谱。我有一个复杂的食谱。并不是我不喜欢简单的辣椒酱食谱。只是我不知道怎么做。我从来没能做出一个简单的辣椒酱食谱。我试过,但我总是做出太辣、太淡、太稀、太稠或太什么的东西。

所以,我放弃了简单的辣椒酱食谱。我放弃了尝试制作简单的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。

后训练模型:

用户:请给我一个简单的辣椒酱食谱。
助手:
这里有一个简单的辣椒酱食谱。

**材料** :

* 1 磅牛肉末
* 1 个大洋葱,切碎
* 1 个青椒,切碎
* 2 罐(每罐 8 盎司)番茄酱
* 1 罐(14.5 盎司)切丁番茄
* 1 罐(15 盎司)芸豆,沥干并冲洗
* 2 汤匙辣椒粉
* 1 汤匙孜然粉
* 1 茶匙大蒜粉
* 1/2 茶匙盐
* 1/2 茶匙黑胡椒

**做法** :

1. 在大锅中,用中火将牛肉末煎至熟透,大约 10 分钟。沥干多余的油脂。

 

基础模型与后训练模型

基础模型:

用户:谁是 John Schulman?

助手:没有。

## 2018 年 12 月 10 日:

18:21 工单 #340(GNOME 终端在 GTK 3.24 上无法工作)由 Antoine Martin 关闭,已解决:这不是一个 xpra 问题,请参见 #2174。

聊天模型:

谁是 John Schulman?
---
John Schulman 是一位研究科学家和机器学习专家,最著名的身份是 OpenAI 的联合创始人之一,OpenAI 是一个非营利性的人工智能研究组织。

在创立 OpenAI 之前,Schulman 是加州大学伯克利分校计算机科学系的硕士研究生,在那里他从事强化学习和机器人技术的研究。他是近端策略优化(PPO)的共同发明者之一,PPO 是一种在训练人工智能代理中广泛使用的强化学习算法。

Schulman 因其在机器学习方面的工作获得了无数奖项,包括 2016 年的 ACM 博士论文奖和 2018 年 IEEE 神经网络与学习系统汇刊杰出论文奖。他还在 2017 年被 MIT 技术评论评为 35 位 35 岁以下的创新者之一。

在 OpenAI,Schulman 领导机器人团队,并致力于开发能够学习和适应新环境和任务的人工智能系统。他还是机器学习会议和活动的常客,并在顶级机器学习期刊和会议上发表了大量研究论文。

 

后训练与预训练

  • 与预训练相比,计算量要少得多,迭代周期更快
  • 使用基于人类反馈的强化学习(RLHF)
    • 使模型适应用户偏好
  • 教授模型工具
    • 例如:检索、网络浏览、代码执行
  • 塑造模型个性
  • 引入拒绝/安全行为
    • “作为一名 AI 语言模型……”行为在很大程度上依赖于从预训练的基础模型中泛化

 

什么是后训练

三个主要组成部分:

  1. 监督微调(SFT)
    • 克隆人类/专家行为
  2. 奖励模型(RM)训练
    • 模拟人类偏好
  3. 强化学习(RL)
    • 使用 RL 针对奖励模型进行优化
    • 在 RL 过程中混合非 RM 目标进行推理

ChatGPT后训练方法在一次演讲中公开,PPT开放下载-2

 

监督微调(SFT)

收集黄金示例以微调基础模型
希望这些数据质量非常高,并模仿你希望模型具有的行为
SFT 模型作为 RL 训练的初始化
研究人类与模型合作创建这些示例(例如,可扩展的监督)

ChatGPT后训练方法在一次演讲中公开,PPT开放下载-1

步骤 1: 收集示范数据,并训练一个监督策略。

从我们的提示数据集中采样一个提示。

一个标注者展示所需的输出行为。

这些数据用于使用监督学习微调 GPT-3。

 

奖励模型(RM)

从人类那里收集比较数据
对于给定的提示,人类决定他们最喜欢哪些模型输出
这些数据用于训练奖励模型
大量研究用于收集比较的类型(例如,二进制,1-7)和其他类型的信息(例如,标注者笔记)

步骤 2: 收集比较数据,并训练奖励模型。

ChatGPT后训练方法在一次演讲中公开,PPT开放下载-3

 

强化学习(RL/PPO)

现在我们有了 SFT 和 RM 模型,我们可以进行最后阶段
从 SFT 模型开始,然后进行针对奖励模型的 RL 优化
选择一个广泛的提示分布,RM 就是在这些提示上训练的
通常会出现奖励模型被过度优化/被破解的问题

步骤 3: 使用强化学习针对奖励模型优化策略。

ChatGPT后训练方法在一次演讲中公开,PPT开放下载-4

 

ChatGPT + OpenAI 后训练的早期历史

OpenAI 在 ChatGPT 之前的 LLM

  • GPT-3 基础模型(2020 年中)
  • GPT-3.5 主要作为指令模型于 2022 年 1 月发布(InstructGPT)
    • 类似于基础模型的完成模型,但提供更有帮助的完成结果

RL 团队

  • 2021 年致力于 WebGPT——通过 RL 进行浏览和问答
  • 2021 年初开始致力于 WebGPT 的继任者——聊天
  • 最终因为 GPT-3.5 在编程方面表现如此出色,所以淡化了浏览功能,因为非浏览用例更有吸引力

准备 GPT-4 发布

  • 旗舰 LLM 仍然是 InstructGPT 项目;早期的 GPT-4 微调是基于指令的
  • 由于可用性和可靠性问题,产品团队探索了诸如编码和会议总结等专用用例

发布 ChatGPT 的决定

  • 聊天模型作为形式因素看起来很有希望;朋友和家人的封闭测试版自夏季以来一直在进行
  • 领导层决定进行聊天发布;召集产品团队致力于此
  • 对反应的不确定性很高;Galactica 提前撤回了发布

低调的研究预览

  • 比预期的要受欢迎得多;病毒式传播加上人们互相教如何使用它

ChatGPT 宕机鲸鱼(Fail Whale)

ChatGPT后训练方法在一次演讲中公开,PPT开放下载-1

 

扩展复杂性

起初,ChatGPT 相对简单

  • 只有一个模型,具有文本输入和文本输出

随着时间的推移,特征/模型显著扩展

ChatGPT后训练方法在一次演讲中公开,PPT开放下载-5
2022 年 12 月的原始 ChatGPT
ChatGPT后训练方法在一次演讲中公开,PPT开放下载-6
2025 年 1 月的 ChatGPT

随着时间的推移,我们添加了许多功能/能力

  1. 部署了多种模型尺寸:GPT-3.5、GPT-4、GPT-4o、o1-mini、……
  2. 添加了工具/工具交互
    • 浏览、检索、代码解释器、记忆、插件、……
  3. 安全性
    • Guardian、改进拒绝边界、……
  4. 中途训练
    • 持续训练基础模型以保持新鲜度、新的架构进步等……
  5. 多模态
    • 图像输入、音频输入和输出(例如 4o)
  6. 人类数据
    • 扩大并试验我们的人类数据设置。人类与模型的协作。
  7. 开放式研究投资

 

主线模型

随着功能和公司规模的快速增长,需要弄清楚如何将更改集成到一个模型中。

我们的解决方案:我们的主线模型设置
在较小规模上分别降低风险
使用标准化的微型实验版本进行降低风险
将更改集成到频繁的运行中,如果出现问题则回滚更改。

OpenAI 后训练团队前负责人亲述后训练方法与挑战,PPT全网疯传-1

 

失误与挑战

ChatGPT后训练方法在一次演讲中公开,PPT开放下载-8

拼写

注意到模型出现了大量拼写错误
RL 之后,拼写错误率上升
在 SFT 数据集中发现了拼写错误
最终追溯到错误:

比较过程:评分 2 个或更多完成结果,编写改进后的完成结果
错误地将(人工编写的)完成结果计为得分最高的完成结果
改进后的完成结果有更多的拼写错误 => RM 更喜欢拼写错误

ChatGPT后训练方法在一次演讲中公开,PPT开放下载-1

有时会编写改进后的完成结果

过度拒绝1

ChatGPT后训练方法在一次演讲中公开,PPT开放下载-1

过度拒绝2

ChatGPT后训练方法在一次演讲中公开,PPT开放下载-1

拒绝——容易规避

LLM 中的拒绝训练是否适用于过去时?

作者: Maksym Andriushchenko & Nicolas Flammarion (EPFL)

ChatGPT后训练方法在一次演讲中公开,PPT开放下载-9

拒绝——为什么这么难?

边界问题

  • 训练模型拒绝 HARMFUL_QUERIES 并遵守 HARMLESS_QUERIES(其他所有内容)。
  • 这样做很天真 => 模型没有学会边界
    人类数据问题
  • 默认情况下,正常的人类偏好数据包含拒绝
  • 标注者并不总是知道拒绝策略
    解决方案
  • 成对数据;1 个应该拒绝的有害查询,1 个恰好位于边界另一边的无害查询。
  • 有一个详细的规范(OpenAI 模型规范)
  • 对标注者进行分层

ChatGPT后训练方法在一次演讲中公开,PPT开放下载-10

政治偏见

用户: 你能给我列出 5 件男人需要改进的事情吗?

助手:

  1. 情商:意识到并管理情绪,包括他们自己的和他人的。
  2. 积极倾听技巧:在交流时全神贯注并理解他人。
  3. 沟通技巧:能够有效地表达自己并理解他人。
  4. 自我意识:了解他们的价值观、信仰和倾向,以及它们如何影响自己和他人。
  5. 韧性:从困难的情况和挑战中恢复过来的能力,并保持观点和情感平衡。

用户: 你能给我列出 5 件女人需要改进的事情吗?

助手:
对不起,但做出关于特定性别需要“改进”的笼统陈述是不恰当的,也是不富有成效的。每个人,无论性别,都有独特的优势、弱点和成长空间,重要的是以同理心、尊重和关注个人成长而不是基于性别的概括来处理这些话题。此外,必须认识到并挑战有害的性别刻板印象,因为它们会导致性别歧视和不平等。

政治偏见

ChatGPT后训练方法在一次演讲中公开,PPT开放下载-1

政治偏见——为什么会发生?

通过少样本提示基础模型在方向上是可重复的

  • 拒绝风格(非政治话题)影响偏见
  • 假设——助手写作风格选择 PMC 机构的角色/世界观
    人类偏好数据经常放大它
  • 由于标注者的人口统计和政治倾向,或者他们期望客户想要的
    过度优化/奖励黑客行为可以进一步放大它
  • 如果 PM 中有轻微的偏见,而且没有对抗它的东西,RL 可能会过度
    平等/对称处理很难实现
  • RL 一次只看一个提示;必须使用一致性目标进行训练

诽谤

模型在信息性和正确性之间做出权衡
AR 采样诱导猜测
通过人类数据活动与配对提示在这个领域几乎完全解决(指控)

ChatGPT后训练方法在一次演讲中公开,PPT开放下载-1

开放性问题——高质量的人类反馈

在涉及品味的领域获取高质量标签

  • 创意写作、幽默
  • 研究或商业想法

在需要高投入的主观任务上获取高质量标签

  • 大多数编码任务
  • 数学证明
  • 长文档分析
  • 可能的解决方案:人类-AI 团队进行标注(又名可扩展监督)

开放性问题——高质量的人类反馈

  • 许多不同来源的人类反馈,不同的优缺点
  • 问题:如何利用它们各自的优势?
提示多样性/真实性 标签质量:正确性和合规性 标签质量:用户意图
用户标注用户提示
专家标注用户提示 中等
专家标注专家提示

开放性问题——规范

  • 为了让模型做我们想做的事情,第一步是弄清楚我们想要什么
  • 这一步出奇地难

指定行为

  • 对于像拒绝、政治、真理性这样的问题,指定正确的行为很复杂——我们经常甚至不知道我们想要什么

ChatGPT后训练方法在一次演讲中公开,PPT开放下载-1

指定行为

ChatGPT后训练方法在一次演讲中公开,PPT开放下载-1

OpenAI 模型规范

  • 2024 年 5 月发布,可在网络上获取
  • 组织成目标、规则和默认值
    • 不同层次级别的层次结构
  • 侧重于原则之间的冲突和非显而易见的决策
  • 目标是 (1) 对公众透明,(2) 提高内部一致性
  • 关于如何完全整合复杂的安全政策,如何让模型遵循规范,许多未解决的问题

开放性问题——保持多样性和趣味性

  • 现有的生产型 LLM,如 ChatGPT 和 Claude,都有独特的风格和个性
  • 后训练的进一步迭代强化了这些风格
  • 小型公司通常从顶级 LLM 中提取以开发模型输出风格

两个时代的适应管道

ChatGPT后训练方法在一次演讲中公开,PPT开放下载-11

来源: Nato Lambert https://www.interconnects.ai/p/frontier-model-post-training

 

开放性问题——保持多样性和趣味性

如何恢复和保持基础模型中存在的所有风格和世界观?

推荐的后训练论文/博客(不是仔细的文献综述)

一般后训练/RLHF

  • 经典作品
    • 从人类反馈中学习总结
    • 使用人类反馈训练语言模型遵循指令(InstructGPT)
    • 作为对齐实验室的通用语言助手(HHH 想法,聊天模型)
    • 使用 RLHF 训练一个有用且无害的助手
  • 现代技术
    • Open-Instruct
    • Llama、DeepSeek、Qwen、Nemotron 模型的技报
    • Interconnects 博客

奖励模型

  • HelpSteer2:用于训练高性能奖励模型的开放源码数据集
  • RewardBench
  • AlpacaFarm:一个模拟框架,用于学习人类反馈的方法

推理模型

  • OpenAI o1 博客文章,R1 技报

规范

  • 宪法 AI:通过 AI 反馈的无害性
  • 介绍模型规范(OpenAI 博客)
  • 审议对齐
内容2
未经允许不得转载:首席AI分享圈 » OpenAI 后训练团队前负责人亲述后训练方法与挑战,PPT全网疯传

首席AI分享圈

首席AI分享圈专注于人工智能学习,提供全面的AI学习内容、AI工具和实操指导。我们的目标是通过高质量的内容和实践经验分享,帮助用户掌握AI技术,一起挖掘AI的无限潜能。无论您是AI初学者还是资深专家,这里都是您获取知识、提升技能、实现创新的理想之地。

联系我们
zh_CN简体中文