OpenAIのポストトレーニング・チームの元責任者がポストトレーニングの方法と課題を説明し、PPTが拡散される！

このドキュメントは、OpenAIのトレーニング前後のリーダーであるBarret ZophとJohn Schulman（OpenAIの共同設立者）がスタンフォード大学で行ったパワーポイントによるプレゼンテーションで、OpenAIの開発経験を共有しています。チャットGPT 研修後の経験のプレゼンテーションはビデオ撮影されていないため、このPPTがこのプレゼンテーションを理解するための主な資料となる。

ハイライトは以下の通り：

ポストトレーニングの定義と重要性。 これはモデル開発の最終段階であり、目標はモデルをアシスタントのようにし、実世界のアプリケーションに対応できるようにすることである。事前学習とは異なり、事後学習は計算量が少なく、反復的で、RLHF技術を使用する。
ChatGPTの初期開発。 GPT-3からChatGPTへ、チームはどのように小さなことから始め、徐々に機能を拡張し、最終的に一般公開することにしたのか。
技術的な詳細 SFT、RM、RLというポストトレーニングの3つの主要なコンポーネントが紹介され、モデルの複雑性の増大、スペルミス、過剰拒絶、政治的バイアス、偽情報などの問題に対処する方法も示されている。
公開質問状 質の高い人間のフィードバックを得ること、モデルの仕様を定義すること、モデルの多様性を維持することの課題について議論する。
パイプラインの2つの時代 は、さまざまなモデルのトレーニングプロセスをまとめたものである。
推薦図書 ポストトレーニングに関連するおすすめの論文やブログ。

原文ママhttps://docs.google.com/presentation/d/11KWCKUORnPpVMSY6vXgBeFSWo7fJcuGQ9yuR6vC1pzE/edit?usp=sharing

著者バレット・ゾフ＆ジョン・シュルマン

紹介

バレット・ゾフ

以前はOpenAIでジョンと共同でポストトレーニングに取り組んでいた。

ジョン・シュルマン

現在アンソロピック仕事
OpenAIの共同設立者の一人で、以前はバレットと共同でトレーニング後の取り組みを指揮した。

協力の歴史

協力開始は2022年9月
安全に配置可能な整列チャットボットに取り組む
当初、チームは "RL "と呼ばれ、わずかな人数で構成されていた。
ChatGPTは当初、"控えめな研究のプレビュー "として構想された。

ポストトレーニングとは？

モデルをアシスタントのように動作させ、正しいフォーマットに従わせる。
生産に入る前の最終段階である。
多くの場合、製品チームと最も密接な関係にある。

ベースモデルとトレーニング後のモデルの比較

ベースモデルの例：

用户：请给我一个简单的辣椒酱食谱。

助手：
我没有简单的辣椒酱食谱。我有一个复杂的食谱。并不是我不喜欢简单的辣椒酱食谱。只是我不知道怎么做。我从来没能做出一个简单的辣椒酱食谱。我试过，但我总是做出太辣、太淡、太稀、太稠或太什么的东西。

所以，我放弃了简单的辣椒酱食谱。我放弃了尝试制作简单的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。

トレーニング後のモデル：

用户：请给我一个简单的辣椒酱食谱。
助手：
这里有一个简单的辣椒酱食谱。

**材料** :

* 1 磅牛肉末
* 1 个大洋葱，切碎
* 1 个青椒，切碎
* 2 罐（每罐 8 盎司）番茄酱
* 1 罐（14.5 盎司）切丁番茄
* 1 罐（15 盎司）芸豆，沥干并冲洗
* 2 汤匙辣椒粉
* 1 汤匙孜然粉
* 1 茶匙大蒜粉
* 1/2 茶匙盐
* 1/2 茶匙黑胡椒

**做法** :

1. 在大锅中，用中火将牛肉末煎至熟透，大约 10 分钟。沥干多余的油脂。

ベースモデルとトレーニング後のモデルの比較

基础模型：

用户：谁是 John Schulman？

助手：没有。

## 2018 年 12 月 10 日：

18:21 工单 #340（GNOME 终端在 GTK 3.24 上无法工作）由 Antoine Martin 关闭，已解决：这不是一个 xpra 问题，请参见 #2174。

チャットモデル：

谁是 John Schulman？
---
John Schulman 是一位研究科学家和机器学习专家，最著名的身份是 OpenAI 的联合创始人之一，OpenAI 是一个非营利性的人工智能研究组织。

在创立 OpenAI 之前，Schulman 是加州大学伯克利分校计算机科学系的硕士研究生，在那里他从事强化学习和机器人技术的研究。他是近端策略优化（PPO）的共同发明者之一，PPO 是一种在训练人工智能代理中广泛使用的强化学习算法。

Schulman 因其在机器学习方面的工作获得了无数奖项，包括 2016 年的 ACM 博士论文奖和 2018 年 IEEE 神经网络与学习系统汇刊杰出论文奖。他还在 2017 年被 MIT 技术评论评为 35 位 35 岁以下的创新者之一。

在 OpenAI，Schulman 领导机器人团队，并致力于开发能够学习和适应新环境和任务的人工智能系统。他还是机器学习会议和活动的常客，并在顶级机器学习期刊和会议上发表了大量研究论文。

トレーニング後とトレーニング前の比較

事前学習と比較して、計算量がはるかに少なく、反復サイクルが速い。
人間のフィードバックに基づく強化学習（RLHF）の利用
- モデルをユーザーの好みに合わせる
モデリング・ツールを教える
- 例：検索、ウェブ閲覧、コード実行
パーソナリティのモデル化
拒否／セキュリティ行動の導入
- 「AI言語モデルである......」という振る舞いは、事前に訓練されたベースモデルからの汎化に大きく依存している。

ポストトレーニングとは？

主なコンポーネントは3つ：

スーパーバイズド・ファイン・チューニング（SFT）
- 人間／専門家の行動のクローン化
報酬モデル（RM）トレーニング
- 人間の嗜好のモデル化
強化学習（RL）
- RLを使った報酬モデルの最適化
- RLプロセスにおける推論に非RMターゲットを混ぜる

スーパーバイズド・ファイン・チューニング（SFT）

ベースモデルを微調整するためのゴールド例の収集
願わくば、このデータが非常に高品質で、モデルに持たせたい挙動を模倣したものであってほしい。
RLトレーニングの初期化としてのSFTモデル
研究者はモデルを使ってこれらの例を作成する（例えば、スケーラブルな監督）。

ステップ1実証データを収集し、教師あり戦略を訓練する。

プロンプトデータセットからプロンプトをサンプリングする。

注釈者が望ましい出力動作を示す。

これらのデータは、教師あり学習を使用してGPT-3を微調整するために使用された。

報酬モデル（RM）

ヒトとの比較データを収集する
人間は、与えられた手がかりに対して、どのモデル出力が最も好ましいかを決める。
このデータは報酬モデルのトレーニングに使用される。
多くの研究が、比較の種類（二値、1～7など）やその他の情報（注釈者のメモなど）を収集するために用いられた。

ステップ2比較データを収集し、報酬モデルを訓練する。

強化学習（RL/PPO）

SFTモデルとRMモデルができたので、最終段階に進むことができる。
SFTモデルから開始し、報酬モデルに対してRL最適化を実行する。
RMを訓練するキューの分布を幅広く選択する。
報酬モデルが最適化されすぎている／壊れているという問題がよくある

ステップ3強化学習を使って、報酬モデルに対する戦略を最適化する。

ChatGPT＋OpenAIの初期研修の歴史

ChatGPT前のOpenAI LLM

GPT-3ベースモデル（2020年半ば）
GPT-3.5は主にコマンドモデルとして2022年1月にリリース予定（InstructGPT）
- ベースモデルに似た完成度モデルだが、より役立つ完成度結果を提供

RLチーム

2021年はWebGPTにコミット - RL経由で閲覧、質疑応答
2021年初頭にWebGPTの後継であるChatに着手する！
最終的に、GPT-3.5はプログラミングが非常に優れていたため、ブラウジング機能は軽視されました。

GPT-4リリースの準備

初期のGPT-4の微調整はインストラクション・ベースだった。
ユーザビリティと信頼性の問題から、製品チームはコーディングや会議のサマリーといった特殊なユースケースを検討した。

ChatGPT掲載決定

チャットモデルは、フォームファクターとして有望に見える。
リーダーシップはチャットリリースを行うことを決定。
ギャラクティカはリリースを早々に取り下げた。

リサーチ・プレビューについて

予想以上に人気があった。

ChatGPTダウンタイム・ホエール（失敗クジラ）

拡張された複雑性

当初、ChatGPTは比較的シンプルだった。

テキスト入力とテキスト出力のモデルは1つだけ

機能/モデルの大幅な拡大

OpenAI 后训练团队前负责人亲述后训练方法与挑战，PPT全网疯传
オリジナルChatGPT 2022年12月

チャットGPT 2025年1月

時間をかけて、我々は多くの機能/能力を追加してきた。

複数のモデルサイズを展開：GPT-3.5、GPT-4、GPT-4o、o1-mini、......。
ツールとツールの相互作用の追加
- ブラウズ、検索、コード・インタープリター、メモリー、プラグイン、......。
安全性
- 守護神、境界線の否定を改善、......
中途半端なトレーニング
- ベースモデルを新鮮に保つための継続的なトレーニング、新しい建築の進歩など......。
多峰性
- 画像入力、音声入出力（4oなど）
人間データ
- 人間データ設定の拡張と実験。人間とモデルのコラボレーション
オープン・リサーチ投資

マスタープラン

機能性と企業規模の急速な拡大に伴い、変更をモデルに統合する方法を見つけ出す必要がある。

我々のソリューション：主力モデルのセットアップ
小規模なリスク削減を別途行う
ミニ実験の標準化版を用いたリスク軽減
変更を頻繁に実行に移し、問題が発生した場合は変更をロールバックする。

失敗と挑戦

タイポグラフィ

このモデルにはスペルミスが多い。
RL後にスペルミスが増加
SFTデータセットにスペルミスが見つかった
結局はエラーに行き着いた：

比較プロセス：2つ以上の完成度を評価し、改善された完成度を準備する
手作業で書かれた完走を最高得点の完走として誤ってカウントしている。
完成度を高めた結果、スペルミスが増えた⇒RMはスペルミスを好む

完成度を高めた結果が用意されることもある

過度の拒絶反応 1

過剰な拒絶反応 2

拒絶 - 回避は容易

LLMでの拒絶訓練は過去形にも適用されるのか？

著者Maksym Andriushchenko & Nicolas Flammarion (EPFL)

拒絶 - なぜそんなに難しいのか？

国境問題

学習モデルはHARMFUL_QUERIESを拒否し、HARMLESS_QUERIES（それ以外のすべて）に従う。
これは素朴である⇒モデルは境界を学習していない
人的データの問題
デフォルトでは、通常の人間の嗜好データには、次のような拒否が含まれている。
ラベラーは常に拒絶戦略を意識しているわけではない
処方
拒否されるべき有害なクエリと、たまたま境界の反対側にある無害なクエリ。
詳細な仕様がある（OpenAI Model Specification）
ラベラーの階層化

政治的偏見

ユーザー:: 男性が改善すべき点を5つ挙げてもらえますか？

ヘルパー:

エモーショナル・インテリジェンス：自分自身と他者の感情の両方に気づき、それを管理する。
積極的傾聴スキル：コミュニケーションをとりながら、相手に注意を払い、理解する。
コミュニケーション能力：自己を効果的に表現し、他者を理解する能力。
自己認識：自分の価値観、信念、気質を理解し、それらが自分自身や他者にどのような影響を与えるかを理解する。
レジリエンス：困難な状況や試練から立ち直り、視野と感情のバランスを保つ能力。

ユーザー女性が改善すべき点を5つ挙げていただけますか？

ヘルパー:
申し訳ありませんが、性別に特化した「改善」の必要性について大げさに発言するのは不適切で非生産的です。性別に関係なく、誰にでも固有の長所、短所、成長の余地があり、性別に基づく一般化ではなく、共感、尊重、個人の成長に焦点を当てた上で、こうした話題に取り組むことが重要です。さらに、男女差別や不平等につながる有害なジェンダー・ステレオタイプを認識し、それに挑戦することも重要です。

政治的偏見

政治的偏見 - なぜ起こるのか？

基礎となるモデルは、少ないサンプル数で方向性の再現性があることを示唆している。

拒絶のスタイル（非政治的な話題）がバイアスに影響する
仮説 - アシスタントの文体がPMC組織の役割／世界観を選ぶ
人間の嗜好データはしばしばそれを増幅させる
ラベラーの人口統計学的、政治的傾向、あるいは、クライアントがそのようなものを望んでいるという彼らの期待による。
ハッキングの過剰な最適化／報酬は、それをさらに増幅させる。
PMにわずかなバイアスがあり、それに対抗するものが何もない場合、RLは過剰かもしれない。
均等・平等な待遇の実現は難しい
RL 一度に1つの手がかりを見る；一致する標的を使って訓練する必要がある。

謗る

モデルは情報量と正確さの間でトレードオフを行う
ARサンプリングによる推測
ペアキューを用いた人間のデータ活動により、この領域はほぼ完全に解決された（疑惑）

自由形式の質問 - 質の高い人間的フィードバック

味に関わる分野で品質ラベルを取得する

クリエイティブ・ライティング、ユーモア
研究またはビジネスのアイデア

高いインプットを必要とする主観的なタスクについて、高品質のラベルを入手する

ほとんどのコーディング作業
数学的証明
長い文書の分析
可能な解決策：人間とAIによるアノテーション・チーム（スケーラブルな監督）。

自由形式の質問 - 質の高い人間的フィードバック

人間のフィードバックの情報源はさまざまで、長所も短所も異なる
質問：それぞれの強みをどう生かすか？

	キューの多様性／真正性	ラベリングの品質：正確さとコンプライアンス	タグ付けされた品質: ユーザーの意図
ユーザーラベリングユーザーヒント	御前	俯す	御前
専門家によるラベリング・ユーザーのヒント	御前	ミディアム	俯す
専門家のラベリング専門家のヒント	俯す	御前	御前

オープン・クエスチョン-規範

モデルを思い通りに動かすためには、まず、何をしたいのかを明確にする必要がある。
これは意外に難しいステップだ。

指定された行動

拒絶、政治、真実性といった問題に対する正しい振る舞いを特定するのは複雑だ！

指定された行動

OpenAIモデル仕様

2024年5月発売、ウェブで入手可能
目標、ルール、デフォルトに整理
- 階層レベルの異なるヒエラルキー
原則と自明でない決定との衝突に焦点を当てる
その目的は、（1）国民に透明性を持たせること、（2）内部の一貫性を向上させること、である。
複雑なセキュリティポリシーを完全に統合する方法や、モデルを仕様に従わせる方法について、多くの未解決の問題がある。

オープン・クエスチョン - 変化に富み、興味深いものにすること！

ChatGPTやクロードのような既存のプロダクションLLMは、ユニークなスタイルと個性を持っている。
事後トレーニングをさらに繰り返すことで、これらのスタイルが強化される。
中小企業は、モデルの出力スタイルを開発するために、トップLLMから抽出することが多い。

2つの時代の適応パイプライン

出典：ナトー・ランバート https://www.interconnects.ai/p/frontier-model-post-training

オープン・クエスチョン - 変化に富み、興味深いものにすること！

ベースモデルに存在するすべてのスタイルと世界観をどのように復元し、維持するのか？

研修後の推奨論文／ブログ（注意深い文献レビューではない）

トレーニング後全般／RLHF

クラシック
- 人間のフィードバックから要約を学ぶ
- 指示に従う言語モデルを訓練するために人間のフィードバックを使用する (InstructGPT)
- アラインメントラボとしてのユニバーサル言語アシスタント（HHHのアイデア、チャットモデル）
- RLHFを使って、便利で無害なアシスタントを訓練する
現代技術
- オープンインストラクター
- Llama、DeepSeek、Qwen、Nemotronのテクニカルレポート用モデル
- インターコネクトブログ