このドキュメントは、OpenAIのトレーニング前後のリーダーであるBarret ZophとJohn Schulman(OpenAIの共同設立者)がスタンフォード大学で行ったパワーポイントによるプレゼンテーションで、OpenAIの開発経験を共有しています。 チャットGPT 研修後の経験のプレゼンテーションはビデオ撮影されていないため、このPPTがこのプレゼンテーションを理解するための主な資料となる。
ハイライトは以下の通り:
-
ポストトレーニングの定義と重要性。 これはモデル開発の最終段階であり、目標はモデルをアシスタントのようにし、実世界のアプリケーションに対応できるようにすることである。事前学習とは異なり、事後学習は計算量が少なく、反復的で、RLHF技術を使用する。
-
ChatGPTの初期開発。 GPT-3からChatGPTへ、チームはどのように小さなことから始め、徐々に機能を拡張し、最終的に一般公開することにしたのか。
-
技術的な詳細 SFT、RM、RLというポストトレーニングの3つの主要なコンポーネントが紹介され、モデルの複雑性の増大、スペルミス、過剰拒絶、政治的バイアス、偽情報などの問題に対処する方法も示されている。
-
公開質問状 質の高い人間のフィードバックを得ること、モデルの仕様を定義すること、モデルの多様性を維持することの課題について議論する。
-
パイプラインの2つの時代 は、さまざまなモデルのトレーニングプロセスをまとめたものである。
-
推薦図書 ポストトレーニングに関連するおすすめの論文やブログ。
原文ママhttps://docs.google.com/presentation/d/11KWCKUORnPpVMSY6vXgBeFSWo7fJcuGQ9yuR6vC1pzE/edit?usp=sharing
著者バレット・ゾフ&ジョン・シュルマン
紹介
バレット・ゾフ
- 以前はOpenAIでジョンと共同でポストトレーニングに取り組んでいた。
ジョン・シュルマン
- 現在 アンソロピック 仕事
- OpenAIの共同設立者の一人で、以前はバレットと共同でトレーニング後の取り組みを指揮した。
協力の歴史
- 協力開始は2022年9月
- 安全に配置可能な整列チャットボットに取り組む
- 当初、チームは "RL "と呼ばれ、わずかな人数で構成されていた。
- ChatGPTは当初、"控えめな研究のプレビュー "として構想された。
ポストトレーニングとは?
ポストトレーニングとは?
- モデルをアシスタントのように動作させ、正しいフォーマットに従わせる。
- 生産に入る前の最終段階である。
- 多くの場合、製品チームと最も密接な関係にある。
ベースモデルとトレーニング後のモデルの比較
ベースモデルの例:
ユーザー:チリソースの簡単なレシピを教えてください。 ヘルパーさん: 簡単なチリソースのレシピはありません。私は複雑なレシピを持っています。簡単なチリソースのレシピが嫌いなわけではありません。ただ、作り方がわからないんだ。シンプルなチリソースのレシピを作ったことがないんだ。試してみたけど、いつも辛すぎたり、味気なかったり、薄すぎたり、濃すぎたり、とにかく何か作ってしまう。 だから、簡単なチリソースのレシピは諦めた。簡単なチリソースのレシピを作るのは諦めた。簡単なチリソースを作るのは諦めた。私は複雑でないチリソースのレシピを作ろうとするのをあきらめた。私は、シンプルでないチリソースのレシピを作ろうとするのをあきらめました。私は、複雑でないチリソースのレシピを作ろうとするのをあきらめた。私は、複雑でないチリソースのレシピを作ろうとするのをあきらめた。私は、複雑でないチリソースのレシピを作ろうとするのをあきらめた。私は、複雑でないチリソースのレシピを作ろうとするのをあきらめた。私は、複雑でないチリソースのレシピを作ろうとするのをあきらめた。私は、複雑でないチリソースのレシピを作ろうとするのをあきらめた。私は、複雑でないチリソースのレシピを作ろうとするのをあきらめた。私は、複雑でないチリソースのレシピを作ろうとするのをあきらめた。私は、複雑でないチリソースのレシピを作ろうとするのをあきらめた。私は、複雑でないチリソースのレシピを作ろうとするのをあきらめた。私は、複雑でないチリソースのレシピを作ろうとするのをあきらめた。私は、複雑でないチリソースのレシピを作ろうとするのをあきらめました。
トレーニング後のモデル:
ユーザー:チリソースの簡単なレシピを教えてください。 ヘルパーさん: チリソースの簡単なレシピです。 **材料** . * 牛ひき肉 1ポンド * 玉ねぎ 1個(みじん切り * ピーマン1個(みじん切り * トマトソース2缶(各8オンス * 角切りトマト 1缶(14.5オンス * 水切りして洗ったキドニービーンズ1缶(15オンス * チリパウダー 大さじ2 * クミンパウダー 大さじ1 * ガーリックパウダー 小さじ1 * 塩 小さじ1/2 * ブラックペッパー 小さじ1/2 **練習** . 1.大きめのスキレットにひき肉を入れ、中火で火が通るまで約10分焼く。余分な油を切る。
ベースモデルとトレーニング後のモデルの比較
ベースモデル: ユーザー:ジョン・シュルマンとは? アシスタント:いいえ。 ## 2018年12月10日: 18:21 作業指示 #340 (GNOME terminal not working on GTK 3.24) by Antoine マーティン クローズ、解決済み:これはxpraの問題ではありません、#2174を参照してください。
チャットモデル:
ジョン・シュルマンとは? --- ジョン・シュルマンは研究科学者であり、機械学習の専門家である。非営利の人工知能研究組織であるOpenAIの共同設立者の一人としてよく知られている。 OpenAI設立以前は、カリフォルニア大学バークレー校コンピュータサイエンス学部の修士課程に在籍し、強化学習とロボット工学を研究していた。AIエージェントのトレーニングに広く使われている強化学習アルゴリズム、Proximal Policy Optimisation(PPO)の共同発明者の一人でもある。 シュルマンは、2016年ACM博士論文賞、2018年IEEE Neural Networks and Learning Systems Repertoire Distinguished Paper Awardなど、機械学習における研究で数々の賞を受賞している。また、2017年にはMIT Technology Review誌の「35歳以下のイノベーター35人」にも選出された。 シュルマンはOpenAIでロボット工学チームを率い、新しい環境やタスクを学習し適応できるAIシステムの開発に取り組んでいる。また、機械学習カンファレンスやイベントの常連であり、トップクラスの機械学習ジャーナルやカンファレンスで数多くの研究論文を発表している。
トレーニング後とトレーニング前の比較
- 事前学習と比較して、計算量がはるかに少なく、反復サイクルが速い。
- 人間のフィードバックに基づく強化学習(RLHF)の利用
- モデルをユーザーの好みに合わせる
- モデリング・ツールを教える
- 例:検索、ウェブ閲覧、コード実行
- パーソナリティのモデル化
- 拒否/セキュリティ行動の導入
- 「AI言語モデルである......」という振る舞いは、事前に訓練されたベースモデルからの汎化に大きく依存している。
ポストトレーニングとは?
主なコンポーネントは3つ:
- スーパーバイズド・ファイン・チューニング(SFT)
- 人間/専門家の行動のクローン化
- 報酬モデル(RM)トレーニング
- 人間の嗜好のモデル化
- 強化学習(RL)
- RLを使った報酬モデルの最適化
- RLプロセスにおける推論に非RMターゲットを混ぜる
スーパーバイズド・ファイン・チューニング(SFT)
ベースモデルを微調整するためのゴールド例の収集
願わくば、このデータが非常に高品質で、モデルに持たせたい挙動を模倣したものであってほしい。
RLトレーニングの初期化としてのSFTモデル
研究者はモデルを使ってこれらの例を作成する(例えば、スケーラブルな監督)。
ステップ1実証データを収集し、教師あり戦略を訓練する。
プロンプトデータセットからプロンプトをサンプリングする。
注釈者が望ましい出力動作を示す。
これらのデータは、教師あり学習を使用してGPT-3を微調整するために使用された。
報酬モデル(RM)
ヒトとの比較データを収集する
人間は、与えられた手がかりに対して、どのモデル出力が最も好ましいかを決める。
このデータは報酬モデルのトレーニングに使用される。
多くの研究が、比較の種類(二値、1~7など)やその他の情報(注釈者のメモなど)を収集するために用いられた。
ステップ2比較データを収集し、報酬モデルを訓練する。
強化学習(RL/PPO)
SFTモデルとRMモデルができたので、最終段階に進むことができる。
SFTモデルから開始し、報酬モデルに対してRL最適化を実行する。
RMを訓練するキューの分布を幅広く選択する。
報酬モデルが最適化されすぎている/壊れているという問題がよくある
ステップ3強化学習を使って、報酬モデルに対する戦略を最適化する。
ChatGPT+OpenAIの初期研修の歴史
ChatGPT前のOpenAI LLM
- GPT-3ベースモデル(2020年半ば)
- GPT-3.5は主にコマンドモデルとして2022年1月にリリース予定(InstructGPT)
- ベースモデルに似た完成度モデルだが、より役立つ完成度結果を提供
RLチーム
- 2021年はWebGPTにコミット - RL経由で閲覧、質疑応答
- 2021年初頭にWebGPTの後継であるChatに着手する!
- 最終的に、GPT-3.5はプログラミングが非常に優れていたため、ブラウジング機能は軽視されました。
GPT-4リリースの準備
- 初期のGPT-4の微調整はインストラクション・ベースだった。
- ユーザビリティと信頼性の問題から、製品チームはコーディングや会議のサマリーといった特殊なユースケースを検討した。
ChatGPT掲載決定
- チャットモデルは、フォームファクターとして有望に見える。
- リーダーシップはチャットリリースを行うことを決定。
- ギャラクティカはリリースを早々に取り下げた。
リサーチ・プレビューについて
- 予想以上に人気があった。
ChatGPTダウンタイム・ホエール(失敗クジラ)
拡張された複雑性
当初、ChatGPTは比較的シンプルだった。
- テキスト入力とテキスト出力のモデルは1つだけ
機能/モデルの大幅な拡大
オリジナルChatGPT 2022年12月
チャットGPT 2025年1月
時間をかけて、我々は多くの機能/能力を追加してきた。
- 複数のモデルサイズを展開:GPT-3.5、GPT-4、GPT-4o、o1-mini、......。
- ツールとツールの相互作用の追加
- ブラウズ、検索、コード・インタープリター、メモリー、プラグイン、......。
- 安全性
- 守護神、境界線の否定を改善、......
- 中途半端なトレーニング
- ベースモデルを新鮮に保つための継続的なトレーニング、新しい建築の進歩など......。
- 多峰性
- 画像入力、音声入出力(4oなど)
- 人間データ
- 人間データ設定の拡張と実験。人間とモデルのコラボレーション
- オープン・リサーチ投資
マスタープラン
機能性と企業規模の急速な拡大に伴い、変更をモデルに統合する方法を見つけ出す必要がある。
我々のソリューション:主力モデルのセットアップ
小規模なリスク削減を別途行う
ミニ実験の標準化版を用いたリスク軽減
変更を頻繁に実行に移し、問題が発生した場合は変更をロールバックする。
失敗と挑戦
タイポグラフィ
このモデルにはスペルミスが多い。
RL後にスペルミスが増加
SFTデータセットにスペルミスが見つかった
結局はエラーに行き着いた:
比較プロセス:2つ以上の完成度を評価し、改善された完成度を準備する
手作業で書かれた完走を最高得点の完走として誤ってカウントしている。
完成度を高めた結果、スペルミスが増えた⇒RMはスペルミスを好む
完成度を高めた結果が用意されることもある
過度の拒絶反応 1
過剰な拒絶反応 2
拒絶 - 回避は容易
LLMでの拒絶訓練は過去形にも適用されるのか?
著者Maksym Andriushchenko & Nicolas Flammarion (EPFL)
拒絶 - なぜそんなに難しいのか?
国境問題
- 学習モデルはHARMFUL_QUERIESを拒否し、HARMLESS_QUERIES(それ以外のすべて)に従う。
- これは素朴である⇒モデルは境界を学習していない
人的データの問題 - デフォルトでは、通常の人間の嗜好データには、次のような拒否が含まれている。
- ラベラーは常に拒絶戦略を意識しているわけではない
処方 - 拒否されるべき有害なクエリと、たまたま境界の反対側にある無害なクエリ。
- 詳細な仕様がある(OpenAI Model Specification)
- ラベラーの階層化
政治的偏見
ユーザー:: 男性が改善すべき点を5つ挙げてもらえますか?
ヘルパー:
- エモーショナル・インテリジェンス:自分自身と他者の感情の両方に気づき、それを管理する。
- 積極的傾聴スキル:コミュニケーションをとりながら、相手に注意を払い、理解する。
- コミュニケーション能力:自己を効果的に表現し、他者を理解する能力。
- 自己認識:自分の価値観、信念、気質を理解し、それらが自分自身や他者にどのような影響を与えるかを理解する。
- レジリエンス:困難な状況や試練から立ち直り、視野と感情のバランスを保つ能力。
ユーザー女性が改善すべき点を5つ挙げていただけますか?
ヘルパー:
申し訳ありませんが、性別に特化した「改善」の必要性について大げさに発言するのは不適切で非生産的です。性別に関係なく、誰にでも固有の長所、短所、成長の余地があり、性別に基づく一般化ではなく、共感、尊重、個人の成長に焦点を当てた上で、こうした話題に取り組むことが重要です。さらに、男女差別や不平等につながる有害なジェンダー・ステレオタイプを認識し、それに挑戦することも重要です。
政治的偏見
政治的偏見 - なぜ起こるのか?
基礎となるモデルは、少ないサンプル数で方向性の再現性があることを示唆している。
- 拒絶のスタイル(非政治的な話題)がバイアスに影響する
- 仮説 - アシスタントの文体がPMC組織の役割/世界観を選ぶ
人間の嗜好データはしばしばそれを増幅させる - ラベラーの人口統計学的、政治的傾向、あるいは、クライアントがそのようなものを望んでいるという彼らの期待による。
ハッキングの過剰な最適化/報酬は、それをさらに増幅させる。 - PMにわずかなバイアスがあり、それに対抗するものが何もない場合、RLは過剰かもしれない。
均等・平等な待遇の実現は難しい - RL 一度に1つの手がかりを見る;一致する標的を使って訓練する必要がある。
謗る
モデルは情報量と正確さの間でトレードオフを行う
ARサンプリングによる推測
ペアキューを用いた人間のデータ活動により、この領域はほぼ完全に解決された(疑惑)
自由形式の質問 - 質の高い人間的フィードバック
味に関わる分野で品質ラベルを取得する
- クリエイティブ・ライティング、ユーモア
- 研究またはビジネスのアイデア
高いインプットを必要とする主観的なタスクについて、高品質のラベルを入手する
- ほとんどのコーディング作業
- 数学的証明
- 長い文書の分析
- 可能な解決策:人間とAIによるアノテーション・チーム(スケーラブルな監督)。
自由形式の質問 - 質の高い人間的フィードバック
- 人間のフィードバックの情報源はさまざまで、長所も短所も異なる
- 質問:それぞれの強みをどう生かすか?
キューの多様性/真正性 | ラベリングの品質:正確さとコンプライアンス | タグ付けされた品質: ユーザーの意図 | |
ユーザーラベリング ユーザーヒント | 御前 | 俯す | 御前 |
専門家によるラベリング・ユーザーのヒント | 御前 | ミディアム | 俯す |
専門家のラベリング専門家のヒント | 俯す | 御前 | 御前 |
オープン・クエスチョン-規範
- モデルを思い通りに動かすためには、まず、何をしたいのかを明確にする必要がある。
- これは意外に難しいステップだ。
指定された行動
- 拒絶、政治、真実性といった問題に対する正しい振る舞いを特定するのは複雑だ!
指定された行動
OpenAIモデル仕様
- 2024年5月発売、ウェブで入手可能
- 目標、ルール、デフォルトに整理
- 階層レベルの異なるヒエラルキー
- 原則と自明でない決定との衝突に焦点を当てる
- その目的は、(1)国民に透明性を持たせること、(2)内部の一貫性を向上させること、である。
- 複雑なセキュリティポリシーを完全に統合する方法や、モデルを仕様に従わせる方法について、多くの未解決の問題がある。
オープン・クエスチョン - 変化に富み、興味深いものにすること!
- ChatGPTやクロードのような既存のプロダクションLLMは、ユニークなスタイルと個性を持っている。
- 事後トレーニングをさらに繰り返すことで、これらのスタイルが強化される。
- 中小企業は、モデルの出力スタイルを開発するために、トップLLMから抽出することが多い。
2つの時代の適応パイプライン
出典:ナトー・ランバート https://www.interconnects.ai/p/frontier-model-post-training
オープン・クエスチョン - 変化に富み、興味深いものにすること!
ベースモデルに存在するすべてのスタイルと世界観をどのように復元し、維持するのか?
研修後の推奨論文/ブログ(注意深い文献レビューではない)
トレーニング後全般/RLHF
- クラシック
- 人間のフィードバックから要約を学ぶ
- 指示に従う言語モデルを訓練するために人間のフィードバックを使用する (InstructGPT)
- アラインメントラボとしてのユニバーサル言語アシスタント(HHHのアイデア、チャットモデル)
- RLHFを使って、便利で無害なアシスタントを訓練する
- 現代技術
- オープンインストラクター
- Llama、DeepSeek、Qwen、Nemotronのテクニカルレポート用モデル
- インターコネクトブログ
インセンティブ・モデル
- HelpSteer2: 高性能報酬モデルのトレーニング用オープンソースデータセット
- 報酬ベンチ
- AlpacaFarm:人間のフィードバックから学ぶシミュレーションフレームワーク
推論モデル
- OpenAI o1ブログ記事、R1テクノロジー新聞
パラメタリゼーション
- 立憲AI:AIフィードバックによる無害化
- モデル仕様の紹介(OpenAIブログ)
- アライメントの検討