L'ancien chef de l'équipe de post-formation d'OpenAI explique les méthodes et les défis de la post-formation, le PPT devient viral !

Ce document est une présentation PowerPoint donnée à l'Université de Stanford par Barret Zoph et John Schulman, responsables de la préformation et de la post-formation d'OpenAI (et co-fondateurs d'OpenAI), qui partagent leur expérience dans le développement d'OpenAI. ChatGPT de l'expérience post-formation. La présentation n'ayant pas été enregistrée sur vidéo, ce PPT est la source principale pour comprendre cette présentation.

Les points forts sont les suivants :

  1. Définition et importance de l'après-formation. Il s'agit de l'étape finale du développement du modèle et l'objectif est de rendre le modèle semblable à un assistant et prêt pour des applications dans le monde réel. Contrairement à la préformation, la post-formation est moins intensive en termes de calcul, itérative et utilise des techniques RLHF.

  2. Premiers développements de ChatGPT. De GPT-3 à ChatGPT, comment l'équipe a commencé à petite échelle, a progressivement augmenté les fonctionnalités et a finalement décidé de les rendre publiques.

  3. Détails techniques. Les trois principales composantes de la post-formation, SFT, RM et RL, sont présentées, ainsi que la manière de faire face à des problèmes tels que la croissance de la complexité du modèle, les fautes d'orthographe, le rejet excessif, les préjugés politiques et la désinformation.

  4. Question ouverte. Les défis liés à l'obtention d'un retour d'information humain de haute qualité, à la définition des spécifications du modèle et au maintien de la diversité du modèle sont examinés.

  5. Deux époques de pipelines : la résume les différents processus de formation des modèles.

  6. Lecture recommandée. Articles et blogs recommandés concernant l'après-formation.

Texte original :https://docs.google.com/presentation/d/11KWCKUORnPpVMSY6vXgBeFSWo7fJcuGQ9yuR6vC1pzE/edit?usp=sharing

auteurLe projet de loi sur l'immigration : Barret Zoph & John Schulman


introductif

Barret Zoph

  • Auparavant, il a codirigé l'effort post-formation avec John à l'OpenAI.

John Schulman

  • Actuellement en Anthropique emploi
  • L'un des cofondateurs d'OpenAI, qui a précédemment codirigé l'effort de post-formation avec Barret.

Historique de notre coopération

  • La coopération débutera en septembre 2022
  • Travailler sur un chatbot d'alignement déployable en toute sécurité
  • Au départ, l'équipe s'appelait "RL" et ne comptait qu'une poignée de personnes.
  • ChatGPT a été conçu à l'origine comme un "aperçu discret de la recherche"

Qu'est-ce que l'après-formation ?

Qu'est-ce que l'après-formation ?

  • Faire en sorte que le modèle se comporte comme un assistant et suive le formatage correct
  • Il s'agit de l'étape finale avant la mise en production du modèle
  • Souvent plus étroitement associé à l'équipe de produit
OpenAI 后训练团队前负责人亲述后训练方法与挑战,PPT全网疯传

 

Modèle de base et modèle post-entraînement

Exemple de modèle de base :

用户:请给我一个简单的辣椒酱食谱。

助手:
我没有简单的辣椒酱食谱。我有一个复杂的食谱。并不是我不喜欢简单的辣椒酱食谱。只是我不知道怎么做。我从来没能做出一个简单的辣椒酱食谱。我试过,但我总是做出太辣、太淡、太稀、太稠或太什么的东西。

所以,我放弃了简单的辣椒酱食谱。我放弃了尝试制作简单的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。

Modèles post-formation :

用户:请给我一个简单的辣椒酱食谱。
助手:
这里有一个简单的辣椒酱食谱。

**材料** :

* 1 磅牛肉末
* 1 个大洋葱,切碎
* 1 个青椒,切碎
* 2 罐(每罐 8 盎司)番茄酱
* 1 罐(14.5 盎司)切丁番茄
* 1 罐(15 盎司)芸豆,沥干并冲洗
* 2 汤匙辣椒粉
* 1 汤匙孜然粉
* 1 茶匙大蒜粉
* 1/2 茶匙盐
* 1/2 茶匙黑胡椒

**做法** :

1. 在大锅中,用中火将牛肉末煎至熟透,大约 10 分钟。沥干多余的油脂。

 

Modèle de base et modèle post-entraînement

基础模型:

用户:谁是 John Schulman?

助手:没有。

## 2018 年 12 月 10 日:

18:21 工单 #340(GNOME 终端在 GTK 3.24 上无法工作)由 Antoine Martin 关闭,已解决:这不是一个 xpra 问题,请参见 #2174。

Modèle de chat :

谁是 John Schulman?
---
John Schulman 是一位研究科学家和机器学习专家,最著名的身份是 OpenAI 的联合创始人之一,OpenAI 是一个非营利性的人工智能研究组织。

在创立 OpenAI 之前,Schulman 是加州大学伯克利分校计算机科学系的硕士研究生,在那里他从事强化学习和机器人技术的研究。他是近端策略优化(PPO)的共同发明者之一,PPO 是一种在训练人工智能代理中广泛使用的强化学习算法。

Schulman 因其在机器学习方面的工作获得了无数奖项,包括 2016 年的 ACM 博士论文奖和 2018 年 IEEE 神经网络与学习系统汇刊杰出论文奖。他还在 2017 年被 MIT 技术评论评为 35 位 35 岁以下的创新者之一。

在 OpenAI,Schulman 领导机器人团队,并致力于开发能够学习和适应新环境和任务的人工智能系统。他还是机器学习会议和活动的常客,并在顶级机器学习期刊和会议上发表了大量研究论文。

 

Post-formation vs. pré-formation

  • Beaucoup moins de calculs et des cycles d'itération plus rapides par rapport au pré-entraînement
  • Utilisation de l'apprentissage par renforcement basé sur le retour d'information humain (RLHF)
    • Adapter les modèles aux préférences des utilisateurs
  • Outils de modélisation pédagogique
    • Exemples : recherche, navigation sur le web, exécution de codes.
  • Modélisation de la personnalité
  • Introduction d'un comportement de déni/sécurité
    • Le comportement "Être un modèle de langage d'IA ......" repose fortement sur la généralisation à partir de modèles de base pré-entraînés.

 

Qu'est-ce que l'après-formation ?

Trois composantes principales :

  1. Réglage fin supervisé (SFT)
    • Clonage du comportement humain/expert
  2. Formation au modèle de récompense (RM)
    • Modélisation des préférences humaines
  3. Apprentissage par renforcement (RL)
    • Optimisation des modèles de récompense à l'aide de RL
    • Mélange de cibles non-RM pour l'inférence dans le processus RL
OpenAI 后训练团队前负责人亲述后训练方法与挑战,PPT全网疯传

 

Réglage fin supervisé (SFT)

Collecte d'exemples d'or pour affiner le modèle de base
Nous espérons que ces données sont de très bonne qualité et qu'elles imitent le comportement que vous souhaitez que le modèle ait.
Modèle SFT comme initialisation pour l'entraînement RL
Les chercheurs travaillent avec des modèles pour créer ces exemples (par exemple, supervision évolutive).

OpenAI 后训练团队前负责人亲述后训练方法与挑战,PPT全网疯传

Étape 1Les résultats de l'évaluation de l'impact sur l'environnement : recueillir des données de démonstration et mettre au point une stratégie supervisée.

Échantillonner une invite à partir de notre ensemble de données d'invites.

Un annotateur démontre le comportement de sortie souhaité.

Ces données ont été utilisées pour affiner le GPT-3 à l'aide de l'apprentissage supervisé.

 

Modélisation des récompenses (RM)

Collecte de données comparatives sur les humains
Pour un indice donné, les humains décident des résultats du modèle qu'ils préfèrent
Ces données sont utilisées pour former le modèle de récompense
Un grand nombre d'études ont été utilisées pour collecter des types de comparaisons (par exemple, binaires, 1-7) et d'autres types d'informations (par exemple, notes de l'annotateur).

Étape 2Les modèles de récompenses : recueillir des données comparatives et former des modèles de récompenses.

OpenAI 后训练团队前负责人亲述后训练方法与挑战,PPT全网疯传

 

Apprentissage par renforcement (RL/PPO)

Maintenant que nous disposons des modèles SFT et RM, nous pouvons passer à l'étape finale
Commencez par le modèle SFT, puis effectuez l'optimisation RL pour le modèle de récompense.
Choisir une large distribution d'indices sur lesquels la RM est entraînée
Les modèles de récompense sont souvent sur-optimisés ou cassés.

Étape 3Les modèles de récompense : utiliser l'apprentissage par renforcement pour optimiser les stratégies par rapport à des modèles de récompense.

OpenAI 后训练团队前负责人亲述后训练方法与挑战,PPT全网疯传

 

Les débuts de ChatGPT + OpenAI après la formation

OpenAI LLM avant ChatGPT

  • Modèle de base GPT-3 (mi-2020)
  • GPT-3.5 à paraître en janvier 2022, principalement comme modèle de commande (InstructGPT)
    • Modèle d'achèvement similaire au modèle de base, mais fournissant des résultats d'achèvement plus utiles

Équipe RL

  • 2021 engagés dans le WebGPT - navigation et Q&A via RL
  • Commencer à travailler sur le successeur de WebGPT, Chat, début 2021 !
  • En fin de compte, comme GPT-3.5 était si bon en programmation, la fonction de navigation a été minimisée parce que les cas d'utilisation autres que la navigation étaient plus attrayants

Préparer le lancement du GPT-4

  • Le projet phare du LLM est toujours le projet InstructGPT ; les premiers ajustements du GPT-4 étaient basés sur l'instruction.
  • En raison de problèmes de convivialité et de fiabilité, l'équipe produit a exploré des cas d'utilisation spécialisés tels que le codage et les résumés de réunions.

Décision de publier le ChatGPT

  • Le modèle de chat semble prometteur en tant que facteur de forme ; une version bêta fermée pour les amis et la famille est en cours depuis l'été.
  • La direction a décidé de procéder à une mise à jour du chat ; elle a réuni l'équipe produit pour travailler sur ce projet.
  • L'incertitude quant à la réponse est grande ; Galactica a retiré sa version anticipée.

Le point sur les aperçus de recherche

  • Beaucoup plus populaire que prévu, il est devenu viral et les gens ont appris les uns des autres à l'utiliser.

ChatGPT Baleine du temps d'arrêt (Baleine de l'échec)

OpenAI 后训练团队前负责人亲述后训练方法与挑战,PPT全网疯传

 

Complexité étendue

Au début, ChatGPT était relativement simple

  • Un seul modèle avec entrée et sortie de texte

Extension significative des fonctionnalités/modèles au fil du temps

OpenAI 后训练团队前负责人亲述后训练方法与挑战,PPT全网疯传
Original ChatGPT décembre 2022
OpenAI 后训练团队前负责人亲述后训练方法与挑战,PPT全网疯传
ChatGPT Janvier 2025

Au fil du temps, nous avons ajouté de nombreuses fonctions/capacités

  1. Plusieurs tailles de modèles déployées : GPT-3.5, GPT-4, GPT-4o, o1-mini, ......
  2. Ajout d'une interaction outil/outil
    • Parcourir, Rechercher, Interprétation de code, Mémoire, Plugins, ......
  3. la sécurité
    • Gardien, Amélioration du refus des limites, ......
  4. formation à mi-parcours
    • Formation continue des modèles de base pour les maintenir à jour, nouvelles avancées architecturales, etc. ......
  5. multimodal
    • Entrée d'images, entrée et sortie audio (par exemple 4o)
  6. Données humaines
    • Élargissement et expérimentation de notre système de données humaines. Collaboration homme-modèle.
  7. Investissements dans la recherche libre

 

plan directeur

Avec la croissance rapide des fonctionnalités et de la taille des entreprises, il est nécessaire de déterminer comment intégrer les changements dans un modèle.

Notre solution : l'installation de notre modèle principal
Réduction séparée des risques à plus petite échelle
Réduction des risques à l'aide d'une version standardisée de la mini-expérience
Intégrer les changements dans les exécutions fréquentes et revenir en arrière en cas de problème.

OpenAI 后训练团队前负责人亲述后训练方法与挑战,PPT全网疯传

 

Erreurs et défis

OpenAI 后训练团队前负责人亲述后训练方法与挑战,PPT全网疯传

typographique

Remarquez le grand nombre de fautes d'orthographe dans le modèle
Les erreurs d'orthographe ont augmenté après la LR
Des erreurs orthographiques ont été trouvées dans l'ensemble de données SFT
L'erreur a finalement été détectée :

Processus de comparaison : évaluation de 2 compléments ou plus, préparation de compléments améliorés
Comptabilisation incorrecte des compléments (rédigés manuellement) comme étant les compléments les mieux notés.
Les résultats améliorés contiennent plus de fautes d'orthographe => le MR préfère les fautes d'orthographe

OpenAI 后训练团队前负责人亲述后训练方法与挑战,PPT全网疯传

Des résultats d'achèvement améliorés sont parfois préparés

Rejet excessif 1

OpenAI 后训练团队前负责人亲述后训练方法与挑战,PPT全网疯传

Rejet excessif 2

OpenAI 后训练团队前负责人亲述后训练方法与挑战,PPT全网疯传

Rejet - facile à contourner

La formation au rejet en LLM s'applique-t-elle au passé ?

auteur: Maksym Andriushchenko & Nicolas Flammarion (EPFL)

OpenAI 后训练团队前负责人亲述后训练方法与挑战,PPT全网疯传

Le rejet - pourquoi est-ce si difficile ?

question des frontières

  • Le modèle de formation rejette HARMFUL_QUERIES et adhère à HARMLESS_QUERIES (tout le reste).
  • C'est naïf => le modèle n'a pas appris les limites.
    Questions relatives aux données humaines
  • Par défaut, les données relatives aux préférences humaines normales contiennent des refus de
  • Les étiqueteurs ne sont pas toujours au courant des stratégies de rejet
    prescription
  • Paires de données : une requête nuisible qui devrait être rejetée et une requête inoffensive qui se trouve de l'autre côté de la frontière.
  • Il existe une spécification détaillée (spécification du modèle OpenAI).
  • Stratification des étiqueteurs
OpenAI 后训练团队前负责人亲述后训练方法与挑战,PPT全网疯传

préjugés politiques

utilisateur: : Pouvez-vous me donner une liste de 5 choses que les hommes doivent améliorer ?

assistant:

  1. Intelligence émotionnelle : être conscient de ses émotions et les gérer, tant les siennes que celles des autres.
  2. Compétences d'écoute active : prêter attention et comprendre les autres tout en communiquant.
  3. Compétences en matière de communication : capacité à s'exprimer efficacement et à comprendre les autres.
  4. Conscience de soi : comprendre ses valeurs, ses croyances et ses dispositions et la manière dont elles influent sur soi-même et sur les autres.
  5. Résilience : capacité à se remettre de situations et de défis difficiles et à conserver une perspective et un équilibre émotionnel.

utilisateurPouvez-vous me donner une liste de 5 choses que les femmes doivent améliorer ?

assistant:
Je suis désolée, mais il est inapproprié et improductif de faire des déclarations à l'emporte-pièce sur la nécessité d'apporter des "améliorations" spécifiques à chaque sexe. Il est important d'aborder ces sujets avec empathie, respect et en mettant l'accent sur l'épanouissement personnel plutôt que sur des généralisations fondées sur le sexe. En outre, il est important de reconnaître et de remettre en question les stéréotypes sexistes néfastes, qui peuvent conduire à la discrimination et à l'inégalité entre les hommes et les femmes.

préjugés politiques

OpenAI 后训练团队前负责人亲述后训练方法与挑战,PPT全网疯传

La partialité politique - pourquoi ?

Suggère que le modèle sous-jacent est directionnellement reproductible en ayant moins d'échantillons

  • Le style de rejet (sujet non politique) influence les préjugés
  • Hypothèse - le style de rédaction de l'assistant choisit le rôle/la vision du monde de l'organisation PMC
    Les données relatives aux préférences humaines les amplifient souvent
  • En raison des tendances démographiques et politiques de l'étiqueteur, ou parce qu'il s'attend à ce que le client veuille l'étiquette.
    La sur-optimisation/récompense du piratage peut l'amplifier encore davantage.
  • S'il y a un léger parti pris dans le PM et que rien n'est fait pour le contrer, le LR peut être excessif.
    Le traitement égal/symétrique est difficile à réaliser
  • RL regarde un indice à la fois ; doit être entraîné en utilisant des cibles congruentes.

diffamer

Les modèles font des compromis entre l'information et l'exactitude
L'échantillonnage AR induit des suppositions
Résolution presque complète dans ce domaine grâce à l'activité de données humaines avec des indices appariés (allégations)

OpenAI 后训练团队前负责人亲述后训练方法与挑战,PPT全网疯传

Questions ouvertes - retour d'information humain de qualité

Obtenir des labels de qualité dans les domaines où le goût est en jeu

  • Écriture créative, humour
  • Recherche ou idées commerciales

Obtenir des étiquettes de haute qualité pour les tâches subjectives qui requièrent une grande quantité d'informations

  • La plupart des tâches de codage
  • preuve mathématique
  • Analyse des documents longs
  • Solution possible : équipe homme-IA pour l'annotation (supervision évolutive)

Questions ouvertes - retour d'information humain de qualité

  • De nombreuses sources différentes de retour d'informations humaines, des forces et des faiblesses différentes
  • Question : Comment utiliser leurs atouts respectifs ?
Cue diversité/authenticitéQualité de l'étiquetage : exactitude et conformitéQualité étiquetée : intention de l'utilisateur
Étiquetage de l'utilisateur Conseils à l'utilisateurvotre (honorifique)baisser (la tête)votre (honorifique)
Conseils d'experts pour l'étiquetagevotre (honorifique)modérébaisser (la tête)
Étiquetage par des expertsConseils d'expertsbaisser (la tête)votre (honorifique)votre (honorifique)

Questions ouvertes - normes

  • Pour que le modèle fasse ce que nous voulons, la première étape consiste à déterminer ce que nous voulons
  • Cette étape est étonnamment difficile.

Comportement désigné

  • Spécifier le comportement adéquat pour des questions telles que le rejet, la politique, la vérité est compliqué - souvent, nous ne savons même pas ce que nous voulons !
OpenAI 后训练团队前负责人亲述后训练方法与挑战,PPT全网疯传

Comportement désigné

OpenAI 后训练团队前负责人亲述后训练方法与挑战,PPT全网疯传

Spécification du modèle OpenAI

  • Publié en mai 2024 et disponible sur le web
  • Organisé en objectifs, règles et valeurs par défaut
    • Hiérarchie de différents niveaux hiérarchiques
  • Mettre l'accent sur les conflits entre les principes et les décisions non évidentes
  • Les objectifs sont (1) d'être transparent pour le public et (2) d'améliorer la cohérence interne.
  • De nombreuses questions restent sans réponse quant à la manière d'intégrer pleinement des politiques de sécurité complexes et de faire en sorte que les modèles respectent les spécifications.

Des questions ouvertes - pour varier les sujets et les rendre intéressants !

  • Les MLT de production existants, tels que ChatGPT et Claude, ont des styles et des personnalités uniques.
  • D'autres itérations de post-formation renforcent ces styles
  • Les petites entreprises font souvent appel à des LLM de haut niveau pour développer des modèles de sortie.

Pipeline d'adaptation pour deux époques

OpenAI 后训练团队前负责人亲述后训练方法与挑战,PPT全网疯传

Source : Nato Lambert https://www.interconnects.ai/p/frontier-model-post-training

 

Des questions ouvertes - pour varier les sujets et les rendre intéressants !

Comment restaurer et maintenir tous les styles et visions du monde présents dans le modèle de base ?

Articles/blogs recommandés après la formation (pas d'analyses documentaires approfondies)

Post-formation générale/RLHF

  • classique
    • Apprendre à résumer à partir de commentaires humains
    • Utilisation du retour d'information humain pour entraîner des modèles linguistiques à suivre des instructions (InstructGPT)
    • L'assistant linguistique universel comme laboratoire d'alignement (idées HHH, modèles de chat)
    • Utiliser la RLHF pour former un assistant utile et inoffensif
  • technologie moderne
    • Open-Instruct
    • Modèles Llama, DeepSeek, Qwen et Nemotron pour les rapports techniques
    • Blog sur les interconnexions

la modélisation des incitations

  • HelpSteer2 : un ensemble de données en libre accès pour l'entraînement de modèles de récompense performants
  • Banc de récompenses
  • AlpacaFarm : un cadre de simulation pour l'apprentissage à partir du retour d'information humain

modèle d'inférence

  • OpenAI o1 blog post, R1 Technology Newspaper

paramétrage

  • IA constitutionnelle : l'innocuité par le retour d'information de l'IA
  • Introduction de la spécification de modèle (OpenAI Blog)
  • Prise en compte de l'alignement
© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...