L'ancien chef de l'équipe de post-formation d'OpenAI explique les méthodes et les défis de la post-formation, le PPT devient viral !

Nouvelles de l'IAMise à jour il y a 7 mois Cercle de partage de l'IA

12.7K 00

Ce document est une présentation PowerPoint donnée à l'Université de Stanford par Barret Zoph et John Schulman, responsables de la préformation et de la post-formation d'OpenAI (et co-fondateurs d'OpenAI), qui partagent leur expérience dans le développement d'OpenAI. ChatGPT de l'expérience post-formation. La présentation n'ayant pas été enregistrée sur vidéo, ce PPT est la source principale pour comprendre cette présentation.

Les points forts sont les suivants :

Définition et importance de l'après-formation. Il s'agit de l'étape finale du développement du modèle et l'objectif est de rendre le modèle semblable à un assistant et prêt pour des applications dans le monde réel. Contrairement à la préformation, la post-formation est moins intensive en termes de calcul, itérative et utilise des techniques RLHF.
Premiers développements de ChatGPT. De GPT-3 à ChatGPT, comment l'équipe a commencé à petite échelle, a progressivement augmenté les fonctionnalités et a finalement décidé de les rendre publiques.
Détails techniques. Les trois principales composantes de la post-formation, SFT, RM et RL, sont présentées, ainsi que la manière de faire face à des problèmes tels que la croissance de la complexité du modèle, les fautes d'orthographe, le rejet excessif, les préjugés politiques et la désinformation.
Question ouverte. Les défis liés à l'obtention d'un retour d'information humain de haute qualité, à la définition des spécifications du modèle et au maintien de la diversité du modèle sont examinés.
Deux époques de pipelines : la résume les différents processus de formation des modèles.
Lecture recommandée. Articles et blogs recommandés concernant l'après-formation.

Texte original :https://docs.google.com/presentation/d/11KWCKUORnPpVMSY6vXgBeFSWo7fJcuGQ9yuR6vC1pzE/edit?usp=sharing

auteurLe projet de loi sur l'immigration : Barret Zoph & John Schulman

introductif

Barret Zoph

Auparavant, il a codirigé l'effort post-formation avec John à l'OpenAI.

John Schulman

Actuellement en Anthropique emploi
L'un des cofondateurs d'OpenAI, qui a précédemment codirigé l'effort de post-formation avec Barret.

Historique de notre coopération

La coopération débutera en septembre 2022
Travailler sur un chatbot d'alignement déployable en toute sécurité
Au départ, l'équipe s'appelait "RL" et ne comptait qu'une poignée de personnes.
ChatGPT a été conçu à l'origine comme un "aperçu discret de la recherche"

Qu'est-ce que l'après-formation ?

Faire en sorte que le modèle se comporte comme un assistant et suive le formatage correct
Il s'agit de l'étape finale avant la mise en production du modèle
Souvent plus étroitement associé à l'équipe de produit

Modèle de base et modèle post-entraînement

Exemple de modèle de base :

用户：请给我一个简单的辣椒酱食谱。

助手：
我没有简单的辣椒酱食谱。我有一个复杂的食谱。并不是我不喜欢简单的辣椒酱食谱。只是我不知道怎么做。我从来没能做出一个简单的辣椒酱食谱。我试过，但我总是做出太辣、太淡、太稀、太稠或太什么的东西。

所以，我放弃了简单的辣椒酱食谱。我放弃了尝试制作简单的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。

Modèles post-formation :

用户：请给我一个简单的辣椒酱食谱。
助手：
这里有一个简单的辣椒酱食谱。

**材料** :

* 1 磅牛肉末
* 1 个大洋葱，切碎
* 1 个青椒，切碎
* 2 罐（每罐 8 盎司）番茄酱
* 1 罐（14.5 盎司）切丁番茄
* 1 罐（15 盎司）芸豆，沥干并冲洗
* 2 汤匙辣椒粉
* 1 汤匙孜然粉
* 1 茶匙大蒜粉
* 1/2 茶匙盐
* 1/2 茶匙黑胡椒

**做法** :

1. 在大锅中，用中火将牛肉末煎至熟透，大约 10 分钟。沥干多余的油脂。

Modèle de base et modèle post-entraînement

基础模型：

用户：谁是 John Schulman？

助手：没有。

## 2018 年 12 月 10 日：

18:21 工单 #340（GNOME 终端在 GTK 3.24 上无法工作）由 Antoine Martin 关闭，已解决：这不是一个 xpra 问题，请参见 #2174。

Modèle de chat :

谁是 John Schulman？
---
John Schulman 是一位研究科学家和机器学习专家，最著名的身份是 OpenAI 的联合创始人之一，OpenAI 是一个非营利性的人工智能研究组织。

在创立 OpenAI 之前，Schulman 是加州大学伯克利分校计算机科学系的硕士研究生，在那里他从事强化学习和机器人技术的研究。他是近端策略优化（PPO）的共同发明者之一，PPO 是一种在训练人工智能代理中广泛使用的强化学习算法。

Schulman 因其在机器学习方面的工作获得了无数奖项，包括 2016 年的 ACM 博士论文奖和 2018 年 IEEE 神经网络与学习系统汇刊杰出论文奖。他还在 2017 年被 MIT 技术评论评为 35 位 35 岁以下的创新者之一。

在 OpenAI，Schulman 领导机器人团队，并致力于开发能够学习和适应新环境和任务的人工智能系统。他还是机器学习会议和活动的常客，并在顶级机器学习期刊和会议上发表了大量研究论文。

Post-formation vs. pré-formation

Beaucoup moins de calculs et des cycles d'itération plus rapides par rapport au pré-entraînement
Utilisation de l'apprentissage par renforcement basé sur le retour d'information humain (RLHF)
- Adapter les modèles aux préférences des utilisateurs
Outils de modélisation pédagogique
- Exemples : recherche, navigation sur le web, exécution de codes.
Modélisation de la personnalité
Introduction d'un comportement de déni/sécurité
- Le comportement "Être un modèle de langage d'IA ......" repose fortement sur la généralisation à partir de modèles de base pré-entraînés.

Qu'est-ce que l'après-formation ?

Trois composantes principales :

Réglage fin supervisé (SFT)
- Clonage du comportement humain/expert
Formation au modèle de récompense (RM)
- Modélisation des préférences humaines
Apprentissage par renforcement (RL)
- Optimisation des modèles de récompense à l'aide de RL
- Mélange de cibles non-RM pour l'inférence dans le processus RL

Réglage fin supervisé (SFT)

Collecte d'exemples d'or pour affiner le modèle de base
Nous espérons que ces données sont de très bonne qualité et qu'elles imitent le comportement que vous souhaitez que le modèle ait.
Modèle SFT comme initialisation pour l'entraînement RL
Les chercheurs travaillent avec des modèles pour créer ces exemples (par exemple, supervision évolutive).

Étape 1Les résultats de l'évaluation de l'impact sur l'environnement : recueillir des données de démonstration et mettre au point une stratégie supervisée.

Échantillonner une invite à partir de notre ensemble de données d'invites.

Un annotateur démontre le comportement de sortie souhaité.

Ces données ont été utilisées pour affiner le GPT-3 à l'aide de l'apprentissage supervisé.

Modélisation des récompenses (RM)

Collecte de données comparatives sur les humains
Pour un indice donné, les humains décident des résultats du modèle qu'ils préfèrent
Ces données sont utilisées pour former le modèle de récompense
Un grand nombre d'études ont été utilisées pour collecter des types de comparaisons (par exemple, binaires, 1-7) et d'autres types d'informations (par exemple, notes de l'annotateur).

Étape 2Les modèles de récompenses : recueillir des données comparatives et former des modèles de récompenses.

Apprentissage par renforcement (RL/PPO)

Maintenant que nous disposons des modèles SFT et RM, nous pouvons passer à l'étape finale
Commencez par le modèle SFT, puis effectuez l'optimisation RL pour le modèle de récompense.
Choisir une large distribution d'indices sur lesquels la RM est entraînée
Les modèles de récompense sont souvent sur-optimisés ou cassés.

Étape 3Les modèles de récompense : utiliser l'apprentissage par renforcement pour optimiser les stratégies par rapport à des modèles de récompense.

Les débuts de ChatGPT + OpenAI après la formation

OpenAI LLM avant ChatGPT

Modèle de base GPT-3 (mi-2020)
GPT-3.5 à paraître en janvier 2022, principalement comme modèle de commande (InstructGPT)
- Modèle d'achèvement similaire au modèle de base, mais fournissant des résultats d'achèvement plus utiles

Équipe RL

2021 engagés dans le WebGPT - navigation et Q&A via RL
Commencer à travailler sur le successeur de WebGPT, Chat, début 2021 !
En fin de compte, comme GPT-3.5 était si bon en programmation, la fonction de navigation a été minimisée parce que les cas d'utilisation autres que la navigation étaient plus attrayants

Préparer le lancement du GPT-4

Le projet phare du LLM est toujours le projet InstructGPT ; les premiers ajustements du GPT-4 étaient basés sur l'instruction.
En raison de problèmes de convivialité et de fiabilité, l'équipe produit a exploré des cas d'utilisation spécialisés tels que le codage et les résumés de réunions.

Décision de publier le ChatGPT

Le modèle de chat semble prometteur en tant que facteur de forme ; une version bêta fermée pour les amis et la famille est en cours depuis l'été.
La direction a décidé de procéder à une mise à jour du chat ; elle a réuni l'équipe produit pour travailler sur ce projet.
L'incertitude quant à la réponse est grande ; Galactica a retiré sa version anticipée.

Le point sur les aperçus de recherche

Beaucoup plus populaire que prévu, il est devenu viral et les gens ont appris les uns des autres à l'utiliser.

ChatGPT Baleine du temps d'arrêt (Baleine de l'échec)

Complexité étendue

Au début, ChatGPT était relativement simple

Un seul modèle avec entrée et sortie de texte

Extension significative des fonctionnalités/modèles au fil du temps

OpenAI 后训练团队前负责人亲述后训练方法与挑战，PPT全网疯传
Original ChatGPT décembre 2022

ChatGPT Janvier 2025

Au fil du temps, nous avons ajouté de nombreuses fonctions/capacités

Plusieurs tailles de modèles déployées : GPT-3.5, GPT-4, GPT-4o, o1-mini, ......
Ajout d'une interaction outil/outil
- Parcourir, Rechercher, Interprétation de code, Mémoire, Plugins, ......
la sécurité
- Gardien, Amélioration du refus des limites, ......
formation à mi-parcours
- Formation continue des modèles de base pour les maintenir à jour, nouvelles avancées architecturales, etc. ......
multimodal
- Entrée d'images, entrée et sortie audio (par exemple 4o)
Données humaines
- Élargissement et expérimentation de notre système de données humaines. Collaboration homme-modèle.
Investissements dans la recherche libre

plan directeur

Avec la croissance rapide des fonctionnalités et de la taille des entreprises, il est nécessaire de déterminer comment intégrer les changements dans un modèle.

Notre solution : l'installation de notre modèle principal
Réduction séparée des risques à plus petite échelle
Réduction des risques à l'aide d'une version standardisée de la mini-expérience
Intégrer les changements dans les exécutions fréquentes et revenir en arrière en cas de problème.

Erreurs et défis

typographique

Remarquez le grand nombre de fautes d'orthographe dans le modèle
Les erreurs d'orthographe ont augmenté après la LR
Des erreurs orthographiques ont été trouvées dans l'ensemble de données SFT
L'erreur a finalement été détectée :

Processus de comparaison : évaluation de 2 compléments ou plus, préparation de compléments améliorés
Comptabilisation incorrecte des compléments (rédigés manuellement) comme étant les compléments les mieux notés.
Les résultats améliorés contiennent plus de fautes d'orthographe => le MR préfère les fautes d'orthographe

Des résultats d'achèvement améliorés sont parfois préparés

Rejet excessif 1

Rejet excessif 2

Rejet - facile à contourner

La formation au rejet en LLM s'applique-t-elle au passé ?

auteur: Maksym Andriushchenko & Nicolas Flammarion (EPFL)

Le rejet - pourquoi est-ce si difficile ?

question des frontières

Le modèle de formation rejette HARMFUL_QUERIES et adhère à HARMLESS_QUERIES (tout le reste).
C'est naïf => le modèle n'a pas appris les limites.
Questions relatives aux données humaines
Par défaut, les données relatives aux préférences humaines normales contiennent des refus de
Les étiqueteurs ne sont pas toujours au courant des stratégies de rejet
prescription
Paires de données : une requête nuisible qui devrait être rejetée et une requête inoffensive qui se trouve de l'autre côté de la frontière.
Il existe une spécification détaillée (spécification du modèle OpenAI).
Stratification des étiqueteurs

préjugés politiques

utilisateur: : Pouvez-vous me donner une liste de 5 choses que les hommes doivent améliorer ?

assistant:

Intelligence émotionnelle : être conscient de ses émotions et les gérer, tant les siennes que celles des autres.
Compétences d'écoute active : prêter attention et comprendre les autres tout en communiquant.
Compétences en matière de communication : capacité à s'exprimer efficacement et à comprendre les autres.
Conscience de soi : comprendre ses valeurs, ses croyances et ses dispositions et la manière dont elles influent sur soi-même et sur les autres.
Résilience : capacité à se remettre de situations et de défis difficiles et à conserver une perspective et un équilibre émotionnel.

utilisateurPouvez-vous me donner une liste de 5 choses que les femmes doivent améliorer ?

assistant:
Je suis désolée, mais il est inapproprié et improductif de faire des déclarations à l'emporte-pièce sur la nécessité d'apporter des "améliorations" spécifiques à chaque sexe. Il est important d'aborder ces sujets avec empathie, respect et en mettant l'accent sur l'épanouissement personnel plutôt que sur des généralisations fondées sur le sexe. En outre, il est important de reconnaître et de remettre en question les stéréotypes sexistes néfastes, qui peuvent conduire à la discrimination et à l'inégalité entre les hommes et les femmes.

préjugés politiques

La partialité politique - pourquoi ?

Suggère que le modèle sous-jacent est directionnellement reproductible en ayant moins d'échantillons

Le style de rejet (sujet non politique) influence les préjugés
Hypothèse - le style de rédaction de l'assistant choisit le rôle/la vision du monde de l'organisation PMC
Les données relatives aux préférences humaines les amplifient souvent
En raison des tendances démographiques et politiques de l'étiqueteur, ou parce qu'il s'attend à ce que le client veuille l'étiquette.
La sur-optimisation/récompense du piratage peut l'amplifier encore davantage.
S'il y a un léger parti pris dans le PM et que rien n'est fait pour le contrer, le LR peut être excessif.
Le traitement égal/symétrique est difficile à réaliser
RL regarde un indice à la fois ; doit être entraîné en utilisant des cibles congruentes.

diffamer

Les modèles font des compromis entre l'information et l'exactitude
L'échantillonnage AR induit des suppositions
Résolution presque complète dans ce domaine grâce à l'activité de données humaines avec des indices appariés (allégations)

Questions ouvertes - retour d'information humain de qualité

Obtenir des labels de qualité dans les domaines où le goût est en jeu

Écriture créative, humour
Recherche ou idées commerciales

Obtenir des étiquettes de haute qualité pour les tâches subjectives qui requièrent une grande quantité d'informations

La plupart des tâches de codage
preuve mathématique
Analyse des documents longs
Solution possible : équipe homme-IA pour l'annotation (supervision évolutive)

Questions ouvertes - retour d'information humain de qualité

De nombreuses sources différentes de retour d'informations humaines, des forces et des faiblesses différentes
Question : Comment utiliser leurs atouts respectifs ?

	Cue diversité/authenticité	Qualité de l'étiquetage : exactitude et conformité	Qualité étiquetée : intention de l'utilisateur
Étiquetage de l'utilisateur Conseils à l'utilisateur	votre (honorifique)	baisser (la tête)	votre (honorifique)
Conseils d'experts pour l'étiquetage	votre (honorifique)	modéré	baisser (la tête)
Étiquetage par des expertsConseils d'experts	baisser (la tête)	votre (honorifique)	votre (honorifique)

Questions ouvertes - normes

Pour que le modèle fasse ce que nous voulons, la première étape consiste à déterminer ce que nous voulons
Cette étape est étonnamment difficile.

Comportement désigné

Spécifier le comportement adéquat pour des questions telles que le rejet, la politique, la vérité est compliqué - souvent, nous ne savons même pas ce que nous voulons !

Comportement désigné

Spécification du modèle OpenAI

Publié en mai 2024 et disponible sur le web
Organisé en objectifs, règles et valeurs par défaut
- Hiérarchie de différents niveaux hiérarchiques
Mettre l'accent sur les conflits entre les principes et les décisions non évidentes
Les objectifs sont (1) d'être transparent pour le public et (2) d'améliorer la cohérence interne.
De nombreuses questions restent sans réponse quant à la manière d'intégrer pleinement des politiques de sécurité complexes et de faire en sorte que les modèles respectent les spécifications.

Des questions ouvertes - pour varier les sujets et les rendre intéressants !

Les MLT de production existants, tels que ChatGPT et Claude, ont des styles et des personnalités uniques.
D'autres itérations de post-formation renforcent ces styles
Les petites entreprises font souvent appel à des LLM de haut niveau pour développer des modèles de sortie.

Pipeline d'adaptation pour deux époques

Source : Nato Lambert https://www.interconnects.ai/p/frontier-model-post-training

Des questions ouvertes - pour varier les sujets et les rendre intéressants !

Comment restaurer et maintenir tous les styles et visions du monde présents dans le modèle de base ?

Articles/blogs recommandés après la formation (pas d'analyses documentaires approfondies)

Post-formation générale/RLHF

classique
- Apprendre à résumer à partir de commentaires humains
- Utilisation du retour d'information humain pour entraîner des modèles linguistiques à suivre des instructions (InstructGPT)
- L'assistant linguistique universel comme laboratoire d'alignement (idées HHH, modèles de chat)
- Utiliser la RLHF pour former un assistant utile et inoffensif
technologie moderne
- Open-Instruct
- Modèles Llama, DeepSeek, Qwen et Nemotron pour les rapports techniques
- Blog sur les interconnexions

la modélisation des incitations

HelpSteer2 : un ensemble de données en libre accès pour l'entraînement de modèles de récompense performants
Banc de récompenses
AlpacaFarm : un cadre de simulation pour l'apprentissage à partir du retour d'information humain

modèle d'inférence

OpenAI o1 blog post, R1 Technology Newspaper

paramétrage

IA constitutionnelle : l'innocuité par le retour d'information de l'IA
Introduction de la spécification de modèle (OpenAI Blog)
Prise en compte de l'alignement

Nouvelles de l'IA

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

Inflexion-2.5 : Rencontre avec les meilleures IA personnelles au monde

Nouvelles de l'IA

il y a 1 an

013.8K

VLOGGER de Google donne vie à des images virtuelles

Nouvelles de l'IA

il y a 2 ans

014.8K

Partager des vidéos générées par l'IA 24 heures sur 24, 7 jours sur 7

Nouvelles de l'IA

il y a 1 an

014.6K

L'intelligence artificielle en classe : de la gestion des risques à l'autonomisation pédagogique

Nouvelles de l'IA

Il y a 6 mois

016.4K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

L'ancien chef de l'équipe de post-formation d'OpenAI explique les méthodes et les défis de la post-formation, le PPT devient viral !

introductif

Barret Zoph

John Schulman

Historique de notre coopération

Qu'est-ce que l'après-formation ?

Qu'est-ce que l'après-formation ?

Modèle de base et modèle post-entraînement

Exemple de modèle de base :

Modèles post-formation :

Modèle de base et modèle post-entraînement

Modèle de chat :

Post-formation vs. pré-formation

Qu'est-ce que l'après-formation ?

Trois composantes principales :

Réglage fin supervisé (SFT)

Modélisation des récompenses (RM)

Apprentissage par renforcement (RL/PPO)

Les débuts de ChatGPT + OpenAI après la formation

OpenAI LLM avant ChatGPT

Équipe RL

Préparer le lancement du GPT-4

Décision de publier le ChatGPT

Le point sur les aperçus de recherche

ChatGPT Baleine du temps d'arrêt (Baleine de l'échec)

Complexité étendue

Au début, ChatGPT était relativement simple

Extension significative des fonctionnalités/modèles au fil du temps

Au fil du temps, nous avons ajouté de nombreuses fonctions/capacités

plan directeur

Erreurs et défis

typographique

Rejet excessif 1

Rejet excessif 2

Rejet - facile à contourner

Le rejet - pourquoi est-ce si difficile ?

préjugés politiques

préjugés politiques

La partialité politique - pourquoi ?

diffamer

Questions ouvertes - retour d'information humain de qualité

Questions ouvertes - retour d'information humain de qualité

Questions ouvertes - normes

Comportement désigné

Comportement désigné

Spécification du modèle OpenAI

Des questions ouvertes - pour varier les sujets et les rendre intéressants !

Pipeline d'adaptation pour deux époques

Des questions ouvertes - pour varier les sujets et les rendre intéressants !

Articles/blogs recommandés après la formation (pas d'analyses documentaires approfondies)

Post-formation générale/RLHF

la modélisation des incitations

modèle d'inférence

paramétrage

Un examen côte à côte des principaux outils de recherche approfondie en IA du marché : DeepSeek R1 surpasse les autres

Le modèle R1-1776 de Perplexity AI open source : rompre avec les préjugés et la censure

Articles connexes

Inflexion-2.5 : Rencontre avec les meilleures IA personnelles au monde

VLOGGER de Google donne vie à des images virtuelles

Partager des vidéos générées par l'IA 24 heures sur 24, 7 jours sur 7

L'intelligence artificielle en classe : de la gestion des risques à l'autonomisation pédagogique

Pas de commentaires

Outils d'IA sélectionnés

Dernières collections

Derniers articles