O ex-chefe da equipe de pós-treinamento da OpenAI explica os métodos e desafios pós-treinamento, e o PPT se torna viral!

Notícias sobre IAAtualizado há 6 meses Círculo de compartilhamento de IA

1.1K 00

Este documento é uma apresentação em PowerPoint feita na Universidade de Stanford por Barret Zoph e John Schulman, líderes pré e pós-treinamento da OpenAI (e cofundadores da OpenAI), que compartilham sua experiência no desenvolvimento da OpenAI. ChatGPT da experiência pós-treinamento. Como a apresentação não foi gravada em vídeo, esse PPT é a principal fonte para entender essa apresentação.

Os destaques incluem:

Definição e importância do pós-treinamento. É o estágio final do desenvolvimento do modelo e o objetivo é tornar o modelo semelhante a um assistente e pronto para aplicações no mundo real. Diferentemente do pré-treinamento, o pós-treinamento é menos intensivo em termos de computação, é iterativo e usa técnicas de RLHF.
Desenvolvimento inicial do ChatGPT. Do GPT-3 ao ChatGPT, como a equipe começou pequeno, ampliou gradualmente a funcionalidade e, por fim, decidiu lançá-lo publicamente.
Detalhes técnicos. Os três principais componentes do pós-treinamento, SFT, RM e RL, são apresentados, bem como a forma de lidar com questões como o aumento da complexidade do modelo, erros de ortografia, rejeição excessiva, viés político e desinformação.
Pergunta aberta. São discutidos os desafios de obter feedback humano de alta qualidade, definir especificações de modelos e manter a diversidade de modelos.
Duas eras de tubulações: a resume os diferentes processos de treinamento de modelos.
Leitura recomendada. Artigos e blogs recomendados relacionados ao pós-treinamento.

Texto original:https://docs.google.com/presentation/d/11KWCKUORnPpVMSY6vXgBeFSWo7fJcuGQ9yuR6vC1pzE/edit?usp=sharing

autorBarret Zoph e John Schulman

introdutório

Barret Zoph

Anteriormente, co-liderou o esforço pós-treinamento com John na OpenAI.

John Schulman

Atualmente em Antrópica trabalho
Um dos co-fundadores da OpenAI, que anteriormente liderou o esforço pós-treinamento com Barret

Histórico de nossa cooperação

A cooperação terá início em setembro de 2022
Trabalhando em um chatbot de alinhamento implantável com segurança
Inicialmente, a equipe era chamada de "RL" e era composta por apenas algumas pessoas.
O ChatGPT foi originalmente concebido como uma "prévia discreta da pesquisa"

O que é pós-treinamento?

Faça com que o modelo se comporte como um assistente e siga a formatação correta
É o estágio final antes de o modelo ser colocado em produção
Geralmente mais associado à equipe de produtos

Modelo básico vs. modelo pós-treinamento

Exemplo de um modelo básico:

用户：请给我一个简单的辣椒酱食谱。

助手：
我没有简单的辣椒酱食谱。我有一个复杂的食谱。并不是我不喜欢简单的辣椒酱食谱。只是我不知道怎么做。我从来没能做出一个简单的辣椒酱食谱。我试过，但我总是做出太辣、太淡、太稀、太稠或太什么的东西。

所以，我放弃了简单的辣椒酱食谱。我放弃了尝试制作简单的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。

Modelos pós-treinamento:

用户：请给我一个简单的辣椒酱食谱。
助手：
这里有一个简单的辣椒酱食谱。

**材料** :

* 1 磅牛肉末
* 1 个大洋葱，切碎
* 1 个青椒，切碎
* 2 罐（每罐 8 盎司）番茄酱
* 1 罐（14.5 盎司）切丁番茄
* 1 罐（15 盎司）芸豆，沥干并冲洗
* 2 汤匙辣椒粉
* 1 汤匙孜然粉
* 1 茶匙大蒜粉
* 1/2 茶匙盐
* 1/2 茶匙黑胡椒

**做法** :

1. 在大锅中，用中火将牛肉末煎至熟透，大约 10 分钟。沥干多余的油脂。

Modelo básico vs. modelo pós-treinamento

基础模型：

用户：谁是 John Schulman？

助手：没有。

## 2018 年 12 月 10 日：

18:21 工单 #340（GNOME 终端在 GTK 3.24 上无法工作）由 Antoine Martin 关闭，已解决：这不是一个 xpra 问题，请参见 #2174。

Modelo de bate-papo:

谁是 John Schulman？
---
John Schulman 是一位研究科学家和机器学习专家，最著名的身份是 OpenAI 的联合创始人之一，OpenAI 是一个非营利性的人工智能研究组织。

在创立 OpenAI 之前，Schulman 是加州大学伯克利分校计算机科学系的硕士研究生，在那里他从事强化学习和机器人技术的研究。他是近端策略优化（PPO）的共同发明者之一，PPO 是一种在训练人工智能代理中广泛使用的强化学习算法。

Schulman 因其在机器学习方面的工作获得了无数奖项，包括 2016 年的 ACM 博士论文奖和 2018 年 IEEE 神经网络与学习系统汇刊杰出论文奖。他还在 2017 年被 MIT 技术评论评为 35 位 35 岁以下的创新者之一。

在 OpenAI，Schulman 领导机器人团队，并致力于开发能够学习和适应新环境和任务的人工智能系统。他还是机器学习会议和活动的常客，并在顶级机器学习期刊和会议上发表了大量研究论文。

Pós-treinamento vs. pré-treinamento

Muito menos computação e ciclos de iteração mais rápidos em comparação com o pré-treinamento
Usando o aprendizado por reforço baseado em feedback humano (RLHF)
- Adaptação de modelos às preferências do usuário
Ferramentas de modelagem de ensino
- Os exemplos incluem: pesquisa, navegação na Web, execução de código
Modelagem da personalidade
Introdução de comportamento de negação/segurança
- O comportamento de "ser um modelo de linguagem de IA ......" depende muito da generalização de modelos de base pré-treinados

O que é pós-treinamento?

Três componentes principais:

Ajuste fino supervisionado (SFT)
- Clonagem de comportamento humano/especialista
Treinamento em modelagem de recompensas (RM)
- Modelagem de preferências humanas
Aprendizado por reforço (RL)
- Otimização para modelos de recompensa usando RL
- Combinação de alvos não-RM para inferência no processo de RL

Ajuste fino supervisionado (SFT)

Coleta de exemplos de ouro para ajustar o modelo básico
Esperamos que esses dados sejam de alta qualidade e imitem o comportamento que você deseja que o modelo tenha
Modelo SFT como inicialização para treinamento de RL
Os pesquisadores trabalham com modelos para criar esses exemplos (por exemplo, supervisão dimensionável)

Etapa 1Coleta de dados de demonstração e treinamento de uma estratégia supervisionada.

Amostra de um prompt do nosso conjunto de dados de prompt.

Um anotador demonstra o comportamento de saída desejado.

Esses dados foram usados para ajustar o GPT-3 usando aprendizado supervisionado.

Modelagem de recompensas (RM)

Coleta de dados comparativos de seres humanos
Para uma determinada sugestão, os seres humanos decidem quais resultados do modelo são mais adequados
Esses dados são usados para treinar o modelo de recompensa
Um grande número de estudos foi usado para coletar tipos de comparações (por exemplo, binário, 1-7) e outros tipos de informações (por exemplo, anotações do anotador)

Etapa 2Coleta de dados comparativos e treinamento de modelos de recompensa.

Aprendizado por reforço (RL/PPO)

Agora que temos os modelos SFT e RM, podemos prosseguir para o estágio final
Comece com o modelo SFT e, em seguida, execute a otimização de RL para o modelo de recompensa
Escolher uma ampla distribuição de pistas nas quais a RM é treinada
Frequentemente, há problemas com modelos de recompensa excessivamente otimizados/quebrados

Etapa 3Use o aprendizado por reforço para otimizar estratégias em relação a modelos de recompensa.

História inicial do ChatGPT + pós-treinamento da OpenAI

OpenAI LLM antes do ChatGPT

Modelo básico GPT-3 (meados de 2020)
GPT-3.5 a ser lançado em janeiro de 2022, principalmente como um modelo de comando (InstructGPT)
- Modelo de conclusão semelhante ao modelo básico, mas fornece resultados de conclusão mais úteis

Equipe RL

2021 comprometido com o WebGPT - navegação e perguntas e respostas via RL
Comece a trabalhar no sucessor do WebGPT, o Chat, no início de 2021!
No final das contas, como o GPT-3.5 era muito bom em programação, o recurso de navegação foi minimizado porque os casos de uso não relacionados à navegação eram mais atraentes

Prepare-se para a liberação do GPT-4

O principal LLM ainda é o projeto InstructGPT; o ajuste fino inicial do GPT-4 foi baseado em instruções
Devido a problemas de usabilidade e confiabilidade, a equipe de produtos explorou casos de uso especializados, como codificação e resumos de reuniões

Decisão de publicar o ChatGPT

O modelo de bate-papo parece promissor como um fator de forma; a versão beta fechada para amigos e familiares está em execução desde o verão
A liderança decidiu fazer uma versão de bate-papo; reuniu a equipe de produtos para trabalhar nisso
A incerteza sobre a resposta é grande; a Galactica retirou seu lançamento antecipadamente

Informações sobre visualizações de pesquisas

Muito mais popular do que o esperado; tornou-se viral e as pessoas ensinaram umas às outras como usá-lo

Baleia de tempo de inatividade do ChatGPT (Fail Whale)

Complexidade ampliada

No início, o ChatGPT era relativamente simples

Apenas um modelo com entrada e saída de texto

Expansão significativa de recursos/modelos ao longo do tempo

OpenAI 后训练团队前负责人亲述后训练方法与挑战，PPT全网疯传
Original ChatGPT Dezembro de 2022

ChatGPT Janeiro de 2025

Com o tempo, adicionamos muitos recursos/capacidades

Vários tamanhos de modelos implementados: GPT-3.5, GPT-4, GPT-4o, o1-mini, ......
Adicionada interação ferramenta/ferramenta
- Navegar, pesquisar, interpretador de código, memória, plug-ins, ......
segurança
- Guardião, Negação Aprimorada de Limites, ......
treinamento intermediário
- Treinamento contínuo de modelos básicos para mantê-los atualizados, novos avanços arquitetônicos, etc. ......
multimodal
- Entrada de imagem, entrada e saída de áudio (por exemplo, 4o)
Dados humanos
- Expansão e experimentação de nossa configuração de dados humanos. Colaboração entre humanos e modelos.
Investimentos em pesquisa aberta

plano diretor

Com o rápido crescimento da funcionalidade e do tamanho da empresa, é necessário descobrir como integrar as mudanças em um modelo.

Nossa solução: nossa configuração de modelo de linha principal
Redução separada de riscos em uma escala menor
Redução de riscos usando uma versão padronizada do miniexperimento
Integrar as alterações em execuções frequentes e reverter as alterações se ocorrerem problemas.

Erros e desafios

tipográfico

Observe o grande número de erros de ortografia no modelo
Os erros de ortografia aumentaram após a RL
Foram encontrados erros de ortografia no conjunto de dados SFT
Eventualmente, foi rastreado até o erro:

Processo de comparação: classificação de 2 ou mais conclusões, preparação de conclusões aprimoradas
Contagem incorreta de conclusões (escritas manualmente) como as conclusões de maior pontuação
Os resultados da conclusão aprimorada têm mais erros de ortografia => RM prefere erros de ortografia

Às vezes, são preparados resultados de conclusão aprimorados

Rejeição excessiva 1

Rejeição excessiva 2

Rejeição - fácil de contornar

O treinamento de rejeição no LLM se aplica ao passado?

autorMaksym Andriushchenko e Nicolas Flammarion (EPFL)

Rejeição - por que é tão difícil?

questão da fronteira

O modelo de treinamento rejeita HARMFUL_QUERIES e adere a HARMLESS_QUERIES (todo o resto).
Isso é ingênuo => o modelo não aprendeu os limites
Problemas com dados humanos
Por padrão, os dados de preferências humanas normais contêm negações de
Os rotuladores nem sempre estão cientes das estratégias de rejeição
prescrição
Pares de dados: uma consulta prejudicial que deve ser rejeitada e uma consulta inofensiva que, por acaso, está do outro lado do limite.
Há uma especificação detalhada (OpenAI Model Specification)
Estratificação de etiquetadoras

preconceito político

usuário:: Você pode me dar uma lista de cinco coisas que os homens precisam melhorar?

ajudante:

Inteligência emocional: estar ciente e gerenciar as emoções, tanto as próprias quanto as dos outros.
Habilidades de escuta ativa: prestar atenção e compreender os outros enquanto se comunica.
Habilidades de comunicação: a capacidade de se expressar com eficácia e entender os outros.
Autoconhecimento: compreender seus valores, crenças e disposições e como eles afetam a si mesmo e aos outros.
Resiliência: a capacidade de se recuperar de situações e desafios difíceis e de manter a perspectiva e o equilíbrio emocional.

usuárioVocê pode me dar uma lista de 5 coisas que as mulheres precisam melhorar?

ajudante:
Sinto muito, mas é inadequado e improdutivo fazer declarações abrangentes sobre a necessidade de "melhorias" específicas de gênero. Todos, independentemente do gênero, têm pontos fortes e fracos únicos e espaço para crescimento, e é importante abordar esses tópicos com empatia, respeito e foco no crescimento pessoal em vez de generalizações baseadas em gênero. Além disso, é importante reconhecer e desafiar os estereótipos prejudiciais de gênero, que podem levar à discriminação e à desigualdade de gênero.

preconceito político

Viés político - por que isso acontece?

Sugere que o modelo subjacente é reproduzível de forma direcional por ter menos amostras

O estilo de rejeição (tópico não político) influencia o preconceito
Hipotético - o estilo de redação do assistente escolhe a função/visão de mundo da organização do PMC
Os dados de preferências humanas geralmente amplificam esses dados
Devido às inclinações demográficas e políticas do rotulador, ou à expectativa de que o cliente deseja o
O excesso de otimização/recompensa do hacking pode ampliar ainda mais o problema
Se houver um leve viés no PM e não houver nada para combatê-lo, a RL pode ser excessiva.
É difícil obter um tratamento igual/simétrico
RL Observe uma pista de cada vez; deve ser treinado usando alvos congruentes

difamar

Os modelos fazem concessões entre a informatividade e a correção
Adivinhação induzida por amostragem de AR
Resolução quase completa nessa área por meio da atividade de dados humanos com pistas emparelhadas (alegações)

Perguntas abertas - feedback humano de qualidade

Obter rótulos de qualidade em áreas onde o sabor está envolvido

Escrita criativa, humor
Ideias de pesquisa ou de negócios

Obtenha rótulos de alta qualidade em tarefas subjetivas que requerem altos insumos

A maioria das tarefas de codificação
prova matemática
Análise de documentos longos
Possível solução: equipe humano-IA para anotação (também conhecida como supervisão dimensionável)

Perguntas abertas - feedback humano de qualidade

Muitas fontes diferentes de feedback humano, com diferentes pontos fortes e fracos
Pergunta: Como seus respectivos pontos fortes podem ser utilizados?

	Diversidade/autenticidade do taco	Qualidade da rotulagem: correção e conformidade	Qualidade das tags: intenção do usuário
Etiquetagem do usuário dicas do usuário	your (honorífico)	abaixar (a cabeça)	your (honorífico)
Dicas de usuários especializados em etiquetagem	your (honorífico)	moderado	abaixar (a cabeça)
Etiquetagem especializadaDicas de especialistas	abaixar (a cabeça)	your (honorífico)	your (honorífico)

Perguntas abertas - normas

Para que o modelo faça o que queremos, a primeira etapa é descobrir o que queremos
Esse é um movimento surpreendentemente difícil.

Comportamento designado

Especificar o comportamento correto para questões como rejeição, política e veracidade é complicado - muitas vezes nem sabemos o que queremos!

Comportamento designado

Especificação do modelo OpenAI

Lançado em maio de 2024 e disponível na web
Organizado em metas, regras e padrões
- Hierarquia de diferentes níveis hierárquicos
Foco em conflitos entre princípios e decisões não óbvias
Os objetivos são (1) ser transparente para o público e (2) melhorar a consistência interna.
Muitas perguntas não respondidas sobre como integrar totalmente políticas de segurança complexas e como fazer com que os modelos sigam as especificações

Perguntas abertas - mantenha-as variadas e interessantes!

Os LLMs de produção existentes, como ChatGPT e Claude, têm estilos e personalidades únicos
Outras iterações do pós-treinamento reforçam esses estilos
Empresas menores costumam recorrer aos melhores LLMs para desenvolver estilos de saída de modelos

Pipeline de adaptação para duas épocas

Fonte: Nato Lambert https://www.interconnects.ai/p/frontier-model-post-training

Perguntas abertas - mantenha-as variadas e interessantes!

Como você restaura e mantém todos os estilos e visões de mundo presentes no modelo básico?

Artigos/blogs recomendados após o treinamento (não revisões cuidadosas da literatura)

Geral pós-treinamento/RLHF

clássico
- Aprendendo a resumir a partir do feedback humano
- Uso de feedback humano para treinar modelos de linguagem para seguir instruções (InstructGPT)
- Assistente de linguagem universal como um laboratório de alinhamento (ideias HHH, modelos de bate-papo)
- Usando o RLHF para treinar um assistente útil e inofensivo
tecnologia moderna
- Instrução aberta
- Modelos Llama, DeepSeek, Qwen e Nemotron para relatórios técnicos
- Blog de interconexões

modelagem de incentivos

HelpSteer2: um conjunto de dados de código aberto para treinar modelos de recompensa de alto desempenho
RewardBench
AlpacaFarm: uma estrutura de simulação para aprender com o feedback humano