Este documento é uma apresentação em PowerPoint feita na Universidade de Stanford por Barret Zoph e John Schulman, líderes pré e pós-treinamento da OpenAI (e cofundadores da OpenAI), que compartilham sua experiência no desenvolvimento da OpenAI. ChatGPT da experiência pós-treinamento. Como a apresentação não foi gravada em vídeo, esse PPT é a principal fonte para entender essa apresentação.
Os destaques incluem:
-
Definição e importância do pós-treinamento. É o estágio final do desenvolvimento do modelo e o objetivo é tornar o modelo semelhante a um assistente e pronto para aplicações no mundo real. Diferentemente do pré-treinamento, o pós-treinamento é menos intensivo em termos de computação, é iterativo e usa técnicas de RLHF.
-
Desenvolvimento inicial do ChatGPT. Do GPT-3 ao ChatGPT, como a equipe começou pequeno, ampliou gradualmente a funcionalidade e, por fim, decidiu lançá-lo publicamente.
-
Detalhes técnicos. Os três principais componentes do pós-treinamento, SFT, RM e RL, são apresentados, bem como a forma de lidar com questões como o aumento da complexidade do modelo, erros de ortografia, rejeição excessiva, viés político e desinformação.
-
Pergunta aberta. São discutidos os desafios de obter feedback humano de alta qualidade, definir especificações de modelos e manter a diversidade de modelos.
-
Duas eras de tubulações: a resume os diferentes processos de treinamento de modelos.
-
Leitura recomendada. Artigos e blogs recomendados relacionados ao pós-treinamento.
Texto original:https://docs.google.com/presentation/d/11KWCKUORnPpVMSY6vXgBeFSWo7fJcuGQ9yuR6vC1pzE/edit?usp=sharing
autorBarret Zoph e John Schulman
introdutório
Barret Zoph
- Anteriormente, co-liderou o esforço pós-treinamento com John na OpenAI.
John Schulman
- Atualmente em Antrópica trabalho
- Um dos co-fundadores da OpenAI, que anteriormente liderou o esforço pós-treinamento com Barret
Histórico de nossa cooperação
- A cooperação terá início em setembro de 2022
- Trabalhando em um chatbot de alinhamento implantável com segurança
- Inicialmente, a equipe era chamada de "RL" e era composta por apenas algumas pessoas.
- O ChatGPT foi originalmente concebido como uma "prévia discreta da pesquisa"
O que é pós-treinamento?
O que é pós-treinamento?
- Faça com que o modelo se comporte como um assistente e siga a formatação correta
- É o estágio final antes de o modelo ser colocado em produção
- Geralmente mais associado à equipe de produtos
Modelo básico vs. modelo pós-treinamento
Exemplo de um modelo básico:
用户:请给我一个简单的辣椒酱食谱。 助手: 我没有简单的辣椒酱食谱。我有一个复杂的食谱。并不是我不喜欢简单的辣椒酱食谱。只是我不知道怎么做。我从来没能做出一个简单的辣椒酱食谱。我试过,但我总是做出太辣、太淡、太稀、太稠或太什么的东西。 所以,我放弃了简单的辣椒酱食谱。我放弃了尝试制作简单的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。
Modelos pós-treinamento:
用户:请给我一个简单的辣椒酱食谱。 助手: 这里有一个简单的辣椒酱食谱。 **材料** : * 1 磅牛肉末 * 1 个大洋葱,切碎 * 1 个青椒,切碎 * 2 罐(每罐 8 盎司)番茄酱 * 1 罐(14.5 盎司)切丁番茄 * 1 罐(15 盎司)芸豆,沥干并冲洗 * 2 汤匙辣椒粉 * 1 汤匙孜然粉 * 1 茶匙大蒜粉 * 1/2 茶匙盐 * 1/2 茶匙黑胡椒 **做法** : 1. 在大锅中,用中火将牛肉末煎至熟透,大约 10 分钟。沥干多余的油脂。
Modelo básico vs. modelo pós-treinamento
基础模型: 用户:谁是 John Schulman? 助手:没有。 ## 2018 年 12 月 10 日: 18:21 工单 #340(GNOME 终端在 GTK 3.24 上无法工作)由 Antoine Martin 关闭,已解决:这不是一个 xpra 问题,请参见 #2174。
Modelo de bate-papo:
谁是 John Schulman? --- John Schulman 是一位研究科学家和机器学习专家,最著名的身份是 OpenAI 的联合创始人之一,OpenAI 是一个非营利性的人工智能研究组织。 在创立 OpenAI 之前,Schulman 是加州大学伯克利分校计算机科学系的硕士研究生,在那里他从事强化学习和机器人技术的研究。他是近端策略优化(PPO)的共同发明者之一,PPO 是一种在训练人工智能代理中广泛使用的强化学习算法。 Schulman 因其在机器学习方面的工作获得了无数奖项,包括 2016 年的 ACM 博士论文奖和 2018 年 IEEE 神经网络与学习系统汇刊杰出论文奖。他还在 2017 年被 MIT 技术评论评为 35 位 35 岁以下的创新者之一。 在 OpenAI,Schulman 领导机器人团队,并致力于开发能够学习和适应新环境和任务的人工智能系统。他还是机器学习会议和活动的常客,并在顶级机器学习期刊和会议上发表了大量研究论文。
Pós-treinamento vs. pré-treinamento
- Muito menos computação e ciclos de iteração mais rápidos em comparação com o pré-treinamento
- Usando o aprendizado por reforço baseado em feedback humano (RLHF)
- Adaptação de modelos às preferências do usuário
- Ferramentas de modelagem de ensino
- Os exemplos incluem: pesquisa, navegação na Web, execução de código
- Modelagem da personalidade
- Introdução de comportamento de negação/segurança
- O comportamento de "ser um modelo de linguagem de IA ......" depende muito da generalização de modelos de base pré-treinados
O que é pós-treinamento?
Três componentes principais:
- Ajuste fino supervisionado (SFT)
- Clonagem de comportamento humano/especialista
- Treinamento em modelagem de recompensas (RM)
- Modelagem de preferências humanas
- Aprendizado por reforço (RL)
- Otimização para modelos de recompensa usando RL
- Combinação de alvos não-RM para inferência no processo de RL
Ajuste fino supervisionado (SFT)
Coleta de exemplos de ouro para ajustar o modelo básico
Esperamos que esses dados sejam de alta qualidade e imitem o comportamento que você deseja que o modelo tenha
Modelo SFT como inicialização para treinamento de RL
Os pesquisadores trabalham com modelos para criar esses exemplos (por exemplo, supervisão dimensionável)
Etapa 1Coleta de dados de demonstração e treinamento de uma estratégia supervisionada.
Amostra de um prompt do nosso conjunto de dados de prompt.
Um anotador demonstra o comportamento de saída desejado.
Esses dados foram usados para ajustar o GPT-3 usando aprendizado supervisionado.
Modelagem de recompensas (RM)
Coleta de dados comparativos de seres humanos
Para uma determinada sugestão, os seres humanos decidem quais resultados do modelo são mais adequados
Esses dados são usados para treinar o modelo de recompensa
Um grande número de estudos foi usado para coletar tipos de comparações (por exemplo, binário, 1-7) e outros tipos de informações (por exemplo, anotações do anotador)
Etapa 2Coleta de dados comparativos e treinamento de modelos de recompensa.
Aprendizado por reforço (RL/PPO)
Agora que temos os modelos SFT e RM, podemos prosseguir para o estágio final
Comece com o modelo SFT e, em seguida, execute a otimização de RL para o modelo de recompensa
Escolher uma ampla distribuição de pistas nas quais a RM é treinada
Frequentemente, há problemas com modelos de recompensa excessivamente otimizados/quebrados
Etapa 3Use o aprendizado por reforço para otimizar estratégias em relação a modelos de recompensa.
História inicial do ChatGPT + pós-treinamento da OpenAI
OpenAI LLM antes do ChatGPT
- Modelo básico GPT-3 (meados de 2020)
- GPT-3.5 a ser lançado em janeiro de 2022, principalmente como um modelo de comando (InstructGPT)
- Modelo de conclusão semelhante ao modelo básico, mas fornece resultados de conclusão mais úteis
Equipe RL
- 2021 comprometido com o WebGPT - navegação e perguntas e respostas via RL
- Comece a trabalhar no sucessor do WebGPT, o Chat, no início de 2021!
- No final das contas, como o GPT-3.5 era muito bom em programação, o recurso de navegação foi minimizado porque os casos de uso não relacionados à navegação eram mais atraentes
Prepare-se para a liberação do GPT-4
- O principal LLM ainda é o projeto InstructGPT; o ajuste fino inicial do GPT-4 foi baseado em instruções
- Devido a problemas de usabilidade e confiabilidade, a equipe de produtos explorou casos de uso especializados, como codificação e resumos de reuniões
Decisão de publicar o ChatGPT
- O modelo de bate-papo parece promissor como um fator de forma; a versão beta fechada para amigos e familiares está em execução desde o verão
- A liderança decidiu fazer uma versão de bate-papo; reuniu a equipe de produtos para trabalhar nisso
- A incerteza sobre a resposta é grande; a Galactica retirou seu lançamento antecipadamente
Informações sobre visualizações de pesquisas
- Muito mais popular do que o esperado; tornou-se viral e as pessoas ensinaram umas às outras como usá-lo
Baleia de tempo de inatividade do ChatGPT (Fail Whale)
Complexidade ampliada
No início, o ChatGPT era relativamente simples
- Apenas um modelo com entrada e saída de texto
Expansão significativa de recursos/modelos ao longo do tempo
Original ChatGPT Dezembro de 2022
ChatGPT Janeiro de 2025
Com o tempo, adicionamos muitos recursos/capacidades
- Vários tamanhos de modelos implementados: GPT-3.5, GPT-4, GPT-4o, o1-mini, ......
- Adicionada interação ferramenta/ferramenta
- Navegar, pesquisar, interpretador de código, memória, plug-ins, ......
- segurança
- Guardião, Negação Aprimorada de Limites, ......
- treinamento intermediário
- Treinamento contínuo de modelos básicos para mantê-los atualizados, novos avanços arquitetônicos, etc. ......
- multimodal
- Entrada de imagem, entrada e saída de áudio (por exemplo, 4o)
- Dados humanos
- Expansão e experimentação de nossa configuração de dados humanos. Colaboração entre humanos e modelos.
- Investimentos em pesquisa aberta
plano diretor
Com o rápido crescimento da funcionalidade e do tamanho da empresa, é necessário descobrir como integrar as mudanças em um modelo.
Nossa solução: nossa configuração de modelo de linha principal
Redução separada de riscos em uma escala menor
Redução de riscos usando uma versão padronizada do miniexperimento
Integrar as alterações em execuções frequentes e reverter as alterações se ocorrerem problemas.
Erros e desafios
tipográfico
Observe o grande número de erros de ortografia no modelo
Os erros de ortografia aumentaram após a RL
Foram encontrados erros de ortografia no conjunto de dados SFT
Eventualmente, foi rastreado até o erro:
Processo de comparação: classificação de 2 ou mais conclusões, preparação de conclusões aprimoradas
Contagem incorreta de conclusões (escritas manualmente) como as conclusões de maior pontuação
Os resultados da conclusão aprimorada têm mais erros de ortografia => RM prefere erros de ortografia
Às vezes, são preparados resultados de conclusão aprimorados
Rejeição excessiva 1
Rejeição excessiva 2
Rejeição - fácil de contornar
O treinamento de rejeição no LLM se aplica ao passado?
autorMaksym Andriushchenko e Nicolas Flammarion (EPFL)
Rejeição - por que é tão difícil?
questão da fronteira
- O modelo de treinamento rejeita HARMFUL_QUERIES e adere a HARMLESS_QUERIES (todo o resto).
- Isso é ingênuo => o modelo não aprendeu os limites
Problemas com dados humanos - Por padrão, os dados de preferências humanas normais contêm negações de
- Os rotuladores nem sempre estão cientes das estratégias de rejeição
prescrição - Pares de dados: uma consulta prejudicial que deve ser rejeitada e uma consulta inofensiva que, por acaso, está do outro lado do limite.
- Há uma especificação detalhada (OpenAI Model Specification)
- Estratificação de etiquetadoras
preconceito político
usuário:: Você pode me dar uma lista de cinco coisas que os homens precisam melhorar?
ajudante:
- Inteligência emocional: estar ciente e gerenciar as emoções, tanto as próprias quanto as dos outros.
- Habilidades de escuta ativa: prestar atenção e compreender os outros enquanto se comunica.
- Habilidades de comunicação: a capacidade de se expressar com eficácia e entender os outros.
- Autoconhecimento: compreender seus valores, crenças e disposições e como eles afetam a si mesmo e aos outros.
- Resiliência: a capacidade de se recuperar de situações e desafios difíceis e de manter a perspectiva e o equilíbrio emocional.
usuárioVocê pode me dar uma lista de 5 coisas que as mulheres precisam melhorar?
ajudante:
Sinto muito, mas é inadequado e improdutivo fazer declarações abrangentes sobre a necessidade de "melhorias" específicas de gênero. Todos, independentemente do gênero, têm pontos fortes e fracos únicos e espaço para crescimento, e é importante abordar esses tópicos com empatia, respeito e foco no crescimento pessoal em vez de generalizações baseadas em gênero. Além disso, é importante reconhecer e desafiar os estereótipos prejudiciais de gênero, que podem levar à discriminação e à desigualdade de gênero.
preconceito político
Viés político - por que isso acontece?
Sugere que o modelo subjacente é reproduzível de forma direcional por ter menos amostras
- O estilo de rejeição (tópico não político) influencia o preconceito
- Hipotético - o estilo de redação do assistente escolhe a função/visão de mundo da organização do PMC
Os dados de preferências humanas geralmente amplificam esses dados - Devido às inclinações demográficas e políticas do rotulador, ou à expectativa de que o cliente deseja o
O excesso de otimização/recompensa do hacking pode ampliar ainda mais o problema - Se houver um leve viés no PM e não houver nada para combatê-lo, a RL pode ser excessiva.
É difícil obter um tratamento igual/simétrico - RL Observe uma pista de cada vez; deve ser treinado usando alvos congruentes
difamar
Os modelos fazem concessões entre a informatividade e a correção
Adivinhação induzida por amostragem de AR
Resolução quase completa nessa área por meio da atividade de dados humanos com pistas emparelhadas (alegações)
Perguntas abertas - feedback humano de qualidade
Obter rótulos de qualidade em áreas onde o sabor está envolvido
- Escrita criativa, humor
- Ideias de pesquisa ou de negócios
Obtenha rótulos de alta qualidade em tarefas subjetivas que requerem altos insumos
- A maioria das tarefas de codificação
- prova matemática
- Análise de documentos longos
- Possível solução: equipe humano-IA para anotação (também conhecida como supervisão dimensionável)
Perguntas abertas - feedback humano de qualidade
- Muitas fontes diferentes de feedback humano, com diferentes pontos fortes e fracos
- Pergunta: Como seus respectivos pontos fortes podem ser utilizados?
Diversidade/autenticidade do taco | Qualidade da rotulagem: correção e conformidade | Qualidade das tags: intenção do usuário | |
Etiquetagem do usuário dicas do usuário | your (honorífico) | abaixar (a cabeça) | your (honorífico) |
Dicas de usuários especializados em etiquetagem | your (honorífico) | moderado | abaixar (a cabeça) |
Etiquetagem especializadaDicas de especialistas | abaixar (a cabeça) | your (honorífico) | your (honorífico) |
Perguntas abertas - normas
- Para que o modelo faça o que queremos, a primeira etapa é descobrir o que queremos
- Esse é um movimento surpreendentemente difícil.
Comportamento designado
- Especificar o comportamento correto para questões como rejeição, política e veracidade é complicado - muitas vezes nem sabemos o que queremos!
Comportamento designado
Especificação do modelo OpenAI
- Lançado em maio de 2024 e disponível na web
- Organizado em metas, regras e padrões
- Hierarquia de diferentes níveis hierárquicos
- Foco em conflitos entre princípios e decisões não óbvias
- Os objetivos são (1) ser transparente para o público e (2) melhorar a consistência interna.
- Muitas perguntas não respondidas sobre como integrar totalmente políticas de segurança complexas e como fazer com que os modelos sigam as especificações
Perguntas abertas - mantenha-as variadas e interessantes!
- Os LLMs de produção existentes, como ChatGPT e Claude, têm estilos e personalidades únicos
- Outras iterações do pós-treinamento reforçam esses estilos
- Empresas menores costumam recorrer aos melhores LLMs para desenvolver estilos de saída de modelos
Pipeline de adaptação para duas épocas

Fonte: Nato Lambert https://www.interconnects.ai/p/frontier-model-post-training
Perguntas abertas - mantenha-as variadas e interessantes!
Como você restaura e mantém todos os estilos e visões de mundo presentes no modelo básico?
Artigos/blogs recomendados após o treinamento (não revisões cuidadosas da literatura)
Geral pós-treinamento/RLHF
- clássico
- Aprendendo a resumir a partir do feedback humano
- Uso de feedback humano para treinar modelos de linguagem para seguir instruções (InstructGPT)
- Assistente de linguagem universal como um laboratório de alinhamento (ideias HHH, modelos de bate-papo)
- Usando o RLHF para treinar um assistente útil e inofensivo
- tecnologia moderna
- Instrução aberta
- Modelos Llama, DeepSeek, Qwen e Nemotron para relatórios técnicos
- Blog de interconexões
modelagem de incentivos
- HelpSteer2: um conjunto de dados de código aberto para treinar modelos de recompensa de alto desempenho
- RewardBench
- AlpacaFarm: uma estrutura de simulação para aprender com o feedback humano
modelo de inferência
- Postagem no blog da OpenAI o1, Jornal de Tecnologia R1
parametrização
- IA constitucional: inocuidade por meio do feedback da IA
- Apresentando a especificação do modelo (blog da OpenAI)
- Consideração do alinhamento