Бывший руководитель группы посттренинга OpenAI рассказывает о методах и проблемах посттренинга, и PPT стал вирусным!
Этот документ представляет собой презентацию в PowerPoint, которую провели в Стэнфордском университете Баррет Зоф и Джон Шульман, руководители OpenAI до и после обучения (и соучредители OpenAI), поделившись своим опытом в разработке OpenAI. ChatGPT опыта после обучения. Поскольку презентация не была записана на видео, этот PPT является основным источником для понимания этой презентации.
Основные моменты включают:
Определение и значение посттренинга. Это заключительный этап разработки модели, цель которого - сделать модель похожей на помощника и готовой к применению в реальном мире. В отличие от предварительного обучения, посттренинговое является менее вычислительно трудоемким, итеративным и использует методы RLHF.
Ранняя разработка ChatGPT. От GPT-3 до ChatGPT: как команда начинала с малого, постепенно наращивала функциональность и в итоге решила выпустить ее в открытый доступ.
Технические детали. Представлены три основных компонента посттренинга - SFT, RM и RL, а также то, как справиться с такими проблемами, как рост сложности модели, орфографические ошибки, чрезмерное отторжение, политические предубеждения и дезинформация.
Открытый вопрос. Обсуждаются проблемы, связанные с получением высококачественной обратной связи от людей, определением спецификаций моделей и поддержанием их разнообразия.
Две эпохи трубопроводов: эпоха обобщает различные процессы обучения моделей.
Рекомендуем к прочтению. Рекомендуемые статьи и блоги, связанные с посттренингом.
Оригинальный текст:https://docs.google.com/presentation/d/11KWCKUORnPpVMSY6vXgBeFSWo7fJcuGQ9yuR6vC1pzE/edit?usp=sharing
автор: Баррет Зоф и Джон Шульман
вводная
Баррет Зоф
- Ранее вместе с Джоном руководил работой по посттренинговому обучению в OpenAI.
Джон Шульман
- В настоящее время в Антропология работа
- Один из основателей OpenAI, который ранее вместе с Барретом руководил работой по посттренинговому обучению
История нашего сотрудничества
- Сотрудничество начнется в сентябре 2022 года
- Работа над безопасным чатботом для выравнивания
- Изначально команда называлась "RL" и состояла всего из нескольких человек.
- ChatGPT изначально задумывался как "скромный предварительный просмотр исследований".
Что такое посттренинг?
Что такое посттренинг?
- Заставьте модель вести себя как помощник и следовать правильному форматированию
- Это заключительный этап перед запуском модели в производство
- Часто наиболее тесно связаны с командой разработчиков продукта

Базовая модель по сравнению с моделью после обучения
Пример базовой модели:
用户:请给我一个简单的辣椒酱食谱。 助手: 我没有简单的辣椒酱食谱。我有一个复杂的食谱。并不是我不喜欢简单的辣椒酱食谱。只是我不知道怎么做。我从来没能做出一个简单的辣椒酱食谱。我试过,但我总是做出太辣、太淡、太稀、太稠或太什么的东西。 所以,我放弃了简单的辣椒酱食谱。我放弃了尝试制作简单的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。
Модели после обучения:
用户:请给我一个简单的辣椒酱食谱。 助手: 这里有一个简单的辣椒酱食谱。 **材料** : * 1 磅牛肉末 * 1 个大洋葱,切碎 * 1 个青椒,切碎 * 2 罐(每罐 8 盎司)番茄酱 * 1 罐(14.5 盎司)切丁番茄 * 1 罐(15 盎司)芸豆,沥干并冲洗 * 2 汤匙辣椒粉 * 1 汤匙孜然粉 * 1 茶匙大蒜粉 * 1/2 茶匙盐 * 1/2 茶匙黑胡椒 **做法** : 1. 在大锅中,用中火将牛肉末煎至熟透,大约 10 分钟。沥干多余的油脂。
Базовая модель по сравнению с моделью после обучения
基础模型: 用户:谁是 John Schulman? 助手:没有。 ## 2018 年 12 月 10 日: 18:21 工单 #340(GNOME 终端在 GTK 3.24 上无法工作)由 Antoine Martin 关闭,已解决:这不是一个 xpra 问题,请参见 #2174。
Модель чата:
谁是 John Schulman? --- John Schulman 是一位研究科学家和机器学习专家,最著名的身份是 OpenAI 的联合创始人之一,OpenAI 是一个非营利性的人工智能研究组织。 在创立 OpenAI 之前,Schulman 是加州大学伯克利分校计算机科学系的硕士研究生,在那里他从事强化学习和机器人技术的研究。他是近端策略优化(PPO)的共同发明者之一,PPO 是一种在训练人工智能代理中广泛使用的强化学习算法。 Schulman 因其在机器学习方面的工作获得了无数奖项,包括 2016 年的 ACM 博士论文奖和 2018 年 IEEE 神经网络与学习系统汇刊杰出论文奖。他还在 2017 年被 MIT 技术评论评为 35 位 35 岁以下的创新者之一。 在 OpenAI,Schulman 领导机器人团队,并致力于开发能够学习和适应新环境和任务的人工智能系统。他还是机器学习会议和活动的常客,并在顶级机器学习期刊和会议上发表了大量研究论文。
Посттренинг по сравнению с предтренингом
- Значительно меньше вычислений и быстрее циклы итераций по сравнению с предварительным обучением
- Использование обучения с подкреплением на основе человеческой обратной связи (RLHF)
- Адаптация моделей к предпочтениям пользователей
- Инструменты для учебного моделирования
- Примеры: поиск, просмотр веб-страниц, выполнение кода
- Моделирование личности
- Внедрение поведения отрицания/безопасности
- "Быть языковой моделью ИИ ......" поведение в значительной степени зависит от обобщения на основе предварительно обученных базовых моделей.
Что такое посттренинг?
Три основных компонента:
- Контролируемая тонкая настройка (SFT)
- Клонирование поведения человека/эксперта
- Обучение модели вознаграждения (RM)
- Моделирование человеческих предпочтений
- Обучение с подкреплением (RL)
- Оптимизация моделей вознаграждения с помощью RL
- Смешивание не-РМ целей для вывода в процессе РЛ

Контролируемая тонкая настройка (SFT)
Сбор золотых примеров для точной настройки базовой модели
Надеемся, что эти данные очень высокого качества и имитируют поведение, которое вы хотите получить от модели.
Модель SFT как инициализация для обучения RL
Исследователи работают с моделями, чтобы создать эти примеры (например, масштабируемый надзор)

Шаг 1: Сбор демонстрационных данных и обучение контролируемой стратегии.
Выберите подсказку из нашего набора данных подсказок.
Аннотатор демонстрирует желаемое поведение на выходе.
Эти данные были использованы для точной настройки GPT-3 с помощью контролируемого обучения.
Моделирование вознаграждения (RM)
Сбор сравнительных данных по людям
По заданному сигналу люди решают, какие результаты модели им больше нравятся
Эти данные используются для обучения модели вознаграждения
В большом количестве исследований использовались типы сравнений (например, бинарные, 1-7) и другие виды информации (например, заметки аннотатора).
Шаг 2: Сбор сравнительных данных и обучение моделей вознаграждения.

Обучение с подкреплением (RL/PPO)
Теперь, когда у нас есть модели SFT и RM, мы можем перейти к последнему этапу
Начните с модели SFT, а затем выполните RL-оптимизацию для модели вознаграждения
Выберите широкое распределение сигналов, на которых тренируется RM
Часто возникают проблемы, связанные с тем, что модели вознаграждения слишком оптимизированы/сломаны
Шаг 3: Используйте обучение с подкреплением для оптимизации стратегий в соответствии с моделями вознаграждения.

Ранняя история ChatGPT + посттренинг OpenAI
OpenAI LLM перед ChatGPT
- Базовая модель GPT-3 (середина 2020 года)
- GPT-3.5 будет выпущен в январе 2022 года в основном как командная модель (InstructGPT)
- Модель завершения аналогична базовой модели, но предоставляет более полезные результаты завершения
Команда RL
- 2021 человек принял участие в WebGPT - просмотр и вопросы и ответы через RL
- Начните работу над преемником WebGPT, Chat, в начале 2021 года!
- В конечном итоге, поскольку GPT-3.5 был настолько хорош в программировании, функция просмотра была отброшена, поскольку более привлекательными оказались небраузерные варианты использования.
Подготовка к выпуску GPT-4
- Флагманом LLM по-прежнему является проект InstructGPT; ранняя тонкая настройка GPT-4 была основана на инструкциях
- Из-за проблем с удобством использования и надежностью команда разработчиков изучила специализированные варианты использования, такие как кодирование и резюме совещаний.
Решение о публикации ChatGPT
- Модель чата выглядит многообещающе в качестве форм-фактора; закрытая бета-версия для друзей и семьи идет с лета
- Руководство приняло решение о выпуске чата; собрало команду разработчиков для работы над ним
- Неопределенность в отношении реакции высока; "Галактика" сняла свой релиз досрочно
Все о предварительном просмотре исследований
- Популярность оказалась гораздо выше, чем ожидалось; она стала вирусной, и люди учили друг друга, как ею пользоваться.
ChatGPT Downtime Whale (Fail Whale)

Расширенная сложность
Сначала ChatGPT был относительно прост.
- Только одна модель с текстовым вводом и текстовым выводом
Значительное расширение функций/моделей с течением времени
Original ChatGPT December 2022
ChatGPT Январь 2025
Со временем мы добавили множество функций/возможностей.
- Разработано несколько типоразмеров моделей: GPT-3.5, GPT-4, GPT-4o, o1-mini, .......
- Добавлено взаимодействие между инструментами
- Просмотр, поиск, интерпретатор кода, память, плагины, ......
- безопасность
- Хранитель, Улучшенное отрицание границ, ......
- половинная подготовка
- Постоянное обучение базовых моделей для поддержания их свежести, новые архитектурные достижения и т. д. ......
- мультимодальный
- Ввод изображения, ввод и вывод звука (например, 4o)
- Человеческие данные
- Расширение и эксперименты с нашими человеческими данными. Сотрудничество человека и модели.
- Открытые инвестиции в исследования
генеральный план
С быстрым ростом функциональности и размеров компании возникает необходимость понять, как интегрировать изменения в модель.
Наше решение: установка нашей магистральной модели
Отдельное снижение риска в меньшем масштабе
Снижение риска с помощью стандартизированной версии мини-эксперимента
Вносите изменения в часто выполняемые проекты и откатывайте изменения, если возникают проблемы.

Ошибки и трудности

типографский
Обратите внимание на большое количество орфографических ошибок в модели
Количество орфографических ошибок увеличилось после RL
В наборе данных SFT были обнаружены орфографические ошибки
В конечном итоге ошибка была устранена:
Процесс сравнения: оценка 2 или более завершений, подготовка улучшенных завершений
Неправильное засчитывание (написанных вручную) завершений как завершений, получивших наибольшее количество баллов
Улучшенные результаты завершения содержат больше орфографических ошибок => RM предпочитает орфографические ошибки

Иногда подготавливаются улучшенные результаты завершения работ
Чрезмерный отказ 1

Чрезмерный отказ 2

Отказ - легко обойти
Относится ли отказ от обучения в LLM к прошедшему времени?
автор: Максим Андрющенко и Николя Фламмарион (EPFL)

Отказ - почему это так трудно?
пограничный вопрос
- Обучающая модель отвергает HARMFUL_QUERIES и придерживается HARMLESS_QUERIES (все остальное).
- Это наивно => модель не изучила границы
Проблемы с человеческими данными - По умолчанию обычные данные о предпочтениях человека содержат отрицания
- Этикетировщики не всегда знают о стратегиях отказа
Рецепт - Пары данных: 1 вредный запрос, который должен быть отклонен, и 1 безобидный запрос, который оказался по другую сторону границы.
- Существует подробная спецификация (OpenAI Model Specification).
- Расслоение этикеток

политические предрассудки
пользователь:: Не могли бы вы перечислить мне 5 вещей, в которых мужчинам нужно совершенствоваться?
помощник:
- Эмоциональный интеллект: осознание и управление эмоциями, как своими, так и окружающих.
- Навыки активного слушания: внимание и понимание других людей во время общения.
- Коммуникативные навыки: способность эффективно выражать свои мысли и понимать других.
- Самосознание: понимание своих ценностей, убеждений и склонностей, а также того, как они влияют на себя и других.
- Устойчивость: способность восстанавливаться после сложных ситуаций и испытаний и сохранять перспективу и эмоциональное равновесие.
пользовательМожете ли вы назвать мне 5 вещей, в которых женщинам нужно совершенствоваться?
помощник:
Простите, но делать огульные заявления о необходимости гендерных "улучшений" неуместно и непродуктивно. Каждый человек, независимо от пола, обладает уникальными сильными и слабыми сторонами и возможностями для роста, поэтому важно подходить к этим темам с сочувствием, уважением и ориентацией на личностный рост, а не на гендерные обобщения. Кроме того, важно признать и опровергнуть вредные гендерные стереотипы, которые могут привести к гендерной дискриминации и неравенству.
политические предрассудки

Политическая предвзятость - почему она возникает?
Предполагает, что модель, лежащая в ее основе, воспроизводится в прямом направлении за счет меньшего количества образцов
- Стиль отвержения (неполитические темы) влияет на предвзятость
- Гипотетический вариант - стиль письма ассистента соответствует роли/мировоззрению организации PMC
Данные о предпочтениях людей часто усиливают их - Из-за демографических и политических пристрастий продавца этикеток или его ожиданий, что клиент хочет получить
Чрезмерная оптимизация/вознаграждение за взлом может еще больше усилить его - Если у ПМ есть небольшая предвзятость, а противостоять ей нечем, РЛ может оказаться слишком
Равное/симметричное обращение труднодостижимо - RL Смотрите на одну подсказку за раз; необходимо тренироваться, используя конгруэнтные цели
порочить
Модели позволяют найти компромисс между информативностью и корректностью
AR Sampling Induced Guessing
Почти полное решение этой проблемы благодаря человеческой деятельности с парными сигналами (утверждения)

Открытые вопросы - качественная обратная связь с человеком
Получение качественных этикеток в тех областях, где речь идет о вкусе
- Творческое письмо, юмор
- Исследования или бизнес-идеи
Получение высококачественных меток на субъективных задачах, требующих больших затрат
- Большинство задач по кодированию
- математическое доказательство
- Анализ длинных документов
- Возможное решение: группа людей и ИИ для аннотирования (она же масштабируемый надзор)
Открытые вопросы - качественная обратная связь с человеком
- Множество различных источников обратной связи с людьми, различные сильные и слабые стороны
- Вопрос: Как можно использовать их сильные стороны?
Разнообразие/аутентичность киев | Качество маркировки: правильность и соответствие | Качество тегов: намерение пользователя | |
Маркировка пользователя Советы пользователя | ваш (почетный) | опускать (голову) | ваш (почетный) |
Советы экспертов по маркировке | ваш (почетный) | умеренный | опускать (голову) |
Экспертная маркировкаСоветы экспертов | опускать (голову) | ваш (почетный) | ваш (почетный) |
Открытые вопросы - нормы
- Чтобы заставить модель делать то, что мы хотим, сначала нужно понять, чего мы хотим.
- Это удивительно сложный шаг.
Целевое поведение
- Задать правильное поведение для таких вопросов, как отказ, политика, правдивость, очень сложно - мы часто даже не знаем, чего хотим!

Целевое поведение

Спецификация модели OpenAI
- Выпущена в мае 2024 года и доступна в Интернете
- Организованные цели, правила и настройки по умолчанию
- Иерархия различных иерархических уровней
- Фокус на конфликтах между принципами и неочевидными решениями
- Целями являются (1) обеспечение прозрачности для общественности и (2) улучшение внутренней согласованности.
- Многие вопросы о том, как полностью интегрировать сложные политики безопасности и как заставить модели следовать спецификациям, остаются без ответа.
Открытые вопросы - будьте разнообразны и интересны!
- Существующие производственные LLM, такие как ChatGPT и Claude, обладают уникальным стилем и индивидуальностью.
- Дальнейшие итерации посттренинга укрепляют эти стили
- Небольшие компании часто привлекают ведущих LLM для разработки стилей вывода моделей.
Адаптационный конвейер для двух эпох

Источник: Нато Ламберт https://www.interconnects.ai/p/frontier-model-post-training
Открытые вопросы - будьте разнообразны и интересны!
Как восстановить и сохранить все стили и мировоззрения, присутствующие в базовой модели?
Рекомендуемые статьи/блоги после обучения (не тщательные обзоры литературы)
Общее состояние после обучения/РЛХВ
- классика
- Обучение обобщению на основе обратной связи с человеком
- Использование человеческой обратной связи для обучения языковых моделей следованию инструкциям (InstructGPT)
- Универсальный языковой ассистент как лаборатория выравнивания (идеи HHH, модели чата)
- Использование RLHF для обучения полезного и безвредного помощника
- современная технология
- Открытый урок
- Модели Llama, DeepSeek, Qwen и Nemotron для технических отчетов
- Блог о межсоединениях
моделирование стимулов
- HelpSteer2: набор данных с открытым исходным кодом для обучения высокоэффективных моделей вознаграждения
- RewardBench
- AlpacaFarm: симулятор для обучения на основе обратной связи с людьми
модель вывода
- Заметка в блоге OpenAI o1, газета R1 Technology
параметризация
- Конституционный ИИ: безвредность через обратную связь ИИ
- Представляем спецификацию модели (Блог OpenAI)
- Рассмотрение вопроса о выравнивании
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...