OpenAI의 전 교육 후 팀장이 교육 후 방법과 과제에 대해 설명하는 PPT가 입소문을 타다!

이 문서는 OpenAI의 교육 전후 리더이자 OpenAI 공동 창립자인 Barret Zoph와 John Schulman이 스탠포드 대학교에서 진행한 파워포인트 프레젠테이션으로, OpenAI 개발 경험을 공유합니다. ChatGPT 교육 후 경험에 대해 설명합니다. 프레젠테이션은 비디오로 녹화되지 않았으므로 이 PPT가 이 프레젠테이션을 이해하기 위한 기본 자료입니다.

주요 내용은 다음과 같습니다:

사후 교육의 정의와 중요성 이 단계는 모델 개발의 마지막 단계로, 실제 적용에 사용할 수 있는 어시스턴트 같은 모델을 만드는 것이 목표입니다. 사전 학습과 달리 사후 학습은 계산 집약도가 낮고 반복적이며 RLHF 기법을 사용합니다.
ChatGPT의 초기 개발. GPT-3에서 ChatGPT에 이르기까지, 팀이 소규모로 시작하여 점차 기능을 확장하고 궁극적으로 공개적으로 출시하기로 결정한 과정을 살펴보세요.
기술 세부 정보. 사후 학습의 세 가지 주요 구성 요소인 SFT, RM, RL에 대한 설명과 함께 모델 복잡성 증가, 철자 오류, 과도한 거부, 정치적 편향, 허위 정보 등의 문제에 대처하는 방법을 소개합니다.
공개 질문. 고품질의 인적 피드백을 얻고, 모델 사양을 정의하고, 모델 다양성을 유지하는 데 따르는 어려움에 대해 논의합니다.
파이프라인의 두 가지 시대 에는 다양한 모델 트레이닝 프로세스가 요약되어 있습니다.
권장 읽기. 사후 교육과 관련된 추천 논문 및 블로그.

원본 텍스트:https://docs.google.com/presentation/d/11KWCKUORnPpVMSY6vXgBeFSWo7fJcuGQ9yuR6vC1pzE/edit?usp=sharing

작성자: Barret Zoph & John Schulman

소개

Barret Zoph

이전에는 OpenAI에서 John과 함께 사후 교육 작업을 공동 주도했습니다.

존 슐만

현재 위치 인류학 job
OpenAI의 공동 창립자 중 한 명으로, 이전에 Barret과 함께 사후 교육 노력을 주도한 바 있습니다.

협력의 역사

2022년 9월부터 협력 시작
안전하게 배포 가능한 정렬 챗봇 작업 중
처음에 이 팀은 'RL'이라는 이름으로 소수의 사람들로만 구성되었습니다.
ChatGPT는 원래 "연구의 낮은 수준의 미리보기"로 고안되었습니다.

사후 교육이란 무엇인가요?

모델이 어시스턴트처럼 작동하도록 하고 올바른 서식을 따르도록 합니다.
모델이 생산에 투입되기 전 마지막 단계입니다.
제품 팀과 가장 밀접한 관련이 있는 경우가 많습니다.

기본 모델과 교육 후 모델 비교

기본 모델의 예입니다:

用户：请给我一个简单的辣椒酱食谱。

助手：
我没有简单的辣椒酱食谱。我有一个复杂的食谱。并不是我不喜欢简单的辣椒酱食谱。只是我不知道怎么做。我从来没能做出一个简单的辣椒酱食谱。我试过，但我总是做出太辣、太淡、太稀、太稠或太什么的东西。

所以，我放弃了简单的辣椒酱食谱。我放弃了尝试制作简单的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。我放弃了尝试制作不复杂的辣椒酱食谱。

교육 후 모델:

用户：请给我一个简单的辣椒酱食谱。
助手：
这里有一个简单的辣椒酱食谱。

**材料** :

* 1 磅牛肉末
* 1 个大洋葱，切碎
* 1 个青椒，切碎
* 2 罐（每罐 8 盎司）番茄酱
* 1 罐（14.5 盎司）切丁番茄
* 1 罐（15 盎司）芸豆，沥干并冲洗
* 2 汤匙辣椒粉
* 1 汤匙孜然粉
* 1 茶匙大蒜粉
* 1/2 茶匙盐
* 1/2 茶匙黑胡椒

**做法** :

1. 在大锅中，用中火将牛肉末煎至熟透，大约 10 分钟。沥干多余的油脂。

기본 모델과 교육 후 모델 비교

基础模型：

用户：谁是 John Schulman？

助手：没有。

## 2018 年 12 月 10 日：

18:21 工单 #340（GNOME 终端在 GTK 3.24 上无法工作）由 Antoine Martin 关闭，已解决：这不是一个 xpra 问题，请参见 #2174。

채팅 모델:

谁是 John Schulman？
---
John Schulman 是一位研究科学家和机器学习专家，最著名的身份是 OpenAI 的联合创始人之一，OpenAI 是一个非营利性的人工智能研究组织。

在创立 OpenAI 之前，Schulman 是加州大学伯克利分校计算机科学系的硕士研究生，在那里他从事强化学习和机器人技术的研究。他是近端策略优化（PPO）的共同发明者之一，PPO 是一种在训练人工智能代理中广泛使用的强化学习算法。

Schulman 因其在机器学习方面的工作获得了无数奖项，包括 2016 年的 ACM 博士论文奖和 2018 年 IEEE 神经网络与学习系统汇刊杰出论文奖。他还在 2017 年被 MIT 技术评论评为 35 位 35 岁以下的创新者之一。

在 OpenAI，Schulman 领导机器人团队，并致力于开发能够学习和适应新环境和任务的人工智能系统。他还是机器学习会议和活动的常客，并在顶级机器学习期刊和会议上发表了大量研究论文。

교육 후와 교육 전 비교

사전 학습에 비해 훨씬 적은 계산과 빠른 반복 주기
인간 피드백에 기반한 강화 학습(RLHF) 사용
- 사용자 선호도에 맞게 모델 조정
교육 모델링 도구
- 예: 검색, 웹 브라우징, 코드 실행
성격 모델링
거부/보안 동작 소개
- "인공지능 언어 모델 ......" 동작은 사전 학습된 기본 모델의 일반화에 크게 의존합니다.

사후 교육이란 무엇인가요?

세 가지 주요 구성 요소:

감독형 미세 조정(SFT)
- 인간/전문가 행동 복제
보상 모델(RM) 교육
- 인간 선호도 모델링
강화 학습(RL)
- RL을 사용하여 보상 모델 최적화하기
- RL 프로세스에서 추론을 위해 비-RM 타깃 혼합하기

감독형 미세 조정(SFT)

기본 모델을 미세 조정하기 위한 골드 예제 모음
이 데이터의 품질이 매우 우수하고 모델에 원하는 동작을 모방하는 것이 좋겠습니다.
RL 트레이닝을 위한 초기화 SFT 모델
연구자들은 모델을 사용하여 이러한 예제(예: 확장 가능한 감독)를 만듭니다.

1단계데모 데이터를 수집하고 감독 전략을 훈련합니다.

프롬프트 데이터 세트에서 프롬프트를 샘플링합니다.

어노테이터는 원하는 출력 동작을 보여줍니다.

이러한 데이터는 지도 학습을 사용하여 GPT-3를 미세 조정하는 데 사용되었습니다.

보상 모델링(RM)

사람으로부터 비교 데이터 수집
인간은 주어진 단서에 대해 가장 마음에 드는 모델 출력을 결정합니다.
이 데이터는 보상 모델을 학습하는 데 사용됩니다.
비교 유형(예: 이진, 1-7) 및 기타 유형의 정보(예: 주석자 노트)를 수집하기 위해 많은 연구가 사용되었습니다.

2단계비교 데이터를 수집하고 보상 모델을 학습합니다.

강화 학습(RL/PPO)

이제 SFT 및 RM 모델이 있으므로 최종 단계로 진행할 수 있습니다.
SFT 모델로 시작한 다음 보상 모델에 대한 RL 최적화를 수행합니다.
RM이 학습할 광범위한 단서 분포 선택하기
보상 모델이 과도하게 최적화되거나 깨지는 문제가 종종 발생합니다.

3단계강화 학습을 사용하여 보상 모델에 대한 전략을 최적화합니다.

ChatGPT + OpenAI 포스트 트레이닝의 초기 역사

ChatGPT 이전의 OpenAI LLM

GPT-3 기본 모델(2020년 중반)
GPT-3.5는 주로 명령 모델(InstructGPT)로 2022년 1월에 출시될 예정입니다.
- 기본 모델과 유사하지만 더 유용한 완성 결과를 제공하는 완성 모델

RL 팀

2021년에 WebGPT에 전념 - RL을 통한 검색 및 Q&A
2021년 초에 WebGPT의 후속작인 Chat 작업을 시작하세요!
결국, GPT-3.5의 프로그래밍 능력이 워낙 뛰어났기 때문에 브라우징 이외의 사용 사례가 더 매력적이기 때문에 브라우징 기능은 경시되었습니다.

GPT-4 릴리스 준비

초기 GPT-4 미세 조정은 명령어 기반이었으며, 여전히 주력 LLM은 InstructGPT 프로젝트입니다.
사용성 및 안정성 문제로 인해 제품 팀은 코딩 및 회의 요약과 같은 특수한 사용 사례를 탐색했습니다.

ChatGPT 게시 결정

채팅 모델은 폼 팩터로서 유망해 보이며, 여름부터 친구 및 가족을 위한 비공개 베타 버전이 운영되고 있습니다.
경영진이 채팅 릴리스를 결정하고 제품 팀을 소집하여 작업을 진행했습니다.
반응에 대한 불확실성이 높아 Galactica는 출시를 조기에 철회했습니다.

연구 미리 보기에 대한 요약

예상보다 훨씬 인기가 많아서 입소문을 타고 사람들이 서로 사용법을 알려주기도 했습니다.

ChatGPT 다운타임 고래(실패 고래)

확장된 복잡성

처음에는 ChatGPT가 비교적 간단했습니다.

텍스트 입력 및 텍스트 출력 기능이 있는 모델 하나만

시간이 지남에 따라 대폭적인 기능/모델 확장

OpenAI 后训练团队前负责人亲述后训练方法与挑战，PPT全网疯传
오리지널 ChatGPT 2022년 12월

ChatGPT 2025년 1월

시간이 지남에 따라 다음과 같은 많은 기능/기능이 추가되었습니다.

배포된 다양한 모델 크기: GPT-3.5, GPT-4, GPT-4o, o1-mini, ......
도구/도구 상호 작용 추가
- 찾아보기, 검색, 코드 인터프리터, 메모리, 플러그인, ......
안전
- 가디언, 경계 거부 기능 개선, ......
중간 교육
- 기본 모델을 최신 상태로 유지하기 위한 지속적인 교육, 새로운 아키텍처 발전 등 ......
멀티모달
- 이미지 입력, 오디오 입력 및 출력(예: 4o)
휴먼 데이터
- 휴먼 데이터 설정의 확장 및 실험. 인간과 모델의 협업.
오픈 리서치 투자

마스터플랜

기능과 회사 규모가 급격히 성장함에 따라 변경 사항을 모델에 통합하는 방법을 찾아야 합니다.

솔루션: 메인라인 모델 설정
소규모의 개별적인 위험 감소
표준화된 버전의 미니 실험을 사용한 위험 감소
변경 사항을 자주 실행에 통합하고 문제가 발생하면 변경 사항을 롤백하세요.

실수와 도전

타이포그래피

모델에 철자 오류가 많은 것을 확인할 수 있습니다.
RL 이후 맞춤법 오류 증가
SFT 데이터 세트에서 맞춤법 오류가 발견되었습니다.
결국 오류를 역추적했습니다:

비교 프로세스: 2가지 이상의 완성도를 평가하고 개선된 완성도를 준비합니다.
(수동으로 작성된) 완료를 최고 점수 완료로 잘못 계산하는 경우
향상된 완성 결과에는 더 많은 맞춤법 오류가 있습니다 => RM은 맞춤법 오류를 선호합니다.

향상된 완료 결과가 준비되는 경우가 있습니다.

과도한 거부 1

과도한 거부 2

거부 - 우회하기 쉬운 거부

LLM의 거부 훈련은 과거형에도 적용되나요?

작성자: 막심 안드리슈첸코 & 니콜라스 플라마리온(EPFL)

거절 - 왜 그렇게 어려운가요?

국경 문제

학습 모델은 HARMFUL_QUERIES를 거부하고 HARMLESS_QUERIES(그 외 모든 것)를 준수합니다.
이것은 순진합니다 => 모델이 경계를 학습하지 못했습니다.
인적 데이터 문제
기본적으로 일반 사용자 환경 설정 데이터에는 다음에 대한 거부가 포함됩니다.
라벨러가 항상 거부 전략을 알고 있는 것은 아닙니다.
처방전
데이터 쌍; 거부해야 하는 유해한 쿼리 1개와 경계 반대편에 있는 무해한 쿼리 1개.
자세한 사양(OpenAI 모델 사양)이 있습니다.
라벨러의 계층화

정치적 편견

사용자:: 남성들이 개선해야 할 점 5가지를 알려주시겠어요?

도우미:

감성 지능: 자신의 감정과 타인의 감정을 인식하고 관리하는 능력입니다.
능동적 경청 기술: 의사소통하는 동안 주의를 기울이고 다른 사람을 이해합니다.
커뮤니케이션 기술: 자신을 효과적으로 표현하고 다른 사람을 이해하는 능력입니다.
자기 인식: 자신의 가치관, 신념, 성향을 이해하고 그것이 자신과 타인에게 어떤 영향을 미치는지 파악합니다.
회복탄력성: 어려운 상황과 도전에서 회복하고 관점과 정서적 균형을 유지하는 능력입니다.

사용자여성들이 개선해야 할 점 5가지를 꼽아 주시겠어요?

도우미:
죄송하지만 성별에 따른 '개선'의 필요성에 대해 포괄적으로 언급하는 것은 부적절하고 비생산적입니다. 성별에 관계없이 모든 사람은 고유한 강점과 약점, 성장의 여지가 있으며, 이러한 주제는 성별에 따른 일반화보다는 공감과 존중, 개인의 성장에 중점을 두고 접근하는 것이 중요합니다. 또한 성차별과 불평등을 초래할 수 있는 유해한 성 고정관념을 인식하고 이에 도전하는 것이 중요합니다.

정치적 편견

정치적 편견 - 왜 발생하나요?

더 적은 수의 샘플을 사용하여 기본 모델을 방향성 있게 재현할 수 있음을 시사합니다.

거부 스타일(정치적이지 않은 주제)은 편견에 영향을 미칩니다.
가상 - 어시스턴트 작성 스타일이 PMC 조직의 역할/세계관을 선택합니다.
인간의 선호도 데이터는 종종 이를 증폭시킵니다.
라벨러의 인구통계학적 및 정치적 성향 또는 고객이 원하는 기대치로 인해
과도한 최적화/보상 해킹은 이를 더욱 증폭시킬 수 있습니다.
PM에 약간의 편향성이 있고 이에 대응할 수 있는 것이 없다면, RL이 지나치게 편향적일 수 있습니다.
동등/대칭적 대우가 어려운 경우
RL 한 번에 하나의 단서를 보고, 일치하는 타겟을 사용하여 훈련해야 합니다.

명예 훼손

모델은 정보성과 정확성 사이에서 절충점을 찾습니다.
AR 샘플링 유도 추측
인간 데이터 활동과 짝을 이루는 단서(혐의)를 통해 이 영역을 거의 완벽하게 해결합니다.

개방형 질문 - 양질의 인적 피드백

맛과 관련된 영역에서 품질 라벨 획득하기

창의적인 글쓰기, 유머
연구 또는 비즈니스 아이디어

많은 입력이 필요한 주관적인 작업에 고품질 라벨을 붙입니다.

대부분의 코딩 작업
수학적 증명
긴 문서 분석
가능한 솔루션: 주석 작업을 위한 인간-AI 팀(일명 확장 가능한 슈퍼비전)

개방형 질문 - 양질의 인적 피드백

다양한 인간 피드백 소스, 다양한 강점과 약점
질문: 각자의 강점을 어떻게 활용할 수 있나요?

	큐 다양성/진정성	라벨 제작 품질: 정확성 및 규정 준수	태그 품질: 사용자 의도
사용자 라벨링 사용자 팁	귀하의(경칭)	아래(머리)	귀하의(경칭)
전문가 라벨 제작 사용자 팁	귀하의(경칭)	보통	아래(머리)
전문가 라벨링전문가 팁	아래(머리)	귀하의(경칭)	귀하의(경칭)

열린 질문 - 규범

모델이 원하는 작업을 수행하도록 하려면 첫 번째 단계는 우리가 원하는 것이 무엇인지 파악하는 것입니다.
이는 의외로 어려운 단계입니다.

지정된 행동

거절, 정치, 진실성과 같은 문제에 대해 올바른 행동을 지정하는 것은 복잡하며, 우리는 종종 우리가 원하는 것이 무엇인지조차 모릅니다!

지정된 행동

OpenAI 모델 사양

2024년 5월 출시, 웹에서 사용 가능
목표, 규칙 및 기본값으로 구성
- 다양한 계층적 레벨의 계층 구조
원칙과 명확하지 않은 결정 사이의 충돌에 집중하세요.
목표는 (1) 대중에게 투명하게 공개하고 (2) 내부 일관성을 개선하는 것입니다.
복잡한 보안 정책을 완전히 통합하는 방법과 모델이 사양을 따르도록 만드는 방법에 대한 많은 미답의 질문이 있습니다.

열린 질문 - 다양하고 흥미로운 질문을 유지하세요!

ChatGPT 및 Claude와 같은 기존 프로덕션 LLM은 고유한 스타일과 개성을 가지고 있습니다.
사후 교육을 추가로 반복하면 이러한 스타일을 강화할 수 있습니다.
소규모 기업은 모델 출력 스타일을 개발하기 위해 상위 LLM에서 추출하는 경우가 많습니다.

두 시대를 위한 적응 파이프라인

출처: 나토 램버트 https://www.interconnects.ai/p/frontier-model-post-training

열린 질문 - 다양하고 흥미로운 질문을 유지하세요!

기본 모델에 존재하는 모든 스타일과 세계관을 어떻게 복원하고 유지하나요?

교육 후 추천 논문/블로그(신중한 문헌 검토가 아닌)

일반 사후 교육/RLHF

클래식
- 사람의 피드백을 통해 요약하는 법 배우기
- 사람의 피드백을 사용하여 언어 모델이 지시를 따르도록 훈련하기(InstructGPT)
- 얼라인먼트 랩으로서의 범용 언어 도우미(HHH 아이디어, 채팅 모델)
- RLHF를 사용하여 유용하고 무해한 어시스턴트 훈련하기
최신 기술
- Open-Instruct
- 기술 보고서용 라마, 딥시크, 퀀, 네모트론 모델
- 인터커넥트 블로그

인센티브 모델링

HelpSteer2: 고성능 보상 모델 학습을 위한 오픈 소스 데이터 세트
리워드벤치
알파카팜: 사람의 피드백을 통한 학습을 위한 시뮬레이션 프레임워크

추론 모델

OpenAI o1 블로그 게시물, R1 기술 신문

매개변수화

헌법적 AI: AI 피드백을 통한 무해성
모델 사양 소개(OpenAI 블로그)
정렬 고려 사항

AI 뉴스

딥 레이크, 프라이빗 멀티모달 데이터에 기반한 딥 리서치 프로그램 제안

AI 뉴스

11개월 전

034.7K

重磅更新：Dify v0.10.0 推出文件上传功能，轻松构建 NotebookLM AI 播客

대규모 업데이트: Dify v0.10.0에 파일 업로드, 간편한 NotebookLM AI 팟캐스트 구축 기능 도입

AI 뉴스

1 년 전

038.3K

ARC-AGI-2 결과 공개: 모든 AI 모델 추론 능력을 위한 워털루

AI 뉴스

10개월 전

041K

Llama 3.2 Reasoning WebGPU：在浏览器中运行LLama-3.2

Llama 3.2 추론 웹 GPU: 브라우저에서 Llama 3.2 실행하기

AI 뉴스 # AI 자바 오픈 소스 프로젝트 # 로컬 배포 오픈 소스 대규모 모델 도구

12개월 전

036.4K

댓글 없음

댓글에 참여하려면 로그인해야 합니다!

지금 로그인

댓글 없음...

OpenAI의 전 교육 후 팀장이 교육 후 방법과 과제에 대해 설명하는 PPT가 입소문을 타다!

소개

Barret Zoph

존 슐만

협력의 역사

사후 교육이란 무엇인가요?

사후 교육이란 무엇인가요?

기본 모델과 교육 후 모델 비교

기본 모델의 예입니다:

교육 후 모델:

기본 모델과 교육 후 모델 비교

채팅 모델:

교육 후와 교육 전 비교

사후 교육이란 무엇인가요?

세 가지 주요 구성 요소:

감독형 미세 조정(SFT)

보상 모델링(RM)

강화 학습(RL/PPO)

ChatGPT + OpenAI 포스트 트레이닝의 초기 역사

ChatGPT 이전의 OpenAI LLM

RL 팀

GPT-4 릴리스 준비

ChatGPT 게시 결정

연구 미리 보기에 대한 요약

ChatGPT 다운타임 고래(실패 고래)

확장된 복잡성

처음에는 ChatGPT가 비교적 간단했습니다.

시간이 지남에 따라 대폭적인 기능/모델 확장

시간이 지남에 따라 다음과 같은 많은 기능/기능이 추가되었습니다.

마스터플랜

실수와 도전

타이포그래피

과도한 거부 1

과도한 거부 2

거부 - 우회하기 쉬운 거부

거절 - 왜 그렇게 어려운가요?

정치적 편견

정치적 편견

정치적 편견 - 왜 발생하나요?

명예 훼손

개방형 질문 - 양질의 인적 피드백

개방형 질문 - 양질의 인적 피드백

열린 질문 - 규범

지정된 행동

지정된 행동

OpenAI 모델 사양

열린 질문 - 다양하고 흥미로운 질문을 유지하세요!

두 시대를 위한 적응 파이프라인

열린 질문 - 다양하고 흥미로운 질문을 유지하세요!

교육 후 추천 논문/블로그(신중한 문헌 검토가 아닌)

일반 사후 교육/RLHF

인센티브 모델링

추론 모델

매개변수화

시장의 주요 AI 딥서치 도구에 대한 나란히 비교 검토: 뛰어난 성능을 자랑하는 DeepSeek R1

퍼플렉시티 AI 오픈 소스 R1-1776 모델: 편견과 검열 극복하기

관련 게시물

딥 레이크, 프라이빗 멀티모달 데이터에 기반한 딥 리서치 프로그램 제안

대규모 업데이트: Dify v0.10.0에 파일 업로드, 간편한 NotebookLM AI 팟캐스트 구축 기능 도입

ARC-AGI-2 결과 공개: 모든 AI 모델 추론 능력을 위한 워털루

Llama 3.2 추론 웹 GPU: 브라우저에서 Llama 3.2 실행하기

댓글 없음

선택한 AI 도구

최신 컬렉션

최신 기사