RL은 일반화 가능한 지식 학습, 특히 다중 모드 작업에서 SFT보다 더 강력한 추론 및 시각적 인식 능력을 보여줍니다.
개요
인공 지능 분야에서.기본 모델(예: 대규모 언어 모델 및 시각 언어 모델)은 기술 발전을 이끄는 중심 원동력이 되었습니다. 그러나 이러한 모델을 효과적으로 향상시키는 방법은일반화 기능실제 시나리오의 복잡성과 가변성에 적응하는 것은 여전히 주요 과제로 남아 있습니다. 현재.감독형 미세 조정(SFT) 및 강화 학습(RL)는 널리 채택된 두 가지 사후 훈련 방법이지만 모델의 일반화 능력을 향상시키는 데 있어 구체적인 역할과 효과는 아직 불분명합니다.
이 논문은 다음을 통해 지원됩니다.심층 비교 연구를 통해 기본 모델의 일반화 기능에 대한 SFT와 RL의 영향을 체계적으로 살펴봅니다. 다음 두 가지 핵심 측면에 초점을 맞춥니다:
- 텍스트 규칙 기반 일반화: 저희는 다음과 같은 시스템을 설계했습니다. 일반 포인트 다양한 규칙 변형에서 모델의 성능을 평가하는 산술 추론 카드 게임입니다.
- 시각적 일반화: 저희는 V-IRL 작업을 통해 실제 시각적 입력에 기반한 탐색 환경으로 시각적 입력의 변화에 따른 모델의 적응 능력을 테스트합니다.
일련의엄격한 실험 및 분석를 통해 다음과 같은 중요한 결론에 도달했습니다:
- RL은 규칙과 시각적 일반화 모두에서 SFT보다 성능이 뛰어납니다: RL은 새로운 규칙을 효율적으로 학습하고 적용하는 동시에 변화하는 시각적 입력에서도 우수한 성능을 유지할 수 있습니다. 반면 SFT는 학습 데이터를 암기하는 경향이 있으며 보이지 않는 변수에 적응하는 데 어려움을 겪습니다.
- RL은 시각적 인식을 개선합니다: 시각 언어 모델링(VLM)에서 RL은 추론 능력을 향상시킬 뿐만 아니라 시각적 인식도 향상시키는 반면, SFT는 시각적 인식 능력을 감소시킵니다.
- SFT는 RL 교육에 매우 중요합니다: SFT는 백본 모델의 인스트럭션 팔로잉 기능이 좋지 않을 때 RL 훈련의 성공에 있어 핵심적인 요소입니다. 모델의 출력 형식을 안정화하여 RL이 그 성능을 최대한 활용할 수 있도록 합니다.
- 검증 반복 횟수를 늘리면 RL 일반화가 향상됩니다: RL 학습에서 유효성 검사 반복 횟수를 늘리면 모델의 일반화를 더욱 향상시킬 수 있습니다.
이러한 결과는 다음과 같습니다.향후 AI 연구 및 애플리케이션을 위한 귀중한 인사이트 제공이 연구에서는 복잡한 멀티모달 작업에서 RL이 더 많은 잠재력을 가지고 있음을 보여줍니다. 이 연구는 SFT와 RL의 서로 다른 역할을 밝힐 뿐만 아니라 이 두 가지 접근법을 보다 효과적으로 결합하여 보다 강력하고 신뢰할 수 있는 기본 모델을 구축하는 방법에 대한 새로운 아이디어도 제공합니다.
AI 연구자, 엔지니어 또는 AI의 미래에 관심이 있는 독자라면 이 백서를 통해 인사이트와 실용적인 지침을 얻을 수 있습니다. 기본 모델의 일반화를 위한 중요한 경로를 밝히기 위해 SFT와 RL의 신비를 더 깊이 파헤쳐 보겠습니다.
원본 텍스트:https://tianzhechu.com/SFTvsRL/assets/sftvsrl_paper.pdf
속독
1. 규칙 일반화에서 SFT보다 성능이 뛰어난 RL
결론:
RL은 텍스트 기반 규칙을 효율적으로 학습하고 일반화할 수 있는 반면, SFT는 학습 데이터를 암기하는 경향이 있고 보이지 않는 규칙 변형에 적응하는 데 어려움을 겪습니다.
예시:
RL은 일반 포인트와 V-IRL 작업 모두에서 배포 외(OOD) 성능에서 SFT를 능가합니다.
- 일반 포인트(GP-L):
- RL. 성공률은 15.01 TP3T로, 초기 체크포인트의 11.51 TP3T보다 증가했습니다. +3.5%.
- SFT. 성공률은 3.41 TP3T로, 초기 체크포인트의 11.51 TP3T에서 감소했습니다. -8.1%.
- 브이-걸(브이-걸-엘):
- RL. 단계당 정확도는 91.8%로, 초기 체크포인트인 80.8%보다 개선되었습니다. +11.0%.
- SFT. 단계당 정확도는 1.31 TP3T로, 초기 체크포인트의 80.81 TP3T에서 감소했습니다. -79.5%.
그림 6: 각 하위 그래프에 대해 RL과 SFT는 동일한 양의 계산을 사용하여 학습되며, 공유 초기 체크포인트(Init 레이블이 붙은)가 기준선으로 설정됩니다. 자세한 설정은 부록 C.3을 참조하세요.
2. RL은 시각적 OOD 작업에서도 일반화되는 반면, SFT는 성능이 떨어집니다.
결론:
시각적 양식이 포함된 작업에서도 RL은 보이지 않는 시각적 변형에 일반화할 수 있는 반면 SFT는 성능 저하를 겪습니다.
예시:
일반 포인트-VI 및 V-IRL-VL 작업에서:
- 일반 포인트-VI(GP-VI):
- RL. 성공률은 41.21 TP3T로, 초기 점검 시점의 23.61 TP3T보다 증가했습니다. +17.6%.
- SFT. 성공률은 13.71 TP3T로, 초기 체크포인트의 23.61 TP3T에서 감소했습니다. -9.9%.
- V-RL-VL(V-RL-VL):
- RL. 단계당 정확도는 77.81 TP3T로 초기 체크포인트의 16.71 TP3T보다 개선되었습니다. +61.1%.
- SFT. 단계당 정확도는 11.11 TP3T로, 초기 체크포인트의 16.71 TP3T에서 감소했습니다. -5.6%.

그림 7: 그림 5 및 6과 마찬가지로, 시각적 분포 외부에서 평가한 성능 역학(선으로 표시)과 최종 성능(막대로 표시)을 보여줍니다. V- IRL VLN 소규모 벤치마크 테스트(Yang et al., 2024a)에서의 이전 최신 상태는 주황색으로 표시되어 있습니다. 자세한 평가 설정(및 곡선 평활화)은 부록 C.3을 참조하세요.
3. RL은 VLM의 시각적 인식을 개선합니다.
결론:
RL은 모델의 추론을 향상시킬 뿐만 아니라 시각적 인식도 향상시키는 반면, SFT는 시각적 인식을 감소시킵니다.
예시:
GeneralPoints-VI 작업에서:
- RL. 훈련 계산량이 증가함에 따라 시각적 인식 정확도와 전반적인 성공률이 모두 향상됩니다.
- SFT. 훈련 계산량이 증가하면 시각적 인식 정확도와 전반적인 성공률이 모두 감소합니다.
그림 8: GP-VL의 다양한 변형에 따른 강화 학습(RL)과 지도 미세 조정(SFT)의 인식률 및 성공률 비교. 그래프는 각각 배포 내 데이터(빨간색)와 배포 외 데이터(파란색)에 해당하는 인식률(y축)과 단일 화면 성공률(x축)의 성능을 보여줍니다. 데이터 포인트의 투명도(색상 막대)는 학습 계산의 양을 나타냅니다. 선으로 연결된 데이터 쌍(⋆-◦ )은 동일한 체크포인트를 사용하여 평가됩니다. 결과에 따르면 강화 학습(RL)은 학습 후 계산량이 증가함에 따라 인식률과 전반적인 정확도가 모두 향상되는 반면, 지도 미세 조정(SFT)은 그 반대의 경향을 보입니다.
4. SFT는 RL 교육에 필요합니다.
결론:
SFT는 백본 모델이 명령을 잘 따르지 못할 때 RL 훈련에 필요합니다.
예시:
SFT 초기화 없이 엔드투엔드 RL을 포스트-트레인 Llama-3.2에 직접 적용한 모든 실험은 실패로 끝났습니다.
- 실패 사례 연구:
- 이 모델은 RL 훈련과 관련된 정보 및 보상을 검색하지 못하는 길고 지루하며 구조화되지 않은 응답을 생성합니다.
- 예를 들어, 모델이 코드를 작성하여 24점 게임을 풀려고 시도하지만 코드 생성을 완료하지 못하여 유효성 검사에 실패합니다.
그림 20: 그림 11에 표시된 것과 유사한 단서를 사용하여 모델 응답을 기록했습니다. 결과는 Llama-3.2-Vision-11B가 지시를 올바르게 따르지 못한다는 것을 보여줍니다. 코드를 통해 퍼즐을 풀려고 시도했지만 제한된 컨텍스트 길이 내에서 완료하지 못한 긴 응답은 생략했습니다.
5. 유효성 검사 반복 횟수를 늘리면 RL의 일반화 능력이 향상됩니다.
결론:
RL 학습에서 검증 반복 횟수를 늘리면 모델의 일반화가 향상됩니다.
예시:
일반 포인트 언어(GP-L) 작업에서:
- 유효성 검사 반복 횟수 1회. OOD 성능은 다음과 같은 경우에만 향상됩니다. +0.48%.
- 3번의 유효성 검사 반복. OOD 성능 향상 +2.15%.
- 5번의 유효성 검사 반복. OOD 성능 향상 +2.99%.
- 10번의 유효성 검사 반복. OOD 성능 향상 +5.99%.
그림 10: 학습 연산량(색상 투명도)을 확장하는 방법으로 다양한 검증 반복 횟수(VIter)로 RL 실험을 기록했습니다.
6. 추론 마커에 과적합하고 인식 마커를 무시하는 SFT
결론:
SFT는 추론된 마커의 빈도가 높기 때문에 추론된 마커에는 과도하게 초점을 맞추고 식별된 마커에는 초점을 덜 맞추는 경향이 있습니다.
예시:
GeneralPoints-VI 작업에서 SFT는 하이퍼파라미터를 조정한 후에도 RL과 비슷한 분포 내 성능을 달성하지 못했습니다.
- SFT 절제 연구.
- 학습 속도 및 기타 조정 가능한 구성 요소를 조정한 후에도 SFT 성공률은 30%를 초과하지 않았고 증가 추세도 보이지 않았습니다.
그림 16: GeneralPoints-VL SFT의 절제 연구. 학습률에 대한 제거 실험을 수행하여 모든 실험에 대해 분포 내 단일 화면 성공률(%)을 보고했습니다. 어떤 실험에서도 30% 이상의 성공률을 보인 실험은 없었으며 증가 추세도 보이지 않았습니다.
7. RL은 과적합 체크포인트에서 OOD 성능을 복구할 수 없습니다.
결론:
오버핏된 체크포인트에서 초기화할 때 RL은 모델의 OOD 성능을 복구할 수 없었습니다.
예시:
V-IRL-VL 작업에서:
- 오버피팅된 체크포인트에서 RL 초기화: 해당 체크포인트의
- 초기 단계당 정확도는 1%보다 낮으며 RL은 OOD 성능을 개선할 수 없습니다.
그림 19: 분포 외 단일 단계 정확도(%) - GFLOPs: 일반 변형(과적합 초기 체크포인트 사용)에서의 V-IRL-VL 모델. 평가 지표에 대한 자세한 내용은 부록 C.3을 참조하세요.
요약
이 논문은 일련의 실험과 분석을 통해 일반화 가능한 지식을 학습하는 데 있어 RL의 장점과 훈련 데이터를 암기하는 SFT의 경향을 보여줍니다. 이 논문은 또한 RL 훈련에서 SFT의 중요성과 검증 반복 횟수를 늘리는 것이 RL의 일반화 능력에 미치는 긍정적인 영향을 강조합니다. 이러한 연구 결과는 향후 더욱 강력하고 신뢰할 수 있는 기본 모델을 구축하는 데 유용한 인사이트를 제공합니다.
© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...