"시간의 단서" 게임에서 GRPO가 o1, o3-mini, R1보다 뛰어난 성능을 발휘하는 방법.

36.8K 00

최근 몇 년 동안 인공 지능 분야는 추론 능력에서 상당한 진전을 이루었습니다. 작년에 OpenAI가 대규모 언어 모델(LLM)의 강력한 추론 잠재력을 입증한 이후, Google DeepMind, Alibaba, DeepSeek 및 인류학 캘리포니아 버클리 대학교와 같은 조직은 강화 학습(RL) 기법을 사용하여 '사고의 사슬'(CoT) 기능을 갖춘 고급 모델을 훈련하는 데 발 빠르게 대응해 왔습니다. 이러한 모델은 수학 및 프로그래밍과 같은 여러 분야의 벤치마크 테스트에서 거의 포화 상태에 가까운 점수를 획득했습니다.

그러나 무시할 수 없는 사실은 오늘날 최고의 모델조차도 논리적 추론 문제를 다룰 때 여전히 극복하기 어려운 장애물에 직면한다는 것입니다. 대규모 언어 모델은 모든 관련 세부 사항에 지속적으로 주의를 기울이면서 일관된 논리적 추론의 사슬을 유지하거나 여러 추론 단계를 안정적으로 연결하는 데 어려움을 겪는 경우가 많습니다. 일반 모델의 10~100배에 달하는 콘텐츠를 생성하는 최첨단 모델조차도 인간 문제 해결자가 쉽게 감지할 수 있는 낮은 수준의 오류를 자주 범합니다.

이 글의 저자인 브래드 힐튼과 카일 코빗은 이 질문을 탐구하기 위해 최신 강화 학습 기법을 활용하여 더 작은 오픈 소스 모델을 추론 성능의 최전선으로 끌어올릴 수 없을까 하는 고민을 시작했습니다. 이 질문에 답하기 위해 그들은 다음과 같은 기술을 선택했습니다. GRPO(그룹 상대 정책 최적화) 강화 학습 알고리즘을 사용합니다.

GRPO란 무엇인가요?

간단히 말해, GRPO는 전략 그라데이션을 최적화하는 방법입니다. 정책 그라데이션 방법은 모델의 정책(즉, 주어진 상황에서 모델 행동의 확률 분포)을 조정하여 모델 성능을 향상시킵니다. GRPO는 모델 응답 집합의 상대적 장점을 비교하여 정책을 보다 효율적으로 업데이트합니다. 근사 정책 최적화(PPO)와 같은 기존 방식에 비해 GRPO는 훈련 과정을 간소화하면서도 우수한 성능을 보장합니다.

GRPO의 유효성을 검증하기 위해 그들은 "라는 프로그램을 선택했습니다.시간적 단서"실험적 플랫폼으로서의 추론 게임.

타임 클루란 무엇인가요?

"타임 클루"는 고전 보드 게임 "클루(Clue)"에서 영감을 받은 퍼즐 게임입니다. 이 게임에서 플레이어는 일련의 단서를 통해 살인자, 살인 도구, 장소, 시간 및 동기를 찾아야 합니다. 오리지널 게임과 달리 '타임 클루'는 문제를 5차원으로 확장하여 게임의 복잡성과 도전 과제를 더했습니다.

저자들은 비교적 약한 모델부터 시작하여 GRPO 알고리즘을 사용하여 "타임 클루" 게임에서 반복적으로 훈련했습니다. 시간이 지남에 따라 이러한 모델의 추론 능력이 크게 향상되어 결국 가장 강력한 독점 모델과 일치하거나 심지어 이를 능가하는 수준까지 도달하는 것을 관찰했습니다.

이제 다음과 같은 정보를 공유하게 됩니다.테스트및교육 프로그램및데이터 집합 노래로 응답모델 무게 연구는 모두 MIT 라이선스에 따라 무료로 사용할 수 있습니다.

벤치마킹

실험을 수행하려면 먼저 명확하게 검증 가능한 해결책과 확장 가능한 복잡성을 가진 도전적인 추론 과제를 식별해야 합니다. 공교롭게도 이 책의 저자 중 한 명인 Brad Hilton은 이전에 시간적 단서 이러한 요구 사항을 완벽하게 충족하는 퍼즐 세트입니다. 기본적인 사실 명확성 기준을 충족하는 것 외에도 필요에 따라 새로운 퍼즐을 만들 수 있습니다.

템포럴 클루는 인기 보드 게임에서 영감을 받았습니다. Clue(클루도)템포럴 클루 이 게임에서 플레이어는 튜더 저택에서 보디 씨를 죽인 범인을 찾기 위해 경쟁합니다.Temporal Clue는 이 게임을 표준을 뛰어넘는 독립형 논리 퍼즐로 바꿔줍니다.누구및무엇으로?및어디를 클릭하고 두 가지 차원을 추가했습니다:언제?(시간) 및어떤 이유로?(동기 부여). 퍼즐은 무작위로 생성되며, 최소한의 단서만 사용됩니다. OR 도구 (명목식 형태로 사용됨) CP-SAT 솔버 선출되었습니다.

어두운 겨울밤, 부유하고 미스터리한 존 Q. 바디는 가까운 지인들을 위해 작지만 호화로운 디너 파티를 주최합니다. 하지만 이른 새벽 튜더 저택의 한 방에서 바디 씨가 숨진 채 발견되면서 그날 밤은 비극으로 끝납니다. 용의자로 지목된 인물은 다음과 같습니다...

이 추론 작업의 최신 기술을 파악하기 위해 다음과 같은 주요 추론 모델을 벤치마킹했습니다. DeepSeek R1, 인트로픽 Claude Sonnet 3.7, 알리바바의 Qwen 2.5 14B 및 32B Instruct 모델입니다. 또한 최종 결과물에 대한 미리 보기도 제공합니다:

메커니즘	모델링	추론 능력	평균 정확도	평균 비용
DeepSeek	R1	기본값(설정)	51.6%	$0.029
인류학	소네트 3.7	가지고 있지 않다	51.7%	$0.017
인류학	소네트 3.7	16k	61.7%	$0.222
인류학	소네트 3.7	64k	69.5%	$0.392
아라비안나이트의 주인공 알리 바바	Qwen 2.5 14B Instruct	가지고 있지 않다	28.1%	$0.001
아라비안나이트의 주인공 알리 바바	Qwen 2.5 32B Instruct	가지고 있지 않다	37.3%	$0.002

이 벤치마크를 보면 64k를 사용하면 토큰 이 작업에서 가장 우수한 성능을 보인 모델은 Anthropic의 클로드 소네트 3.7이었지만 모든 주요 모델은 개선의 여지가 있습니다.인기 있는 오픈 소스 모델인 DeepSeek R1은 클로드 소네트 3.7 51.7%의 평균 정확도와 거의 비슷한 성능을 보였습니다. 그러나 튜닝되지 않은 Qwen 2.5 Instruct 모델의 성능은 상대적으로 떨어집니다. 가장 큰 문제는 이러한 소규모 오픈 소스 모델을 최첨단 수준으로 훈련시킬 수 있는가 하는 점입니다.

기차

최첨단 추론 모델을 훈련하기 위해 지능이 통제된 환경에서 자신의 경험을 통해 학습할 수 있는 방법인 강화 학습을 사용했습니다. 여기서 LLM은 지능이고 퍼즐은 환경입니다. 연구진은 각 퍼즐에 대해 여러 가지 반응을 생성하여 문제 환경을 탐색하도록 함으로써 LLM의 학습을 유도했습니다. 올바른 해답으로 이끄는 추론은 강화하고 모델을 잘못된 길로 이끄는 추론은 불이익을 줍니다.

다양한 RL 방법 중에서 딥시크가 개발한 GRPO(그룹 상대 정책 최적화) 알고리즘을 선택했습니다. 근거리 정책 최적화(PPO)와 같은 보다 전통적인 방법에 비해 GRPO는 훈련 과정을 간소화하면서도 강력한 성능을 제공합니다. 실험의 속도를 높이기 위해 딥서치에서는 쿨백-라이블러(KL) 분산액 교육 프로그램이 이를 지원하더라도 처벌을 하지 않습니다.

요약하면, 교육 주기는 다음과 같은 기본 단계를 따릅니다:

퍼즐 작업에 대한 모델 응답 생성하기.
응답에 점수를 매기고 각 그룹에 대해 채팅을 완료했을 때의 이점을 추정합니다(GRPO의 "그룹 상대" 부분).
이 모델은 이러한 우세도 추정치에 따라 점진적으로 조정되는 전략을 사용하여 미세 조정됩니다.
최적의 성능을 얻을 때까지 새로운 퍼즐과 최신 버전의 모델로 이 단계를 반복합니다.

응답을 생성하기 위해 인기 있는 vLLM 추론 엔진. 처리량을 극대화하고 시작 시간을 최소화하기 위해 매개변수 선택을 조정했습니다. 접두사 캐싱은 각 작업에 대해 많은 응답을 샘플링하기 때문에 특히 중요하며, 힌트를 캐싱하면 중복 계산을 방지하는 데 도움이 됩니다.

그들은 너무 많은 요청이 vLLM 과부하로 인해 진행 중인 요청을 선점하거나 스와핑하게 됩니다. 이 문제를 해결하기 위해 스와핑을 최소화하면서 높은 키값(KV) 캐시 사용률을 유지하도록 조정된 세마포어를 사용하여 요청을 제한합니다. 고급 스케줄링 메커니즘은 유연한 생성 길이를 지원하면서 더 높은 사용률을 생성할 수 있습니다.

샘플링 후 표준 허깅페이스 트랜스포머 오토토큰라이저 처리가 완료되었습니다. 채팅 템플릿 기능은 메시지 개체를 기본 템플릿에는 없는 LLM에서 생성된 토큰을 확인하기 위한 헬퍼 마스크가 포함된 프롬프트 문자열로 표시합니다. %generation% 레이블이 있으므로 레이블 단계에서 수정됩니다. 생성된 헬퍼 마스크는 튜닝에 사용되는 텐서 사전에 포함되며, 손실 계산에 필요한 위치를 식별하는 데 사용됩니다.

응답을 비닝하고 헬퍼 마스크를 얻은 후, 튜닝을 위해 데이터를 패키징했습니다. 각 패키지 시퀀스에 여러 힌트/응답 쌍을 포함하는 것 외에도 공유 힌트 토큰을 식별하고 각 토큰에 표준 그룹 ID와 부모 ID를 할당했습니다. 특히 시간적 단서(퍼즐당 평균 1,000개 이상의 토큰)와 같은 작업의 경우 각 작업에 대해 많은 수의 응답을 생성하고 텐서를 효율적으로 패킹하면 를 효율적으로 패킹하면 중복성을 크게 줄일 수 있습니다. 필요한 모든 정보가 패킹되면 학습 데이터세트를 2차원으로 시각화할 수 있으며, 각 행은 여러 힌트와 완성을 포함할 수 있는 토큰의 시퀀스로 구성됩니다:

데이터가 꽉 차면 이제 튜닝할 차례입니다. 이 모델들은 사전 학습을 통해 튜닝되었고, 상당히 지능적이며, 지시를 잘 따릅니다. 하지만 아직 시간적 단서 퍼즐을 안정적으로 풀지는 못합니다. 하지만 가끔씩 성공할 때가 있으며, 그 정도면 충분합니다. 점차적으로 모델은 좋은 추론의 확률을 높이고 나쁜 추론의 확률을 낮춤으로써 "추리" 상태로 안내됩니다. 이는 표준 머신 러닝 기법을 사용하여 손실을 계산하고 가중치를 유리하게 이동시키는 정책 그라데이션 접근 방식을 사용하여 달성됩니다.

교육을 위해 PyTorch 팀은 다음을 제공했습니다. 토치튠 토치튠은 매우 효율적인 디코더 전용 변압기 등 인기 있는 모델을 구현했습니다. 이 프로젝트에서는 주로 Qwen 모델을 사용했지만 Meta의 Llama 8B 및 70B 모델도 실험했으며, Torchtune은 메모리 절약 및 성능 향상 유틸리티도 제공합니다:

체크포인트 활성화
활성화 제거
정량화 가능
파라미터 효율적 미세 조정(PEFT)예를 들면 다음과 같습니다. 로우 랭크 적응형(LoRA)

지원되는 최적화의 전체 목록은 다음을 참조하세요.여기에서 설명 문서 보기.

또한 토치튠은 멀티 디바이스(그리고 이제멀티노드) 트레이닝을 지원하므로 대규모 모델에 이상적입니다. 완전 슬라이스 데이터 병렬(FSDP) 및 텐서 병렬(TP) 트레이닝을 모두 지원하며, 이를 함께 사용할 수 있습니다. 또한 다음을 제공합니다.12가지 프로그램를 공개하여 사용자가 자신의 사용 사례에 맞게 복제하고 커스터마이징할 수 있도록 장려했습니다. 이를 지원하는 전체 미세 조정 프로그램의 수정 버전을 만들었습니다:

다중 장비 및 단일 장비 교육
KL 분산 계산을 위한 참조 모델 로딩 및 무게 교환
그룹 ID 및 상위 ID를 사용한 고급 인과 관계 마스크 계산
GRPO 손실 통합 및 구성 요소 로깅

이 프로그램은 다음에서 사용할 수 있습니다.다음은 다음과 같습니다.참조. 향후에는 텐서 병렬 처리 지원을 추가하고 PEFT와 양자화를 연구할 계획입니다.

RL 학습 과정에는 수많은 하이퍼파라미터를 선택해야 합니다. 모델을 훈련하는 동안 다양한 구성을 테스트한 결과 주로 다음과 같은 구성을 확인했습니다:

모델: Qwen 2.5 Instruct 14B 및 32B
반복당 작업 수: 32
반복당 작업당 샘플 수: 50개
반복당 총 샘플 수: 32 * 50 = 1600개
학습률: 6e-6
마이크로배치 크기: 14B 모델의 경우 4개 시퀀스, 32B 모델의 경우 8개 시퀀스
배치 크기: 시퀀스 수에 따라 변동 가능

배치 크기는 훈련 중에 응답 길이가 변할 수 있고, 시퀀스 패킹 효율이 각 반복마다 변동하며, 제로 지배 응답(즉, 모델이 긍정 또는 부정 피드백을 제공하지 않는 응답)이 버려지기 때문에 가변적입니다. 한 실행에서는 배치 크기에 따라 학습 속도를 동적으로 조정하려고 시도했지만, 작은 배치 크기에 비해 학습 속도가 너무 높아서 상한을 설정해야 했습니다. 상한선을 설정한 버전은 일정한 학습 속도를 사용하는 것과 크게 다르지 않았지만 배치 크기와 학습 속도를 조정하는 것은 향후 실험을 위한 흥미로운 영역으로 남아 있습니다.

또한 반복당 작업 수를 늘리면서 작업당 샘플 수를 줄이거나 그 반대의 경우 반복당 총 샘플 수를 거의 동일하게 유지하는 간단한 실험을 수행했습니다. 이러한 변화는 짧은 훈련 기간 동안 의미 있는 차이를 보이지 않았으며, 이는 이 방식이 작업 수와 작업당 샘플 수 사이의 다양한 트레이드오프에 견고하다는 것을 시사합니다.

결국

100회 이상의 반복을 통해 모델을 학습시킨 결과, 최첨단 수준의 추론이 가능해졌습니다.

이 모델은 빠르게 개선되다가 정확도 개선이 줄어들기 시작하여 결국에는 급격히 감소합니다. 최상의 경우, 14B 모델은 16,000 토큰에서 클로드 소네트 3.7의 성능에 근접하고 32B 모델은 64,000 토큰에서 소네트의 결과와 거의 일치합니다.

훈련하는 동안 성능 향상은 파워 법칙을 따르며 로그-로그 플롯에서 선형 관계를 형성합니다(성능 저하 전).

이들은 이러한 모델이 초기에는 효과가 있지만 장기적인 전망을 제한할 수 있는 탐욕스러운 전략에 조기에 수렴할 수 있다고 의심합니다. 다음 단계는 다양한 반응을 장려하는 방법이나 점진적으로 역량을 강화하는 방법(예: 과정 학습)을 모색하거나, 특히 우수한 솔루션에 더 큰 보상을 부여하여 철저한 탐색을 장려하는 방법을 모색할 수 있습니다.

또한 훈련 중 출력의 길이에서 흥미로운 패턴을 발견했습니다. 처음에는 응답이 길어지다가 안정화되고, 훈련이 끝날수록 14B 모델의 응답이 길어지고 32B 모델의 응답 길이가 짧아지는데, 특히 최고 성능에 도달한 후에는 응답 길이가 더 짧아집니다.

논리적 추론 능력의 향상을 정성적으로 평가하기 위해 가장 강력한 최첨단 모델인 클로드 소네트 3.7을 사용하여 100회 이상의 훈련 전후에 유사한 퍼즐에 대해 Qwen 32B 모델이 수행한 추론의 타당성을 파악하고 평가했습니다.소네트는 기본 모델에서 6개의 추론을 확인했으며, 이 중 1개를 제외한 모든 추론이 잘못된 것으로 판정되었습니다;대신 학습된 모델에서 7개의 추론을 식별했으며, 그 중 하나를 제외한 모든 추론이 논리적으로 건전하다고 판단했습니다.

마지막으로, 다음과 같은 가정이 있습니다.온디맨드 배포가지고충분한 처리량다음을 기반으로 합니다. 불꽃놀이 AI (명목식 형태로 사용됨)서버리스 가격 계층는 Qwen 모델의 비용을 추정했습니다. 정확도를 응답당 평균 추론 비용의 자연 로그와 비교한 결과, 조정되지 않은 모델에서 선형 파레토 프론티어가 뚜렷하게 관찰되었습니다. 오픈 소스 모델을 프론티어의 정확도 수준까지 성공적으로 훈련시킴으로써 비용과 정확도 사이의 균형이 크게 개선되었습니다.

요약

이 연구에서는 소규모 오픈소스 언어 모델이 강화 학습을 통해 최첨단 추론 능력을 달성할 수 있는지 알아보고자 했습니다. 신중하게 선택한 하이퍼파라미터와 GRPO 방법을 사용하여 까다로운 시간 단서 퍼즐에 대해 Qwen 14B 및 32B 모델을 훈련한 결과, 놀라운 성능 향상을 달성했습니다. 이러한 개선으로 오픈 소스 모델은 추론 성능의 최전선에 서는 동시에 비용을 크게 절감할 수 있게 되었습니다. 이 결과는 복잡한 추론 작업에서 오픈 모델을 효율적으로 훈련할 수 있는 강화 학습의 잠재력을 강조합니다.

앞서 언급했듯이데이터 집합및테스트및교육 프로그램 및 모델 가중치(14B, 32B)는 MIT 라이선스에 따라 무료로 제공됩니다.

또한, 연구진은 16가지 교육 사례 최대 10-15%의 의미 있는 성능 향상을 달성할 수 있습니다.