안타깝게도 DeepSeek-R1과 함께 공개된 Kimi k1.5 기술 보고서에서는 긴 컨텍스트 및 다중 모드 추론이 개선되었습니다.
Kimi k1.5 기술 보고서 요약 읽기
1. 강력한 멀티모달 추론:
Kimi k1.5 모델은 수학, 코드, 텍스트 및 시각적 추론 작업을 포함한 여러 벤치마크와 양식에서 최첨단 추론 성능을 달성합니다.
일반 텍스트를 처리할 뿐만 아니라 이미지와 텍스트의 조합도 이해하여 진정한 멀티모달 추론이 가능합니다.
롱코트 버전과 숏코트 버전 모두 강력한 성능을 보여줍니다.
AIME, MATH 500, Codeforces 등과 같은 데이터 세트에서 리더십을 확보했습니다.
또한 MathVista와 같은 시각적 벤치마크에서도 강력한 성능을 발휘합니다.
2. 긴 맥락의 RL 교육에서 돌파구를 마련하세요:
컨텍스트 창을 128k로 확장함으로써 모델 성능이 지속적으로 향상되어 컨텍스트 길이가 강화 학습 확장의 핵심 차원임을 확인했습니다.
- 부분 롤아웃 기법은 긴 컨텍스트 RL 훈련의 효율성을 크게 개선하여 더 길고 복잡한 추론 프로세스를 훈련할 수 있도록 합니다.
- 긴 컨텍스트는 복잡한 문제의 해결 가능성에 매우 중요하다는 것이 입증되었습니다.
3. 유효한 long2short 메서드:
- 긴 컨텍스트 모델에 대한 지식을 활용하여 짧은 컨텍스트 모델의 성능을 개선하기 위해 효과적인 long2short 방법을 제안합니다. 토큰 효율성.
- 짧은 모델의 성능 향상은 모델 병합, 최단 거부 샘플링, DPO 등의 기술을 통해 이루어지며, 짧은 모델을 직접 학습하는 것보다 효율적입니다.
롱코트 모델의 사고에 대한 사전 지식을 마이그레이션하여 짧은 모델의 성능을 향상시킬 수 있음을 입증했습니다.
4. 최적화된 RL 교육 프레임워크:
복잡한 기술에 의존하지 않고도 강력한 성능을 달성하기 위해 개선된 정책 최적화 방법이 제안됩니다.
다양한 샘플링 전략, 길이 패널티, 데이터 레시피 최적화를 통해 RL 훈련의 효율성과 효과를 개선할 수 있습니다.
제안된 방법론과 훈련 기법의 효과는 절제 연구를 통해 검증되었습니다.
5. 세부 교육 프로세스 및 시스템 설계:
- 사전 훈련, 미세 조정 및 집중 학습 단계를 포함한 키미 k1.5의 자세한 훈련 레시피가 공개되었습니다.
- 훈련 및 추론 중 리소스 활용을 최적화하기 위한 하이브리드 배포 전략이 제시됩니다.
- 학습 데이터의 품질을 보장하기 위한 데이터 파이프라인과 품질 관리 메커니즘에 대해 자세히 설명합니다.
- 생성된 코드의 실행 및 평가를 위한 보안 코드 샌드박스를 개발했습니다.
6. 모델 크기 및 컨텍스트 길이 탐색:
모델 크기와 컨텍스트 길이가 성능에 미치는 영향을 조사한 결과, 모델이 클수록 성능이 더 좋지만 더 긴 컨텍스트를 사용하는 작은 모델도 큰 모델의 성능에 근접하거나 심지어 일치하는 것으로 나타나 RL 학습을 통한 모델 성능 향상이 입증되었습니다.
초록
다음 토큰 예측을 사용한 언어 모델 사전 학습은 계산적으로 효과적으로 확장되는 것으로 나타났지만, 사용 가능한 학습 데이터의 양에 따라 제한이 있습니다. 확장 강화 학습(RL)은 보상을 탐색하는 학습을 통해 대규모 언어 모델(LLM)의 학습 데이터를 확장할 수 있는 새로운 차원을 열어 AI의 지속적인 개선을 위한 가능성을 제시합니다. 하지만 이전에 발표된 연구들은 경쟁력 있는 결과를 보여주지 못했습니다. 이러한 점을 고려하여 RL을 사용하여 훈련된 최신 멀티모달 LLM인 Kimi k1.5의 훈련 사례와 RL 훈련 기법, 멀티모달 데이터 공식화, 인프라 최적화에 대해 살펴봅니다. 긴 컨텍스트 확장과 향상된 정책 최적화 방법은 몬테카를로 트리 검색, 가치 함수, 프로세스 보상 모델과 같은 복잡한 기법에 의존하지 않고 간단하고 효과적인 RL 프레임워크를 구축하는 저희 접근 방식의 핵심 요소입니다. 특히, 저희 시스템은 여러 벤치마크와 양식에서 최첨단 추론 성능을 달성했습니다(예: AIME에서 77.5점, MATH 500에서 96.2점, Codeforces에서 94번째 백분위수, MathVista에서 74.9점). MathVista에서 74.9로 OpenAI의 01과 일치합니다. 또한 긴 CoT 기법을 사용해 짧은 CoT 모델을 개선하는 효과적인 long2short 방법을 제시하여 AIME에서 60.8, MATH500에서 94.6, 47.9 등 최첨단 짧은 CoT 추론 결과를 도출했습니다. LiveCodeBench에서 47.3을 기록하여 GPT-40과 같은 기존 short-CoT 모델보다 훨씬 뛰어난 성능을 제공합니다. Claude 소네트 3.5(최대 +550%).

그림 1: Kimi k1.5 long-CoT 결과.

그림 2: Kimi k1.5 short-CoT 결과.
1 소개
다음 토큰 예측을 사용한 언어 모델의 사전 학습은 모델 파라미터와 데이터 크기를 확장하면 지능이 지속적으로 향상되는 확장 렘마의 맥락에서 조사되었습니다. (Kaplan 외. 2020; 호프만 외. 2022) 그러나 이 접근 방식은 사용 가능한 고품질 학습 데이터의 양에 따라 제한됩니다. (Villalobos 외. 2024; Muennighoff 외. 2023) 이 보고서에서는 강화 학습(RL)을 사용하여 훈련된 최신 멀티모달 LLM인 Kimi k1.5의 훈련 레시피를 소개하며, 목표는 새로운 차원의 지속적인 확장 가능성을 탐색하는 것입니다. 이 모델은 LLM과 함께 RL을 사용하여 보상을 탐색하는 방법을 학습하므로 기존의 정적 데이터 세트에 국한되지 않습니다.
k1.5의 설계 및 교육과 관련된 몇 가지 핵심 요소가 있습니다.
- 긴 컨텍스트 확장RL의 컨텍스트 창을 128k로 확장했으며, 컨텍스트 길이가 늘어남에 따라 성능이 지속적으로 개선되는 것을 관찰했습니다. 이 접근 방식의 핵심 아이디어는 부분 롤아웃을 사용하여 훈련 효율성을 개선하는 것입니다. 즉, 이전 궤적의 상당 부분을 재사용하여 새 궤적을 샘플링함으로써 처음부터 새 궤적을 재생성하는 데 드는 비용을 피하는 것입니다. 우리의 관찰에 따르면 컨텍스트 길이는 LLM에서 RL의 지속적인 확장을 위한 핵심 차원입니다.
- 전략 최적화 개선강력한 전략 최적화를 위해 롱-CoT로 RL 공식을 도출하고 온라인 미러 하강 변형을 사용합니다. 이 알고리즘은 효율적인 샘플링 전략, 길이 패널티, 데이터 공식의 최적화를 통해 더욱 개선됩니다.
- 간소화된 프레임워크긴 컨텍스트 확장과 개선된 정책 최적화 방법의 조합은 LLM을 사용한 학습을 위한 간소화된 RL 프레임워크를 만듭니다. 컨텍스트 길이를 확장할 수 있기 때문에 학습된 CoT는 계획, 반영 및 수정 속성을 나타냅니다. 컨텍스트 길이가 증가하면 검색 단계의 수가 증가합니다. 결과적으로 더 정교한 기법(예: 몬테카를로 트리 검색, 가치 함수, 프로세스 보상 모델)에 의존하지 않고도 강력한 성능을 달성할 수 있음을 보여줍니다.
- 멀티모달텍스트 데이터와 시각적 데이터를 사용하여 공동으로 학습한 모델로, 두 가지 양식을 함께 추론할 수 있습니다.
또한, 긴-CoT 기법을 사용하여 짧은-CoT 모델을 개선하는 효과적인 long2short 접근 방식을 제안합니다. 구체적으로, 긴-CoT 활성화와 모델 병합을 통해 길이 페널티를 적용하는 접근 방식을 제안합니다.
긴-CoT 버전은 여러 벤치마크와 양식에서 최첨단 추론 성능을 달성했습니다(예: AIME에서 77.5점, MATH 500에서 96.2점, Codeforces에서 94번째 백분위수, MathVista에서 74.9점으로 OpenAI 01과 일치함). MathVista에서 74.9로 OpenAI의 01과 일치합니다. 또한, AIME에서 60.8점, MATH500에서 94.6점, LiveCodeBench에서 47.3점 등의 최신 short-CoT 추론 결과를 달성하여 다음과 같은 기존 short-CoT 모델보다 훨씬 뛰어난 성능을 보였습니다. GPT-40 및 클로드 소네트 3.5(최대 +550%). 결과는 그림 1과 2에 나와 있습니다.
2 방법: LLM을 사용한 강화 학습
Kimi k1.5의 개발은 사전 훈련, 바닐라 감독 미세 조정(SFT), 긴-CoT 감독 미세 조정, 강화 학습(RL) 등 여러 단계로 이루어졌습니다. 이 보고서에서는 RL 큐 세트 관리(섹션 2.1)와 long-CoT 감독 미세 조정(섹션 2.2)에 대한 개요부터 시작하여 RL에 초점을 맞춘 다음 섹션 2.3에서 RL 훈련 전략에 대해 심층적으로 논의합니다. 사전 훈련 및 바닐라 감독 미세 조정에 대한 자세한 내용은 섹션 2.5에서 확인할 수 있습니다.
2.1 RL 큐 세트 관리
예비 실험을 통해 RL 큐 세트의 품질과 다양성이 강화 학습의 효과를 보장하는 데 중요한 역할을 한다는 사실을 발견했습니다. 신중하게 구성된 큐 세트는 모델을 강력한 추론으로 안내할 뿐만 아니라 보상 공격과 표면 패턴의 과적합 위험을 완화합니다. 특히 세 가지 주요 속성이 고품질 RL 큐 세트를 정의합니다:
- 다양한 적용 범위팁은 STEM, 코딩, 일반 추론 등 다양한 분야를 다루어 모델의 적응력을 높이고 다양한 영역에 걸쳐 폭넓게 적용할 수 있도록 해야 합니다.
- 균형 잡힌 난이도:: 프롬프트 세트에는 쉬운 문제, 중간 문제, 어려운 문제가 고르게 분포되어 있어야 점진적인 학습을 촉진하고 특정 난이도에 과도하게 맞춰지는 것을 방지할 수 있습니다.
- 정확한 평가 가능성:: 팁은 검증자가 객관적이고 신뢰할 수 있는 평가를 통해 표면적인 패턴이나 무작위 추측이 아닌 건전한 추론에 기반하여 모델 성능을 측정할 수 있도록 해야 합니다.
큐 세트에서 다양한 범위를 확보하기 위해 자동 필터를 사용하여 풍부한 추론이 필요하고 평가하기 쉬운 문제를 선택합니다. 데이터 세트에는 STEM 영역, 경시대회, 일반 추론 과제 등 다양한 영역의 문제가 포함되어 있으며 일반 텍스트와 이미지 텍스트 퀴즈 데이터가 모두 포함되어 있습니다. 또한, 다양한 주제 영역을 균형 있게 표현하기 위해 영역과 분야별로 프롬프트를 분류하는 라벨링 시스템을 개발했습니다(M. Li 외. 2023; W. Liu 외. 2023).
각 프롬프트의 난이도를 적응적으로 평가하기 위해 모델 자체의 능력을 사용하는 모델 기반 접근 방식을 사용했습니다. 구체적으로, 각 프롬프트에 대해 SFT 모델은 상대적으로 높은 샘플링 온도를 사용하여 10개의 답을 생성합니다. 그런 다음 합격률을 계산하여 힌트의 난이도를 나타내는 지표로 사용하며, 합격률이 낮을수록 난이도가 높은 것으로 간주합니다. 이 접근 방식을 사용하면 난이도 평가가 모델의 내재적 능력과 일치할 수 있으므로 RL 훈련에 매우 효과적입니다. 이 접근 방식을 활용하면 대부분의 사소한 사례를 사전에 선별하고 RL 훈련 중에 다양한 샘플링 전략을 쉽게 탐색할 수 있습니다.
잠재적인 보상 공격(Everitt 외. 2021; Pan 외. 2022)을 피하려면 각 단서에 대한 추론 과정과 최종 답을 정확하게 검증할 수 있어야 합니다. 경험적 관찰에 따르면 일부 복잡한 추론 문제에는 상대적으로 간단하고 추측하기 쉬운 답이 있을 수 있으며, 이로 인해 모델이 잘못된 추론 과정을 통해 정답에 도달하는 허위 순방향 검증이 발생할 수 있습니다. 이 문제를 해결하기 위해 객관식, 참/거짓, 증명 기반 질문 등 이러한 오류가 발생하기 쉬운 질문은 제외합니다. 또한 일반적인 질의응답 과제에 대해서는 공격하기 쉬운 힌트를 식별하고 제거하는 간단하면서도 효과적인 방법을 제안합니다. 구체적으로는 CoT 추론 단계 없이 모델에 가능한 답을 추측하도록 유도합니다. 모델이 N번의 시도에서 정답을 예측하면 해당 힌트는 공격하기 너무 쉬운 것으로 간주되어 제거됩니다. N = 8로 설정하면 가장 쉽게 공격할 수 있는 힌트가 제거되는 것으로 나타났습니다. 더 발전된 검증 모델을 개발하는 것은 향후 연구의 열린 방향입니다.
2.2 롱코트 감독 미세 조정
개선된 RL 큐 세트를 사용하면 큐 엔지니어링을 통해 텍스트 및 이미지 입력에 대해 정확하게 검증된 추론 경로를 포함하는 작지만 고품질의 긴-CoT 워밍업 데이터 세트를 구축할 수 있습니다. 이 접근 방식은 거부 샘플링(RS)과 유사하지만, 큐 엔지니어링을 통해 긴 CoT 추론 경로를 생성하는 데 중점을 둡니다. 이렇게 생성된 워밍업 데이터 세트는 계획(모델이 실행 전 단계를 체계적으로 설명), 평가(중간 단계에 대한 비판적 평가 포함), 반영(모델이 접근 방식을 재고하고 개선할 수 있게 함), 탐색(대안 솔루션 고려 장려) 등 휴머노이드 추론에 필수적인 주요 인지 프로세스를 캡슐화하도록 설계되었습니다. 이 워밍업 데이터 세트에서 경량 SFT를 수행하면 모델이 이러한 추론 전략을 내재화하도록 효과적으로 안내할 수 있습니다. 그 결과, 미세 조정된 long-CoT 모델은 보다 상세하고 논리적으로 일관된 응답을 생성하는 능력이 향상되어 다양한 추론 작업에서 성능이 향상됩니다.
2.3 향상된 학습
2.3.1 문제 설정
학습 데이터 세트 D = {(xi, yi)}^n_i=1로, 문제 xi와 그에 해당하는 정답 y를 포함합니다.의 경우, 우리의 목표는 테스트 문제를 정확하게 풀 수 있도록 전략 모델 πθ를 훈련하는 것입니다. 복잡한 추론 상황에서 문제 x를 솔루션 y에 매핑하는 것은 쉬운 일이 아닙니다. 이 문제를 해결하기 위해 사고의 연쇄(CoT) 접근 방식에서는 일련의 중간 단계 z = (z1, z2, ..., zm)을 사용하여 x와 y를 연결할 것을 제안합니다. , zm)을 사용하여 x와 y를 연결하며, 여기서 각 zi는 문제 해결의 중요한 중간 단계 역할을 할 수 있는 일관된 토큰 시퀀스입니다(J. Wei 외., 2022). 문제 x를 풀 때, 자동 회귀 샘플링 마인드 zt ~ πθ(-|x, z1, ... , zt-1), 그리고 최종 답 y ~ πθ(-|x, z1,... , zm). 이 샘플링 과정을 나타내기 위해 y, z ~ πθ를 사용합니다. 생각과 최종 답은 모두 언어 시퀀스로 샘플링된다는 점에 유의하세요.
모델의 추론 능력을 더욱 향상시키기 위해, 추론 시 향상된 CoT를 생성하기 위해 다양한 사고 과정을 탐색하는 계획 알고리즘을 사용합니다(Yao 외. 2024; Y. Wu 외. 2024; Snell 외. 2024). 이러한 접근법의 핵심 인사이트는 가치 추정에 의해 안내되는 사고 탐색 트리를 명시적으로 구성하는 것입니다. 이를 통해 모델은 사고 과정의 다양한 연속을 탐색하거나 막다른 골목에 부딪혔을 때 역추적하여 새로운 방향을 탐색할 수 있습니다. 좀 더 자세히 설명하자면, 각 노드가 부분 해 s = (x, z1:|s|)를 나타내는 검색 트리를 T라고 합니다. 여기서 s는 문제 x와 생각의 시퀀스 z1:|s| = (z1, ... , z|s|)로 구성되며, 여기서 |s|는 시퀀스 내 생각의 수를 나타냅니다. 계획 알고리즘은 비판 모델 v를 사용하여 문제 해결의 현재 진행 상황을 평가하고 기존 부분 솔루션의 오류를 식별하는 데 도움이 되는 피드백 v(x, z1:|s|)를 제공합니다. 피드백은 판별 점수 또는 언어적 시퀀스로 제공될 수 있습니다(L. Zhang 외. 2024). 계획 알고리즘은 모든 s ∈ T 의 피드백에 따라 확장 가능성이 가장 높은 노드를 선택하여 검색 트리를 확장합니다. 위의 과정은 완전한 솔루션이 도출될 때까지 반복적으로 반복됩니다.
알고리즘 관점에서 계획 알고리즘에 접근할 수도 있습니다. t 번째 반복에서 사용할 수 있는 과거 검색 기록(s1, v(s1), ... , st-1, v(st-1))가 주어지면 계획 알고리즘 A는 반복적으로 다음 검색 방향 A(st|s1, v(s1), ... , st-1, v(st-1))를 결정하고 현재 탐색 진행 상황에 대한 피드백을 A(v(st)|s1, v(s1),... , st). , st)를 사용하여 피드백을 제공합니다. 사고와 피드백은 모두 중간 추론 단계로 간주할 수 있으며, 이러한 구성 요소는 언어적 토큰 시퀀스로 표현할 수 있기 때문에 표현을 단순화하기 위해 s와 v 대신 z를 사용합니다. 따라서 계획 알고리즘은 일련의 추론 단계 A(-|z1, z2, ...)에 직접 작용하는 것으로 간주합니다. )를 일련의 추론 단계 A(-|z1, z2, . . . )의 매핑으로 간주합니다. 이 프레임워크에서는 계획 알고리즘이 사용하는 검색 트리에 저장된 모든 정보가 알고리즘에 제공된 전체 컨텍스트에 분산됩니다. 검색 트리를 명시적으로 구성하고 계획 알고리즘을 구현하는 대신 이 프로세스를 근사화하도록 모델을 훈련시킬 수 있다는 점에서 고품질 CoT를 생성하는 데 흥미로운 관점을 제공합니다. 여기서 사고의 양(즉, 언어적 토큰)은 전통적으로 계획 알고리즘에 할당된 계산 예산과 유사합니다. 최근의 긴 컨텍스트 윈도우의 발전은 훈련 및 테스트 단계에서 원활한 확장성을 촉진합니다. 가능한 경우 이 접근 방식을 사용하면 모델이 자동 회귀 예측을 통해 추론 공간에서 직접 암시적 검색을 실행할 수 있습니다. 결과적으로 모델은 일련의 훈련 문제를 해결하는 방법을 학습할 뿐만 아니라 개별 문제를 효율적으로 해결하는 능력을 개발하여 보이지 않는 테스트 문제에 대한 일반화를 개선할 수 있습니다.
따라서 강화 학습(RL)을 사용하여 CoT를 생성하는 훈련 모델을 고려합니다(OpenAI 2024). 주어진 문제 x에 대해 정답 y*에 기반하여 주어진 문제 x에 대해 제안된 답 y의 정답에 대한 근거를 제공하는 보상 모델에 r(x, y, y*) ∈ {0, 1} 값을 할당하는 보상 모델을 r이라고 하자. 검증 가능한 문제의 경우, 보상은 미리 정의된 기준이나 규칙에 따라 직접 결정됩니다. 예를 들어 코딩 문제에서는 정답이 테스트 케이스를 통과하는지 여부를 평가합니다. 자유 형식의 정답이 있는 문제의 경우, 답변이 정답과 일치하는지 여부를 예측하기 위해 보상 모델 r(x, y, y*)을 학습시킵니다. 문제 x가 주어지면, 모델 πθ는 샘플링 프로세스 z ~ πθ(-|x), y ~ πθ(-|x, z)를 통해 CoT와 최종 답을 생성합니다. 생성된 CoT의 품질은 정확한 최종 답을 생성할 수 있는지 여부에 따라 달라집니다. 요약하면, 전략을 최적화하기 위해 다음과 같은 목표를 고려합니다.

RL 트레이닝을 확장함으로써 단순한 단서 기반 CoT와 계획 강화 CoT를 모두 활용하는 모델을 트레이닝하는 것을 목표로 합니다. 이 모델은 여전히 추론 중에 언어 시퀀스를 자동 회귀적으로 샘플링하므로 배포 시 고급 계획 알고리즘에 필요한 복잡한 병렬화를 피할 수 있습니다. 그러나 단순한 단서 기반 접근 방식과의 주요 차이점은 모델이 일련의 추론 단계를 따르지 않아야 한다는 것입니다. 대신, 전체 탐색적 사고 집합을 컨텍스트 정보로 활용하여 오류 식별, 역추적, 솔루션 개선 등 핵심 계획 기술을 학습해야 합니다.
2.3.2 전략 최적화
저희는 온라인 전략의 변형인 미러 하강을 훈련 알고리즘으로 적용합니다(Abbasi-Yadkori 외. 2019, Mei 외. 2019, Tomar 외. 2020). 이 알고리즘은 반복적으로 실행됩니다. ith 반복에서는 현재 모델 πθi를 참조 모델로 사용하고 다음과 같은 상대 엔트로피 정규화 정책 최적화 문제를 최적화합니다.

여기서 τ > 0은 정규화 정도를 제어하는 파라미터입니다. 이 목표에는 폐쇄형 해법이 있습니다.

여기서 Z = Σy',z' πθi (y', z'|x) exp(r(x, y', y*)/τ)는 정규화 계수입니다. 양쪽의 로그를 취하면 임의의 (y, z)에 대해 다음 제약 조건이 충족되므로 최적화 중에 오프라인 정책 데이터를 활용할 수 있습니다.

이로 인해 다음과 같은 교체 손실이 발생했습니다.

τ 로그 Z를 근사화하기 위해 샘플 (y1, z1), ... , (yk, zk) ~ πθ: τ log Z ≈ log 1/k Σ^k_j=1 exp(r(x, yj, y*)/τ). 또한 샘플링 보상의 경험적 평균을 사용하면 τ = mean(r(x, y1, y*), ... , r(x, yk, y*))를 사용하면 유효한 실제 결과를 얻을 수 있습니다. 이는 τ → ∞ 로 갈수록 τ log Z 가 πθi 에서의 기대 보상에 가까워지기 때문에 합리적입니다. 마지막으로 대체 손실의 기울기를 취하여 학습 알고리즘을 도출합니다. 각 문제 x에 대해 참조 정책 πθi 를 사용하여 k 개의 응답을 샘플링하고 기울기는 다음과 같이 주어집니다.

전략 기울기 방법에 익숙한 분들을 위해 설명하자면, 이 기울기는 샘플링된 보상의 평균을 기준선으로 사용하는 (2)의 전략 기울기와 유사합니다(Kool 외. 2019; Ahmadian 외. 2024). 가장 큰 차이점은 온라인 전략이 아닌 πθi에서 반응을 샘플링하고 l2 정규화가 적용된다는 점입니다. 따라서 일반적인 온라인 정규화 정책 그라데이션 알고리즘을 오프라인 정책 사례로 자연스럽게 확장한 것으로 볼 수 있습니다(Nachum et al. 2017). D에서 문제 배치를 샘플링하고 파라미터를 θi+1 로 업데이트하면 다음 반복의 참조 정책으로 사용됩니다. 또한 참조 전략의 변경으로 인해 각 반복마다 다른 최적화 문제를 고려하기 때문에 각 반복이 시작될 때 최적화 알고리즘을 재설정합니다.
이전 연구(Ahmadian 외. 2024)에서도 활용되었던 가치 네트워크를 훈련 시스템에서 제외했습니다. 이러한 설계 선택은 학습 효율을 크게 향상시키지만, 기존 RL에서 학점 배분에 가치 함수를 사용하는 것이 우리의 상황에 적합하지 않을 수 있다는 가설도 세웠습니다. 모델이 부분 CoT(z1, z2, ..., ... , zt)를 생성하고 다음 추론 단계로 zt+1과 z't+1의 두 가지 잠재적 가능성이 있다고 가정합니다. zt+1은 정답으로 바로 연결되지만 z't+1에는 약간의 오류가 포함되어 있다고 가정합니다. 오라클 값 함수에 액세스할 수 있다면 zt+1이 z't+1보다 더 높은 값을 유지한다는 것을 나타냅니다. 표준 점수 배분 원칙에 따르면, z't+1을 선택하면 현재 전략보다 마이너스 이점이 있기 때문에 불이익을 받게 됩니다. 그러나 z't+1을 탐색하는 것은 모델이 긴 CoT를 생성하도록 훈련하는 데 유용합니다. 긴 CoT에서 도출된 최종 답의 근거를 보상 신호로 사용함으로써 모델은 성공적으로 복구하여 정답에 도달하는 한 z't+1을 채택하는 시행착오 패턴을 통해 학습할 수 있습니다. 이 예에서 도출할 수 있는 핵심 결론은 모델이 복잡한 문제를 해결하는 능력을 향상시키기 위해 다양한 추론 경로를 탐색하도록 장려해야 한다는 것입니다. 이러한 탐색적 접근 방식은 비판적 계획 능력을 개발하는 데 도움이 되는 많은 경험을 생성합니다. 우리의 주요 목표는 훈련 문제의 정확도를 최고 수준으로 향상시키기보다는 모델에 효과적인 문제 해결 전략을 장착하는 데 집중하여 궁극적으로 테스트 문제에서의 성능을 향상시키는 것입니다.
2.3.3 길이 패널티
RL 훈련 중에 모델의 응답 길이가 크게 늘어나는 오버씽킹 현상이 관찰됩니다. 이는 더 나은 성능으로 이어지지만, 지나치게 긴 추론 과정은 훈련과 추론 과정에서 비용이 많이 들며, 인간은 일반적으로 지나치게 생각하는 것을 싫어합니다. 이 문제를 해결하기 위해 토큰 길이의 급격한 증가를 제한하고 모델의 토큰 효율성을 개선하기 위해 길이 보너스를 도입했습니다. 문제 x에 대한 샘플 응답(y1, z1)이 k개 주어졌을 때, ... , (yk, zk)와 정답 y*가 주어졌을 때, len(i)를 (yi, zi)의 길이, min_len = min_i len(i), max_len = max_i len(i)로 합니다. max_len = min_len이면 모든 응답의 길이가 같으므로 길이 보너스를 0으로 설정합니다. 그렇지 않으면 길이 보너스는 다음과 같이 주어집니다.

기본적으로 짧은 답변을 장려하고 정답일 경우 긴 답변에 불이익을 주는 반면, 오답일 경우 명시적으로 긴 답변에 불이익을 줍니다. 이 길이 기반 보상과 가중치 매개변수는 원래 보상에 추가됩니다.
예비 실험에서 길이 페널티는 훈련의 초기 단계를 느리게 할 수 있습니다. 이 문제를 완화하기 위해 훈련의 초기 단계에서 길이 패널티를 점진적으로 예열하는 것이 좋습니다. 구체적으로, 길이 페널티가 없는 표준 전략으로 최적화한 다음 나머지 훈련 기간 동안 일정한 길이 페널티를 적용합니다.
2.3.4 샘플링 전략
RL 알고리즘 자체는 비교적 좋은 샘플링 특성을 가지고 있지만(어려운 문제일수록 더 큰 기울기를 제공함), 훈련 효율은 제한적입니다. 따라서 잘 정의된 선험적 샘플링 방법을 사용하면 더 큰 성능 향상을 얻을 수 있습니다. 저희는 샘플링 전략을 더욱 개선하기 위해 여러 신호를 활용합니다. 첫째, 수집하는 RL 훈련 데이터는 자연스럽게 다양한 난이도 레이블을 가지고 있습니다. 예를 들어, 수학 경시대회 문제는 초등학교 수학 문제보다 더 어렵습니다. 둘째, RL 훈련 과정에서는 동일한 문제를 여러 번 샘플링하기 때문에 각 문제의 성공률을 난이도 지표로 추적할 수 있습니다. 이러한 사전 지식을 활용하여 훈련의 효율성을 높이기 위해 두 가지 샘플링 방법을 제안합니다.
코스 샘플링 먼저 쉬운 작업으로 훈련한 다음 점차 더 어려운 작업으로 전환합니다. 초기 RL 모델은 성능이 제한되어 있기 때문에 매우 어려운 문제에 한정된 컴퓨팅 예산을 사용하면 일반적으로 올바른 샘플이 거의 나오지 않아 훈련 효율성이 떨어집니다. 동시에 수집되는 데이터에는 자연스럽게 등급과 난이도 레이블이 포함되어 있으므로 난이도 기반 샘플링은 훈련 효율성을 개선하는 직관적이고 효과적인 방법입니다.
우선 샘플링 코스 샘플링 외에도 우선순위 샘플링 전략을 사용하여 모델 성능이 좋지 않은 문제에 집중합니다. 각 문제 i의 성공률 si를 추적하고 1/si에 비례하는 방식으로 문제를 샘플링하여 성공률이 낮은 문제가 더 높은 확률로 샘플링되도록 합니다. 이렇게 하면 모델의 노력이 가장 취약한 영역에 집중되어 학습 속도가 빨라지고 전반적인 성능이 향상됩니다.
2.3.5 교육 레시피에 대한 자세한 정보
코딩을 위한 테스트 케이스 생성 웹에는 많은 코딩 문제에 대한 테스트 사례가 없기 때문에, 저희는 RL을 사용하여 모델을 훈련할 때 보너스로 사용할 수 있는 테스트 사례를 자동으로 생성하는 방법을 고안해냈습니다. 우리는 주로 특별한 심판이 필요하지 않은 문제에 초점을 맞췄습니다. 또한 이러한 문제에 대한 실제 답변이 존재한다고 가정하여 더 높은 품질의 테스트 케이스를 생성하는 데 사용할 수 있습니다.
널리 알려진 테스트 케이스 생성 라이브러리인 CYaRon¹으로 접근 방식을 개선합니다. 우리는 문제 진술에 기반한 테스트 케이스를 생성하기 위해 기본 Kimi k1.5를 사용합니다. CYaRon 사용 지침과 문제 설명은 생성기에 대한 입력으로 사용됩니다. 각 문제에 대해 먼저 생성기를 사용하여 50개의 테스트 케이스를 생성하고 각 테스트 케이스에 대해 10개의 실제 답변 제출을 무작위로 샘플링합니다. 제출물에 대해 테스트 케이스를 실행합니다. 제출된 10개 중 7개 이상이 일치하면 테스트 케이스가 유효한 것으로 간주됩니다. 이 필터링이 끝나면 테스트 케이스 세트가 선택됩니다. 제출된 9개 중 10개 이상이 선택된 테스트 케이스 세트를 통과하면 해당 문제와 관련된 선택된 테스트 케이스가 학습 세트에 추가됩니다.
통계적으로 1,000개의 온라인 대회 문제 샘플에서 약 614개의 문제가 특별한 심판이 필요하지 않았습니다. 최소 40개의 유효한 테스트 사례를 생성하는 463개의 테스트 사례 생성기를 개발하여 323개의 문제가 포함된 훈련 세트를 만들었습니다.
수학의 보상 모델링 수학적 해를 평가할 때 한 가지 어려운 점은 서로 다른 형태의 글이 동일한 기본 답을 나타낼 수 있다는 것입니다. 예를 들어, a² - 4와 (a + 2)(a - 2)는 모두 유효한 해법일 수 있습니다. 저희는 보상 모델의 채점 정확도를 높이기 위해 두 가지 접근 방식을 사용했습니다:
- 클래식 RM: InstructGPT(Ouyang 외, 2022)의 접근 방식에서 영감을 얻어 가치 기반 헤더 보상 모델을 구현하고 미세 조정을 위해 약 80만 개의 데이터 포인트를 수집했습니다. 이 모델은 궁극적으로 '질문', '참조', '응답'을 입력으로 받아 응답이 정답인지 아닌지를 나타내는 스칼라를 출력합니다.
- 생각의 사슬 RM: 최근 연구(Ankner 외. 2024; McAleese 외. 2024)에 따르면 생각의 사슬(CoT) 추론으로 보강된 보상 모델은 특히 세분화된 정확성 기준이 필요한 작업(예: 수학)에서 기존 접근법을 크게 능가하는 것으로 나타났습니다. 따라서 저희는 키미 모델을 미세 조정하기 위해 약 80만 개의 CoT 라벨이 붙은 동일한 크기의 데이터 세트를 수집했습니다. 기존 RM과 동일한 입력을 기반으로 연쇄적 사고 접근 방식은 단계적 추론 프로세스를 JSON 형식으로 명시적으로 생성한 다음 최종 정확도 판단을 제공함으로써 보다 강력하고 해석 가능한 보상 신호를 생성합니다.
수동 샘플링에서 클래식 RM의 정확도는 약 84.4, 사고 체인 RM의 정확도는 98.5에 달했습니다. RL 훈련 중에는 보다 정확한 피드백을 보장하기 위해 사고 체인 RM을 사용했습니다.
시각적 데이터 모델의 실제 이미지 추론 기능을 개선하고 시각적 입력과 대규모 언어 모델(LLM) 간의 보다 효율적인 조율을 위해 시각 강화 학습(Vision RL) 데이터는 실제 데이터, 합성 시각 추론 데이터, 텍스트 렌더링 데이터의 세 가지 범주에서 추출합니다.
- 실제 데이터는 그래프 이해와 추론이 필요한 모든 학년 수준의 광범위한 과학 문제, 시각적 지각과 추론이 필요한 위치 추측 과제, 복잡한 다이어그램을 이해해야 하는 분석 과제 등을 포괄합니다. 이러한 데이터 세트는 실제 시나리오에서 시각적 추론을 수행하는 모델의 능력을 향상시킵니다.
- 합성 시각 추론 데이터는 사람이 생성한 것으로 공간 관계, 기하학적 패턴, 물체 상호 작용 이해와 같은 특정 시각 추론 능력을 향상하도록 설계된 프로그램에서 만든 이미지와 장면을 포함합니다. 이러한 합성 데이터 세트는 모델의 시각적 추론 능력을 테스트할 수 있는 통제된 환경을 제공하며 끝없이 많은 훈련 예제를 제공합니다.
- 텍스트 렌더링 데이터는 텍스트 콘텐츠를 시각적 형식으로 변환하여 생성되므로 다양한 양식에서 텍스트 기반 쿼리를 처리할 때 모델이 일관성을 유지할 수 있습니다. 텍스트 문서, 코드 스니펫 및 구조화된 데이터를 이미지로 변환함으로써 입력이 일반 텍스트이든 이미지(예: 스크린샷 또는 사진)로 렌더링된 텍스트이든 관계없이 모델이 일관된 응답을 제공하도록 합니다. 이는 텍스트가 많은 이미지를 처리하는 모델의 능력을 향상시키는 데도 도움이 됩니다.
각 유형의 데이터는 다양한 실제 애플리케이션을 효과적으로 관리하면서 입력 모드 전반에서 일관된 성능을 보장하는 포괄적인 시각 언어 모델을 구축하는 데 매우 중요합니다.
2.4 Long2short: Short-CoT 모델을 위한 컨텍스트 압축
긴-CoT 모델은 강력한 성능을 달성하지만 표준 짧은-CoT LLM보다 더 많은 테스트 시간 토큰을 소비합니다. 그러나 긴-CoT 모델의 사고에 대한 선험적 지식을 짧은-CoT 모델로 이전하여 제한된 테스트 시간 토큰 예산으로도 성능을 향상시킬 수 있습니다. 저희는 모델 병합(Yang et al., 2024), 최단 거부 샘플링, DPO(Rafailov et al., 2024), long2short RL 등 여러 가지 접근법을 제안합니다. 이러한 접근법에 대한 자세한 설명은 아래에 나와 있습니다:
모델 병합 모델 병합은 일반화 기능을 유지하는 데 도움이 되는 것으로 밝혀졌습니다. 또한 롱코트 모델을 숏코트 모델과 병합할 때 토큰 효율성이 향상된다는 사실도 발견했습니다. 이 접근 방식은 롱코트 모델과 숏코트 모델을 결합하여 별도의 학습 없이 새로운 모델을 얻을 수 있습니다. 구체적으로는 두 모델의 가중치를 평균하는 방식으로 병합합니다.
최소 거부 샘플링 저희 모델은 동일한 문제에 대해 매우 다양한 길이의 응답을 생성하는 것을 관찰했습니다. 이를 바탕으로 최단 거부 샘플링 방법을 고안했습니다. 이 방법은 동일한 문제를 n번(실험에서는 n = 8번) 샘플링하여 감독 미세 조정을 위해 가장 짧은 정답을 선택합니다.
DPO 최단 거부 샘플링과 유사하게, 긴 CoT 모델을 활용하여 여러 개의 응답 샘플을 생성합니다. 가장 짧은 정답이 양성 샘플로 선택되고, 더 긴 오답과 더 긴 정답(선택한 양성 샘플보다 1.5배 더 긴)을 포함하여 더 긴 응답은 음성 샘플로 간주됩니다. 이러한 긍정 및 부정 쌍이 DPO 학습에 사용되는 쌍 선호도 데이터를 구성합니다.
롱2숏 RL 표준 RL 트레이닝 단계 이후, 성능과 토큰 효율성 사이에서 가장 좋은 균형을 제공하는 모델을 기본 모델로 선택하고 별도의 long2short RL 트레이닝 단계를 수행합니다. 두 번째 단계에서는 섹션 2.3.3에서 소개한 길이 페널티를 적용하고 최대 롤아웃 길이를 크게 줄여 필요 이상으로 길지만 정확할 수 있는 응답에 추가로 페널티를 부과합니다.
2.5 기타 교육 세부 정보
2.5.1 사전 교육
Kimi k1.5 기본 모델은 다양한 고품질의 멀티모달 말뭉치로 학습됩니다. 언어 데이터는 영어, 중국어, 코드, 수학적 추론, 지식의 다섯 가지 영역을 다룹니다. 자막, 이미지-텍스트 인터리빙, OCR, 지식 및 QA 데이터 세트를 포함한 멀티모달 데이터는 모델이 시각적 언어 능력을 습득할 수 있도록 지원합니다. 엄격한 품질 관리를 통해 전체 사전 학습 데이터 세트의 관련성, 다양성, 균형을 보장합니다. 사전 훈련은 3단계로 진행되었습니다: (1) 강력한 언어적 기반을 구축한 후 점진적인 멀티모달 통합을 진행하는 시각 언어 사전 훈련, (2) 특히 추론 및 지식 기반 작업을 위해 선별 및 합성 데이터를 사용해 역량을 강화하는 쿨다운 기간, (3) 시퀀스 처리를 131,072 토큰까지 확장하는 긴 맥락 활성화. 사전 훈련 과정에 대한 자세한 내용은 다음과 같이 확인하세요. 더 자세한 내용은 부록 B를 참조하세요.
2.5.2 바닐라 감독 미세 조정
여러 도메인을 포괄하는 바닐라 SFT 말뭉치를 만들었습니다. 질문과 답변, 작문, 텍스트 처리 등 비추론 작업의 경우 처음에는 수동 주석을 통해 시드 데이터셋을 구축했습니다. 이 시드 데이터 세트는 시드 모델을 훈련하는 데 사용됩니다. 그 후 다양한 프롬프트를 수집하고 시드 모델을 사용하여 각 프롬프트에 대한 여러 응답을 생성합니다. 그런 다음 어노테이터는 이러한 응답의 순위를 매기고 가장 높은 순위를 받은 응답을 개선하여 최종 버전을 생성합니다. 규칙 및 보상 모델에 기반한 검증이 수동 판단보다 더 정확하고 효율적인 수학 및 코딩 문제와 같은 추론 작업의 경우, 거부 샘플링을 사용하여 SFT 데이터 세트를 확장합니다.
바닐라 SFT 데이터 세트에는 약 100만 개의 텍스트 예시가 포함되어 있습니다. 구체적으로 일반 Q&A용 50만 개, 코딩용 20만 개, 수학 및 과학용 20만 개, 창의적 글쓰기용 5,000개, 요약, 문서 퀴즈, 번역 및 작문과 같은 긴 문맥의 작업용 20,000개의 예제가 포함되어 있습니다. 또한 도표 해석, OCR, 이미지 기반 대화, 비주얼 코딩, 시각적 추론, 시각 보조 자료가 포함된 수학/과학 문제 등 다양한 카테고리의 텍스트 예시 100만 개를 구축했습니다.
먼저 32k 토큰의 시퀀스 길이로 1 에포크 동안 모델을 훈련한 다음 128k 토큰의 시퀀스 길이로 1 에포크 동안 훈련합니다. 첫 번째 단계(32k)에서는 학습 속도가 2 × 10-5에서 2 × 10-6으로 감소하고 두 번째 단계(128k)에서는 1 × 10-5로 다시 따뜻해진 다음 최종적으로 1 × 10-6으로 감소하게 됩니다. 훈련 효율을 높이기 위해 여러 훈련 예제를 각 훈련 시퀀스에 패키지로 묶었습니다.
2.6 RL 인프라

그림 3: LLM을 위한 대규모 강화 학습 훈련 시스템
(a) 시스템 개요
(b) 부분 출시
2.6.1 LLM을 위한 대규모 강화 학습 훈련 시스템
AI 분야에서 강화 학습(RL)은 대규모 언어 모델(LLM)의 핵심 훈련 방법이 되었으며(Ouyang 외. 2022), AlphaGo(Silver 외. 2017), 알파스타(Silver 외. 2019), 오픈AI 도타 파이브(OpenAI Dota 5) 등 시스템을 통해 바둑, 스타크래프트 II, 도타 2 같은 복잡한 게임을 마스터하는 데 성공한 데서 영감을 얻었습니다(Jaech 외. 2024). 외 2017), 알파스타(Vinyals 외 2019), OpenAI 도타 파이브(Berner 외 2019) 등의 시스템에서 영감을 받았습니다. 이러한 전통에 따라 Kimi k1.5 시스템은 지속적인 학습과 적응을 통해 모델의 추론을 향상시키도록 신중하게 설계된 반복적으로 동기화된 RL 프레임워크를 사용합니다. 이 시스템의 핵심 혁신은 복잡한 추론 궤적의 처리를 최적화하도록 설계된 부분 롤아웃 기법을 도입한 것입니다.
그림 3a에서 볼 수 있듯이 RL 트레이닝 시스템은 반복 동기화 방식을 통해 작동하며, 각 반복은 롤아웃 단계와 트레이닝 단계로 구성됩니다. 롤아웃 단계에서는 중앙 마스터 서버에 의해 조정된 롤아웃 워커가 모델과 상호 작용하여 다양한 입력에 대한 일련의 응답을 생성함으로써 롤아웃 궤적을 생성합니다. 그런 다음 이러한 궤적은 리플레이 버퍼에 저장되어 시간적 상관관계를 차단함으로써 다양하고 편향되지 않은 훈련 데이터 세트를 보장합니다. 이후 훈련 단계에서 훈련 통합 문서는 이러한 경험에 액세스하여 모델의 가중치를 업데이트합니다. 이 주기적인 프로세스를 통해 모델은 지속적으로 학습하고 시간이 지남에 따라 전략을 조정하여 성능을 개선할 수 있습니다.
중앙 마스터 서버는 롤아웃 워크플로, 트레이닝 워크플로, 보상 모델을 통한 평가, 리플레이 버퍼 간의 데이터 흐름과 커뮤니케이션을 관리하는 중앙 지휘관 역할을 합니다. 시스템이 조율된 방식으로 작동하고 부하를 분산하며 효율적인 데이터 처리가 이루어지도록 보장합니다.
학습 작업 루틴은 단일 반복으로 완료되거나 여러 반복에 걸쳐 분할된 이러한 롤아웃 궤적에 액세스하여 모델의 파라미터를 개선하고 성능을 향상시키는 그라데이션 업데이트를 계산합니다. 이 프로세스는 보상 모델이 감독하며, 보상 모델은 모델 출력의 품질을 평가하고 훈련 프로세스를 안내하는 데 필요한 피드백을 제공합니다. 보상 모델의 평가는 모델 전략의 효과를 결정하고 모델을 최적의 성능으로 안내하는 데 매우 중요합니다.
또한 이 시스템에는 코드 관련 문제를 처리하도록 특별히 설계되었으며 보상 모델의 필수적인 부분인 코드 실행 서비스가 포함되어 있습니다. 이 서비스는 실제 코딩 시나리오에서 모델의 출력을 평가하여 모델 학습이 실제 프로그래밍 과제와 밀접하게 연계되도록 보장합니다. 실제 코드 실행에 대해 모델의 솔루션을 검증함으로써 이 피드백 루프는 모델의 전략을 개선하고 코드 관련 작업에서 성능을 향상시키는 데 필수적입니다.
2.6.2 긴 CoT RL을 위한 부분 롤아웃
저희 작업의 주요 아이디어 중 하나는 긴 컨텍스트 RL 교육을 확장하는 것입니다. 부분 롤아웃은 긴 궤적과 짧은 궤적 모두에 대한 롤아웃을 관리하여 긴-CoT 특성을 처리하는 문제를 효과적으로 해결하는 핵심 기술입니다. 이 기법은 각 롤아웃 궤적의 길이를 제한하는 출력 토큰의 고정 예산을 설정합니다. 롤아웃 단계에서 궤적이 토큰 한도를 초과하면 완료되지 않은 부분은 리플레이 버퍼에 저장되어 다음 반복에서 계속됩니다. 이를 통해 하나의 긴 궤적이 시스템 리소스를 독점하지 않도록 보장합니다. 또한 롤아웃 워크플로는 비동기적으로 실행되므로 일부 워크플로가 긴 궤적을 처리하는 동안 다른 워크플로는 새롭고 짧은 롤아웃 작업을 독립적으로 처리할 수 있습니다. 비동기식 운영은 모든 롤아웃 워크플로가 트레이닝 프로세스에 적극적으로 기여하도록 하여 계산 효율성을 극대화함으로써 시스템의 전반적인 성능을 최적화합니다.
그림 3b에서 볼 수 있듯이 부분 롤아웃 시스템은 긴 응답을 여러 반복(반복 n-m에서 반복 n까지)에 걸쳐 조각으로 분해하는 방식으로 작동합니다. 리플레이 버퍼는 이러한 응답 조각을 유지하기 위한 중앙 저장 메커니즘 역할을 하며, 현재 반복(반복 n)만 온라인으로 계산하면 됩니다. 이전 세그먼트(반복 n-m에서 n-1까지)는 버퍼에서 효율적으로 재사용할 수 있으므로 반복 롤아웃이 필요하지 않으며, 이러한 세그먼트 접근 방식은 전체 응답을 한 번에 롤아웃하는 대신 세그먼트를 점진적으로 처리 및 저장하므로 빠른 반복 시간을 유지하면서 더 긴 응답을 생성할 수 있어 계산 오버헤드를 크게 줄여줍니다. 학습 중에 특정 세그먼트를 손실 계산에서 제외하여 학습 프로세스를 더욱 최적화함으로써 전체 시스템을 효율적이고 확장 가능하게 만들 수 있습니다.
부분 롤아웃 구현은 중복 감지 기능도 제공합니다. 시스템은 생성된 콘텐츠에서 중복 시퀀스를 식별하고 조기에 종료하여 불필요한 계산을 줄이면서 출력 품질을 유지합니다. 중복이 감지되면 추가 페널티가 할당되어 큐 세트에서 중복 콘텐츠 생성을 효과적으로 방지할 수 있습니다.
2.6.3 교육 및 추론의 하이브리드 배포
RL 교육 프로세스는 다음 단계로 구성됩니다:

그림 4: 하이브리드 배포 프레임워크
- 교육 단계첫째, 메가트론(쇼이비 외, 2020)과 vLLM (권 외, 2023)은 체크포인트 엔진이라고 하는 심 프로세스로 캡슐화된 별도의 컨테이너에서 실행됩니다(섹션 2.6.3). 메가트론은 훈련 프로세스를 시작합니다. 훈련이 완료되면 메가트론은 GPU 메모리를 언로드하고 현재 가중치를 vLLM으로 전송할 준비를 합니다.
- 추론 단계메가트론 언로드 후 vLLM은 가상 모델 가중치로 시작하여 문케익을 통해 메가트론에서 전송된 최신 가중치로 업데이트합니다(Qin et al. 2024). 롤아웃이 완료되면 체크포인트 엔진은 모든 vLLM 프로세스를 중지합니다.
- 후속 교육 단계: vLLM에 할당된 메모리가 해제되면 메가트론은 메모리를 언로드하고 다른 트레이닝을 시작합니다.
기존 작업으로는 다음 기능을 모두 동시에 지원하기 어렵다는 것을 알게 되었습니다.
- 복잡한 병렬 전략메가트론의 병렬 처리 전략은 vLLM과 다를 수 있습니다. 메가트론의 여러 노드에 분산된 훈련 가중치는 vLLM과 공유하기 어려울 수 있습니다.
- 유휴 GPU 리소스 최소화온라인 정책 RL의 경우, 최근 작업(예: SGLang(L. Zheng 외. 2024) 및 VLLM)은 훈련 중에 일부 GPU를 예약할 수 있으며, 이는 결과적으로 유휴 훈련 GPU로 이어질 수 있습니다. 훈련과 추론 간에 동일한 장치를 공유하는 것이 더 효율적입니다.
- 동적 확장성학습 프로세스를 일정하게 유지하면서 추론 노드 수를 늘리면 상당한 속도 향상을 달성할 수 있는 경우도 있습니다. 저희 시스템은 필요한 수의 여유 GPU 노드를 효율적으로 활용할 수 있습니다.
그림 4에서 볼 수 있듯이, 저희는 이 하이브리드 배포 프레임워크를 Megatron과 vLLM(섹션 2.6.3) 위에 구현하여 훈련에서 추론 단계까지 1분 이내에, 그 반대는 약 10초 이내에 완료했습니다.
하이브리드 배포 전략 우리는 단일 포드에서 두 워크로드를 병치하기 위해 사용 가능한 모든 GPU를 공유하기 위해 Kubernetes 사이드카 컨테이너를 활용하는 교육 및 추론 작업을 위한 하이브리드 배포 전략을 제안합니다. 이 전략의 주요 이점은 다음과 같습니다:
- 이는 효율적인 리소스 공유 및 관리를 용이하게 하고 추론 노드를 기다리는 동안 트레이닝 노드가 유휴 상태가 되는 것을 방지합니다(둘 다 별도의 노드에 배포된 경우).
- 다양한 배포 이미지를 사용하여 학습과 추론을 독립적으로 반복하여 성능을 향상시킬 수 있습니다.
- 이 아키텍처는 vLLM에만 국한되지 않으며 다른 프레임워크도 쉽게 통합할 수 있습니다.
체크포인트 엔진 체크포인팅 엔진은 vLLM 프로세스의 수명 주기를 관리하고 vLLM에서 다양한 작업을 트리거하는 HTTP API를 노출하는 역할을 담당합니다. 전반적인 일관성과 안정성을 보장하기 위해 etcd 서비스에서 관리하는 글로벌 메타데이터 시스템을 사용하여 작업 및 상태를 브로드캐스트합니다.
vLLM을 제거하면 주로 CUDA 그래프, NCCL 버퍼 및 NVIDIA 드라이버로 인해 GPU 메모리를 완전히 확보하기 어려울 수 있습니다. vLLM의 수정을 최소화하기 위해 필요할 때 종료했다가 다시 시작하여 GPU 사용률과 내결함성을 개선합니다.
Megatron의 해결 방법은 소유한 체크포인트를 공유 메모리에서 허깅 페이스 형식으로 변환하는 것입니다. 이 변환은 파이프라인 병렬 처리와 전문가 병렬 처리도 고려하여 이러한 체크포인트에서 텐서 병렬 처리만 유지되도록 합니다. 그런 다음 공유 메모리의 체크포인트는 조각화되어 글로벌 메타데이터 시스템에 등록됩니다. 문케이크는 RDMA를 통해 피어 노드 간에 체크포인트를 전송하는 데 사용됩니다. 가중치 파일을 로드하고 텐서 병렬 변환을 수행하려면 vLLM을 일부 수정해야 합니다.
샌드박스는 코드 실행 및 코드 벤치마킹에 최적화된 사용자가 제출한 코드를 실행할 수 있는 안전한 환경으로 개발되었습니다. 컨테이너 이미지를 동적으로 전환함으로써 이 샌드박스는 MultiPL-E(Cassano, Gouwar, D. Nguyen, S. Nguyen 등 2023), DMOJ Judge Server², Lean, Jupyter Notebook 및 기타 이미지를 통해 다양한 사용 사례를 지원합니다.
코딩 작업의 RL을 위해 샌드박스는 일관되고 반복 가능한 평가 메커니즘을 제공함으로써 학습 데이터 판단의 신뢰성을 보장합니다. 피드백 시스템은 코드 실행 피드백 및 리포지토리 수준 편집과 같은 다단계 평가를 지원하는 동시에 프로그래밍 언어 간에 공정하고 편견 없는 벤치마크 비교를 보장하기 위해 일관된 컨텍스트를 유지합니다.
확장성과 탄력성을 위해 Kubernetes에 서비스를 배포하여 외부 통합을 위해 HTTP 엔드포인트를 통해 노출했으며, 자동 재시작 및 롤링 업데이트와 같은 Kubernetes 기능으로 가용성과 내결함성을 보장합니다.
성능을 최적화하고 RL 환경을 지원하기 위해 효율성과 속도, 안정성을 개선하기 위해 여러 기술을 코드 실행 서비스에 통합했습니다. 여기에는 다음이 포함됩니다:
- 크런 사용컨테이너 런타임으로 Docker 대신 크런을 사용하여 컨테이너 시작 시간을 크게 단축합니다.
- C그룹 재사용컨테이너에서 사용할 cgroup을 미리 생성하는데, 이는 각 컨테이너에 대한 cgroup 생성 및 소멸이 병목 현상이 발생할 수 있는 동시 접속이 많은 시나리오에서 매우 중요한 기능입니다.
- 디스크 사용량 최적화디스크 쓰기를 제어하기 위해 tmpfs로 마운트된 오버레이 파일 시스템을 사용하여 고정 크기의 고속 저장 공간을 제공합니다. 이 접근 방식은 일시적인 워크로드에 적합합니다.

이러한 최적화를 통해 코드 실행 시 RL의 효율성이 향상되어 반복 학습 및 모델 개선에 필수적인 RL 생성 코드를 평가할 수 있는 일관되고 안정적인 환경을 제공합니다.
3 실험
3.1 평가
k1.5는 멀티모달 모델이기 때문에 다양한 벤치마크 테스트에서 다양한 모드를 종합적으로 평가했습니다. 자세한 평가 설정은 부록 C에서 확인할 수 있습니다. 벤치마크 테스트는 다음 세 가지 주요 범주로 구성됩니다:
- 텍스트 벤치마킹MMLU(헨드릭스 외, 2020), IF-Eval(저우 J. 외, 2023), CLUEWSC(쉬 L. 외, 2020), C-EVAL(황 Y. 외, 2023).
- 추론 벤치마킹휴먼에벌-멀, 라이브코드벤치(Jain 외. 2024), 코드포스, AIME 2024, MATH-500(Lightman 외. 2023)
- 시각적 벤치마킹MMMU(Yue, Ni 외 2024년), MATH-Vision(K. Wang 외 2024년), MathVista(Lu 외 2023년).
3.2 주요 결과
K1.5 롱코트 모델 Kimi k1.5 long-CoT 모델의 성능은 표 2에 나와 있습니다. 모델의 장기 추론 능력은 긴-CoT 감독 미세 조정(2.2절에서 설명)과 시각 텍스트의 공동 강화 학습(2.3절에서 설명)을 통해 크게 향상됩니다. 테스트 시간 계산 확장은 모델의 성능을 더욱 향상시켜 다양한 양식에서 최첨단 결과를 얻을 수 있게 해줍니다. 평가 결과, 확장된 맥락에서 정보를 추론, 이해, 종합하는 모델의 능력이 크게 향상되어 멀티모달 AI 기능의 진보를 보여줬습니다.
K1.5 쇼트-CoT 모델 Kimi k1.5 short-CoT 모델의 성능은 표 3에 나와 있습니다. 이 모델은 기존의 감독 미세 조정(2.5.2절에서 설명), 강화 학습(2.3절에서 살펴봄), 장단기 개선(2.4절에서 설명) 등 다양한 기법을 통합합니다. 그 결과, k1.5 short-CoT 모델은 주요 오픈 소스 및 독점 모델에 비해 여러 작업에서 경쟁력이 있거나 우수한 성능을 제공하는 것으로 나타났습니다. 여기에는 텍스트, 시각 및 추론 과제가 포함되며, 자연어 이해, 수학, 코딩 및 논리적 추론에서 상당한 이점이 있습니다.

표 2: Kimi k1.5 long-CoT와 플래그십 오픈 소스 및 독점 모델의 성능.

표 3: Kimi k1.5 short-CoT 및 플래그십 오픈 소스 및 독점 모델의 성능.VLM 모델의 성능은 OpenCompass 벤치마킹 플랫폼(https://opencompass.org.cn/)에서 얻었습니다.
3.3 긴 컨텍스트 확장
중간 크기의 모델을 사용하여 LLM을 통한 RL의 확장된 속성을 조사합니다. 그림 5는 수학적 단서 집합에서 훈련된 소형 모델 변형에 대한 훈련 반복에 따른 훈련 정확도와 응답 길이의 변화를 보여줍니다. 훈련이 진행됨에 따라 응답 길이와 성능 정확도가 동시에 증가하는 것을 관찰할 수 있습니다. 특히 응답 길이는 더 까다로운 벤치마크 테스트에서 더 빠르게 증가하는데, 이는 모델이 복잡한 문제에 대해 더 자세한 솔루션을 생성하는 방법을 학습하고 있음을 시사합니다. 그림 6은 모델의 출력 컨텍스트 길이와 문제 해결 능력 사이에 강한 상관관계가 있음을 보여줍니다. k1.5의 최종 실행에서는 컨텍스트 길이를 128k로 확장하고 하드 추론 벤치마크 테스트에서 지속적인 개선을 관찰했습니다.

그림 5: 훈련 반복 횟수가 증가함에 따른 훈련 정확도 및 길이의 변화. 위의 점수는 k1.5 long-CoT 모델보다 훨씬 작은 모델 크기를 가진 내부 long-cot 모델에서 얻은 점수입니다. 음영 처리된 영역은 응답 길이의 95번째 백분위수를 나타냅니다.
3.4 롱2쇼트
제안된 long2short RL 알고리즘을 2.4절에서 소개한 DPO, 최단거부 샘플링, 모델 병합 방법과 비교하며, 특히 long2short 문제의 토큰 효율성(X. Chen et al., 2024)에 중점을 두고, 얻은 long-cot 모델이 short 모델에 도움이 되도록 하는 방법에 대해 살펴봅니다. 그림 7에서 k1.5-long은 long2short 훈련을 위해 선택한 롱코트 모델을 나타냅니다. k1.5-short w/ rl은 long2short RL 훈련을 사용하여 얻은 쇼트 모델을 나타냅니다. k1.5-short w/ dpo는 DPO 훈련을 통해 토큰 효율성을 개선하도록 훈련된 쇼트 모델을 나타냅니다. k1.5-short w/ merge는 모델 병합을 나타냅니다. k1.5-short w/ merge는 모델 병합을 나타냅니다. 단기 w/ 병합은 모델 병합 후 모델을 나타내고, k1.5-short w/ 병합 + rs는 병합된 모델에 최단 거부 샘플링을 적용하여 얻은 단기 모델을 나타냅니다. k1.5-shortest는 long2short 훈련 중에 얻은 최단 모델을 나타냅니다. 그림 7에서 볼 수 있듯이 제안한 long2short RL 알고리즘은 DPO 및 모델 병합과 같은 다른 방법에 비해 가장 높은 토큰 효율성을 나타냅니다. k1.5 제품군의 모든 모델(주황색으로 표시)이 다른 모델(파란색으로 표시)보다 더 나은 토큰 효율성을 보인다는 점에 주목할 필요가 있습니다. 예를 들어, k1.5-short w/ rl은 평균 3,272개의 토큰만 사용하면서 AIME2024(평균 8회 실행)에서 60.8의 Pass@1 점수를 달성했습니다. k1.5-shortest는 다른 숏 모델과 거의 동일한 수의 토큰을 사용하면서 MATH500에서 88.2의 Pass@1 점수를 달성했습니다. 모델과 거의 동일한 수의 토큰을 소비합니다.

그림 6: 응답 길이가 길어질수록 모델 성능 향상

그림 7: 롱투쇼트 성능. 모든 k1.5 제품군은 다른 모델보다 더 나은 토큰 효율성을 보여줍니다.
3.5 절제 연구
모델 크기 및 컨텍스트 길이 확장 우리의 주요 기여는 RL을 적용하여 모델의 확장된 CoT 생성 능력을 향상시키고 추론을 개선하는 것입니다. 자연스러운 질문은 이것이 단순히 모델 크기를 늘리는 것과 어떻게 비교될까요? 접근 방식의 효과를 입증하기 위해 동일한 데이터 세트를 사용하여 크기가 다른 두 모델을 훈련하고 RL 훈련 중 모든 체크포인트에서 평가 결과와 평균 추론 길이를 기록했습니다. 이러한 결과는 그림 8에 나와 있습니다. 처음에는 더 큰 모델이 더 작은 모델보다 성능이 뛰어나지만, RL에 의해 최적화된 더 긴 CoT를 활용하면 작은 모델도 비슷한 성능을 달성할 수 있다는 점에 주목할 필요가 있습니다. 그러나 일반적으로 더 큰 모델이 더 작은 모델보다 토큰 효율성이 더 좋습니다. 이는 또한 최상의 성능을 얻는 것이 목표라면 더 큰 모델의 컨텍스트 길이를 확장하는 것이 상한선이 더 높고 토큰 효율이 더 높다는 것을 시사합니다. 그러나 테스트 시점에 계산 예산이 책정되어 있다면 더 긴 컨텍스트 길이로 더 작은 모델을 훈련하는 것이 실행 가능한 해결책이 될 수 있습니다.
음수 그라데이션 사용의 효과 저희 설정에서 정책 최적화 알고리즘으로 ReST(Gulcehre et al., 2023)를 사용하는 효과를 조사했습니다. ReST와 저희를 포함한 다른 RL 기반 방법의 주요 차이점은 ReST는 잘못된 응답에 불이익을 주는 음의 기울기를 적용하지 않고 현재 모델에서 샘플링한 최상의 응답을 맞춤으로써 모델을 반복적으로 개선한다는 점입니다. 그림 10에서 볼 수 있듯이, 우리의 방법은 ReST에 비해 더 높은 샘플 복잡도를 나타내며, 이는 음의 기울기를 통합하면 긴-CoT를 생성하는 모델의 효율성이 크게 향상됨을 시사합니다. 우리의 접근 방식은 추론 품질을 향상시킬 뿐만 아니라 훈련 프로세스를 최적화하여 더 적은 훈련 샘플을 사용하여 강력한 성능을 제공합니다. 이 결과는 ReST와 다른 RL 기반 방법 간의 성능 격차가 다른 영역에서는 (Gulcehre 외. 2023)에서처럼 두드러지지 않기 때문에 전략 최적화 알고리즘의 선택이 우리 환경에서 매우 중요하다는 것을 시사합니다. 따라서 우리의 결과는 롱-CoT 생성의 효율성을 극대화하기 위해 적절한 최적화 전략을 선택하는 것이 중요하다는 것을 강조합니다.
샘플링 전략 2.3.4절에서 소개한 코스 샘플링 전략의 효과를 추가로 입증합니다. 훈련 데이터 세트 D에는 다양한 난이도의 문제가 포함되어 있습니다. 코스 샘플링 접근 방식에서는 처음에 워밍업 단계에 D를 사용한 다음 어려운 문제에만 집중하여 모델을 훈련합니다. 이 방법은 코스 튜닝 없이 획일적인 샘플링 전략을 사용하는 기준 방법과 비교됩니다. 그림 9에서 볼 수 있듯이 제안된 코스 샘플링 접근 방식이 성능을 크게 향상시킨다는 것을 분명히 알 수 있습니다. 이러한 개선은 이 방법이 점진적으로 모델에 도전하여 복잡한 문제를 더 잘 이해하고 처리할 수 있는 능력을 키울 수 있기 때문일 수 있습니다. 초기 일반화 이후 더 어려운 문제에 훈련 노력을 집중함으로써 모델은 추론과 문제 해결 능력을 더욱 강화할 수 있습니다.

그림 8: 모델 크기별 모델 성능과 응답 길이 비교

그림 9: 모델 성과에 대한 코스 학습 접근 방식 분석.
4 결론
RL을 사용하여 훈련된 최신 멀티모달 LLM인 k1.5의 훈련 레시피와 시스템 설계를 소개합니다. 실무에서 얻은 주요 인사이트 중 하나는 컨텍스트 길이 확장이 LLM의 지속적인 개선에 매우 중요하다는 것입니다. 유니티는 최적화된 학습 알고리즘과 부분 롤아웃과 같은 인프라 최적화를 통해 효율적인 긴 컨텍스트 RL 학습을 달성합니다. 긴 문맥 RL 학습의 효율성과 확장성을 더욱 개선하는 방법은 여전히 중요한 과제로 남아 있습니다.

그림 10: ReST를 사용한 정책 최적화 비교.
정책 최적화를 개선할 수 있도록 여러 기술을 결합한 것도 또 다른 기여입니다. 특히, 강력한 최적화를 위해 LLM을 사용해 롱코트 RL을 공식화하고 온라인 미러 하강 변형을 도출했습니다. 또한 강력한 RL 성능을 달성하기 위해 샘플링 전략, 길이 페널티, 최적의 데이터 공식화 등을 실험했습니다.
더 정교한 기법(예: 몬테카를로 트리 탐색, 가치 함수 및 프로세스 보상 모델)을 사용하지 않더라도 긴 컨텍스트 확장과 향상된 정책 최적화를 통해 강력한 성능을 달성할 수 있음을 보여줍니다. 앞으로는 모델의 탐색 기능을 손상시키지 않으면서도 신용 할당을 개선하고 과도한 생각을 줄이는 방법을 연구하는 것도 흥미로울 것입니다.
또한 롱투쇼트 방법의 잠재력도 관찰했습니다. 이러한 방법은 짧은-CoT 모델의 성능을 크게 향상시킵니다. 또한, long2short 메서드는 long-CoT RL과 반복적인 방식으로 결합하여 토큰 효율성을 더욱 개선하고 주어진 컨텍스트 길이 예산에서 최상의 성능을 추출할 수 있습니다.
© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...