Github. https://github.com/hkust-nlp/simpleRL-reason
introdutório
Variações dinâmicas do treinamento Qwen2.5-SimpleRL-Zero a partir do modelo básico Qwen2.5-Math-7B, sem executar SFT ou usar o modelo de recompensa. A precisão e o comprimento médios do benchmark são baseados em 8 benchmarks de raciocínio matemático complexo. Observamos uma redução no comprimento durante a fase inicial, pois descobrimos que o modelo básico Qwen2.5-Math-7B tende a gerar linguagem e código na resposta, resultando em uma saída longa. Esse padrão foi rapidamente suprimido durante a RL, quando o modelo aprendeu a produzir em um formato mais apropriado, e então o comprimento começou a aumentar regularmente. Depois de apenas algumas etapas de treinamento, também experimentamos o que o artigo do DeepSeek-R1 descreve como um "momento de epifania" - uma autorreflexão na resposta do modelo.
Muitos pesquisadores estão explorando possíveis caminhos para aprender modelos do tipo O, como destilação, MCTS, modelos de recompensa baseados em processos e aprendizado por reforço. Recentemente.DeepSeek-R1responder cantandoKimi-k1.5No caminho para atingir esse objetivo, demonstraram uma receita extremamente simples para usar um algoritmo simples de RL para aprender padrões emergentes de pensamento encadeado prolongado (CoT) e autorreflexão com resultados sólidos, sem usar MCTS e modelos de recompensa. No entanto, seus experimentos foram baseados em modelos enormes em uma configuração de RL em grande escala. Não está claro se modelos menores seriam capazes de mostrar um comportamento semelhante, quantos dados seriam necessários e como os resultados quantitativos se comparariam a outros métodos. Este blog replica o treinamento do DeepSeek-R1-Zero e do DeepSeek-R1 em raciocínio matemático complexo, começando com o Qwen-2.5-Math-7B (o modelo básico) e usando apenas 8K (consulta, resposta final) exemplos do conjunto de dados MATH original para RL com modelagem de recompensa baseada em regras. Ficamos surpresos ao descobrir que o uso de apenas 8K de exemplos MATH pode elevar esse modelo básico 7B a tal ponto, sem nenhum outro sinal externo:
Todos os resultados são precisos e pass@1
AIME 2024 | MATH 500 | AMC | Minerva Matemática | Banco de Olimpíadas | Média. | |
---|---|---|---|---|---|---|
Qwen2.5-Math-7B-Base | 16.7 | 52.4 | 52.5 | 12.9 | 16.4 | 30.2 |
Qwen2.5-Math-7B-Base + 8K MATH SFT | 3.3 | 54.6 | 22.5 | 32.7 | 19.6 | 26.5 |
Qwen-2.5-Math-7B-Instruct | 13.3 | 79.8 | 50.6 | 34.6 | 40.7 | 43.8 |
Llama-3.1-70B-Instruct | 16.7 | 64.6 | 30.1 | 35.3 | 31.9 | 35.7 |
rStar-Math-7B | 26.7 | 78.4 | 47.5 | - | 47.1 | - |
Eurus-2-7B-PRIME | 26.7 | 79.2 | 57.8 | 38.6 | 42.1 | 48.9 |
Qwen2.5-7B-SimpleRL-Zero | 33.3 | 77.2 | 62.5 | 33.5 | 37.6 | 48.8 |
Qwen2.5-7B-SimpleRL | 26.7 | 82.4 | 62.5 | 39.7 | 43.3 | 50.9 |
O Qwen2.5-7B-SimpleRL-Zero é um treinamento simples de RL diretamente do modelo básico, usando apenas 8 mil exemplos MATH. Ele atinge quase 20 pontos absolutos de crescimento em média em comparação com o modelo básico. Em comparação com o Qwen2.5-Math-7B-Base, que usa os mesmos SFTs de dados de 8K, a RL tem uma capacidade de generalização melhor, que é 22% maior em termos absolutos. Além disso, o Qwen2.5-7B-SimpleRL-Zero supera o Qwen-2.5-Math-7B-Instruct em média e se compara favoravelmente com o recém-lançadoEurus-2-7B-PRIMEresponder cantandorStar-Math-7B(Eles também são baseados no Qwen-2.5-Math-7B) são praticamente equivalentes. Essas linhas de base contêm componentes mais complexos, como modelos de recompensa, e usam pelo menos 50 vezes mais dados avançados:
Dados comparativos sobre diferentes métodos
Qwen2.5-Math-7B-Instruct | rStar-Math-7B | Eurus-2-7B-PRIME | Qwen2.5-7B-SimpleRL-Zero | |
---|---|---|---|---|
Modelo básico | Qwen2.5-Math-7B | Qwen2.5-Math-7B | Qwen2.5-Math-7B | Qwen2.5-Math-7B |
Dados SFT | 2,5 milhões (código aberto e interno) | ~7,3 M (MATH, NuminaMath, etc.) | 230K | 0 |
Dados RM | 618K (internamente) | ~7 k (interno) | 0 | 0 |
RM | Qwen2.5-Math-RM (72B) | Nenhum | Eurus-2-7B-SFT | Nenhum |
Dados de RL | 66 mil consultas × 32 amostras | ~3.647 M × 16 | 150 mil consultas × 4 amostras | 8K consultas × 8 amostras |
Estamos entusiasmados e surpresos com o crescimento significativo obtido usando apenas 8 mil exemplos MATH. Notavelmente, **embora as consultas MATH sejam muito mais fáceis de executar do que muitos benchmarks desafiadores, como AIME e AMC, essa formulação simples de RL demonstra um poder de generalização significativo, melhorando o desempenho em pelo menos 10 pontos absolutos em comparação com o modelo básico. **Esse efeito de generalização fácil de seguir é algo que não poderíamos ter previsto ao realizar o treinamento padrão de SFT no mesmo conjunto de dados. Abrimos totalmente o código de treinamento e os detalhes na esperança de que ele sirva como uma poderosa configuração de linha de base para que a comunidade explore ainda mais o potencial da RL para inferência.
Em seguida, vamos nos aprofundar nos detalhes de nossa configuração e no que acontece durante esse processo de treinamento de RL, como o longo CoT e o surgimento de padrões de autorreflexão.
Receita simples de RL
Semelhante ao DeepSeek R1, nossa formulação de RL é muito simples e não usa modelos de recompensa ou técnicas do tipo MCTS. Usamos o algoritmo PPO com uma função de recompensa baseada em regras que atribui recompensas com base no formato e na correção das respostas geradas:
- Se a resposta fornecer a resposta final no formato especificado e estiver correta, será concedido um bônus de +1.
- Se a resposta fornecer a resposta final, mas estiver incorreta, a recompensa será definida como -0,5.
- Se a resposta não fornecer uma resposta final, a recompensa será definida como -1.
A implementação é baseada emOpenRLHF. Nossos experimentos preliminares mostram que essa função de recompensa ajuda o modelo de estratégia a convergir rapidamente para gerar respostas no formato desejado.
Configuração experimental
Em nossos experimentos, aprendemos com osQwen2.5-Math-7B-BaseOs modelos foram iniciados e avaliados em benchmarks desafiadores de raciocínio matemático, incluindo AIME2024, AMC23, GSM8K, MATH-500, Minerva Math e OlympiadBench. O treinamento foi realizado usando aproximadamente 8.000 consultas do conjunto de dados de treinamento MATH nos níveis de dificuldade 3-5. Realizamos experimentos com as duas configurações a seguir, de acordo com DeepSeek-R1-Zero e DeepSeek-R1, respectivamente:
- SimpleRL-ZeroRL: Executamos a RL diretamente do modelo básico sem executar o SFT primeiro. Usamos apenas 8K pares MATH (consulta, resposta).
- SimpleRLOs dados do SFT são consultas MATH de 8K com respostas destiladas do QwQ-32B-Preview. Em seguida, usamos os mesmos 8 mil exemplos de MATH para nossa formulação de RL.
Parte I: SimpleRL-Zero - Aprendizado intensivo do zero
Na seção de introdução, relatamos os principais resultados do SimpleRL-Zero, que supera o Qwen2.5-Math-7B-Instruct e alcança resultados comparáveis com o PRIME e o rStar-Math, apesar de usar apenas 8 mil exemplos de MATH. A seguir, compartilhamos a dinâmica do treinamento e alguns padrões emergentes interessantes.
Dinâmica de treinamento
Incentivos de treinamento e duração da resposta de desdobramento
Avaliação da precisão (pass@1) e do comprimento da resposta em 8 benchmarks
Conforme mostrado na figura acima, a precisão em todos os benchmarks aumenta constantemente durante o treinamento, enquanto o comprimento primeiro diminui e depois aumenta gradualmente. Após uma investigação mais aprofundada, descobrimos que o modelo básico Qwen2.5-Math-7B tende a gerar uma grande quantidade de código no início, o que pode ser devido à distribuição original dos dados de treinamento do modelo. Descobrimos que o comprimento diminui primeiro porque o treinamento de RL elimina gradualmente esse padrão e aprende a raciocinar em linguagem comum. Depois disso, o comprimento da geração começa a aumentar novamente e o padrão autorreflexivo começa a surgir, conforme mostrado no exemplo a seguir.
O surgimento da autorreflexão
Aproximadamente na etapa 40, descobrimos que o modelo começa a gerar padrões de autorreflexão, os "momentos de epifania" do artigo DeepSeek-R1. Mostramos um exemplo abaixo.
Parte II: SimpleRL - Aprendizado intensivo com exercícios de aquecimento imitativos
Conforme mencionado anteriormente, fizemos um aquecimento com um SFT de pensamento em cadeia de longa duração antes de prosseguir para a RL; o conjunto de dados do SFT foi de 8 mil exemplos de MATH com respostas destiladas do QwQ-32B-Preview. A possível vantagem desse início frio é que o modelo começa em um modo de pensamento em cadeia longo e já é autorreflexivo, podendo aprender mais rápido e melhor durante a fase de RL.
Principais resultados
AIME 2024 | MATH 500 | AMC | Minerva Matemática | Banco de Olimpíadas | Média. | |
---|---|---|---|---|---|---|
Qwen2.5-Math-7B-Base | 16.7 | 52.4 | 52.5 | 12.9 | 16.4 | 30.2 |
Qwen2.5-Math-7B-Base + 8K QwQ destilação | 16.7 | 76.6 | 55.0 | 34.9 | 36.9 | 44.0 |
Eurus-2-7B-PRIME | 26.7 | 79.2 | 57.8 | 38.6 | 42.1 | 48.9 |
Qwen2.5-7B-SimpleRL-Zero | 36.7 | 77.4 | 62.5 | 34.2 | 37.5 | 49.7 |
Qwen2.5-7B-SimpleRL | 26.7 | 82.4 | 62.5 | 39.7 | 43.3 | 50.9 |
Em comparação com o Qwen2.5-Math-7B-Base + 8K QwQ distillation, o modelo melhorou o Qwen2.5-7B-SimpleRL em uma média de 6,91 TP3T em termos absolutos antes do treinamento de RL. Além disso, o Qwen2.5-7B-SimpleRL supera o Eurus-2-7B-PRIME em 3 dos 5 benchmarks e supera o Qwen2.5-7B-SimpleRL-Zero. Embora os resultados sejam bons, estamos um pouco surpresos com o fato de a fase de destilação do QwQ não ter produzido ganhos maiores do que a configuração zero, já que o QwQ é um modelo de professor de pensamento de cadeia longa 32B poderoso modelo de professor de pensamento de cadeia longa.
Dinâmica de treinamento
Incentivos de treinamento e duração da resposta de desdobramento
estado de treinamento
Avaliação da precisão (pass@1) e do comprimento da resposta em 8 benchmarks
A dinâmica de treinamento do Qwen2.5-SimpleRL é semelhante à do Qwen2.5-SimpleRL-Zero. É interessante notar que ainda observamos uma redução no comprimento no início da RL, apesar de nosso SFT avançado de pensamento em cadeia de longo prazo. Suspeitamos que isso se deve ao fato de que o padrão de inferência QwQ destilado não é preferido por modelos de estratégia pequenos ou excede a capacidade deles. Como resultado, ele aprende a abandoná-lo e desenvolve um novo raciocínio longo por conta própria.
observações finais
A simplicidade é a complexidade máxima.
- Leonardo da Vinci (1452-1519), pintor italiano do Renascimento
Agradecimentos e citações
O algoritmo de aprendizado por reforço que implementamos é baseado emOpenRLHFExpandido de. Usamos ovLLMRealiza inferência e desenvolve um algoritmo com base naQwen2.5-Matemáticados scripts de avaliação. Em especial, agradecemos aos desenvolvedores do DeepSeek-R1 e do Kimi-k1.5 por suas inovações e contribuições à comunidade de código aberto.