Репликация DeepSeek-R1: 8K математических примеров помогают маленьким моделям достичь прорыва в выводах благодаря обучению с подкреплением

Новости ИИОпубликовано 7 месяцев назад Круг обмена ИИ
8.3K 00

Github. https://github.com/hkust-nlp/simpleRL-reason

 

вводная

复现DeepSeek-R1:8K数学示例助力小型模型通过强化学习实现推理突破

Динамические вариации обучения Qwen2.5-SimpleRL-Zero, начиная с базовой модели Qwen2.5-Math-7B, без выполнения SFT или использования модели вознаграждения. Средняя точность и длина эталона основаны на 8 сложных эталонах математического мышления. Мы наблюдали сокращение длины на начальном этапе, так как обнаружили, что базовая модель Qwen2.5-Math-7B склонна генерировать в ответе и язык, и код, что приводит к длинному результату. Этот шаблон по умолчанию был быстро подавлен во время RL, где модель научилась выдавать ответы в более подходящем формате, и затем длина стала регулярно увеличиваться. После нескольких шагов обучения мы также испытали то, что в документе DeepSeek-R1 описывается как "момент прозрения" - саморефлексия в ответе модели.

 

Многие исследователи изучают возможные пути обучения моделей о-типа, такие как дистилляция, MCTS, модели вознаграждения на основе процессов и обучение с подкреплением. Недавно.DeepSeek-R1ответить пениемКими-к1.5На пути к этой цели был продемонстрирован чрезвычайно простой рецепт использования простых алгоритмов RL для обучения эмерджентным паттернам длительного цепного мышления (CoT) и саморефлексии с высокими результатами, без использования MCTS и моделей вознаграждения. Однако их эксперименты были основаны на огромных моделях в крупномасштабной RL-установке. Неясно, смогут ли меньшие модели продемонстрировать подобное поведение, сколько данных потребуется и как количественные результаты будут сопоставимы с другими методами. В этом блоге мы воспроизводим обучение DeepSeek-R1-Zero и DeepSeek-R1 сложным математическим рассуждениям, начиная с Qwen-2.5-Math-7B (базовая модель) и используя только 8K (запрос, конечный ответ) примеров из оригинального набора данных MATH для RL с моделированием вознаграждения на основе правил. Мы были удивлены, обнаружив, что использование только 8K MATH может поднять эту базовую модель 7B до такой степени без каких-либо других внешних сигналов:

Все результаты являются точными

AIME 2024MATH 500AMCМатематика МинервыOlympiadBenchAvg.
Qwen2.5-Math-7B-Base16.752.452.512.916.430.2
Qwen2.5-Math-7B-Base + 8K MATH SFT3.354.622.532.719.626.5
Qwen-2.5-Math-7B-Instruct13.379.850.634.640.743.8
Llama-3.1-70B-Instruct16.764.630.135.331.935.7
rStar-Math-7B26.778.447.5-47.1-
Eurus-2-7B-PRIME26.779.257.838.642.148.9
Qwen2.5-7B-SimpleRL-Zero33.377.262.533.537.648.8
Qwen2.5-7B-SimpleRL26.782.462.539.743.350.9

Qwen2.5-7B-SimpleRL-Zero - это простое обучение RL непосредственно из базовой модели, используя всего 8K примеров MATH. В среднем он достигает почти 20 абсолютных пунктов прироста по сравнению с базовой моделью. По сравнению с Qwen2.5-Math-7B-Base, использующей те же 8K SFT данных, RL обладает лучшей способностью к обобщению, которая на 22% выше в абсолютном выражении. Кроме того, Qwen2.5-7B-SimpleRL-Zero превосходит Qwen-2.5-Math-7B-Instruct в среднем, и выгодно отличается от недавно выпущеннойEurus-2-7B-PRIMEответить пениемrStar-Math-7B(Они также основаны на Qwen-2.5-Math-7B) примерно эквивалентны. Эти базовые версии содержат более сложные компоненты, такие как модели вознаграждения, и используют как минимум в 50 раз больше расширенных данных:

Сравнительные данные по различным методам

Qwen2.5-Math-7B-InstructrStar-Math-7BEurus-2-7B-PRIMEQwen2.5-7B-SimpleRL-Zero
Базовая модельQwen2.5-Math-7BQwen2.5-Math-7BQwen2.5-Math-7BQwen2.5-Math-7B
Данные SFT2,5 млн (с открытым исходным кодом и собственными силами)~7.3 M (MATH, NuminaMath и др.)230K0
RM Data618K (собственными силами)~7 k (в доме)00
RMQwen2.5-Math-RM (72B)НетEurus-2-7B-SFTНет
Данные RL66K запросов × 32 выборки~3.647 M × 16150K запросов × 4 выборки8K запросов × 8 образцов

Мы и рады, и удивлены значительным ростом, достигнутым при использовании всего 8K примеров MATH. Примечательно, что **не смотря на то, что запросы MATH намного проще, чем многие сложные бенчмарки, такие как AIME и AMC, эта простая формулировка RL демонстрирует значительную обобщающую способность, улучшая производительность по крайней мере на 10 абсолютных пунктов по сравнению с базовой моделью. **Мы не смогли бы предугадать этот простой эффект обобщения, если бы провели стандартное обучение SFT на том же наборе данных. Мы полностью выложили в открытый доступ наш обучающий код и детали в надежде, что он послужит мощной базовой средой для дальнейшего изучения потенциала RL для выводов.

Далее мы подробно расскажем о нашей установке и о том, что происходит в процессе обучения RL, например о длительном CoT и появлении паттернов саморефлексии.

 

Простой рецепт RL

Как и в DeepSeek R1, наша формулировка RL очень проста и не использует модели вознаграждения или техники, подобные MCTS. Мы используем алгоритм PPO с функцией вознаграждения на основе правил, которая назначает вознаграждение в зависимости от формата и правильности сгенерированных ответов:

  • Если ответ содержит окончательный ответ в указанном формате и является правильным, начисляется бонус +1.
  • Если ответ содержит окончательный ответ, но является неправильным, награда будет равна -0,5.
  • Если ответ не дает окончательного ответа, награда устанавливается в -1.

Реализация основана наOpenRLHF. Наши предварительные эксперименты показывают, что эта функция вознаграждения помогает модели стратегии быстро сходиться и генерировать ответы в желаемом формате.

 

Экспериментальная установка

В наших экспериментах мы учились наQwen2.5-Math-7B-BaseМодели были запущены и оценены на сложных эталонах математического мышления, включая AIME2024, AMC23, GSM8K, MATH-500, Minerva Math и OlympiadBench. Для обучения было использовано около 8 000 запросов из обучающей базы данных MATH на уровнях сложности 3-5. Мы провели эксперименты со следующими двумя настройками DeepSeek-R1-Zero и DeepSeek-R1, соответственно:

  • SimpleRL-Zero: Мы выполняем RL непосредственно из базовой модели, не выполняя сначала SFT. Мы используем только 8K пар MATH (запрос, ответ).
  • SimpleRL: Сначала мы выполняем SFT с длинной цепочкой мыслей в качестве холодного старта. Данные SFT - это 8K MATH-запросов с ответами, отобранными из QwQ-32B-Preview. Затем мы используем те же 8K MATH-примеров для нашей формулировки RL.

 

Часть I: SimpleRL-Zero - Интенсивное обучение с нуля

Во введении мы рассказали об основных результатах SimpleRL-Zero, который превосходит Qwen2.5-Math-7B-Instruct и достигает результатов, сравнимых с PRIME и rStar-Math, несмотря на то, что использует всего 8K примеров MATH. Ниже мы расскажем о динамике обучения и некоторых интересных закономерностях.

Динамика обучения

Стимулы к обучению и длина разворачивающейся реакции

复现DeepSeek-R1:8K数学示例助力小型模型通过强化学习实现推理突破

Оценка точности (pass@1) и длины ответа на 8 эталонах

复现DeepSeek-R1:8K数学示例助力小型模型通过强化学习实现推理突破

 

Как показано на рисунке выше, точность во всех бенчмарках неуклонно растет в процессе обучения, в то время как длина сначала уменьшается, а затем постепенно увеличивается. При дальнейшем исследовании мы обнаружили, что базовая модель Qwen2.5-Math-7B имеет тенденцию генерировать большое количество кода в начале, что может быть связано с исходным распределением обучающих данных модели. Мы обнаружили, что сначала длина уменьшается, потому что обучение RL постепенно устраняет этот шаблон и учит рассуждать на обычном языке. Затем длина генерации снова начинает увеличиваться, и появляется паттерн саморефлексии, как показано в следующем примере.

Появление саморефлексии

Примерно на 40-м шаге мы обнаруживаем, что модель начинает генерировать саморефлексивные паттерны - "моменты прозрения" из статьи DeepSeek-R1. Ниже мы приводим пример.

复现DeepSeek-R1:8K数学示例助力小型模型通过强化学习实现推理突破

 

Часть II: SimpleRL - Интенсивное обучение с имитационными разминочными упражнениями

Как упоминалось ранее, перед переходом к RL мы разогрели SFT с длительным цепным мышлением; набор данных SFT состоял из 8K примеров MATH с ответами, отобранными из QwQ-32B-Preview. Потенциальное преимущество такого "холодного старта" заключается в том, что модель начинает работать в режиме длительного цепного мышления и уже является саморефлексивной, а значит, она может быстрее и лучше обучаться на этапе RL.

Основные результаты

AIME 2024MATH 500AMCМатематика МинервыOlympiadBenchAvg.
Qwen2.5-Math-7B-Base16.752.452.512.916.430.2
Qwen2.5-Math-7B-Base + 8K QwQ дистилляция16.776.655.034.936.944.0
Eurus-2-7B-PRIME26.779.257.838.642.148.9
Qwen2.5-7B-SimpleRL-Zero36.777.462.534.237.549.7
Qwen2.5-7B-SimpleRL26.782.462.539.743.350.9

По сравнению с Qwen2.5-Math-7B-Base + 8K QwQ дистилляция, модель улучшила Qwen2.5-7B-SimpleRL в среднем на 6.91 TP3T в абсолютном выражении до обучения RL. Более того, Qwen2.5-7B-SimpleRL превосходит Eurus-2-7B-PRIME в 3 из 5 бенчмарков и превосходит Qwen2.5-7B-SimpleRL-Zero. Несмотря на хорошие результаты, мы немного удивлены тем, что этап дистилляции QwQ не дал большего прироста, чем нулевая настройка, учитывая, что QwQ - это 32B мощная модель учителя с длинной цепью мышления.

Динамика обучения

Стимулы к обучению и длина разворачивающейся реакции

复现DeepSeek-R1:8K数学示例助力小型模型通过强化学习实现推理突破

состояние подготовки

 

Оценка точности (pass@1) и длины ответа на 8 эталонах

复现DeepSeek-R1:8K数学示例助力小型模型通过强化学习实现推理突破

 

Динамика обучения Qwen2.5-SimpleRL похожа на Qwen2.5-SimpleRL-Zero. Интересно, что мы все еще наблюдаем сокращение длины в начале RL, несмотря на наш продвинутый SFT с длительным цепным мышлением. Мы подозреваем, что это связано с тем, что дистиллированный шаблон вывода QwQ не нравится моделям малых стратегий или превышает их возможности. В результате она учится отказываться от нее и самостоятельно разрабатывает новые длинные рассуждения.

 

заключительные замечания

Простота - это высшая сложность.
- Леонардо да Винчи (1452-1519), итальянский художник эпохи Возрождения

 

Благодарности и цитаты

Реализованный нами алгоритм обучения с подкреплением основан наOpenRLHFРасширенная версия. Мы используемvLLMВыполняет умозаключения и разрабатывает алгоритм на основеQwen2.5-Mathоценочных скриптов. В частности, мы благодарим разработчиков DeepSeek-R1 и Kimi-k1.5 за их инновации и вклад в сообщество открытого кода.

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...