Репликация DeepSeek-R1: 8K математических примеров помогают маленьким моделям достичь прорыва в выводах благодаря обучению с подкреплением
Github. https://github.com/hkust-nlp/simpleRL-reason
вводная

Динамические вариации обучения Qwen2.5-SimpleRL-Zero, начиная с базовой модели Qwen2.5-Math-7B, без выполнения SFT или использования модели вознаграждения. Средняя точность и длина эталона основаны на 8 сложных эталонах математического мышления. Мы наблюдали сокращение длины на начальном этапе, так как обнаружили, что базовая модель Qwen2.5-Math-7B склонна генерировать в ответе и язык, и код, что приводит к длинному результату. Этот шаблон по умолчанию был быстро подавлен во время RL, где модель научилась выдавать ответы в более подходящем формате, и затем длина стала регулярно увеличиваться. После нескольких шагов обучения мы также испытали то, что в документе DeepSeek-R1 описывается как "момент прозрения" - саморефлексия в ответе модели.
Многие исследователи изучают возможные пути обучения моделей о-типа, такие как дистилляция, MCTS, модели вознаграждения на основе процессов и обучение с подкреплением. Недавно.DeepSeek-R1ответить пениемКими-к1.5На пути к этой цели был продемонстрирован чрезвычайно простой рецепт использования простых алгоритмов RL для обучения эмерджентным паттернам длительного цепного мышления (CoT) и саморефлексии с высокими результатами, без использования MCTS и моделей вознаграждения. Однако их эксперименты были основаны на огромных моделях в крупномасштабной RL-установке. Неясно, смогут ли меньшие модели продемонстрировать подобное поведение, сколько данных потребуется и как количественные результаты будут сопоставимы с другими методами. В этом блоге мы воспроизводим обучение DeepSeek-R1-Zero и DeepSeek-R1 сложным математическим рассуждениям, начиная с Qwen-2.5-Math-7B (базовая модель) и используя только 8K (запрос, конечный ответ) примеров из оригинального набора данных MATH для RL с моделированием вознаграждения на основе правил. Мы были удивлены, обнаружив, что использование только 8K MATH может поднять эту базовую модель 7B до такой степени без каких-либо других внешних сигналов:
Все результаты являются точными
AIME 2024 | MATH 500 | AMC | Математика Минервы | OlympiadBench | Avg. | |
---|---|---|---|---|---|---|
Qwen2.5-Math-7B-Base | 16.7 | 52.4 | 52.5 | 12.9 | 16.4 | 30.2 |
Qwen2.5-Math-7B-Base + 8K MATH SFT | 3.3 | 54.6 | 22.5 | 32.7 | 19.6 | 26.5 |
Qwen-2.5-Math-7B-Instruct | 13.3 | 79.8 | 50.6 | 34.6 | 40.7 | 43.8 |
Llama-3.1-70B-Instruct | 16.7 | 64.6 | 30.1 | 35.3 | 31.9 | 35.7 |
rStar-Math-7B | 26.7 | 78.4 | 47.5 | - | 47.1 | - |
Eurus-2-7B-PRIME | 26.7 | 79.2 | 57.8 | 38.6 | 42.1 | 48.9 |
Qwen2.5-7B-SimpleRL-Zero | 33.3 | 77.2 | 62.5 | 33.5 | 37.6 | 48.8 |
Qwen2.5-7B-SimpleRL | 26.7 | 82.4 | 62.5 | 39.7 | 43.3 | 50.9 |
Qwen2.5-7B-SimpleRL-Zero - это простое обучение RL непосредственно из базовой модели, используя всего 8K примеров MATH. В среднем он достигает почти 20 абсолютных пунктов прироста по сравнению с базовой моделью. По сравнению с Qwen2.5-Math-7B-Base, использующей те же 8K SFT данных, RL обладает лучшей способностью к обобщению, которая на 22% выше в абсолютном выражении. Кроме того, Qwen2.5-7B-SimpleRL-Zero превосходит Qwen-2.5-Math-7B-Instruct в среднем, и выгодно отличается от недавно выпущеннойEurus-2-7B-PRIMEответить пениемrStar-Math-7B(Они также основаны на Qwen-2.5-Math-7B) примерно эквивалентны. Эти базовые версии содержат более сложные компоненты, такие как модели вознаграждения, и используют как минимум в 50 раз больше расширенных данных:
Сравнительные данные по различным методам
Qwen2.5-Math-7B-Instruct | rStar-Math-7B | Eurus-2-7B-PRIME | Qwen2.5-7B-SimpleRL-Zero | |
---|---|---|---|---|
Базовая модель | Qwen2.5-Math-7B | Qwen2.5-Math-7B | Qwen2.5-Math-7B | Qwen2.5-Math-7B |
Данные SFT | 2,5 млн (с открытым исходным кодом и собственными силами) | ~7.3 M (MATH, NuminaMath и др.) | 230K | 0 |
RM Data | 618K (собственными силами) | ~7 k (в доме) | 0 | 0 |
RM | Qwen2.5-Math-RM (72B) | Нет | Eurus-2-7B-SFT | Нет |
Данные RL | 66K запросов × 32 выборки | ~3.647 M × 16 | 150K запросов × 4 выборки | 8K запросов × 8 образцов |
Мы и рады, и удивлены значительным ростом, достигнутым при использовании всего 8K примеров MATH. Примечательно, что **не смотря на то, что запросы MATH намного проще, чем многие сложные бенчмарки, такие как AIME и AMC, эта простая формулировка RL демонстрирует значительную обобщающую способность, улучшая производительность по крайней мере на 10 абсолютных пунктов по сравнению с базовой моделью. **Мы не смогли бы предугадать этот простой эффект обобщения, если бы провели стандартное обучение SFT на том же наборе данных. Мы полностью выложили в открытый доступ наш обучающий код и детали в надежде, что он послужит мощной базовой средой для дальнейшего изучения потенциала RL для выводов.
Далее мы подробно расскажем о нашей установке и о том, что происходит в процессе обучения RL, например о длительном CoT и появлении паттернов саморефлексии.
Простой рецепт RL
Как и в DeepSeek R1, наша формулировка RL очень проста и не использует модели вознаграждения или техники, подобные MCTS. Мы используем алгоритм PPO с функцией вознаграждения на основе правил, которая назначает вознаграждение в зависимости от формата и правильности сгенерированных ответов:
- Если ответ содержит окончательный ответ в указанном формате и является правильным, начисляется бонус +1.
- Если ответ содержит окончательный ответ, но является неправильным, награда будет равна -0,5.
- Если ответ не дает окончательного ответа, награда устанавливается в -1.
Реализация основана наOpenRLHF. Наши предварительные эксперименты показывают, что эта функция вознаграждения помогает модели стратегии быстро сходиться и генерировать ответы в желаемом формате.
Экспериментальная установка
В наших экспериментах мы учились наQwen2.5-Math-7B-BaseМодели были запущены и оценены на сложных эталонах математического мышления, включая AIME2024, AMC23, GSM8K, MATH-500, Minerva Math и OlympiadBench. Для обучения было использовано около 8 000 запросов из обучающей базы данных MATH на уровнях сложности 3-5. Мы провели эксперименты со следующими двумя настройками DeepSeek-R1-Zero и DeepSeek-R1, соответственно:
- SimpleRL-Zero: Мы выполняем RL непосредственно из базовой модели, не выполняя сначала SFT. Мы используем только 8K пар MATH (запрос, ответ).
- SimpleRL: Сначала мы выполняем SFT с длинной цепочкой мыслей в качестве холодного старта. Данные SFT - это 8K MATH-запросов с ответами, отобранными из QwQ-32B-Preview. Затем мы используем те же 8K MATH-примеров для нашей формулировки RL.
Часть I: SimpleRL-Zero - Интенсивное обучение с нуля
Во введении мы рассказали об основных результатах SimpleRL-Zero, который превосходит Qwen2.5-Math-7B-Instruct и достигает результатов, сравнимых с PRIME и rStar-Math, несмотря на то, что использует всего 8K примеров MATH. Ниже мы расскажем о динамике обучения и некоторых интересных закономерностях.
Динамика обучения
Стимулы к обучению и длина разворачивающейся реакции

Оценка точности (pass@1) и длины ответа на 8 эталонах

Как показано на рисунке выше, точность во всех бенчмарках неуклонно растет в процессе обучения, в то время как длина сначала уменьшается, а затем постепенно увеличивается. При дальнейшем исследовании мы обнаружили, что базовая модель Qwen2.5-Math-7B имеет тенденцию генерировать большое количество кода в начале, что может быть связано с исходным распределением обучающих данных модели. Мы обнаружили, что сначала длина уменьшается, потому что обучение RL постепенно устраняет этот шаблон и учит рассуждать на обычном языке. Затем длина генерации снова начинает увеличиваться, и появляется паттерн саморефлексии, как показано в следующем примере.
Появление саморефлексии
Примерно на 40-м шаге мы обнаруживаем, что модель начинает генерировать саморефлексивные паттерны - "моменты прозрения" из статьи DeepSeek-R1. Ниже мы приводим пример.

Часть II: SimpleRL - Интенсивное обучение с имитационными разминочными упражнениями
Как упоминалось ранее, перед переходом к RL мы разогрели SFT с длительным цепным мышлением; набор данных SFT состоял из 8K примеров MATH с ответами, отобранными из QwQ-32B-Preview. Потенциальное преимущество такого "холодного старта" заключается в том, что модель начинает работать в режиме длительного цепного мышления и уже является саморефлексивной, а значит, она может быстрее и лучше обучаться на этапе RL.
Основные результаты
AIME 2024 | MATH 500 | AMC | Математика Минервы | OlympiadBench | Avg. | |
---|---|---|---|---|---|---|
Qwen2.5-Math-7B-Base | 16.7 | 52.4 | 52.5 | 12.9 | 16.4 | 30.2 |
Qwen2.5-Math-7B-Base + 8K QwQ дистилляция | 16.7 | 76.6 | 55.0 | 34.9 | 36.9 | 44.0 |
Eurus-2-7B-PRIME | 26.7 | 79.2 | 57.8 | 38.6 | 42.1 | 48.9 |
Qwen2.5-7B-SimpleRL-Zero | 36.7 | 77.4 | 62.5 | 34.2 | 37.5 | 49.7 |
Qwen2.5-7B-SimpleRL | 26.7 | 82.4 | 62.5 | 39.7 | 43.3 | 50.9 |
По сравнению с Qwen2.5-Math-7B-Base + 8K QwQ дистилляция, модель улучшила Qwen2.5-7B-SimpleRL в среднем на 6.91 TP3T в абсолютном выражении до обучения RL. Более того, Qwen2.5-7B-SimpleRL превосходит Eurus-2-7B-PRIME в 3 из 5 бенчмарков и превосходит Qwen2.5-7B-SimpleRL-Zero. Несмотря на хорошие результаты, мы немного удивлены тем, что этап дистилляции QwQ не дал большего прироста, чем нулевая настройка, учитывая, что QwQ - это 32B мощная модель учителя с длинной цепью мышления.
Динамика обучения
Стимулы к обучению и длина разворачивающейся реакции

состояние подготовки
Оценка точности (pass@1) и длины ответа на 8 эталонах

Динамика обучения Qwen2.5-SimpleRL похожа на Qwen2.5-SimpleRL-Zero. Интересно, что мы все еще наблюдаем сокращение длины в начале RL, несмотря на наш продвинутый SFT с длительным цепным мышлением. Мы подозреваем, что это связано с тем, что дистиллированный шаблон вывода QwQ не нравится моделям малых стратегий или превышает их возможности. В результате она учится отказываться от нее и самостоятельно разрабатывает новые длинные рассуждения.
заключительные замечания
Простота - это высшая сложность.
- Леонардо да Винчи (1452-1519), итальянский художник эпохи Возрождения
Благодарности и цитаты
Реализованный нами алгоритм обучения с подкреплением основан наOpenRLHFРасширенная версия. Мы используемvLLMВыполняет умозаключения и разрабатывает алгоритм на основеQwen2.5-Mathоценочных скриптов. В частности, мы благодарим разработчиков DeepSeek-R1 и Kimi-k1.5 за их инновации и вклад в сообщество открытого кода.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...