Репликация DeepSeek-R1: 8K математических примеров помогают маленьким моделям достичь прорыва в выводах благодаря обучению с подкреплением

Новости ИИОпубликовано 11 месяцев назад Круг обмена ИИ

38.9K 00

Github. https://github.com/hkust-nlp/simpleRL-reason

В этом блоге будет представлен обзорDeepSeek-R1-Zero и DeepSeek-R1Повторение обучения с использованием небольших моделей и ограниченных данных для обучения, причем многие из этих экспериментов были разработаны и выполнены до того, как мы выпустили DeepSeek-R1 самостоятельно. Мы показываем, что при наличии всего 8K математических примеров может возникнуть 7B-модель с длинными цепочками размышлений (CoT) и саморефлексией, и достичь удивительно высоких результатов в сложных математических рассуждениях. Важно отметить, что мы полностью открыли исходный код и детали нашего обучения для сообщества, чтобы стимулировать дальнейшие исследования в области рассуждений.

Начиная с Qwen2.5-Math-7B (базовая модель), мы провели обучение с подкреплением непосредственно на ней, используя только 8K примеров из набора данных MATH. Без модели вознаграждения, без контролируемой тонкой настройки (SFT) и только с 8K примеров MATH для проверки, полученная модель достигает точности pass@1 33,31 TP3T на AIME, 62,51 TP3T на AMC и 77,21 TP3T на MATH, превосходя Qwen2.5-math-7B-instruct, и выгодно отличается от Qwen2.5-math-7B-instruct, который использует более чем в 50 раз больше данных и более сложные компонентыPRIMEответить пениемrStar-MATHСравнимо. Мы также попытались провести длинный CoT SFT, используя те же 8K примеров до этапа RL, и получили более высокую производительность.

Многие из наших экспериментов были проведены до выхода DeepSeek-R1. Интересно, что мы независимо друг от друга пришли к схожему и простому RL-подходу к DeepSeek-R1 и обнаружили, что он очень эффективен. Основное отличие заключается в том, что мы использовали PPO вместо GRPO. Хотя это исследование еще продолжается, мы считаем целесообразным поделиться нашими промежуточными результатами с сообществом. Мы надеемся, что наша работа послужит простой и эффективной репликой версий DeepSeek-R1 Zero и DeepSeek-R1, адаптированной для небольших моделей и ограниченных наборов данных.

вводная

Динамические вариации обучения Qwen2.5-SimpleRL-Zero, начиная с базовой модели Qwen2.5-Math-7B, без выполнения SFT или использования модели вознаграждения. Средняя точность и длина эталона основаны на 8 сложных эталонах математического мышления. Мы наблюдали сокращение длины на начальном этапе, так как обнаружили, что базовая модель Qwen2.5-Math-7B склонна генерировать в ответе и язык, и код, что приводит к длинному результату. Этот шаблон по умолчанию был быстро подавлен во время RL, где модель научилась выдавать ответы в более подходящем формате, и затем длина стала регулярно увеличиваться. После нескольких шагов обучения мы также испытали то, что в документе DeepSeek-R1 описывается как "момент прозрения" - саморефлексия в ответе модели.

Многие исследователи изучают возможные пути обучения моделей о-типа, такие как дистилляция, MCTS, модели вознаграждения на основе процессов и обучение с подкреплением. Недавно.DeepSeek-R1ответить пениемКими-к1.5На пути к этой цели был продемонстрирован чрезвычайно простой рецепт использования простых алгоритмов RL для обучения эмерджентным паттернам длительного цепного мышления (CoT) и саморефлексии с высокими результатами, без использования MCTS и моделей вознаграждения. Однако их эксперименты были основаны на огромных моделях в крупномасштабной RL-установке. Неясно, смогут ли меньшие модели продемонстрировать подобное поведение, сколько данных потребуется и как количественные результаты будут сопоставимы с другими методами. В этом блоге мы воспроизводим обучение DeepSeek-R1-Zero и DeepSeek-R1 сложным математическим рассуждениям, начиная с Qwen-2.5-Math-7B (базовая модель) и используя только 8K (запрос, конечный ответ) примеров из оригинального набора данных MATH для RL с моделированием вознаграждения на основе правил. Мы были удивлены, обнаружив, что использование только 8K MATH может поднять эту базовую модель 7B до такой степени без каких-либо других внешних сигналов:

Все результаты являются точными

	AIME 2024	MATH 500	AMC	Математика Минервы	OlympiadBench	Avg.
Qwen2.5-Math-7B-Base	16.7	52.4	52.5	12.9	16.4	30.2
Qwen2.5-Math-7B-Base + 8K MATH SFT	3.3	54.6	22.5	32.7	19.6	26.5
Qwen-2.5-Math-7B-Instruct	13.3	79.8	50.6	34.6	40.7	43.8
Llama-3.1-70B-Instruct	16.7	64.6	30.1	35.3	31.9	35.7
rStar-Math-7B	26.7	78.4	47.5	-	47.1	-
Eurus-2-7B-PRIME	26.7	79.2	57.8	38.6	42.1	48.9
Qwen2.5-7B-SimpleRL-Zero	33.3	77.2	62.5	33.5	37.6	48.8
Qwen2.5-7B-SimpleRL	26.7	82.4	62.5	39.7	43.3	50.9

Qwen2.5-7B-SimpleRL-Zero - это простое обучение RL непосредственно из базовой модели, используя всего 8K примеров MATH. В среднем он достигает почти 20 абсолютных пунктов прироста по сравнению с базовой моделью. По сравнению с Qwen2.5-Math-7B-Base, использующей те же 8K SFT данных, RL обладает лучшей способностью к обобщению, которая на 22% выше в абсолютном выражении. Кроме того, Qwen2.5-7B-SimpleRL-Zero превосходит Qwen-2.5-Math-7B-Instruct в среднем, и выгодно отличается от недавно выпущеннойEurus-2-7B-PRIMEответить пениемrStar-Math-7B(Они также основаны на Qwen-2.5-Math-7B) примерно эквивалентны. Эти базовые версии содержат более сложные компоненты, такие как модели вознаграждения, и используют как минимум в 50 раз больше расширенных данных:

Сравнительные данные по различным методам

	Qwen2.5-Math-7B-Instruct	rStar-Math-7B	Eurus-2-7B-PRIME	Qwen2.5-7B-SimpleRL-Zero
Базовая модель	Qwen2.5-Math-7B	Qwen2.5-Math-7B	Qwen2.5-Math-7B	Qwen2.5-Math-7B
Данные SFT	2,5 млн (с открытым исходным кодом и собственными силами)	～7.3 M (MATH, NuminaMath и др.)	230K	0
RM Data	618K (собственными силами)	～7 k (в доме)	0	0
RM	Qwen2.5-Math-RM (72B)	Нет	Eurus-2-7B-SFT	Нет
Данные RL	66K запросов × 32 выборки	～3.647 M × 16	150K запросов × 4 выборки	8K запросов × 8 образцов

Мы и рады, и удивлены значительным ростом, достигнутым при использовании всего 8K примеров MATH. Примечательно, что **не смотря на то, что запросы MATH намного проще, чем многие сложные бенчмарки, такие как AIME и AMC, эта простая формулировка RL демонстрирует значительную обобщающую способность, улучшая производительность по крайней мере на 10 абсолютных пунктов по сравнению с базовой моделью. **Мы не смогли бы предугадать этот простой эффект обобщения, если бы провели стандартное обучение SFT на том же наборе данных. Мы полностью выложили в открытый доступ наш обучающий код и детали в надежде, что он послужит мощной базовой средой для дальнейшего изучения потенциала RL для выводов.

Далее мы подробно расскажем о нашей установке и о том, что происходит в процессе обучения RL, например о длительном CoT и появлении паттернов саморефлексии.

Простой рецепт RL

Как и в DeepSeek R1, наша формулировка RL очень проста и не использует модели вознаграждения или техники, подобные MCTS. Мы используем алгоритм PPO с функцией вознаграждения на основе правил, которая назначает вознаграждение в зависимости от формата и правильности сгенерированных ответов:

Если ответ содержит окончательный ответ в указанном формате и является правильным, начисляется бонус +1.
Если ответ содержит окончательный ответ, но является неправильным, награда будет равна -0,5.
Если ответ не дает окончательного ответа, награда устанавливается в -1.

Реализация основана наOpenRLHF. Наши предварительные эксперименты показывают, что эта функция вознаграждения помогает модели стратегии быстро сходиться и генерировать ответы в желаемом формате.

Экспериментальная установка

В наших экспериментах мы учились наQwen2.5-Math-7B-BaseМодели были запущены и оценены на сложных эталонах математического мышления, включая AIME2024, AMC23, GSM8K, MATH-500, Minerva Math и OlympiadBench. Для обучения было использовано около 8 000 запросов из обучающей базы данных MATH на уровнях сложности 3-5. Мы провели эксперименты со следующими двумя настройками DeepSeek-R1-Zero и DeepSeek-R1, соответственно:

SimpleRL-Zero: Мы выполняем RL непосредственно из базовой модели, не выполняя сначала SFT. Мы используем только 8K пар MATH (запрос, ответ).
SimpleRL: Сначала мы выполняем SFT с длинной цепочкой мыслей в качестве холодного старта. Данные SFT - это 8K MATH-запросов с ответами, отобранными из QwQ-32B-Preview. Затем мы используем те же 8K MATH-примеров для нашей формулировки RL.

Часть I: SimpleRL-Zero - Интенсивное обучение с нуля

Во введении мы рассказали об основных результатах SimpleRL-Zero, который превосходит Qwen2.5-Math-7B-Instruct и достигает результатов, сравнимых с PRIME и rStar-Math, несмотря на то, что использует всего 8K примеров MATH. Ниже мы расскажем о динамике обучения и некоторых интересных закономерностях.

Динамика обучения

Стимулы к обучению и длина разворачивающейся реакции

Оценка точности (pass@1) и длины ответа на 8 эталонах

Как показано на рисунке выше, точность во всех бенчмарках неуклонно растет в процессе обучения, в то время как длина сначала уменьшается, а затем постепенно увеличивается. При дальнейшем исследовании мы обнаружили, что базовая модель Qwen2.5-Math-7B имеет тенденцию генерировать большое количество кода в начале, что может быть связано с исходным распределением обучающих данных модели. Мы обнаружили, что сначала длина уменьшается, потому что обучение RL постепенно устраняет этот шаблон и учит рассуждать на обычном языке. Затем длина генерации снова начинает увеличиваться, и появляется паттерн саморефлексии, как показано в следующем примере.

Появление саморефлексии

Примерно на 40-м шаге мы обнаруживаем, что модель начинает генерировать саморефлексивные паттерны - "моменты прозрения" из статьи DeepSeek-R1. Ниже мы приводим пример.

Часть II: SimpleRL - Интенсивное обучение с имитационными разминочными упражнениями

Как упоминалось ранее, перед переходом к RL мы разогрели SFT с длительным цепным мышлением; набор данных SFT состоял из 8K примеров MATH с ответами, отобранными из QwQ-32B-Preview. Потенциальное преимущество такого "холодного старта" заключается в том, что модель начинает работать в режиме длительного цепного мышления и уже является саморефлексивной, а значит, она может быстрее и лучше обучаться на этапе RL.

Основные результаты

	AIME 2024	MATH 500	AMC	Математика Минервы	OlympiadBench	Avg.
Qwen2.5-Math-7B-Base	16.7	52.4	52.5	12.9	16.4	30.2
Qwen2.5-Math-7B-Base + 8K QwQ дистилляция	16.7	76.6	55.0	34.9	36.9	44.0
Eurus-2-7B-PRIME	26.7	79.2	57.8	38.6	42.1	48.9
Qwen2.5-7B-SimpleRL-Zero	36.7	77.4	62.5	34.2	37.5	49.7
Qwen2.5-7B-SimpleRL	26.7	82.4	62.5	39.7	43.3	50.9

По сравнению с Qwen2.5-Math-7B-Base + 8K QwQ дистилляция, модель улучшила Qwen2.5-7B-SimpleRL в среднем на 6.91 TP3T в абсолютном выражении до обучения RL. Более того, Qwen2.5-7B-SimpleRL превосходит Eurus-2-7B-PRIME в 3 из 5 бенчмарков и превосходит Qwen2.5-7B-SimpleRL-Zero. Несмотря на хорошие результаты, мы немного удивлены тем, что этап дистилляции QwQ не дал большего прироста, чем нулевая настройка, учитывая, что QwQ - это 32B мощная модель учителя с длинной цепью мышления.

Динамика обучения

Стимулы к обучению и длина разворачивающейся реакции

состояние подготовки

Оценка точности (pass@1) и длины ответа на 8 эталонах

Динамика обучения Qwen2.5-SimpleRL похожа на Qwen2.5-SimpleRL-Zero. Интересно, что мы все еще наблюдаем сокращение длины в начале RL, несмотря на наш продвинутый SFT с длительным цепным мышлением. Мы подозреваем, что это связано с тем, что дистиллированный шаблон вывода QwQ не нравится моделям малых стратегий или превышает их возможности. В результате она учится отказываться от нее и самостоятельно разрабатывает новые длинные рассуждения.

заключительные замечания

Простота - это высшая сложность.
- Леонардо да Винчи (1452-1519), итальянский художник эпохи Возрождения

Благодарности и цитаты

Реализованный нами алгоритм обучения с подкреплением основан наOpenRLHFРасширенная версия. Мы используемvLLMВыполняет умозаключения и разрабатывает алгоритм на основеQwen2.5-Mathоценочных скриптов. В частности, мы благодарим разработчиков DeepSeek-R1 и Kimi-k1.5 за их инновации и вклад в сообщество открытого кода.

Новости ИИ

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

Обновлены функции пользовательского интерфейса Le Chat, Mistral официально выходит на потребительский рынок, чтобы конкурировать с ChatGPT

Новости ИИ

1 год назад

033.9K

Функция Bing "Глубокий поиск" становится доступной для большего числа пользователей

Новости ИИ

2 года назад

026.2K

Dify Plugin System и Dify Marketplace Features

Новости ИИ

12 месяцев назад

049.1K

Google Gemini 与 Apple Intelligence 即将整合：两大优势助力智能升级

Google Gemini и Apple Intelligence скоро будут интегрированы: два преимущества для умных обновлений

Новости ИИ

10 месяцев назад

029.6K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

Нет комментариев...

Репликация DeepSeek-R1: 8K математических примеров помогают маленьким моделям достичь прорыва в выводах благодаря обучению с подкреплением

вводная

Простой рецепт RL

Экспериментальная установка

Часть I: SimpleRL-Zero - Интенсивное обучение с нуля

Динамика обучения

Появление саморефлексии

Часть II: SimpleRL - Интенсивное обучение с имитационными разминочными упражнениями

Основные результаты

Динамика обучения

заключительные замечания

Благодарности и цитаты

Qwen2.5-Max на основе архитектуры MoE полностью превосходит DeepSeek V3

Гарвард выпустил руководство по применению генеративного ИИ для студентов, содержащее четыре рекомендации и 33 стратегии

Похожие статьи

Обновлены функции пользовательского интерфейса Le Chat, Mistral официально выходит на потребительский рынок, чтобы конкурировать с ChatGPT

Функция Bing "Глубокий поиск" становится доступной для большего числа пользователей

Dify Plugin System и Dify Marketplace Features

Google Gemini и Apple Intelligence скоро будут интегрированы: два преимущества для умных обновлений

Нет комментариев

Последние коллекции

Последние статьи

Репликация DeepSeek-R1: 8K математических примеров помогают маленьким моделям достичь прорыва в выводах благодаря обучению с подкреплением

вводная

Простой рецепт RL

Экспериментальная установка

Часть I: SimpleRL-Zero - Интенсивное обучение с нуля

Динамика обучения

Появление саморефлексии

Часть II: SimpleRL - Интенсивное обучение с имитационными разминочными упражнениями

Основные результаты

Динамика обучения

заключительные замечания

Благодарности и цитаты

Qwen2.5-Max на основе архитектуры MoE полностью превосходит DeepSeek V3

Гарвард выпустил руководство по применению генеративного ИИ для студентов, содержащее четыре рекомендации и 33 стратегии

Похожие статьи

Обновлены функции пользовательского интерфейса Le Chat, Mistral официально выходит на потребительский рынок, чтобы конкурировать с ChatGPT

Функция Bing "Глубокий поиск" становится доступной для большего числа пользователей

Dify Plugin System и Dify Marketplace Features

Google Gemini и Apple Intelligence скоро будут интегрированы: два преимущества для умных обновлений

Нет комментариев

Избранные инструменты искусственного интеллекта

Последние коллекции

Последние статьи