Open R1: обнимающееся лицо повторяет процесс обучения DeepSeek-R1
Общее введение
Проект Open R1 от Hugging Face - это проект репликации DeepSeek-R1 с открытым исходным кодом, цель которого - собрать недостающие части конвейера R1, чтобы каждый мог их воспроизвести и использовать. Цель проекта Open R1 - продемонстрировать полный процесс воспроизведения конвейера R1 через многоступенчатый процесс обучения, начиная с базовой модели и заканчивая моделью настройки обучения с усилением. Проект включает в себя подробные инструкции по установке и использованию, а также поддерживает вклад сообщества и сотрудничество.
Мы начнем с DeepSeek-R1 Технический отчет служит руководством, которое можно разделить на три основных этапа:
Шаг 1: воспроизведите модель R1-Distill, извлекая высококачественный корпус из DeepSeek-R1.
Шаг 2: Репликация DeepSeek Процесс чистого обучения с подкреплением (RL) для создания R1-Zero. Это может потребовать сбора новых масштабных наборов данных для математики, выводов и кода.
Шаг 3: Продемонстрируйте, что мы можем перейти от базовой модели к RL-настроенной модели с помощью многоступенчатого обучения.

Список функций
- обучение модели: Предоставляет скрипты для обучения моделей, включая методы обучения GRPO и SFT.
- оценка моделирования: Предоставляет скрипты для оценки производительности модели и поддерживает бенчмаркинг R1.
- Генерация данных: Скрипты для создания синтетических данных с помощью Distilabel.
- Многоступенчатое обучение: Демонстрация многоступенчатого процесса обучения от базовой модели до настройки обучения с подкреплением.
- Вклад в развитие сообщества: Поддержка участников сообщества в предоставлении наборов данных и улучшении моделей.
Использование помощи
Процесс установки
- Создание виртуальной среды Python::
conda create -n openr1 python=3.11
conda activate openr1
- Установка vLLM::
pip install vllm==0.6.6.post1
Одновременно с этим будет установлен PyTorch v2.5.1. Убедитесь, что вы используете эту версию для совместимости с двоичными файлами vLLM.
- Установите зависимости проекта::
pip install -e ".[dev]"
- Вход в аккаунт Hugging Face и Weights and Biases::
huggingface-cli login
wandb login
- Установка Git LFS::
sudo apt-get install git-lfs
Руководство по использованию
- Модели обучения::
- Используйте GRPO для обучения модели:
python src/open_r1/grpo.py --dataset <dataset_path>
- Используйте SFT для обучения модели:
python src/open_r1/sft.py --dataset <dataset_path>
- модель оценки::
python src/open_r1/evaluate.py --model <model_path> --benchmark <benchmark_name>
- Создание синтетических данных::
python src/open_r1/generate.py --model <model_path> --output <output_path>
- Многоступенчатое обучение::
- Шаг 1: воспроизведите модель R1-Distill:
bash
python src/open_r1/distill.py --corpus <corpus_path> - Шаг 2: Репликация чистого конвейера RL:
bash
python src/open_r1/rl_pipeline.py --dataset <dataset_path> - Шаг 3: От базовой модели к настройке RL:
bash
python src/open_r1/multi_stage_training.py --model <model_path>
- Шаг 1: воспроизведите модель R1-Distill:
Руководство по внесению взносов
- Проект "Вилка: форк проекта на свой аккаунт на GitHub.
- проект клонирования::
git clone https://github.com/<your_username>/open-r1.git
- Создание новой ветки::
git checkout -b new-feature
- Внести изменения::
git add .
git commit -m "Add new feature"
git push origin new-feature
- Создание Pull Request: Отправьте Pull Request на GitHub с описанием внесенных изменений.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...