Open R1: обнимающееся лицо повторяет процесс обучения DeepSeek-R1

Общее введение

Проект Open R1 от Hugging Face - это проект репликации DeepSeek-R1 с открытым исходным кодом, цель которого - собрать недостающие части конвейера R1, чтобы каждый мог их воспроизвести и использовать. Цель проекта Open R1 - продемонстрировать полный процесс воспроизведения конвейера R1 через многоступенчатый процесс обучения, начиная с базовой модели и заканчивая моделью настройки обучения с усилением. Проект включает в себя подробные инструкции по установке и использованию, а также поддерживает вклад сообщества и сотрудничество.

Мы начнем с DeepSeek-R1 Технический отчет служит руководством, которое можно разделить на три основных этапа:

Шаг 1: воспроизведите модель R1-Distill, извлекая высококачественный корпус из DeepSeek-R1.

Шаг 2: Репликация DeepSeek Процесс чистого обучения с подкреплением (RL) для создания R1-Zero. Это может потребовать сбора новых масштабных наборов данных для математики, выводов и кода.

Шаг 3: Продемонстрируйте, что мы можем перейти от базовой модели к RL-настроенной модели с помощью многоступенчатого обучения.

Open R1:Hugging Face 复现 DeepSeek-R1 的训练过程

 

Список функций

  • обучение модели: Предоставляет скрипты для обучения моделей, включая методы обучения GRPO и SFT.
  • оценка моделирования: Предоставляет скрипты для оценки производительности модели и поддерживает бенчмаркинг R1.
  • Генерация данных: Скрипты для создания синтетических данных с помощью Distilabel.
  • Многоступенчатое обучение: Демонстрация многоступенчатого процесса обучения от базовой модели до настройки обучения с подкреплением.
  • Вклад в развитие сообщества: Поддержка участников сообщества в предоставлении наборов данных и улучшении моделей.

 

Использование помощи

Процесс установки

  1. Создание виртуальной среды Python::
   conda create -n openr1 python=3.11
conda activate openr1
  1. Установка vLLM::
   pip install vllm==0.6.6.post1

Одновременно с этим будет установлен PyTorch v2.5.1. Убедитесь, что вы используете эту версию для совместимости с двоичными файлами vLLM.

  1. Установите зависимости проекта::
   pip install -e ".[dev]"
  1. Вход в аккаунт Hugging Face и Weights and Biases::
   huggingface-cli login
wandb login
  1. Установка Git LFS::
   sudo apt-get install git-lfs

Руководство по использованию

  1. Модели обучения::
    • Используйте GRPO для обучения модели:
     python src/open_r1/grpo.py --dataset <dataset_path>
    
    • Используйте SFT для обучения модели:
     python src/open_r1/sft.py --dataset <dataset_path>
    
  2. модель оценки::
   python src/open_r1/evaluate.py --model <model_path> --benchmark <benchmark_name>
  1. Создание синтетических данных::
   python src/open_r1/generate.py --model <model_path> --output <output_path>
  1. Многоступенчатое обучение::
    • Шаг 1: воспроизведите модель R1-Distill: bash
      python src/open_r1/distill.py --corpus <corpus_path>
    • Шаг 2: Репликация чистого конвейера RL: bash
      python src/open_r1/rl_pipeline.py --dataset <dataset_path>
    • Шаг 3: От базовой модели к настройке RL: bash
      python src/open_r1/multi_stage_training.py --model <model_path>

Руководство по внесению взносов

  1. Проект "Вилка: форк проекта на свой аккаунт на GitHub.
  2. проект клонирования::
   git clone https://github.com/<your_username>/open-r1.git
  1. Создание новой ветки::
   git checkout -b new-feature
  1. Внести изменения::
   git add .
git commit -m "Add new feature"
git push origin new-feature
  1. Создание Pull Request: Отправьте Pull Request на GitHub с описанием внесенных изменений.
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...