Open R1: обнимающееся лицо повторяет процесс обучения DeepSeek-R1

Последние ресурсы по искусственному интеллектуОпубликовано 1 год назад Круг обмена ИИ

69.4K 00

Общее введение

Проект Open R1 от Hugging Face - это проект репликации DeepSeek-R1 с открытым исходным кодом, цель которого - собрать недостающие части конвейера R1, чтобы каждый мог их воспроизвести и использовать. Цель проекта Open R1 - продемонстрировать полный процесс воспроизведения конвейера R1 через многоступенчатый процесс обучения, начиная с базовой модели и заканчивая моделью настройки обучения с усилением. Проект включает в себя подробные инструкции по установке и использованию, а также поддерживает вклад сообщества и сотрудничество.

Мы начнем с DeepSeek-R1 Технический отчет служит руководством, которое можно разделить на три основных этапа:

Шаг 1: воспроизведите модель R1-Distill, извлекая высококачественный корпус из DeepSeek-R1.

Шаг 2: Репликация DeepSeek Процесс чистого обучения с подкреплением (RL) для создания R1-Zero. Это может потребовать сбора новых масштабных наборов данных для математики, выводов и кода.

Шаг 3: Продемонстрируйте, что мы можем перейти от базовой модели к RL-настроенной модели с помощью многоступенчатого обучения.

Open R1：Hugging Face 复现 DeepSeek-R1 的训练过程

Список функций

обучение модели: Предоставляет скрипты для обучения моделей, включая методы обучения GRPO и SFT.
оценка моделирования: Предоставляет скрипты для оценки производительности модели и поддерживает бенчмаркинг R1.
Генерация данных: Скрипты для создания синтетических данных с помощью Distilabel.
Многоступенчатое обучение: Демонстрация многоступенчатого процесса обучения от базовой модели до настройки обучения с подкреплением.
Вклад в развитие сообщества: Поддержка участников сообщества в предоставлении наборов данных и улучшении моделей.

Использование помощи

Процесс установки

Создание виртуальной среды Python::

   conda create -n openr1 python=3.11
conda activate openr1

Установка vLLM::

   pip install vllm==0.6.6.post1

Одновременно с этим будет установлен PyTorch v2.5.1. Убедитесь, что вы используете эту версию для совместимости с двоичными файлами vLLM.

Установите зависимости проекта::

   pip install -e ".[dev]"

Вход в аккаунт Hugging Face и Weights and Biases::

   huggingface-cli login
wandb login

Установка Git LFS::

   sudo apt-get install git-lfs

Руководство по использованию

Модели обучения::
- Используйте GRPO для обучения модели:
```
 python src/open_r1/grpo.py --dataset <dataset_path>
```
- Используйте SFT для обучения модели:
```
 python src/open_r1/sft.py --dataset <dataset_path>
```
модель оценки::

   python src/open_r1/evaluate.py --model <model_path> --benchmark <benchmark_name>

Создание синтетических данных::

   python src/open_r1/generate.py --model <model_path> --output <output_path>

Многоступенчатое обучение::
- Шаг 1: воспроизведите модель R1-Distill: bash python src/open_r1/distill.py --corpus <corpus_path>
- Шаг 2: Репликация чистого конвейера RL: bash python src/open_r1/rl_pipeline.py --dataset <dataset_path>
- Шаг 3: От базовой модели к настройке RL: bash python src/open_r1/multi_stage_training.py --model <model_path>

Руководство по внесению взносов

Проект "Вилка: форк проекта на свой аккаунт на GitHub.
проект клонирования::

   git clone https://github.com/<your_username>/open-r1.git

Создание новой ветки::

   git checkout -b new-feature

Внести изменения::

   git add .
git commit -m "Add new feature"
git push origin new-feature

Создание Pull Request: Отправьте Pull Request на GitHub с описанием внесенных изменений.

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

Fast-Agent: декларативная грамматика и интеграция MCP для быстрого создания многоинтеллектуальных рабочих процессов тела

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Система разработки интеллектуального тела

12 месяцев назад

059K

Denser Chat: взаимодействие с PDF-файлами, подсветка исходного кода

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Инструмент для обобщения текстов и аудио/видео с использованием искусственного интеллекта

1 год назад

043.5K

LlamaCoder: быстрая генерация и публикация небольших веб-приложений с помощью слов подсказок

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Программирование искусственного интеллекта Дизайн страницы # AI

1 год назад

060.6K

OpenBB: платформа для анализа финансовых данных с открытым исходным кодом, объединяющая частные массивы данных и искусственный интеллект для повышения эффективности принятия инвестиционных решений

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # ИИ Аналитика финансовых данных

1 год назад

088.9K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

Нет комментариев...

Open R1: обнимающееся лицо повторяет процесс обучения DeepSeek-R1

Общее введение

Список функций

Использование помощи

Процесс установки

Руководство по использованию

Руководство по внесению взносов

Open Operator: автоматизация облачных браузеров с помощью искусственного интеллекта

TinyZero: недорогая репликация эффекта прозрения DeepSeeK-R1 Zero

Похожие статьи

Fast-Agent: декларативная грамматика и интеграция MCP для быстрого создания многоинтеллектуальных рабочих процессов тела

Denser Chat: взаимодействие с PDF-файлами, подсветка исходного кода

LlamaCoder: быстрая генерация и публикация небольших веб-приложений с помощью слов подсказок

Нет комментариев

Последние коллекции

Последние статьи

Open R1: обнимающееся лицо повторяет процесс обучения DeepSeek-R1

Общее введение

Список функций

Использование помощи

Процесс установки

Руководство по использованию

Руководство по внесению взносов

Open Operator: автоматизация облачных браузеров с помощью искусственного интеллекта

TinyZero: недорогая репликация эффекта прозрения DeepSeeK-R1 Zero

Похожие статьи

Fast-Agent: декларативная грамматика и интеграция MCP для быстрого создания многоинтеллектуальных рабочих процессов тела

Denser Chat: взаимодействие с PDF-файлами, подсветка исходного кода

LlamaCoder: быстрая генерация и публикация небольших веб-приложений с помощью слов подсказок

Нет комментариев

Избранные инструменты искусственного интеллекта

Последние коллекции

Последние статьи