Open-Reasoner-Zero: платформа для обучения с открытым исходным кодом для крупномасштабного обучения с применением подкрепления

Последние ресурсы по искусственному интеллектуОпубликовано 10 месяцев назад Круг обмена ИИ

35.5K 00

Общее введение

Open-Reasoner-Zero - это проект с открытым исходным кодом, ориентированный на исследования в области обучения с подкреплением (RL), разработанный командой Open-Reasoner-Zero на GitHub. Его цель - ускорить процесс исследований в области искусственного интеллекта (ИИ), особенно в направлении общего искусственного интеллекта (ОИИ), путем предоставления эффективного, масштабируемого и простого в использовании обучающего фреймворка. Проект основан на модели Qwen2.5 (версии с 7 и 32 параметрами) и объединяет такие технологии, как OpenRLHF, vLLM, DeepSpeed и Ray, предоставляя полный исходный код, данные для обучения и веса модели. Модель отличается тем, что достигает аналогичного уровня производительности менее чем за 1/30 часть шагов обучения DeepSeek-R1-Zero, демонстрируя эффективность использования ресурсов. Проект находится под лицензией MIT и свободен для использования и модификации пользователями, что делает его идеальным для сотрудничества исследователей и разработчиков.

Список функций

Эффективное интенсивное обучение: Поддерживает обучение и генерацию на одном контроллере, максимально используя GPU.
полный ресурс с открытым исходным кодомМодель представляет собой простой и удобный в использовании инструмент, предоставляющий 57 тыс. единиц высококачественных обучающих данных, исходный код, настройки параметров и веса модели.
Поддержка высокопроизводительных моделей: Основан на Qwen2.5-7B и Qwen2.5-32B, обеспечивая отличную производительность при проведении выводов.
Гибкая система исследованийМодульная конструкция позволяет исследователям легко адаптировать и расширять свои эксперименты.
Поддержка Docker: Предоставьте Dockerfile для обеспечения воспроизводимости учебной среды.
Инструменты оценки эффективности: Содержит данные бенчмаркинга и презентации результатов оценки, такие как сравнение производительности GPQA Diamond.

Использование помощи

Процесс установки

Использование Open-Reasoner-Zero требует определенных технических знаний. Ниже представлено подробное руководство по установке и эксплуатации, подходящее для работы в Linux или Unix-подобных системах.

Подготовка к защите окружающей среды

Установка основных зависимостей::
- Убедитесь, что в вашей системе установлены Git, Python 3.8+ и драйвер NVIDIA GPU (требуется поддержка CUDA).
- Установите Docker (рекомендуется версия 20.10 или выше) для быстрого развертывания учебной среды.
```
sudo apt update
sudo apt install git python3-pip docker.io
```

Клонирование хранилища проектов::
- Выполните следующую команду в терминале, чтобы загрузить проект локально:
```
git clone https://github.com/Open-Reasoner-Zero/Open-Reasoner-Zero.git
cd Open-Reasoner-Zero
```
Настройка среды с помощью Docker::
- Проект предоставляет Dockerfile для облегчения создания учебных сред.
- Запустите его в корневом каталоге проекта:
```
docker build -t open-reasoner-zero -f docker/Dockerfile .
```
- После завершения сборки запустите контейнер:
```
docker run -it --gpus all open-reasoner-zero bash
```
- Это приведет к созданию контейнерного окружения с поддержкой GPU, предварительно установленного с необходимыми зависимостями.
Установка зависимостей вручную (необязательно)::
- Если вы не используете Docker, вы можете установить зависимости вручную:
```
pip install -r requirements.txt
```
- Убедитесь, что OpenRLHF, vLLM, DeepSpeed и Ray установлены, обратитесь к документации по проекту для получения информации о конкретных версиях.

Функции Поток операций

1. обучающие модели

Подготовка данных для обучения::
- Проект поставляется с 57 тыс. высококачественных учебных данных, расположенных в data папка.
- Если требуются пользовательские данные, организуйте формат в соответствии с инструкциями документации и замените его.
обучение грунтовке::
- Выполните следующую команду в контейнере или локальном окружении:
```
python train.py --model Qwen2.5-7B --data-path ./data
```
- Описание параметра:
  - --model: Выберите модель (например, Qwen2.5-7B или Qwen2.5-32B).
  - --data-path: Указывает путь к обучающим данным.
- Журнал обучения отображается на терминале главного узла, что позволяет легко отслеживать прогресс.

2. Оценка эффективности

Выполнение эталонных тестов::
- Сравните производительность модели с помощью прилагаемых сценариев оценки:
```
python evaluate.py --model Qwen2.5-32B --benchmark gpqa_diamond
```
- В результате будет показана точность модели на эталонах, таких как GPQA Diamond.
Просмотреть отчет об оценке::
- Проект включает графики (например, Рисунок 1 и Рисунок 2), показывающие масштабирование производительности и времени обучения, которые можно найти в docs папку, чтобы найти его.

3. Модификации и расширения

Параметры настройки::
- компилятор config.yaml файл, изменяя гиперпараметры, такие как скорость обучения, размер партии и т.д.
```
learning_rate: 0.0001
batch_size: 16
```
Добавить новую функцию::
- Проект имеет модульную конструкцию и может быть src папку для добавления новых модулей. Например, добавьте новый скрипт предварительной обработки данных:
```
# custom_preprocess.py
def preprocess_data(input_file):
# 自定义逻辑
pass
```

Меры предосторожности при обращении

требования к оборудованию: Для поддержки обучения Qwen2.5-32B рекомендуется использовать GPU с объемом видеопамяти не менее 24 ГБ (например, NVIDIA A100).
Мониторинг журналов: Не выключайте терминал во время обучения и проверяйте журнал в любое время для устранения неполадок.
Поддержка общества: Вопросы можно задавать через GitHub Issues или связавшись с командой по адресу hanqer@stepfun.com.

Практические примеры

Предположим, вы хотите обучить модель на основе Qwen2.5-7B:

Введите контейнер Docker.
быть в движении python train.py --model Qwen2.5-7B --data-path ./data.
Подождите несколько часов (в зависимости от оборудования) и запустите по окончании. python evaluate.py --model Qwen2.5-7B --benchmark gpqa_diamond.
Просмотрите выходные данные, чтобы убедиться в улучшении производительности.

Выполнив эти шаги, пользователи смогут быстро и эффективно приступить к работе с Open-Reasoner-Zero, будь то воспроизведение экспериментов или разработка новых функций.