Open-Reasoner-Zero: платформа для обучения с открытым исходным кодом для крупномасштабного обучения с применением подкрепления

Общее введение

Open-Reasoner-Zero - это проект с открытым исходным кодом, ориентированный на исследования в области обучения с подкреплением (RL), разработанный командой Open-Reasoner-Zero на GitHub. Его цель - ускорить процесс исследований в области искусственного интеллекта (ИИ), особенно в направлении общего искусственного интеллекта (ОИИ), путем предоставления эффективного, масштабируемого и простого в использовании обучающего фреймворка. Проект основан на модели Qwen2.5 (версии с 7 и 32 параметрами) и объединяет такие технологии, как OpenRLHF, vLLM, DeepSpeed и Ray, предоставляя полный исходный код, данные для обучения и веса модели. Модель отличается тем, что достигает аналогичного уровня производительности менее чем за 1/30 часть шагов обучения DeepSeek-R1-Zero, демонстрируя эффективность использования ресурсов. Проект находится под лицензией MIT и свободен для использования и модификации пользователями, что делает его идеальным для сотрудничества исследователей и разработчиков.

Open-Reasoner-Zero:开源大规模推理强化学习训练平台

 

Список функций

  • Эффективное интенсивное обучение: Поддерживает обучение и генерацию на одном контроллере, максимально используя GPU.
  • полный ресурс с открытым исходным кодомМодель представляет собой простой и удобный в использовании инструмент, предоставляющий 57 тыс. единиц высококачественных обучающих данных, исходный код, настройки параметров и веса модели.
  • Поддержка высокопроизводительных моделей: Основан на Qwen2.5-7B и Qwen2.5-32B, обеспечивая отличную производительность при проведении выводов.
  • Гибкая система исследованийМодульная конструкция позволяет исследователям легко адаптировать и расширять свои эксперименты.
  • Поддержка Docker: Предоставьте Dockerfile для обеспечения воспроизводимости учебной среды.
  • Инструменты оценки эффективности: Содержит данные бенчмаркинга и презентации результатов оценки, такие как сравнение производительности GPQA Diamond.

 

Использование помощи

Процесс установки

Использование Open-Reasoner-Zero требует определенных технических знаний. Ниже представлено подробное руководство по установке и эксплуатации, подходящее для работы в Linux или Unix-подобных системах.

Подготовка к защите окружающей среды

  1. Установка основных зависимостей::
    • Убедитесь, что в вашей системе установлены Git, Python 3.8+ и драйвер NVIDIA GPU (требуется поддержка CUDA).
    • Установите Docker (рекомендуется версия 20.10 или выше) для быстрого развертывания учебной среды.
    sudo apt update
    sudo apt install git python3-pip docker.io
  1. Клонирование хранилища проектов::
    • Выполните следующую команду в терминале, чтобы загрузить проект локально:
    git clone https://github.com/Open-Reasoner-Zero/Open-Reasoner-Zero.git
    cd Open-Reasoner-Zero
    
  2. Настройка среды с помощью Docker::
    • Проект предоставляет Dockerfile для облегчения создания учебных сред.
    • Запустите его в корневом каталоге проекта:
    docker build -t open-reasoner-zero -f docker/Dockerfile .
    
    • После завершения сборки запустите контейнер:
    docker run -it --gpus all open-reasoner-zero bash
    
    • Это приведет к созданию контейнерного окружения с поддержкой GPU, предварительно установленного с необходимыми зависимостями.
  3. Установка зависимостей вручную (необязательно)::
    • Если вы не используете Docker, вы можете установить зависимости вручную:
    pip install -r requirements.txt
    
    • Убедитесь, что OpenRLHF, vLLM, DeepSpeed и Ray установлены, обратитесь к документации по проекту для получения информации о конкретных версиях.

Функции Поток операций

1. обучающие модели
  • Подготовка данных для обучения::
    • Проект поставляется с 57 тыс. высококачественных учебных данных, расположенных в data папка.
    • Если требуются пользовательские данные, организуйте формат в соответствии с инструкциями документации и замените его.
  • обучение грунтовке::
    • Выполните следующую команду в контейнере или локальном окружении:
    python train.py --model Qwen2.5-7B --data-path ./data
    
    • Описание параметра:
      • --model: Выберите модель (например, Qwen2.5-7B или Qwen2.5-32B).
      • --data-path: Указывает путь к обучающим данным.
    • Журнал обучения отображается на терминале главного узла, что позволяет легко отслеживать прогресс.
2. Оценка эффективности
  • Выполнение эталонных тестов::
    • Сравните производительность модели с помощью прилагаемых сценариев оценки:
    python evaluate.py --model Qwen2.5-32B --benchmark gpqa_diamond
    
    • В результате будет показана точность модели на эталонах, таких как GPQA Diamond.
  • Просмотреть отчет об оценке::
    • Проект включает графики (например, Рисунок 1 и Рисунок 2), показывающие масштабирование производительности и времени обучения, которые можно найти в docs папку, чтобы найти его.
3. Модификации и расширения
  • Параметры настройки::
    • компилятор config.yaml файл, изменяя гиперпараметры, такие как скорость обучения, размер партии и т.д.
    learning_rate: 0.0001
    batch_size: 16
    
  • Добавить новую функцию::
    • Проект имеет модульную конструкцию и может быть src папку для добавления новых модулей. Например, добавьте новый скрипт предварительной обработки данных:
    # custom_preprocess.py
    def preprocess_data(input_file):
    # 自定义逻辑
    pass
    

Меры предосторожности при обращении

  • требования к оборудованию: Для поддержки обучения Qwen2.5-32B рекомендуется использовать GPU с объемом видеопамяти не менее 24 ГБ (например, NVIDIA A100).
  • Мониторинг журналов: Не выключайте терминал во время обучения и проверяйте журнал в любое время для устранения неполадок.
  • Поддержка общества: Вопросы можно задавать через GitHub Issues или связавшись с командой по адресу hanqer@stepfun.com.

Практические примеры

Предположим, вы хотите обучить модель на основе Qwen2.5-7B:

  1. Введите контейнер Docker.
  2. быть в движении python train.py --model Qwen2.5-7B --data-path ./data.
  3. Подождите несколько часов (в зависимости от оборудования) и запустите по окончании. python evaluate.py --model Qwen2.5-7B --benchmark gpqa_diamond.
  4. Просмотрите выходные данные, чтобы убедиться в улучшении производительности.

Выполнив эти шаги, пользователи смогут быстро и эффективно приступить к работе с Open-Reasoner-Zero, будь то воспроизведение экспериментов или разработка новых функций.

© заявление об авторских правах

Похожие статьи

Granola:AI会议助手,转录会议讨论内容并用AI增强会议记录

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...