TinyZero: недорогая репликация эффекта прозрения DeepSeeK-R1 Zero

Общее введение

TinyZero - это модель обучения с подкреплением на основе veRL, разработанная для воспроизведения DeepSeeK-R1 Производительность Zero в задачах обратного отсчета и умножения. Удивительно, но проект достигает тех же прозрений, что и DeepSeeK-R1 Zero, при текущих затратах всего в 30 долларов (менее 5 часов при использовании 2xH200 по 6,4 доллара в час). Благодаря обучению с подкреплением (RL) базовая языковая модель (LM) 3B способна автономно развивать возможности самооценки и поиска. Пользователи могут оценить мощь и инновационность TinyZero благодаря простому процессу настройки и обучения.

TinyZero:低成本复现 DeepSeeK-R1 Zero 的顿悟效果

 

Список функций

  • задача обратного отсчёта: Поддержка процессов подготовки и обучения данных, чтобы помочь моделям обучаться в задачах обратного отсчета.
  • Задачи на умножение: Поддерживает процессы подготовки данных и обучения, чтобы помочь моделям обучаться в задачах умножения.
  • Поддержка одного графического процессора: Для параметров модели, меньших или равных 1,5B.
  • Поддержка нескольких графических процессоров: Модели, применимые к большим параметрам, способны развивать сложные способности к рассуждениям.
  • Инструктаж по абляции: Эксперименты, подтверждающие модель инструктажа QWen-2.5-3B.
  • Инструменты улучшения качестваИнструменты включают в себя flash-attn, wandb, IPython и matplotlib, что позволяет расширить возможности обучения и использования модели.

 

Использование помощи

Процесс установки

  1. Создайте виртуальную среду:
    conda create -n zero python=3.9
    
  2. Установите PyTorch (необязательно):
    pip install torch==2.4.0 --index-url https://download.pytorch.org/whl/cu121
    
  3. Установите vllm:
    pip3 install vllm==0.6.3
    
  4. Установите луч:
    pip3 install ray
    
  5. Установите версию:
    pip install -e .
    
  6. Установите flash-attn:
    pip3 install flash-attn --no-build-isolation
    
  7. Установка средств повышения качества:
    pip install wandb IPython matplotlib
    

Функции Поток операций

задача обратного отсчёта

  1. Подготовка данных:
    conda activate zero
    python ./examples/data_preprocess/countdown.py --local_dir {path_to_your_dataset}
    
  2. Процесс обучения:
    conda activate zero
    export N_GPUS=1
    export BASE_MODEL={path_to_your_model}
    export DATA_DIR={path_to_your_dataset}
    export ROLLOUT_TP_SIZE=1
    export EXPERIMENT_NAME=countdown-qwen2.5-0.5b
    export VLLM_ATTENTION_BACKEND=XFORMERS
    bash ./scripts/train_tiny_zero.sh
    

Обучение модели 3B+

  1. Подготовка данных:
    conda activate zero
    python examples/data_preprocess/countdown.py --template_type=qwen-instruct --local_dir={path_to_your_dataset}
    
  2. Процесс обучения:
    conda activate zero
    export N_GPUS=2
    export BASE_MODEL={path_to_your_model}
    export DATA_DIR={path_to_your_dataset}
    export ROLLOUT_TP_SIZE=2
    export EXPERIMENT_NAME=countdown-qwen2.5-3b-instruct
    export VLLM_ATTENTION_BACKEND=XFORMERS
    bash ./scripts/train_tiny_zero.sh
    
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...