TinyZero: недорогая репликация эффекта прозрения DeepSeeK-R1 Zero
Общее введение
TinyZero - это модель обучения с подкреплением на основе veRL, разработанная для воспроизведения DeepSeeK-R1 Производительность Zero в задачах обратного отсчета и умножения. Удивительно, но проект достигает тех же прозрений, что и DeepSeeK-R1 Zero, при текущих затратах всего в 30 долларов (менее 5 часов при использовании 2xH200 по 6,4 доллара в час). Благодаря обучению с подкреплением (RL) базовая языковая модель (LM) 3B способна автономно развивать возможности самооценки и поиска. Пользователи могут оценить мощь и инновационность TinyZero благодаря простому процессу настройки и обучения.

Список функций
- задача обратного отсчёта: Поддержка процессов подготовки и обучения данных, чтобы помочь моделям обучаться в задачах обратного отсчета.
- Задачи на умножение: Поддерживает процессы подготовки данных и обучения, чтобы помочь моделям обучаться в задачах умножения.
- Поддержка одного графического процессора: Для параметров модели, меньших или равных 1,5B.
- Поддержка нескольких графических процессоров: Модели, применимые к большим параметрам, способны развивать сложные способности к рассуждениям.
- Инструктаж по абляции: Эксперименты, подтверждающие модель инструктажа QWen-2.5-3B.
- Инструменты улучшения качестваИнструменты включают в себя flash-attn, wandb, IPython и matplotlib, что позволяет расширить возможности обучения и использования модели.
Использование помощи
Процесс установки
- Создайте виртуальную среду:
conda create -n zero python=3.9
- Установите PyTorch (необязательно):
pip install torch==2.4.0 --index-url https://download.pytorch.org/whl/cu121
- Установите vllm:
pip3 install vllm==0.6.3
- Установите луч:
pip3 install ray
- Установите версию:
pip install -e .
- Установите flash-attn:
pip3 install flash-attn --no-build-isolation
- Установка средств повышения качества:
pip install wandb IPython matplotlib
Функции Поток операций
задача обратного отсчёта
- Подготовка данных:
conda activate zero python ./examples/data_preprocess/countdown.py --local_dir {path_to_your_dataset}
- Процесс обучения:
conda activate zero export N_GPUS=1 export BASE_MODEL={path_to_your_model} export DATA_DIR={path_to_your_dataset} export ROLLOUT_TP_SIZE=1 export EXPERIMENT_NAME=countdown-qwen2.5-0.5b export VLLM_ATTENTION_BACKEND=XFORMERS bash ./scripts/train_tiny_zero.sh
Обучение модели 3B+
- Подготовка данных:
conda activate zero python examples/data_preprocess/countdown.py --template_type=qwen-instruct --local_dir={path_to_your_dataset}
- Процесс обучения:
conda activate zero export N_GPUS=2 export BASE_MODEL={path_to_your_model} export DATA_DIR={path_to_your_dataset} export ROLLOUT_TP_SIZE=2 export EXPERIMENT_NAME=countdown-qwen2.5-3b-instruct export VLLM_ATTENTION_BACKEND=XFORMERS bash ./scripts/train_tiny_zero.sh
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...