TinyZero: недорогая репликация эффекта прозрения DeepSeeK-R1 Zero

Последние ресурсы по искусственному интеллектуОпубликовано 1 год назад Круг обмена ИИ

Общее введение

TinyZero - это модель обучения с подкреплением на основе veRL, разработанная для воспроизведения DeepSeeK-R1 Производительность Zero в задачах обратного отсчета и умножения. Удивительно, но проект достигает тех же прозрений, что и DeepSeeK-R1 Zero, при текущих затратах всего в 30 долларов (менее 5 часов при использовании 2xH200 по 6,4 доллара в час). Благодаря обучению с подкреплением (RL) базовая языковая модель (LM) 3B способна автономно развивать возможности самооценки и поиска. Пользователи могут оценить мощь и инновационность TinyZero благодаря простому процессу настройки и обучения.

Список функций

задача обратного отсчёта: Поддержка процессов подготовки и обучения данных, чтобы помочь моделям обучаться в задачах обратного отсчета.
Задачи на умножение: Поддерживает процессы подготовки данных и обучения, чтобы помочь моделям обучаться в задачах умножения.
Поддержка одного графического процессора: Для параметров модели, меньших или равных 1,5B.
Поддержка нескольких графических процессоров: Модели, применимые к большим параметрам, способны развивать сложные способности к рассуждениям.
Инструктаж по абляции: Эксперименты, подтверждающие модель инструктажа QWen-2.5-3B.
Инструменты улучшения качестваИнструменты включают в себя flash-attn, wandb, IPython и matplotlib, что позволяет расширить возможности обучения и использования модели.

Использование помощи

Процесс установки

Создайте виртуальную среду:
```
conda create -n zero python=3.9
```

Установите PyTorch (необязательно):

pip install torch==2.4.0 --index-url https://download.pytorch.org/whl/cu121

Установите vllm:
```
pip3 install vllm==0.6.3
```
Установите луч:
```
pip3 install ray
```
Установите версию:
```
pip install -e .
```

Установите flash-attn:

pip3 install flash-attn --no-build-isolation

Установка средств повышения качества:
```
pip install wandb IPython matplotlib
```

Функции Поток операций

задача обратного отсчёта

Подготовка данных:

conda activate zero
python ./examples/data_preprocess/countdown.py --local_dir {path_to_your_dataset}

Процесс обучения:

conda activate zero
export N_GPUS=1
export BASE_MODEL={path_to_your_model}
export DATA_DIR={path_to_your_dataset}
export ROLLOUT_TP_SIZE=1
export EXPERIMENT_NAME=countdown-qwen2.5-0.5b
export VLLM_ATTENTION_BACKEND=XFORMERS
bash ./scripts/train_tiny_zero.sh

Обучение модели 3B+

Подготовка данных:

conda activate zero
python examples/data_preprocess/countdown.py --template_type=qwen-instruct --local_dir={path_to_your_dataset}

Процесс обучения:

conda activate zero
export N_GPUS=2
export BASE_MODEL={path_to_your_model}
export DATA_DIR={path_to_your_dataset}
export ROLLOUT_TP_SIZE=2
export EXPERIMENT_NAME=countdown-qwen2.5-3b-instruct
export VLLM_ATTENTION_BACKEND=XFORMERS
bash ./scripts/train_tiny_zero.sh

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct