TinyZero : une réplique à faible coût de l'effet épiphanique de DeepSeeK-R1 Zero

Dernières ressources sur l'IAPosté il y a 8 mois Cercle de partage de l'IA

Introduction générale

TinyZero est un modèle d'apprentissage par renforcement basé sur le veRL, conçu pour reproduire l'image de l'homme de la rue. DeepSeeK-R1 Les performances de Zero dans les tâches de compte à rebours et de multiplication. Étonnamment, le projet permet d'obtenir les mêmes résultats que DeepSeeK-R1 Zero pour un coût de fonctionnement de seulement 30 dollars (moins de 5 heures en utilisant 2xH200 à 6,4 dollars l'heure). Grâce à l'apprentissage par renforcement (RL), le modèle de langage de la base 3B (LM) est capable de développer de manière autonome des capacités d'auto-validation et de recherche. Les utilisateurs peuvent découvrir la puissance et l'innovation de TinyZero grâce à un processus d'installation et de formation simple.

Liste des fonctions

tâche de compte à reboursLes tâches d'apprentissage : soutenir les processus de préparation des données et de formation pour aider les modèles à apprendre dans les tâches de compte à rebours.
Tâches de multiplicationLe programme d'apprentissage de la multiplication : il soutient les processus de préparation et de formation des données afin d'aider les modèles à apprendre les tâches de multiplication.
Prise en charge d'un seul GPUPour les paramètres du modèle inférieurs ou égaux à 1,5B.
Support multi-GPULes modèles applicables à des paramètres plus importants sont capables de développer des capacités de raisonnement sophistiquées.
Instruire l'ablation: Expériences à l'appui du modèle QWen-2.5-3B Instruct.
Outils d'amélioration de la qualitéLes outils comprennent flash-attn, wandb, IPython et matplotlib pour améliorer l'expérience de formation et d'utilisation du modèle.

Utiliser l'aide

Processus d'installation

Créer un environnement virtuel :
```
conda create -n zero python=3.9
```

Installer PyTorch (optionnel) :

pip install torch==2.4.0 --index-url https://download.pytorch.org/whl/cu121

Installer vllm :
```
pip3 install vllm==0.6.3
```
Installer le rayon :
```
pip3 install ray
```
Installer verl :
```
pip install -e .
```

Installer flash-attn :

pip3 install flash-attn --no-build-isolation

Mise en place d'outils d'amélioration de la qualité :
```
pip install wandb IPython matplotlib
```

Fonction Opération Déroulement

tâche de compte à rebours

Préparation des données :

conda activate zero
python ./examples/data_preprocess/countdown.py --local_dir {path_to_your_dataset}

Processus de formation :

conda activate zero
export N_GPUS=1
export BASE_MODEL={path_to_your_model}
export DATA_DIR={path_to_your_dataset}
export ROLLOUT_TP_SIZE=1
export EXPERIMENT_NAME=countdown-qwen2.5-0.5b
export VLLM_ATTENTION_BACKEND=XFORMERS
bash ./scripts/train_tiny_zero.sh

Formation au modèle 3B

Préparation des données :

conda activate zero
python examples/data_preprocess/countdown.py --template_type=qwen-instruct --local_dir={path_to_your_dataset}

Processus de formation :

conda activate zero
export N_GPUS=2
export BASE_MODEL={path_to_your_model}
export DATA_DIR={path_to_your_dataset}
export ROLLOUT_TP_SIZE=2
export EXPERIMENT_NAME=countdown-qwen2.5-3b-instruct
export VLLM_ATTENTION_BACKEND=XFORMERS
bash ./scripts/train_tiny_zero.sh