TinyZero : une réplique à faible coût de l'effet épiphanique de DeepSeeK-R1 Zero
Introduction générale
TinyZero est un modèle d'apprentissage par renforcement basé sur le veRL, conçu pour reproduire l'image de l'homme de la rue. DeepSeeK-R1 Les performances de Zero dans les tâches de compte à rebours et de multiplication. Étonnamment, le projet permet d'obtenir les mêmes résultats que DeepSeeK-R1 Zero pour un coût de fonctionnement de seulement 30 dollars (moins de 5 heures en utilisant 2xH200 à 6,4 dollars l'heure). Grâce à l'apprentissage par renforcement (RL), le modèle de langage de la base 3B (LM) est capable de développer de manière autonome des capacités d'auto-validation et de recherche. Les utilisateurs peuvent découvrir la puissance et l'innovation de TinyZero grâce à un processus d'installation et de formation simple.

Liste des fonctions
- tâche de compte à reboursLes tâches d'apprentissage : soutenir les processus de préparation des données et de formation pour aider les modèles à apprendre dans les tâches de compte à rebours.
- Tâches de multiplicationLe programme d'apprentissage de la multiplication : il soutient les processus de préparation et de formation des données afin d'aider les modèles à apprendre les tâches de multiplication.
- Prise en charge d'un seul GPUPour les paramètres du modèle inférieurs ou égaux à 1,5B.
- Support multi-GPULes modèles applicables à des paramètres plus importants sont capables de développer des capacités de raisonnement sophistiquées.
- Instruire l'ablation: Expériences à l'appui du modèle QWen-2.5-3B Instruct.
- Outils d'amélioration de la qualitéLes outils comprennent flash-attn, wandb, IPython et matplotlib pour améliorer l'expérience de formation et d'utilisation du modèle.
Utiliser l'aide
Processus d'installation
- Créer un environnement virtuel :
conda create -n zero python=3.9
- Installer PyTorch (optionnel) :
pip install torch==2.4.0 --index-url https://download.pytorch.org/whl/cu121
- Installer vllm :
pip3 install vllm==0.6.3
- Installer le rayon :
pip3 install ray
- Installer verl :
pip install -e .
- Installer flash-attn :
pip3 install flash-attn --no-build-isolation
- Mise en place d'outils d'amélioration de la qualité :
pip install wandb IPython matplotlib
Fonction Opération Déroulement
tâche de compte à rebours
- Préparation des données :
conda activate zero python ./examples/data_preprocess/countdown.py --local_dir {path_to_your_dataset}
- Processus de formation :
conda activate zero export N_GPUS=1 export BASE_MODEL={path_to_your_model} export DATA_DIR={path_to_your_dataset} export ROLLOUT_TP_SIZE=1 export EXPERIMENT_NAME=countdown-qwen2.5-0.5b export VLLM_ATTENTION_BACKEND=XFORMERS bash ./scripts/train_tiny_zero.sh
Formation au modèle 3B
- Préparation des données :
conda activate zero python examples/data_preprocess/countdown.py --template_type=qwen-instruct --local_dir={path_to_your_dataset}
- Processus de formation :
conda activate zero export N_GPUS=2 export BASE_MODEL={path_to_your_model} export DATA_DIR={path_to_your_dataset} export ROLLOUT_TP_SIZE=2 export EXPERIMENT_NAME=countdown-qwen2.5-3b-instruct export VLLM_ATTENTION_BACKEND=XFORMERS bash ./scripts/train_tiny_zero.sh
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...