TinyZero : une réplique à faible coût de l'effet épiphanique de DeepSeeK-R1 Zero

Introduction générale

TinyZero est un modèle d'apprentissage par renforcement basé sur le veRL, conçu pour reproduire l'image de l'homme de la rue. DeepSeeK-R1 Les performances de Zero dans les tâches de compte à rebours et de multiplication. Étonnamment, le projet permet d'obtenir les mêmes résultats que DeepSeeK-R1 Zero pour un coût de fonctionnement de seulement 30 dollars (moins de 5 heures en utilisant 2xH200 à 6,4 dollars l'heure). Grâce à l'apprentissage par renforcement (RL), le modèle de langage de la base 3B (LM) est capable de développer de manière autonome des capacités d'auto-validation et de recherche. Les utilisateurs peuvent découvrir la puissance et l'innovation de TinyZero grâce à un processus d'installation et de formation simple.

TinyZero:低成本复现 DeepSeeK-R1 Zero 的顿悟效果

 

Liste des fonctions

  • tâche de compte à reboursLes tâches d'apprentissage : soutenir les processus de préparation des données et de formation pour aider les modèles à apprendre dans les tâches de compte à rebours.
  • Tâches de multiplicationLe programme d'apprentissage de la multiplication : il soutient les processus de préparation et de formation des données afin d'aider les modèles à apprendre les tâches de multiplication.
  • Prise en charge d'un seul GPUPour les paramètres du modèle inférieurs ou égaux à 1,5B.
  • Support multi-GPULes modèles applicables à des paramètres plus importants sont capables de développer des capacités de raisonnement sophistiquées.
  • Instruire l'ablation: Expériences à l'appui du modèle QWen-2.5-3B Instruct.
  • Outils d'amélioration de la qualitéLes outils comprennent flash-attn, wandb, IPython et matplotlib pour améliorer l'expérience de formation et d'utilisation du modèle.

 

Utiliser l'aide

Processus d'installation

  1. Créer un environnement virtuel :
    conda create -n zero python=3.9
    
  2. Installer PyTorch (optionnel) :
    pip install torch==2.4.0 --index-url https://download.pytorch.org/whl/cu121
    
  3. Installer vllm :
    pip3 install vllm==0.6.3
    
  4. Installer le rayon :
    pip3 install ray
    
  5. Installer verl :
    pip install -e .
    
  6. Installer flash-attn :
    pip3 install flash-attn --no-build-isolation
    
  7. Mise en place d'outils d'amélioration de la qualité :
    pip install wandb IPython matplotlib
    

Fonction Opération Déroulement

tâche de compte à rebours

  1. Préparation des données :
    conda activate zero
    python ./examples/data_preprocess/countdown.py --local_dir {path_to_your_dataset}
    
  2. Processus de formation :
    conda activate zero
    export N_GPUS=1
    export BASE_MODEL={path_to_your_model}
    export DATA_DIR={path_to_your_dataset}
    export ROLLOUT_TP_SIZE=1
    export EXPERIMENT_NAME=countdown-qwen2.5-0.5b
    export VLLM_ATTENTION_BACKEND=XFORMERS
    bash ./scripts/train_tiny_zero.sh
    

Formation au modèle 3B

  1. Préparation des données :
    conda activate zero
    python examples/data_preprocess/countdown.py --template_type=qwen-instruct --local_dir={path_to_your_dataset}
    
  2. Processus de formation :
    conda activate zero
    export N_GPUS=2
    export BASE_MODEL={path_to_your_model}
    export DATA_DIR={path_to_your_dataset}
    export ROLLOUT_TP_SIZE=2
    export EXPERIMENT_NAME=countdown-qwen2.5-3b-instruct
    export VLLM_ATTENTION_BACKEND=XFORMERS
    bash ./scripts/train_tiny_zero.sh
    
© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...