TinyZero: una réplica de bajo coste del efecto epifánico de DeepSeeK-R1 Zero

Últimos recursos sobre IAPublicado hace 11 meses Círculo de intercambio de inteligencia artificial

47.5K 00

Introducción general

TinyZero es un modelo de aprendizaje por refuerzo basado en veRL diseñado para reproducir la DeepSeeK-R1 El rendimiento de Zero en tareas de cuenta atrás y multiplicación. Sorprendentemente, el proyecto logra las mismas epifanías que DeepSeeK-R1 Zero por un coste de funcionamiento de sólo 30 dólares (menos de 5 horas utilizando 2xH200 a 6,4 dólares la hora). A través del Aprendizaje por Refuerzo (RL), el Modelo de Lenguaje Base (LM) de 3B es capaz de desarrollar de forma autónoma capacidades de autovalidación y búsqueda. Los usuarios pueden experimentar la potencia y la innovación de TinyZero a través de un sencillo proceso de configuración y entrenamiento.

Lista de funciones

tarea de cuenta atrás: Apoyo a los procesos de preparación y entrenamiento de datos para ayudar a los modelos a aprender en las tareas de cuenta atrás.
Tareas de multiplicación: Apoya los procesos de preparación y entrenamiento de datos para ayudar a los modelos a aprender en tareas de multiplicación.
Soporte para una sola GPUPara parámetros de modelo inferiores o iguales a 1,5B.
Soporte Multi-GPU: Los modelos aplicables a parámetros más amplios son capaces de desarrollar capacidades de razonamiento sofisticadas.
Instruir la ablaciónExperimentos en apoyo del modelo QWen-2.5-3B Instruct.
Herramientas de mejora de la calidadLas herramientas incluyen flash-attn, wandb, IPython y matplotlib para mejorar la formación del modelo y la experiencia de uso.

Utilizar la ayuda

Proceso de instalación

Crear un entorno virtual:
```
conda create -n zero python=3.9
```

Instale PyTorch (opcional):

pip install torch==2.4.0 --index-url https://download.pytorch.org/whl/cu121

Instalar vllm:
```
pip3 install vllm==0.6.3
```
Instalar rayo:
```
pip3 install ray
```
Instalar verl:
```
pip install -e .
```

Instalar flash-attn:

pip3 install flash-attn --no-build-isolation

Instalación de herramientas de mejora de la calidad:
```
pip install wandb IPython matplotlib
```

Función Flujo de operaciones

tarea de cuenta atrás

Preparación de datos:

conda activate zero
python ./examples/data_preprocess/countdown.py --local_dir {path_to_your_dataset}

Proceso de formación:

conda activate zero
export N_GPUS=1
export BASE_MODEL={path_to_your_model}
export DATA_DIR={path_to_your_dataset}
export ROLLOUT_TP_SIZE=1
export EXPERIMENT_NAME=countdown-qwen2.5-0.5b
export VLLM_ATTENTION_BACKEND=XFORMERS
bash ./scripts/train_tiny_zero.sh

Formación de modelos 3B

Preparación de datos:

conda activate zero
python examples/data_preprocess/countdown.py --template_type=qwen-instruct --local_dir={path_to_your_dataset}

Proceso de formación:

conda activate zero
export N_GPUS=2
export BASE_MODEL={path_to_your_model}
export DATA_DIR={path_to_your_dataset}
export ROLLOUT_TP_SIZE=2
export EXPERIMENT_NAME=countdown-qwen2.5-3b-instruct
export VLLM_ATTENTION_BACKEND=XFORMERS
bash ./scripts/train_tiny_zero.sh