TinyZero: 딥시크-R1 제로의 깨달음 효과를 저렴한 비용으로 재현한 제품

49.4K 00

일반 소개

TinyZero는 veRL 기반 강화 학습 모델입니다. DeepSeeK-R1 제로의 카운트다운 및 곱셈 작업 성능. 놀랍게도 이 프로젝트는 단 30달러의 운영 비용(시간당 6.4달러의 2xH200 사용 시 5시간 미만)으로 DeepSeeK-R1 Zero와 동일한 성과를 달성했습니다. 강화 학습(RL)을 통해 3B 기본 언어 모델(LM)은 자체 검증 및 검색 기능을 자율적으로 개발할 수 있습니다. 사용자는 간단한 설정과 교육 과정을 통해 TinyZero의 강력한 성능과 혁신을 경험할 수 있습니다.

기능 목록

카운트다운 작업카운트다운 작업에서 모델이 학습할 수 있도록 데이터 준비 및 훈련 프로세스를 지원합니다.
곱셈 작업곱셈 작업에서 모델이 학습할 수 있도록 데이터 준비 및 훈련 프로세스를 지원합니다.
단일 GPU 지원1.5B 이하 모델 파라미터의 경우.
멀티 GPU 지원더 큰 매개변수에 적용할 수 있는 모델은 정교한 추론 기능을 개발할 수 있습니다.
절제 지시QWen-2.5-3B Instruct 모델을 지원하는 실험.
품질 개선 도구모델 훈련 및 사용 환경을 개선하기 위한 도구로는 플래시-attn, wandb, IPython, matplotlib 등이 있습니다.

도움말 사용

설치 프로세스

가상 환경을 만듭니다:
```
conda create -n zero python=3.9
```

PyTorch를 설치합니다(선택 사항):

pip install torch==2.4.0 --index-url https://download.pytorch.org/whl/cu121

vllm을 설치합니다:
```
pip3 install vllm==0.6.3
```
레이를 설치합니다:
```
pip3 install ray
```
verl을 설치합니다:
```
pip install -e .
```

flash-attn을 설치합니다:

pip3 install flash-attn --no-build-isolation

품질 향상 도구 설치:
```
pip install wandb IPython matplotlib
```

기능 작동 흐름

카운트다운 작업

데이터 준비:

conda activate zero
python ./examples/data_preprocess/countdown.py --local_dir {path_to_your_dataset}

교육 과정:

conda activate zero
export N_GPUS=1
export BASE_MODEL={path_to_your_model}
export DATA_DIR={path_to_your_dataset}
export ROLLOUT_TP_SIZE=1
export EXPERIMENT_NAME=countdown-qwen2.5-0.5b
export VLLM_ATTENTION_BACKEND=XFORMERS
bash ./scripts/train_tiny_zero.sh

3B+ 모델 트레이닝

데이터 준비:

conda activate zero
python examples/data_preprocess/countdown.py --template_type=qwen-instruct --local_dir={path_to_your_dataset}

교육 과정:

conda activate zero
export N_GPUS=2
export BASE_MODEL={path_to_your_model}
export DATA_DIR={path_to_your_dataset}
export ROLLOUT_TP_SIZE=2
export EXPERIMENT_NAME=countdown-qwen2.5-3b-instruct
export VLLM_ATTENTION_BACKEND=XFORMERS
bash ./scripts/train_tiny_zero.sh