Open R1: 딥시크-R1 훈련 프로세스를 복제하는 허깅 페이스

최신 AI 리소스7개월 전에 게시 됨 AI 공유 서클
2.6K 00

일반 소개

허깅 페이스의 Open R1 프로젝트는 완전한 오픈 소스 DeepSeek-R1 복제 프로젝트로, R1 파이프라인에서 누락된 부분을 구축하여 누구나 이를 복제하고 구축할 수 있도록 하는 것을 목표로 합니다. 이 프로젝트는 간단하게 설계되었으며 주로 모델 훈련 및 평가와 합성 데이터 생성을 위한 스크립트로 구성되어 있으며, 기본 모델부터 강화 학습 튜닝 모델에 이르기까지 다단계 훈련 과정을 통해 R1 파이프라인을 재현하는 전체 과정을 시연하는 것이 Open R1 프로젝트의 목표입니다. 이 프로젝트에는 자세한 설치 및 사용 지침이 포함되어 있으며 커뮤니티 기여와 협업을 지원합니다.

다음부터 시작하겠습니다. DeepSeek-R1 기술 보고서는 가이드 역할을 하며, 크게 세 가지 주요 단계로 나눌 수 있습니다:

1단계: DeepSeek-R1에서 고품질 말뭉치를 추출하여 R1-Distill 모델을 복제합니다.

2단계: 복제 DeepSeek R1-Zero를 생성하기 위한 순수 강화 학습(RL) 프로세스. 이를 위해서는 수학, 추론 및 코드를 위한 새로운 대규모 데이터 세트를 대조해야 할 수 있습니다.

3단계: 다단계 훈련을 통해 기본 모델에서 RL 튜닝된 모델로 전환할 수 있음을 입증합니다.

Open R1:Hugging Face 复现 DeepSeek-R1 的训练过程

 

기능 목록

  • 모델 교육: GRPO 및 SFT 트레이닝 방법을 포함한 트레이닝 모델용 스크립트를 제공합니다.
  • 모델링 평가모델 성능 평가를 위한 스크립트를 제공하고 R1 벤치마킹을 지원합니다.
  • 데이터 생성Distilabel을 사용하여 합성 데이터를 생성하기 위한 스크립트입니다.
  • 다단계 교육기본 모델에서 강화 학습 튜닝에 이르는 다단계 학습 프로세스를 시연합니다.
  • 커뮤니티 기여커뮤니티 회원들이 데이터 세트와 모델 개선에 기여할 수 있도록 지원합니다.

 

도움말 사용

설치 프로세스

  1. Python 가상 환경 만들기::
   conda create -n openr1 python=3.11
conda activate openr1
  1. vLLM 설치::
   pip install vllm==0.6.6.post1

이렇게 하면 PyTorch v2.5.1이 동시에 설치되며, vLLM 바이너리와의 호환성을 위해 이 버전을 사용해야 합니다.

  1. 프로젝트 종속성 설치::
   pip install -e ".[dev]"
  1. 허깅 페이스 및 가중치 및 편향성 계정에 로그인하기::
   huggingface-cli login
wandb login
  1. Git LFS 설치::
   sudo apt-get install git-lfs

사용 가이드라인

  1. 교육 모델::
    • GRPO를 사용하여 모델을 학습시킵니다:
     python src/open_r1/grpo.py --dataset <dataset_path>
    
    • SFT를 사용하여 모델을 훈련합니다:
     python src/open_r1/sft.py --dataset <dataset_path>
    
  2. 평가 모델::
   python src/open_r1/evaluate.py --model <model_path> --benchmark <benchmark_name>
  1. 합성 데이터 생성::
   python src/open_r1/generate.py --model <model_path> --output <output_path>
  1. 다단계 교육::
    • 1단계: R1-Distill 모델을 복제합니다: bash
      python src/open_r1/distill.py --corpus <corpus_path>
    • 2단계: 순수 RL 파이프라인을 복제합니다: bash
      python src/open_r1/rl_pipeline.py --dataset <dataset_path>
    • 3단계: 기본 모델에서 RL 튜닝까지: bash
      python src/open_r1/multi_stage_training.py --model <model_path>

기여 가이드라인

  1. 프로젝트 포크프로젝트를 GitHub의 내 계정으로 포크합니다.
  2. 복제 프로젝트::
   git clone https://github.com/<your_username>/open-r1.git
  1. 새 브랜치 만들기::
   git checkout -b new-feature
  1. 변경 사항 제출::
   git add .
git commit -m "Add new feature"
git push origin new-feature
  1. 풀 리퀘스트 만들기변경 사항을 설명하는 풀 리퀘스트를 GitHub에 제출하세요.
© 저작권 정책
AiPPT

관련 게시물

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...