Open R1: 딥시크-R1 훈련 프로세스를 복제하는 허깅 페이스

72.3K 00

일반 소개

허깅 페이스의 Open R1 프로젝트는 완전한 오픈 소스 DeepSeek-R1 복제 프로젝트로, R1 파이프라인에서 누락된 부분을 구축하여 누구나 이를 복제하고 구축할 수 있도록 하는 것을 목표로 합니다. 이 프로젝트는 간단하게 설계되었으며 주로 모델 훈련 및 평가와 합성 데이터 생성을 위한 스크립트로 구성되어 있으며, 기본 모델부터 강화 학습 튜닝 모델에 이르기까지 다단계 훈련 과정을 통해 R1 파이프라인을 재현하는 전체 과정을 시연하는 것이 Open R1 프로젝트의 목표입니다. 이 프로젝트에는 자세한 설치 및 사용 지침이 포함되어 있으며 커뮤니티 기여와 협업을 지원합니다.

다음부터 시작하겠습니다. DeepSeek-R1 기술 보고서는 가이드 역할을 하며, 크게 세 가지 주요 단계로 나눌 수 있습니다:

1단계: DeepSeek-R1에서 고품질 말뭉치를 추출하여 R1-Distill 모델을 복제합니다.

2단계: 복제 DeepSeek R1-Zero를 생성하기 위한 순수 강화 학습(RL) 프로세스. 이를 위해서는 수학, 추론 및 코드를 위한 새로운 대규모 데이터 세트를 대조해야 할 수 있습니다.

3단계: 다단계 훈련을 통해 기본 모델에서 RL 튜닝된 모델로 전환할 수 있음을 입증합니다.

Open R1：Hugging Face 复现 DeepSeek-R1 的训练过程

기능 목록

모델 교육: GRPO 및 SFT 트레이닝 방법을 포함한 트레이닝 모델용 스크립트를 제공합니다.
모델링 평가모델 성능 평가를 위한 스크립트를 제공하고 R1 벤치마킹을 지원합니다.
데이터 생성Distilabel을 사용하여 합성 데이터를 생성하기 위한 스크립트입니다.
다단계 교육기본 모델에서 강화 학습 튜닝에 이르는 다단계 학습 프로세스를 시연합니다.
커뮤니티 기여커뮤니티 회원들이 데이터 세트와 모델 개선에 기여할 수 있도록 지원합니다.

도움말 사용

설치 프로세스

Python 가상 환경 만들기::

   conda create -n openr1 python=3.11
conda activate openr1

vLLM 설치::

   pip install vllm==0.6.6.post1

이렇게 하면 PyTorch v2.5.1이 동시에 설치되며, vLLM 바이너리와의 호환성을 위해 이 버전을 사용해야 합니다.

프로젝트 종속성 설치::

   pip install -e ".[dev]"

허깅 페이스 및 가중치 및 편향성 계정에 로그인하기::

   huggingface-cli login
wandb login

Git LFS 설치::

   sudo apt-get install git-lfs

사용 가이드라인

교육 모델::
- GRPO를 사용하여 모델을 학습시킵니다:
```
 python src/open_r1/grpo.py --dataset <dataset_path>
```
- SFT를 사용하여 모델을 훈련합니다:
```
 python src/open_r1/sft.py --dataset <dataset_path>
```
평가 모델::

   python src/open_r1/evaluate.py --model <model_path> --benchmark <benchmark_name>

합성 데이터 생성::

   python src/open_r1/generate.py --model <model_path> --output <output_path>

다단계 교육::
- 1단계: R1-Distill 모델을 복제합니다: bash python src/open_r1/distill.py --corpus <corpus_path>
- 2단계: 순수 RL 파이프라인을 복제합니다: bash python src/open_r1/rl_pipeline.py --dataset <dataset_path>
- 3단계: 기본 모델에서 RL 튜닝까지: bash python src/open_r1/multi_stage_training.py --model <model_path>

기여 가이드라인

프로젝트 포크프로젝트를 GitHub의 내 계정으로 포크합니다.
복제 프로젝트::

   git clone https://github.com/<your_username>/open-r1.git

새 브랜치 만들기::

   git checkout -b new-feature

변경 사항 제출::

   git add .
git commit -m "Add new feature"
git push origin new-feature

풀 리퀘스트 만들기변경 사항을 설명하는 풀 리퀘스트를 GitHub에 제출하세요.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

Qwen3-Coder-Next - 阿里通义千问开源的编程智能体混合模型

최신 AI 리소스

1개월 전

025.7K

Workers AI를 기반으로 여러 파일을 무료로 마크다운 형식으로 변환하세요.

12개월 전

052.1K

Apollo AI：在iOS设备上运行多种本地模型（Llama 3.1，Qwen，DeepSeek R1）

Apollo AI: iOS 기기에서 여러 로컬 모델 실행(Llama 3.1, Qwen, DeepSeek R1)

최신 AI 리소스 # AI 현지화 채팅 애플리케이션

1 년 전

065K

솔버: 프로그래밍 작업을 자율적으로 완료하는 지능형 도구

최신 AI 리소스 # AI 프로그래밍

9개월 전

051.3K

댓글 없음

댓글에 참여하려면 로그인해야 합니다!

지금 로그인

댓글 없음...

Open R1: 딥시크-R1 훈련 프로세스를 복제하는 허깅 페이스

일반 소개

기능 목록

도움말 사용

설치 프로세스

사용 가이드라인

기여 가이드라인

오픈 오퍼레이터: AI 인텔리전스를 통해 클라우드 브라우저에서 자동화된 작업 수행하기

TinyZero: 딥시크-R1 제로의 깨달음 효과를 저렴한 비용으로 재현한 제품

관련 문서

Qwen3-Coder-Next - 阿里通义千问开源的编程智能体混合模型

Workers AI를 기반으로 여러 파일을 무료로 마크다운 형식으로 변환하세요.

Apollo AI: iOS 기기에서 여러 로컬 모델 실행(Llama 3.1, Qwen, DeepSeek R1)

솔버: 프로그래밍 작업을 자율적으로 완료하는 지능형 도구

댓글 없음

최신 컬렉션

최신 기사

Open R1: 딥시크-R1 훈련 프로세스를 복제하는 허깅 페이스

일반 소개

기능 목록

도움말 사용

설치 프로세스

사용 가이드라인

기여 가이드라인

오픈 오퍼레이터: AI 인텔리전스를 통해 클라우드 브라우저에서 자동화된 작업 수행하기

TinyZero: 딥시크-R1 제로의 깨달음 효과를 저렴한 비용으로 재현한 제품

관련 문서

Qwen3-Coder-Next - 阿里通义千问开源的编程智能体混合模型

Workers AI를 기반으로 여러 파일을 무료로 마크다운 형식으로 변환하세요.

Apollo AI: iOS 기기에서 여러 로컬 모델 실행(Llama 3.1, Qwen, DeepSeek R1)

솔버: 프로그래밍 작업을 자율적으로 완료하는 지능형 도구

댓글 없음

선택한 AI 도구

최신 컬렉션

최신 기사