중국어 기반 풀 블러드 DeepSeek-R1 증류 데이터 세트, 중국어 R1 증류 SFT 데이터 세트 지원

53.7K 00

일반 소개

중국 DeepSeek-R1 증류 데이터 세트는 머신러닝 및 자연어 처리 연구를 지원하도록 설계된 11만 개의 데이터가 포함된 오픈 소스 중국어 데이터 세트입니다. 이 데이터 세트는 Liu Cong NLP 팀에서 공개했으며, 수학 데이터뿐만 아니라 논리적 추론, 샤오홍슈, 지후 등과 같은 일반적인 유형의 데이터도 다수 포함되어 있습니다. 데이터 세트의 증류 과정은 데이터의 높은 품질과 다양성을 보장하기 위해 DeepSeek-R1 관계자가 제공 한 세부 사항에 따라 엄격하게 수행됩니다. 사용자는 허깅 페이스와 모델스코프 플랫폼에서 데이터셋을 무료로 다운로드하여 사용할 수 있습니다.

기능 목록

다양한 데이터 유형수학, 논리적 추론, 일반 데이터 유형 등이 포함되어 있습니다.
고품질 데이터딥시크릿-R1에서 제공하는 공식 세부 정보에 따라 엄격하게 증류합니다.
무료 오픈 소스사용자는 허깅 페이스 및 모델스코프 플랫폼에서 무료로 다운로드할 수 있습니다.
여러 애플리케이션 지원머신 러닝, 자연어 처리 등 다양한 연구 분야에 적용 가능.
자세한 데이터 배포데이터의 상세한 분류와 정량적 정보를 제공합니다.

도움말 사용

설치 프로세스

허깅 페이스 또는 모델스코프 플랫폼을 방문하세요.
"Chinese-DeepSeek-R1-Distill-data-110k"를 검색합니다.
다운로드 링크를 클릭하고 다운로드할 적절한 형식을 선택합니다.

사용법

데이터 집합 로드파이썬 환경에서datasets라이브러리가 데이터 집합을 로드합니다.

   from datasets import load_dataset
dataset = load_dataset("Congliu/Chinese-DeepSeek-R1-Distill-data-110k")

데이터 보기사용dataset개체는 데이터 집합의 기본 정보 및 샘플을 봅니다.

   print(dataset)
print(dataset['train'][0])

데이터 전처리단어 분할, 중복 제거 등 연구 필요에 따른 데이터 전처리.

   from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')
tokenized_data = dataset.map(lambda x: tokenizer(x['text'], padding='max_length', truncation=True))

모델 교육사전 처리된 데이터를 사용한 모델 학습.

   from transformers import BertForSequenceClassification, Trainer, TrainingArguments
model = BertForSequenceClassification.from_pretrained('bert-base-chinese')
training_args = TrainingArguments(output_dir='./results', num_train_epochs=3, per_device_train_batch_size=16)
trainer = Trainer(model=model, args=training_args, train_dataset=tokenized_data['train'])
trainer.train()

주요 기능 작동 절차

수학적 데이터 처리수학 데이터의 경우 "단계별로 추론하고 최종 답을 \boxed {}에 입력하세요."라는 프롬프트를 추가합니다.

   def add_math_prompt(example):
example['text'] = "请一步步推理，并把最终答案放到 \\boxed {}。" + example['text']
return example
math_data = dataset.filter(lambda x: x['category'] == 'math').map(add_math_prompt)

논리적 추론 데이터 처리논리적 추론 데이터의 특수 처리로 논리적이고 일관된 데이터를 보장합니다.

   def process_logic_data(example):
# 自定义逻辑处理代码
return example
logic_data = dataset.filter(lambda x: x['category'] == 'logic').map(process_logic_data)