AI个人学习
和实操指南
豆包Marscode1

中文基于满血 DeepSeek-R1 蒸馏数据集,支持中文R1蒸馏SFT数据集

综合介绍

中文DeepSeek-R1蒸馏数据集是一个开源的中文数据集,包含110K条数据,旨在支持机器学习和自然语言处理研究。该数据集由刘聪NLP团队发布,数据集不仅包含数学数据,还包括大量的通用类型数据,如逻辑推理、小红书、知乎等。数据集的蒸馏过程严格按照DeepSeek-R1官方提供的细节进行,确保数据的高质量和多样性。用户可以在Hugging Face和ModelScope平台上免费下载和使用该数据集。

中文基于满血 DeepSeek-R1 蒸馏数据集,支持中文R1蒸馏SFT数据集-1


 

功能列表

  • 多样化数据类型:包含数学、逻辑推理、通用类型数据等。
  • 高质量数据:严格按照DeepSeek-R1官方提供的细节进行蒸馏。
  • 免费开源:用户可以在Hugging Face和ModelScope平台上免费下载。
  • 支持多种应用:适用于机器学习、自然语言处理等多种研究领域。
  • 详细数据分布:提供数据的详细分类和数量信息。

 

使用帮助

安装流程

  1. 访问Hugging Face或ModelScope平台。
  2. 搜索“Chinese-DeepSeek-R1-Distill-data-110k”。
  3. 点击下载链接,选择合适的格式进行下载。

使用方法

  1. 加载数据集:在Python环境中使用datasets库加载数据集。
   from datasets import load_dataset
dataset = load_dataset("Congliu/Chinese-DeepSeek-R1-Distill-data-110k")
  1. 查看数据:使用dataset对象查看数据集的基本信息和样本。
   print(dataset)
print(dataset['train'][0])
  1. 数据预处理:根据研究需求对数据进行预处理,如分词、去停用词等。
   from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')
tokenized_data = dataset.map(lambda x: tokenizer(x['text'], padding='max_length', truncation=True))
  1. 模型训练:使用预处理后的数据进行模型训练。
   from transformers import BertForSequenceClassification, Trainer, TrainingArguments
model = BertForSequenceClassification.from_pretrained('bert-base-chinese')
training_args = TrainingArguments(output_dir='./results', num_train_epochs=3, per_device_train_batch_size=16)
trainer = Trainer(model=model, args=training_args, train_dataset=tokenized_data['train'])
trainer.train()

特色功能操作流程

  1. 数学数据处理:针对数学类型数据,增加提示词“请一步步推理,并把最终答案放到 \boxed {}”。
   def add_math_prompt(example):
example['text'] = "请一步步推理,并把最终答案放到 \\boxed {}。" + example['text']
return example
math_data = dataset.filter(lambda x: x['category'] == 'math').map(add_math_prompt)
  1. 逻辑推理数据处理:对逻辑推理数据进行特殊处理,确保数据的逻辑性和一致性。
   def process_logic_data(example):
# 自定义逻辑处理代码
return example
logic_data = dataset.filter(lambda x: x['category'] == 'logic').map(process_logic_data)
未经允许不得转载:首席AI分享圈 » 中文基于满血 DeepSeek-R1 蒸馏数据集,支持中文R1蒸馏SFT数据集
zh_CN简体中文