Aprendizagem pessoal com IA
e orientação prática
豆包Marscode1

Conjunto de dados de destilação DeepSeek-R1 de sangue puro baseado na China, compatível com o conjunto de dados SFT de destilação R1 chinês

Introdução geral

O conjunto de dados chinês de destilação DeepSeek-R1 é um conjunto de dados chinês de código aberto que contém 110 mil dados projetados para dar suporte à pesquisa de aprendizado de máquina e processamento de linguagem natural. O conjunto de dados foi lançado pela equipe de NLP de Liu Cong e contém não apenas dados matemáticos, mas também um grande número de tipos gerais de dados, como raciocínio lógico, Xiaohongshu, Zhihu e assim por diante. O processo de destilação do conjunto de dados é realizado estritamente de acordo com os detalhes fornecidos pelo funcionário do DeepSeek-R1 para garantir a alta qualidade e a diversidade dos dados. Os usuários podem baixar e usar o conjunto de dados gratuitamente nas plataformas Hugging Face e ModelScope.

中文基于满血 DeepSeek-R1 蒸馏数据集,支持中文R1蒸馏SFT数据集-1


 

Lista de funções

  • Diversos tipos de dadosDados: contém matemática, raciocínio lógico, tipos genéricos de dados, etc.
  • Dados de alta qualidadeDestilado em estrita conformidade com os detalhes oficiais fornecidos pela DeepSeek-R1.
  • gratuito e de código abertoOs usuários podem baixá-lo gratuitamente nas plataformas Hugging Face e ModelScope.
  • Suporte a vários aplicativosAplicável a uma ampla gama de áreas de pesquisa, como aprendizado de máquina e processamento de linguagem natural.
  • Distribuição detalhada de dadosInformações quantitativas: fornece categorização detalhada de dados e informações quantitativas.

 

Usando a Ajuda

Processo de instalação

  1. Visite as plataformas Hugging Face ou ModelScope.
  2. Pesquise por "Chinese-DeepSeek-R1-Distill-data-110k".
  3. Clique no link de download e selecione o formato apropriado para download.

Uso

  1. Carregando conjuntos de dadosno ambiente PythondatasetsA biblioteca carrega o conjunto de dados.
   from datasets import load_dataset
dataset = load_dataset("Congliu/Chinese-DeepSeek-R1-Distill-data-110k")
  1. Exibir dados: UsodatasetOs objetos exibem informações básicas e amostras do conjunto de dados.
   print(dataset)
print(dataset['train'][0])
  1. Pré-processamento de dadosPré-processamento de dados de acordo com as necessidades da pesquisa, como divisão de palavras e eliminação de duplicação.
   from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')
tokenized_data = dataset.map(lambda x: tokenizer(x['text'], padding='max_length', truncation=True))
  1. treinamento de modelosTreinamento de modelos usando dados pré-processados.
   from transformers import BertForSequenceClassification, Trainer, TrainingArguments
model = BertForSequenceClassification.from_pretrained('bert-base-chinese')
training_args = TrainingArguments(output_dir='./results', num_train_epochs=3, per_device_train_batch_size=16)
trainer = Trainer(model=model, args=training_args, train_dataset=tokenized_data['train'])
trainer.train()

Funções em destaque Procedimento de operação

  1. Processamento de dados matemáticosPara dados de matemática, adicione o prompt "Please reason step by step and put the final answer in \boxed {}".
   def add_math_prompt(example):
example['text'] = "请一步步推理,并把最终答案放到 \\boxed {}。" + example['text']
return example
math_data = dataset.filter(lambda x: x['category'] == 'math').map(add_math_prompt)
  1. Raciocínio lógico Processamento de dadosTratamento especial de dados de raciocínio lógico para garantir dados lógicos e consistentes.
   def process_logic_data(example):
# 自定义逻辑处理代码
return example
logic_data = dataset.filter(lambda x: x['category'] == 'logic').map(process_logic_data)
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Conjunto de dados de destilação DeepSeek-R1 de sangue puro baseado na China, compatível com o conjunto de dados SFT de destilação R1 chinês
pt_BRPortuguês do Brasil