Introdução geral
O conjunto de dados chinês de destilação DeepSeek-R1 é um conjunto de dados chinês de código aberto que contém 110 mil dados projetados para dar suporte à pesquisa de aprendizado de máquina e processamento de linguagem natural. O conjunto de dados foi lançado pela equipe de NLP de Liu Cong e contém não apenas dados matemáticos, mas também um grande número de tipos gerais de dados, como raciocínio lógico, Xiaohongshu, Zhihu e assim por diante. O processo de destilação do conjunto de dados é realizado estritamente de acordo com os detalhes fornecidos pelo funcionário do DeepSeek-R1 para garantir a alta qualidade e a diversidade dos dados. Os usuários podem baixar e usar o conjunto de dados gratuitamente nas plataformas Hugging Face e ModelScope.
Lista de funções
- Diversos tipos de dadosDados: contém matemática, raciocínio lógico, tipos genéricos de dados, etc.
- Dados de alta qualidadeDestilado em estrita conformidade com os detalhes oficiais fornecidos pela DeepSeek-R1.
- gratuito e de código abertoOs usuários podem baixá-lo gratuitamente nas plataformas Hugging Face e ModelScope.
- Suporte a vários aplicativosAplicável a uma ampla gama de áreas de pesquisa, como aprendizado de máquina e processamento de linguagem natural.
- Distribuição detalhada de dadosInformações quantitativas: fornece categorização detalhada de dados e informações quantitativas.
Usando a Ajuda
Processo de instalação
- Visite as plataformas Hugging Face ou ModelScope.
- Pesquise por "Chinese-DeepSeek-R1-Distill-data-110k".
- Clique no link de download e selecione o formato apropriado para download.
Uso
- Carregando conjuntos de dadosno ambiente Python
datasets
A biblioteca carrega o conjunto de dados.
from datasets import load_dataset
dataset = load_dataset("Congliu/Chinese-DeepSeek-R1-Distill-data-110k")
- Exibir dados: Uso
dataset
Os objetos exibem informações básicas e amostras do conjunto de dados.
print(dataset)
print(dataset['train'][0])
- Pré-processamento de dadosPré-processamento de dados de acordo com as necessidades da pesquisa, como divisão de palavras e eliminação de duplicação.
from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')
tokenized_data = dataset.map(lambda x: tokenizer(x['text'], padding='max_length', truncation=True))
- treinamento de modelosTreinamento de modelos usando dados pré-processados.
from transformers import BertForSequenceClassification, Trainer, TrainingArguments
model = BertForSequenceClassification.from_pretrained('bert-base-chinese')
training_args = TrainingArguments(output_dir='./results', num_train_epochs=3, per_device_train_batch_size=16)
trainer = Trainer(model=model, args=training_args, train_dataset=tokenized_data['train'])
trainer.train()
Funções em destaque Procedimento de operação
- Processamento de dados matemáticosPara dados de matemática, adicione o prompt "Please reason step by step and put the final answer in \boxed {}".
def add_math_prompt(example):
example['text'] = "请一步步推理,并把最终答案放到 \\boxed {}。" + example['text']
return example
math_data = dataset.filter(lambda x: x['category'] == 'math').map(add_math_prompt)
- Raciocínio lógico Processamento de dadosTratamento especial de dados de raciocínio lógico para garantir dados lógicos e consistentes.
def process_logic_data(example):
# 自定义逻辑处理代码
return example
logic_data = dataset.filter(lambda x: x['category'] == 'logic').map(process_logic_data)