Conjunto de datos de destilación DeepSeek-R1 basado en China, compatible con el conjunto de datos SFT de destilación R1 chino

Introducción general

El conjunto de datos chinos de destilación DeepSeek-R1 es un conjunto de datos chinos de código abierto que contiene 110.000 datos diseñados para apoyar el aprendizaje automático y la investigación del procesamiento del lenguaje natural. El conjunto de datos ha sido publicado por el equipo de PNL de Liu Cong, y no solo contiene datos matemáticos, sino también un gran número de tipos generales de datos, como razonamiento lógico, Xiaohongshu, Zhihu, etcétera. El proceso de destilación del conjunto de datos se lleva a cabo estrictamente de acuerdo con los detalles proporcionados por DeepSeek-R1 oficial para garantizar la alta calidad y la diversidad de los datos. Los usuarios pueden descargar y utilizar gratuitamente el conjunto de datos en las plataformas Hugging Face y ModelScope.

中文基于满血 DeepSeek-R1 蒸馏数据集,支持中文R1蒸馏SFT数据集

 

Lista de funciones

  • Diversos tipos de datos: Contiene matemáticas, razonamiento lógico, tipos genéricos de datos, etc.
  • Datos de alta calidadDestilado en estricta conformidad con los datos oficiales proporcionados por DeepSeek-R1.
  • libre y de código abierto: Los usuarios pueden descargarlo gratuitamente en las plataformas Hugging Face y ModelScope.
  • Admite múltiples aplicacionesAplicable a una amplia gama de áreas de investigación, como el aprendizaje automático y el procesamiento del lenguaje natural.
  • Distribución detallada de los datos: Proporciona una categorización detallada de los datos e información cuantitativa.

 

Utilizar la ayuda

Proceso de instalación

  1. Visite las plataformas Hugging Face o ModelScope.
  2. Buscar "Chinese-DeepSeek-R1-Distill-data-110k".
  3. Haga clic en el enlace de descarga y seleccione el formato adecuado para la descarga.

Utilización

  1. Carga de conjuntos de datosen el entorno PythondatasetsLa biblioteca carga el conjunto de datos.
   from datasets import load_dataset
dataset = load_dataset("Congliu/Chinese-DeepSeek-R1-Distill-data-110k")
  1. Ver datos: UsodatasetLos objetos visualizan información básica y muestras del conjunto de datos.
   print(dataset)
print(dataset['train'][0])
  1. Preprocesamiento de datosPreprocesamiento de datos según las necesidades de la investigación, como división de palabras y eliminación de duplicados.
   from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')
tokenized_data = dataset.map(lambda x: tokenizer(x['text'], padding='max_length', truncation=True))
  1. formación de modelos: Entrenamiento de modelos utilizando datos preprocesados.
   from transformers import BertForSequenceClassification, Trainer, TrainingArguments
model = BertForSequenceClassification.from_pretrained('bert-base-chinese')
training_args = TrainingArguments(output_dir='./results', num_train_epochs=3, per_device_train_batch_size=16)
trainer = Trainer(model=model, args=training_args, train_dataset=tokenized_data['train'])
trainer.train()

Funciones destacadas Procedimiento de funcionamiento

  1. Tratamiento matemático de datosPara los datos matemáticos, añada el mensaje "Por favor, razone paso a paso y ponga la respuesta final en la casilla {}".
   def add_math_prompt(example):
example['text'] = "请一步步推理,并把最终答案放到 \\boxed {}。" + example['text']
return example
math_data = dataset.filter(lambda x: x['category'] == 'math').map(add_math_prompt)
  1. Razonamiento lógico Tratamiento de datos: Tratamiento especial de los datos de razonamiento lógico para garantizar datos lógicos y coherentes.
   def process_logic_data(example):
# 自定义逻辑处理代码
return example
logic_data = dataset.filter(lambda x: x['category'] == 'logic').map(process_logic_data)
© declaración de copyright
AiPPT

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...