Conjunto de datos de destilación DeepSeek-R1 basado en China, compatible con el conjunto de datos SFT de destilación R1 chino
Últimos recursos sobre IAPublicado hace 10 meses Círculo de intercambio de inteligencia artificial 37.3K 00
Introducción general
El conjunto de datos chinos de destilación DeepSeek-R1 es un conjunto de datos chinos de código abierto que contiene 110.000 datos diseñados para apoyar el aprendizaje automático y la investigación del procesamiento del lenguaje natural. El conjunto de datos ha sido publicado por el equipo de PNL de Liu Cong, y no solo contiene datos matemáticos, sino también un gran número de tipos generales de datos, como razonamiento lógico, Xiaohongshu, Zhihu, etcétera. El proceso de destilación del conjunto de datos se lleva a cabo estrictamente de acuerdo con los detalles proporcionados por DeepSeek-R1 oficial para garantizar la alta calidad y la diversidad de los datos. Los usuarios pueden descargar y utilizar gratuitamente el conjunto de datos en las plataformas Hugging Face y ModelScope.

Lista de funciones
- Diversos tipos de datos: Contiene matemáticas, razonamiento lógico, tipos genéricos de datos, etc.
- Datos de alta calidadDestilado en estricta conformidad con los datos oficiales proporcionados por DeepSeek-R1.
- libre y de código abierto: Los usuarios pueden descargarlo gratuitamente en las plataformas Hugging Face y ModelScope.
- Admite múltiples aplicacionesAplicable a una amplia gama de áreas de investigación, como el aprendizaje automático y el procesamiento del lenguaje natural.
- Distribución detallada de los datos: Proporciona una categorización detallada de los datos e información cuantitativa.
Utilizar la ayuda
Proceso de instalación
- Visite las plataformas Hugging Face o ModelScope.
- Buscar "Chinese-DeepSeek-R1-Distill-data-110k".
- Haga clic en el enlace de descarga y seleccione el formato adecuado para la descarga.
Utilización
- Carga de conjuntos de datosen el entorno Python
datasetsLa biblioteca carga el conjunto de datos.
from datasets import load_dataset
dataset = load_dataset("Congliu/Chinese-DeepSeek-R1-Distill-data-110k")
- Ver datos: Uso
datasetLos objetos visualizan información básica y muestras del conjunto de datos.
print(dataset)
print(dataset['train'][0])
- Preprocesamiento de datosPreprocesamiento de datos según las necesidades de la investigación, como división de palabras y eliminación de duplicados.
from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')
tokenized_data = dataset.map(lambda x: tokenizer(x['text'], padding='max_length', truncation=True))
- formación de modelos: Entrenamiento de modelos utilizando datos preprocesados.
from transformers import BertForSequenceClassification, Trainer, TrainingArguments
model = BertForSequenceClassification.from_pretrained('bert-base-chinese')
training_args = TrainingArguments(output_dir='./results', num_train_epochs=3, per_device_train_batch_size=16)
trainer = Trainer(model=model, args=training_args, train_dataset=tokenized_data['train'])
trainer.train()
Funciones destacadas Procedimiento de funcionamiento
- Tratamiento matemático de datosPara los datos matemáticos, añada el mensaje "Por favor, razone paso a paso y ponga la respuesta final en la casilla {}".
def add_math_prompt(example):
example['text'] = "请一步步推理,并把最终答案放到 \\boxed {}。" + example['text']
return example
math_data = dataset.filter(lambda x: x['category'] == 'math').map(add_math_prompt)
- Razonamiento lógico Tratamiento de datos: Tratamiento especial de los datos de razonamiento lógico para garantizar datos lógicos y coherentes.
def process_logic_data(example):
# 自定义逻辑处理代码
return example
logic_data = dataset.filter(lambda x: x['category'] == 'logic').map(process_logic_data)
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...




