Conjunto de datos de destilación DeepSeek-R1 basado en China, compatible con el conjunto de datos SFT de destilación R1 chino
Últimos recursos sobre IAPublicado hace 6 meses Círculo de intercambio de inteligencia artificial 1.3K 00
Introducción general
El conjunto de datos chinos de destilación DeepSeek-R1 es un conjunto de datos chinos de código abierto que contiene 110.000 datos diseñados para apoyar el aprendizaje automático y la investigación del procesamiento del lenguaje natural. El conjunto de datos ha sido publicado por el equipo de PNL de Liu Cong, y no solo contiene datos matemáticos, sino también un gran número de tipos generales de datos, como razonamiento lógico, Xiaohongshu, Zhihu, etcétera. El proceso de destilación del conjunto de datos se lleva a cabo estrictamente de acuerdo con los detalles proporcionados por DeepSeek-R1 oficial para garantizar la alta calidad y la diversidad de los datos. Los usuarios pueden descargar y utilizar gratuitamente el conjunto de datos en las plataformas Hugging Face y ModelScope.

Lista de funciones
- Diversos tipos de datos: Contiene matemáticas, razonamiento lógico, tipos genéricos de datos, etc.
- Datos de alta calidadDestilado en estricta conformidad con los datos oficiales proporcionados por DeepSeek-R1.
- libre y de código abierto: Los usuarios pueden descargarlo gratuitamente en las plataformas Hugging Face y ModelScope.
- Admite múltiples aplicacionesAplicable a una amplia gama de áreas de investigación, como el aprendizaje automático y el procesamiento del lenguaje natural.
- Distribución detallada de los datos: Proporciona una categorización detallada de los datos e información cuantitativa.
Utilizar la ayuda
Proceso de instalación
- Visite las plataformas Hugging Face o ModelScope.
- Buscar "Chinese-DeepSeek-R1-Distill-data-110k".
- Haga clic en el enlace de descarga y seleccione el formato adecuado para la descarga.
Utilización
- Carga de conjuntos de datosen el entorno Python
datasets
La biblioteca carga el conjunto de datos.
from datasets import load_dataset
dataset = load_dataset("Congliu/Chinese-DeepSeek-R1-Distill-data-110k")
- Ver datos: Uso
dataset
Los objetos visualizan información básica y muestras del conjunto de datos.
print(dataset)
print(dataset['train'][0])
- Preprocesamiento de datosPreprocesamiento de datos según las necesidades de la investigación, como división de palabras y eliminación de duplicados.
from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')
tokenized_data = dataset.map(lambda x: tokenizer(x['text'], padding='max_length', truncation=True))
- formación de modelos: Entrenamiento de modelos utilizando datos preprocesados.
from transformers import BertForSequenceClassification, Trainer, TrainingArguments
model = BertForSequenceClassification.from_pretrained('bert-base-chinese')
training_args = TrainingArguments(output_dir='./results', num_train_epochs=3, per_device_train_batch_size=16)
trainer = Trainer(model=model, args=training_args, train_dataset=tokenized_data['train'])
trainer.train()
Funciones destacadas Procedimiento de funcionamiento
- Tratamiento matemático de datosPara los datos matemáticos, añada el mensaje "Por favor, razone paso a paso y ponga la respuesta final en la casilla {}".
def add_math_prompt(example):
example['text'] = "请一步步推理,并把最终答案放到 \\boxed {}。" + example['text']
return example
math_data = dataset.filter(lambda x: x['category'] == 'math').map(add_math_prompt)
- Razonamiento lógico Tratamiento de datos: Tratamiento especial de los datos de razonamiento lógico para garantizar datos lógicos y coherentes.
def process_logic_data(example):
# 自定义逻辑处理代码
return example
logic_data = dataset.filter(lambda x: x['category'] == 'logic').map(process_logic_data)
© declaración de copyright
El artículo está protegido por derechos de autor y no debe reproducirse sin autorización.
Artículos relacionados
Sin comentarios...