Conjunto de datos de destilación DeepSeek-R1 basado en China, compatible con el conjunto de datos SFT de destilación R1 chino

Últimos recursos sobre IAPublicado hace 1 año Círculo de intercambio de inteligencia artificial

55.9K 00

Introducción general

El conjunto de datos chinos de destilación DeepSeek-R1 es un conjunto de datos chinos de código abierto que contiene 110.000 datos diseñados para apoyar el aprendizaje automático y la investigación del procesamiento del lenguaje natural. El conjunto de datos ha sido publicado por el equipo de PNL de Liu Cong, y no solo contiene datos matemáticos, sino también un gran número de tipos generales de datos, como razonamiento lógico, Xiaohongshu, Zhihu, etcétera. El proceso de destilación del conjunto de datos se lleva a cabo estrictamente de acuerdo con los detalles proporcionados por DeepSeek-R1 oficial para garantizar la alta calidad y la diversidad de los datos. Los usuarios pueden descargar y utilizar gratuitamente el conjunto de datos en las plataformas Hugging Face y ModelScope.

Lista de funciones

Diversos tipos de datos: Contiene matemáticas, razonamiento lógico, tipos genéricos de datos, etc.
Datos de alta calidadDestilado en estricta conformidad con los datos oficiales proporcionados por DeepSeek-R1.
libre y de código abierto: Los usuarios pueden descargarlo gratuitamente en las plataformas Hugging Face y ModelScope.
Admite múltiples aplicacionesAplicable a una amplia gama de áreas de investigación, como el aprendizaje automático y el procesamiento del lenguaje natural.
Distribución detallada de los datos: Proporciona una categorización detallada de los datos e información cuantitativa.

Utilizar la ayuda

Proceso de instalación

Visite las plataformas Hugging Face o ModelScope.
Buscar "Chinese-DeepSeek-R1-Distill-data-110k".
Haga clic en el enlace de descarga y seleccione el formato adecuado para la descarga.

Utilización

Carga de conjuntos de datosen el entorno PythondatasetsLa biblioteca carga el conjunto de datos.

   from datasets import load_dataset
dataset = load_dataset("Congliu/Chinese-DeepSeek-R1-Distill-data-110k")

Ver datos: UsodatasetLos objetos visualizan información básica y muestras del conjunto de datos.

   print(dataset)
print(dataset['train'][0])

Preprocesamiento de datosPreprocesamiento de datos según las necesidades de la investigación, como división de palabras y eliminación de duplicados.

   from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')
tokenized_data = dataset.map(lambda x: tokenizer(x['text'], padding='max_length', truncation=True))

formación de modelos: Entrenamiento de modelos utilizando datos preprocesados.

   from transformers import BertForSequenceClassification, Trainer, TrainingArguments
model = BertForSequenceClassification.from_pretrained('bert-base-chinese')
training_args = TrainingArguments(output_dir='./results', num_train_epochs=3, per_device_train_batch_size=16)
trainer = Trainer(model=model, args=training_args, train_dataset=tokenized_data['train'])
trainer.train()

Funciones destacadas Procedimiento de funcionamiento

Tratamiento matemático de datosPara los datos matemáticos, añada el mensaje "Por favor, razone paso a paso y ponga la respuesta final en la casilla {}".

   def add_math_prompt(example):
example['text'] = "请一步步推理，并把最终答案放到 \\boxed {}。" + example['text']
return example
math_data = dataset.filter(lambda x: x['category'] == 'math').map(add_math_prompt)

Razonamiento lógico Tratamiento de datos: Tratamiento especial de los datos de razonamiento lógico para garantizar datos lógicos y coherentes.

   def process_logic_data(example):
# 自定义逻辑处理代码
return example
logic_data = dataset.filter(lambda x: x['category'] == 'logic').map(process_logic_data)

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Ajuste del modelo grande

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

Goedel-Prover-V2 - Modelo de demostración de teoremas de código abierto de Princeton en colaboración con Tsinghua y NVIDIA, entre otros.

Últimos recursos sobre IA

hace 9 meses

048.5K

302.AI：按需付费的AI服务平台，快速集成AI机器人、AI封装工具、API转发接口

302.AI: plataforma de servicios de IA de pago por uso, integración rápida de robots de IA, herramientas de empaquetado de IA, interfaz de reenvío de API.

Últimos recursos sobre IA # AI Servicios abiertos

hace 2 años

051K

PDF Craft: herramientas de código abierto para convertir documentos PDF escaneados a Markdown

Últimos recursos sobre IA # AI Java Proyecto de código abierto # OCR # Extracción y limpieza de documentos

hace 1 año

083.9K

InfiniteTalk - Herramienta de código abierto de generación de vídeo basado en audio para Mission Vision AI

Últimos recursos sobre IA

hace 7 meses

057.5K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

Conjunto de datos de destilación DeepSeek-R1 basado en China, compatible con el conjunto de datos SFT de destilación R1 chino

Introducción general

Lista de funciones

Utilizar la ayuda

Proceso de instalación

Utilización

Funciones destacadas Procedimiento de funcionamiento

Asistente de redes sociales: complemento de navegador para la recogida de datos en Xiaohongshu, Jieyin y otras plataformas.

agent-twitter-client: enviar y retuitear tuits sin clave API de Twitter

Artículos relacionados

Goedel-Prover-V2 - Modelo de demostración de teoremas de código abierto de Princeton en colaboración con Tsinghua y NVIDIA, entre otros.

302.AI: plataforma de servicios de IA de pago por uso, integración rápida de robots de IA, herramientas de empaquetado de IA, interfaz de reenvío de API.

PDF Craft: herramientas de código abierto para convertir documentos PDF escaneados a Markdown

InfiniteTalk - Herramienta de código abierto de generación de vídeo basado en audio para Mission Vision AI

Sin comentarios

Últimas colecciones

Últimos artículos

Conjunto de datos de destilación DeepSeek-R1 basado en China, compatible con el conjunto de datos SFT de destilación R1 chino

Introducción general

Lista de funciones

Utilizar la ayuda

Proceso de instalación

Utilización

Funciones destacadas Procedimiento de funcionamiento

Asistente de redes sociales: complemento de navegador para la recogida de datos en Xiaohongshu, Jieyin y otras plataformas.

agent-twitter-client: enviar y retuitear tuits sin clave API de Twitter

Artículos relacionados

Goedel-Prover-V2 - Modelo de demostración de teoremas de código abierto de Princeton en colaboración con Tsinghua y NVIDIA, entre otros.

302.AI: plataforma de servicios de IA de pago por uso, integración rápida de robots de IA, herramientas de empaquetado de IA, interfaz de reenvío de API.

PDF Craft: herramientas de código abierto para convertir documentos PDF escaneados a Markdown

InfiniteTalk - Herramienta de código abierto de generación de vídeo basado en audio para Mission Vision AI

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos