Allgemeine Einführung
Der chinesische DeepSeek-R1-Destillationsdatensatz ist ein chinesischer Open-Source-Datensatz mit 110.000 Daten, der zur Unterstützung der Forschung im Bereich des maschinellen Lernens und der Verarbeitung natürlicher Sprache entwickelt wurde. Der Datensatz wird vom Liu Cong NLP-Team veröffentlicht und enthält nicht nur mathematische Daten, sondern auch eine große Anzahl allgemeiner Datentypen wie logische Schlussfolgerungen, Xiaohongshu, Zhihu usw. Der Destillationsprozess des Datensatzes wird streng nach den Angaben des offiziellen DeepSeek-R1 durchgeführt, um die hohe Qualität und Vielfalt der Daten zu gewährleisten. Die Nutzer können den Datensatz auf den Plattformen Hugging Face und ModelScope kostenlos herunterladen und nutzen.
Funktionsliste
- Vielfältige Datentypen: Enthält Mathematik, logisches Denken, allgemeine Datentypen usw.
- Hochwertige Daten: Destilliert in strikter Übereinstimmung mit den offiziellen Angaben von DeepSeek-R1.
- frei und quelloffenBenutzer können es kostenlos auf den Plattformen Hugging Face und ModelScope herunterladen.
- Unterstützt mehrere AnwendungenAnwendbar auf ein breites Spektrum von Forschungsgebieten wie maschinelles Lernen und natürliche Sprachverarbeitung.
- Detaillierte DatenverteilungDetaillierte Kategorisierung der Daten und quantitative Informationen.
Hilfe verwenden
Ablauf der Installation
- Besuchen Sie die Plattformen Hugging Face oder ModelScope.
- Suchen Sie nach "Chinese-DeepSeek-R1-Distill-data-110k".
- Klicken Sie auf den Download-Link und wählen Sie das entsprechende Format zum Herunterladen.
Verwendung
- Laden von Datensätzen: in der Python-Umgebung
Datensätze
Die Bibliothek lädt den Datensatz.
from datasets import load_dataset
dataset = load_dataset("Congliu/Chinese-DeepSeek-R1-Distill-data-110k")
- Daten anzeigen: Verwendung
Datensatz
Objekte zeigen grundlegende Informationen und Muster des Datensatzes an.
print(dataset)
print(datensatz['train'][0])
- Vorverarbeitung der DatenVorverarbeitung der Daten entsprechend dem Forschungsbedarf, z. B. Worttrennung und Entdopplung.
from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')
tokenised_data = dataset.map(lambda x: tokenizer(x['text'], padding='max_length', truncation=True))
- ModellschulungModelltraining unter Verwendung vorverarbeiteter Daten.
from transformers import BertForSequenceClassification, Trainer, TrainingArguments
model = BertForSequenceClassification.from_pretrained('bert-base-chinese')
training_args = TrainingArguments(output_dir='. /results', num_train_epochs=3, per_device_train_batch_size=16)
trainer = Trainer(model=model, args=training_args, train_dataset=tokenised_data['train'])
trainer.train()
Ausgewählte Funktionen Bedienung Ablauf
- Mathematische DatenverarbeitungFür mathematische Daten fügen Sie die Aufforderung "Bitte begründen Sie Schritt für Schritt und tragen Sie die endgültige Antwort in das Feld {} ein" ein.
def add_math_prompt(example).
example['text'] = "Bitte begründen Sie Schritt für Schritt und schreiben Sie die endgültige Antwort in die Box {}." + example['text']
return example
math_data = dataset.filter(lambda x: x['category'] == 'math').map(add_math_prompt)
- Logisches Denken DatenverarbeitungSpezielle Behandlung von Daten für logische Schlussfolgerungen, um logische und konsistente Daten zu gewährleisten.
def process_logic_data(example).
# Benutzerdefinierter Logikverarbeitungscode
return example
logic_data = dataset.filter(lambda x: x['category'] == 'logic').map(process_logic_data)