AIパーソナル・ラーニング
と実践的なガイダンス
豆包Marscode1

中国ベースの全血DeepSeek-R1蒸留データセット、中国R1蒸留SFTデータセットをサポート

はじめに

中国語DeepSeek-R1蒸留データセットは、機械学習と自然言語処理研究をサポートするために設計された110Kのデータを含むオープンソースの中国語データセットです。このデータセットはLiu Cong NLPチームによって公開され、数学的データだけでなく、論理的推論、小洪水、志など、一般的な種類のデータも多数含まれている。データセットの蒸留プロセスは、DeepSeek-R1公式から提供された詳細に従って厳密に行われ、データの高い品質と多様性を保証しています。ユーザーはHugging FaceとModelScopeプラットフォームでこのデータセットを無料でダウンロードして使用することができる。

中文基于满血 DeepSeek-R1 蒸馏数据集,支持中文R1蒸馏SFT数据集-1


 

機能一覧

  • 多様なデータタイプ数学、論理的推論、一般的なデータの種類などを含む。
  • 質の高いデータDeepSeek-R1によって提供された公式詳細に従って蒸留された。
  • フリー・オープンソースHugging FaceとModelScopeのプラットフォームから無料でダウンロードできます。
  • 複数のアプリケーションに対応機械学習や自然言語処理など、幅広い研究分野に応用可能。
  • 詳細データ配信データの詳細な分類と定量的情報を提供。

 

ヘルプの使用

設置プロセス

  1. Hugging FaceまたはModelScopeプラットフォームをご覧ください。
  2. Chinese-DeepSeek-R1-Distill-data-110k」で検索。
  3. ダウンロードリンクをクリックし、適切な形式を選択してダウンロードしてください。

使用方法

  1. データセットのロードPython環境datasetsライブラリーはデータセットをロードする。
   from datasets import load_dataset
dataset = load_dataset("Congliu/Chinese-DeepSeek-R1-Distill-data-110k")
  1. データを見る使用datasetオブジェクトは、データセットの基本情報とサンプルを表示します。
   print(dataset)
print(dataset['train'][0])
  1. データ前処理単語分割や重複排除など、研究ニーズに応じたデータの前処理。
   from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')
tokenized_data = dataset.map(lambda x: tokenizer(x['text'], padding='max_length', truncation=True))
  1. モデルトレーニング前処理されたデータを使用したモデル学習。
   from transformers import BertForSequenceClassification, Trainer, TrainingArguments
model = BertForSequenceClassification.from_pretrained('bert-base-chinese')
training_args = TrainingArguments(output_dir='./results', num_train_epochs=3, per_device_train_batch_size=16)
trainer = Trainer(model=model, args=training_args, train_dataset=tokenized_data['train'])
trainer.train()

注目機能 操作手順

  1. 数理データ処理数学のデータには、"段階的に推論し、最終的な答えを{}の中に入れてください "というプロンプトを追加してください。
   def add_math_prompt(example):
example['text'] = "请一步步推理,并把最终答案放到 \\boxed {}。" + example['text']
return example
math_data = dataset.filter(lambda x: x['category'] == 'math').map(add_math_prompt)
  1. 論理的推論 データ処理論理的で一貫性のあるデータを保証するための論理的推論データの特別な取り扱い。
   def process_logic_data(example):
# 自定义逻辑处理代码
return example
logic_data = dataset.filter(lambda x: x['category'] == 'logic').map(process_logic_data)
無断転載を禁じます:チーフAIシェアリングサークル " 中国ベースの全血DeepSeek-R1蒸留データセット、中国R1蒸留SFTデータセットをサポート
ja日本語