Conjunto de dados de destilação DeepSeek-R1 de sangue puro baseado na China, compatível com o conjunto de dados SFT de destilação R1 chinês

Recursos mais recentes de IAPublicado há 7 meses Círculo de compartilhamento de IA

17.3K 00

Introdução geral

O conjunto de dados chinês de destilação DeepSeek-R1 é um conjunto de dados chinês de código aberto que contém 110 mil dados projetados para dar suporte à pesquisa de aprendizado de máquina e processamento de linguagem natural. O conjunto de dados foi lançado pela equipe de NLP de Liu Cong e contém não apenas dados matemáticos, mas também um grande número de tipos gerais de dados, como raciocínio lógico, Xiaohongshu, Zhihu e assim por diante. O processo de destilação do conjunto de dados é realizado estritamente de acordo com os detalhes fornecidos pelo funcionário do DeepSeek-R1 para garantir a alta qualidade e a diversidade dos dados. Os usuários podem baixar e usar o conjunto de dados gratuitamente nas plataformas Hugging Face e ModelScope.

Lista de funções

Diversos tipos de dadosDados: contém matemática, raciocínio lógico, tipos genéricos de dados, etc.
Dados de alta qualidadeDestilado em estrita conformidade com os detalhes oficiais fornecidos pela DeepSeek-R1.
gratuito e de código abertoOs usuários podem baixá-lo gratuitamente nas plataformas Hugging Face e ModelScope.
Suporte a vários aplicativosAplicável a uma ampla gama de áreas de pesquisa, como aprendizado de máquina e processamento de linguagem natural.
Distribuição detalhada de dadosInformações quantitativas: fornece categorização detalhada de dados e informações quantitativas.

Usando a Ajuda

Processo de instalação

Visite as plataformas Hugging Face ou ModelScope.
Pesquise por "Chinese-DeepSeek-R1-Distill-data-110k".
Clique no link de download e selecione o formato apropriado para download.

Uso

Carregando conjuntos de dadosno ambiente PythondatasetsA biblioteca carrega o conjunto de dados.

   from datasets import load_dataset
dataset = load_dataset("Congliu/Chinese-DeepSeek-R1-Distill-data-110k")

Exibir dados: UsodatasetOs objetos exibem informações básicas e amostras do conjunto de dados.

   print(dataset)
print(dataset['train'][0])

Pré-processamento de dadosPré-processamento de dados de acordo com as necessidades da pesquisa, como divisão de palavras e eliminação de duplicação.

   from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')
tokenized_data = dataset.map(lambda x: tokenizer(x['text'], padding='max_length', truncation=True))

treinamento de modelosTreinamento de modelos usando dados pré-processados.

   from transformers import BertForSequenceClassification, Trainer, TrainingArguments
model = BertForSequenceClassification.from_pretrained('bert-base-chinese')
training_args = TrainingArguments(output_dir='./results', num_train_epochs=3, per_device_train_batch_size=16)
trainer = Trainer(model=model, args=training_args, train_dataset=tokenized_data['train'])
trainer.train()

Funções em destaque Procedimento de operação

Processamento de dados matemáticosPara dados de matemática, adicione o prompt "Please reason step by step and put the final answer in \boxed {}".

   def add_math_prompt(example):
example['text'] = "请一步步推理，并把最终答案放到 \\boxed {}。" + example['text']
return example
math_data = dataset.filter(lambda x: x['category'] == 'math').map(add_math_prompt)

Raciocínio lógico Processamento de dadosTratamento especial de dados de raciocínio lógico para garantir dados lógicos e consistentes.

   def process_logic_data(example):
# 自定义逻辑处理代码
return example
logic_data = dataset.filter(lambda x: x['category'] == 'logic').map(process_logic_data)

Recursos mais recentes de IA # Projeto de código aberto AI Java # Ajuste fino do modelo grande

Direitos autorais do artigo Círculo de compartilhamento de IA A todos, favor não reproduzir sem permissão.

Orpheus-TTS: uma ferramenta de conversão de texto em fala para gerar fala natural em chinês

Recursos mais recentes de IA # Projeto de código aberto AI Java # Conversão de texto em fala com IA

5 meses atrás

029.9K

PM Agent: ferramenta de IA para gerenciamento de produtos que registra automaticamente as reuniões e gera documentos de requisitos

Recursos mais recentes de IA # Ferramentas de produtividade profissional

6 meses atrás

016.1K

API do Reader: ferramenta de extração de conteúdo da Web, conversão de HTML para Markdown

Recursos mais recentes de IA # Projeto de código aberto AI Java # Extração e limpeza de documentos

1 ano atrás

027.8K

Adição de uma ferramenta de bate-papo on-line orientada por RAG aos aplicativos Next.js

Recursos mais recentes de IA # Projeto de código aberto AI Java

8 meses atrás

015.4K

Sem comentários

Você precisa estar conectado para participar dos comentários!

Faça login agora

Nenhum comentário...

Conjunto de dados de destilação DeepSeek-R1 de sangue puro baseado na China, compatível com o conjunto de dados SFT de destilação R1 chinês

Introdução geral

Lista de funções

Usando a Ajuda

Processo de instalação

Uso

Funções em destaque Procedimento de operação

Assistente de mídia social: plug-in de navegador para coleta de dados em Xiaohongshu, Jieyin e outras plataformas

agent-twitter-client: envia e retweeta tweets sem a chave da API do Twitter

Artigos relacionados

Orpheus-TTS: uma ferramenta de conversão de texto em fala para gerar fala natural em chinês

PM Agent: ferramenta de IA para gerenciamento de produtos que registra automaticamente as reuniões e gera documentos de requisitos

API do Reader: ferramenta de extração de conteúdo da Web, conversão de HTML para Markdown

Adição de uma ferramenta de bate-papo on-line orientada por RAG aos aplicativos Next.js

Sem comentários

Últimas coleções

Artigos mais recentes

Conjunto de dados de destilação DeepSeek-R1 de sangue puro baseado na China, compatível com o conjunto de dados SFT de destilação R1 chinês

Introdução geral

Lista de funções

Usando a Ajuda

Processo de instalação

Uso

Funções em destaque Procedimento de operação

Assistente de mídia social: plug-in de navegador para coleta de dados em Xiaohongshu, Jieyin e outras plataformas

agent-twitter-client: envia e retweeta tweets sem a chave da API do Twitter

Artigos relacionados

Orpheus-TTS: uma ferramenta de conversão de texto em fala para gerar fala natural em chinês

PM Agent: ferramenta de IA para gerenciamento de produtos que registra automaticamente as reuniões e gera documentos de requisitos

API do Reader: ferramenta de extração de conteúdo da Web, conversão de HTML para Markdown

Adição de uma ferramenta de bate-papo on-line orientada por RAG aos aplicativos Next.js

Sem comentários

Ferramentas de IA selecionadas

Últimas coleções

Artigos mais recentes