Parler-TTS: geração de modelos de conversão de texto em fala específicos do locutor a partir do texto de entrada

Recursos mais recentes de IAAtualizado há 7 meses Círculo de compartilhamento de IA

19.3K 00

Introdução geral

O Parler-TTS é uma biblioteca de modelos de conversão de texto em fala (TTS) de código aberto desenvolvida pela Hugging Face para gerar fala de alta qualidade e com som natural. O modelo é capaz de gerar fala com um estilo de locutor específico (por exemplo, gênero, tom, estilo de fala etc.) com base no texto de entrada. O Parler-TTS baseia-se nos resultados da pesquisa do artigo "Natural language guidance of high-fidelity text-to-speech with synthetic O Parler-TTS baseia-se nos resultados da pesquisa do artigo "Natural language guidance of high-fidelity text-to-speech with synthetic annotations" (Orientação de linguagem natural de texto para fala de alta fidelidade com anotações sintéticas) e é totalmente de código aberto, com todos os conjuntos de dados, pré-processamento, código de treinamento e pesos disponíveis publicamente, permitindo que a comunidade os desenvolva e aprimore.

Lista de funções

Geração de fala de alta qualidadeGeração de fala natural e suave com suporte para vários estilos de locutor.
código abertoTodos os pesos de códigos e modelos estão disponíveis publicamente para desenvolvimento e aprimoramento da comunidade.
Dependências levesInstalação e uso simples, com poucas dependências.
Várias versões de modelosVersões do modelo com diferentes contagens de parâmetros estão disponíveis, por exemplo, Parler-TTS Mini e Parler-TTS Large.
Geração rápidaVelocidade de geração otimizada com suporte para SDPA e Flash Attention 2.
Conjuntos de dados e pesosFornece conjuntos de dados ricos e pesos de modelos pré-treinados para facilitar o treinamento e o ajuste fino.

Usando a Ajuda

Processo de instalação

Certifique-se de que o ambiente Python esteja instalado.
Use o seguinte comando para instalar a biblioteca Parler-TTS:

   pip install git+https://github.com/huggingface/parler-tts.git

Para usuários do Apple Silicon, execute o seguinte comando para dar suporte ao bfloat16:

   pip3 install --pre torch torchaudio --index-url https://download.pytorch.org/whl/nightly/cpu

Uso

Gerar discurso aleatório

Importe as bibliotecas necessárias:

   import torch
from parler_tts import ParlerTTSForConditionalGeneration
from transformers import AutoTokenizer
import soundfile as sf

Carregamento de modelos e divisores:

   device = "cuda:0" if torch.cuda.is_available() else "cpu"
model = ParlerTTSForConditionalGeneration.from_pretrained("parler-tts/parler-tts-mini-v1").to(device)
tokenizer = AutoTokenizer.from_pretrained("parler-tts/parler-tts-mini-v1")

Digite o texto e gere a fala:

   prompt = "Hey, how are you doing today?"
description = "A female speaker delivers a slightly expressive and animated speech with a moderate speed and pitch."
inputs = tokenizer(prompt, return_tensors="pt").to(device)
outputs = model.generate(**inputs, description=description)
sf.write("output.wav", outputs.cpu().numpy(), 22050)

Gerar discurso em um estilo específico de orador

Descrições que usam o estilo de um orador específico:

   description = "A male speaker with a deep voice and slow pace."
inputs = tokenizer(prompt, return_tensors="pt").to(device)
outputs = model.generate(**inputs, description=description)
sf.write("output_specific.wav", outputs.cpu().numpy(), 22050)

Modelos de treinamento

Faça o download e prepare o conjunto de dados.
O treinamento do modelo é realizado usando o código de treinamento fornecido:

   python train.py --dataset_path /path/to/dataset --output_dir /path/to/output

Raciocínio otimizado

Otimizado usando SDPA e Flash Attention 2:

   model = ParlerTTSForConditionalGeneration.from_pretrained("parler-tts/parler-tts-mini-v1", use_flash_attention=True).to(device)

Recursos mais recentes de IA # Projeto de código aberto AI Java # Conversão de texto em fala com IA

Direitos autorais do artigo Círculo de compartilhamento de IA A todos, favor não reproduzir sem permissão.

Publicações relacionadas

HiOllama: uma interface de bate-papo limpa para interagir com modelos nativos do Ollama

Recursos mais recentes de IA # Projeto de código aberto AI Java # Aplicativo de bate-papo localizado com IA

10 meses atrás

019.1K

Pesquisador GPT: gere relatórios de pesquisa abrangentes e detalhados usando dados locais e baseados na Web

Recursos mais recentes de IA # Projeto de código aberto AI Java # Gerar um relatório de pesquisa detalhado

6 meses atrás

016K

MiniMind: 2 horas de treinamento do zero com a ferramenta de código aberto GPT de parâmetros 26M

Recursos mais recentes de IA # Projeto de código aberto AI Java

6 meses atrás

023.2K

DeckSpeed - Criador de PPT com IA, apresentação gerada em linguagem natural

Recursos mais recentes de IA

3 meses atrás

015K

Sem comentários

Você precisa estar conectado para participar dos comentários!

Faça login agora

Nenhum comentário...

Parler-TTS: geração de modelos de conversão de texto em fala específicos do locutor a partir do texto de entrada

Introdução geral

Lista de funções

Usando a Ajuda

Processo de instalação

Uso

Gerar discurso aleatório

Gerar discurso em um estilo específico de orador

Modelos de treinamento

Raciocínio otimizado

OpenAOE: Estrutura de bate-papo de grupo de modelos grandes: bate-papo com vários modelos de idiomas grandes simultaneamente

Excelente ferramenta de download de código aberto recomendada pelo Github

Publicações relacionadas

HiOllama: uma interface de bate-papo limpa para interagir com modelos nativos do Ollama

Pesquisador GPT: gere relatórios de pesquisa abrangentes e detalhados usando dados locais e baseados na Web

MiniMind: 2 horas de treinamento do zero com a ferramenta de código aberto GPT de parâmetros 26M

DeckSpeed - Criador de PPT com IA, apresentação gerada em linguagem natural

Sem comentários

Últimas coleções

Artigos mais recentes

Parler-TTS: geração de modelos de conversão de texto em fala específicos do locutor a partir do texto de entrada

Introdução geral

Lista de funções

Usando a Ajuda

Processo de instalação

Uso

Gerar discurso aleatório

Gerar discurso em um estilo específico de orador

Modelos de treinamento

Raciocínio otimizado

OpenAOE: Estrutura de bate-papo de grupo de modelos grandes: bate-papo com vários modelos de idiomas grandes simultaneamente

Excelente ferramenta de download de código aberto recomendada pelo Github

Publicações relacionadas

HiOllama: uma interface de bate-papo limpa para interagir com modelos nativos do Ollama

Pesquisador GPT: gere relatórios de pesquisa abrangentes e detalhados usando dados locais e baseados na Web

MiniMind: 2 horas de treinamento do zero com a ferramenta de código aberto GPT de parâmetros 26M

DeckSpeed - Criador de PPT com IA, apresentação gerada em linguagem natural

Sem comentários

Ferramentas de IA selecionadas

Últimas coleções

Artigos mais recentes