Aprendizagem pessoal com IA
e orientação prática
Espelho de desenho CyberKnife

Parler-TTS: geração de modelos de conversão de texto em fala específicos do locutor a partir do texto de entrada

Introdução geral

O Parler-TTS é uma biblioteca de modelos de conversão de texto em fala (TTS) de código aberto desenvolvida pela Hugging Face para gerar fala de alta qualidade e com som natural. O modelo é capaz de gerar fala com um estilo de locutor específico (por exemplo, gênero, tom, estilo de fala etc.) com base no texto de entrada. O Parler-TTS baseia-se nos resultados da pesquisa do artigo "Natural language guidance of high-fidelity text-to-speech with synthetic O Parler-TTS baseia-se nos resultados da pesquisa do artigo "Natural language guidance of high-fidelity text-to-speech with synthetic annotations" (Orientação de linguagem natural de texto para fala de alta fidelidade com anotações sintéticas) e é totalmente de código aberto, com todos os conjuntos de dados, pré-processamento, código de treinamento e pesos disponíveis publicamente, permitindo que a comunidade os desenvolva e aprimore.

Parler-TTS: geração de modelos de conversão de texto em fala específicos do locutor a partir do texto de entrada-1


 

Lista de funções

  • Geração de fala de alta qualidadeGeração de fala natural e suave com suporte para vários estilos de locutor.
  • código abertoTodos os pesos de códigos e modelos estão disponíveis publicamente para desenvolvimento e aprimoramento da comunidade.
  • Dependências levesInstalação e uso simples, com poucas dependências.
  • Várias versões de modelosVersões do modelo com diferentes contagens de parâmetros estão disponíveis, por exemplo, Parler-TTS Mini e Parler-TTS Large.
  • Geração rápidaVelocidade de geração otimizada com suporte para SDPA e Flash Attention 2.
  • Conjuntos de dados e pesosFornece conjuntos de dados ricos e pesos de modelos pré-treinados para facilitar o treinamento e o ajuste fino.

 

Usando a Ajuda

Processo de instalação

  1. Certifique-se de que o ambiente Python esteja instalado.
  2. Use o seguinte comando para instalar a biblioteca Parler-TTS:
   pip install git+https://github.com/huggingface/parler-tts.git
  1. Para usuários do Apple Silicon, execute o seguinte comando para dar suporte ao bfloat16:
   pip3 install --pre torch torchaudio --index-url https://download.pytorch.org/whl/nightly/cpu

Uso

Gerar discurso aleatório

  1. Importe as bibliotecas necessárias:
   import torch
from parler_tts import ParlerTTSForConditionalGeneration
from transformers import AutoTokenizer
import soundfile as sf
  1. Carregamento de modelos e divisores:
   device = "cuda:0" if torch.cuda.is_available() else "cpu"
model = ParlerTTSForConditionalGeneration.from_pretrained("parler-tts/parler-tts-mini-v1").to(device)
tokenizer = AutoTokenizer.from_pretrained("parler-tts/parler-tts-mini-v1")
  1. Digite o texto e gere a fala:
   prompt = "Hey, how are you doing today?"
description = "A female speaker delivers a slightly expressive and animated speech with a moderate speed and pitch."
inputs = tokenizer(prompt, return_tensors="pt").to(device)
outputs = model.generate(**inputs, description=description)
sf.write("output.wav", outputs.cpu().numpy(), 22050)

Gerar discurso em um estilo específico de orador

  1. Descrições que usam o estilo de um orador específico:
   description = "A male speaker with a deep voice and slow pace."
inputs = tokenizer(prompt, return_tensors="pt").to(device)
outputs = model.generate(**inputs, description=description)
sf.write("output_specific.wav", outputs.cpu().numpy(), 22050)

Modelos de treinamento

  1. Faça o download e prepare o conjunto de dados.
  2. O treinamento do modelo é realizado usando o código de treinamento fornecido:
   python train.py --dataset_path /path/to/dataset --output_dir /path/to/output

Raciocínio otimizado

  1. Otimizado usando SDPA e Flash Attention 2:
   model = ParlerTTSForConditionalGeneration.from_pretrained("parler-tts/parler-tts-mini-v1", use_flash_attention=True).to(device)
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Parler-TTS: geração de modelos de conversão de texto em fala específicos do locutor a partir do texto de entrada
pt_BRPortuguês do Brasil