Coqui TTS (xTTS): um kit de ferramentas de aprendizagem profunda para geração de texto para fala com suporte multilíngue e recursos de clonagem de voz

Recursos mais recentes de IAAtualizado há 7 meses Círculo de compartilhamento de IA

13.5K 00

Introdução geral

O Coqui TTS é um kit de ferramentas de geração de texto para fala (TTS) avançado e de código aberto baseado em técnicas de aprendizagem profunda. Ele foi testado em ambientes de pesquisa e produção e oferece um rico conjunto de recursos e modelos para oferecer suporte à conversão de texto em fala em vários idiomas. O Coqui TTS não apenas oferece suporte a modelos pré-treinados, mas também fornece ferramentas para treinar novos modelos e ajustar os existentes para uma ampla variedade de idiomas e cenários de aplicativos.

O autor não está mais atualizando o projeto, o projeto de ramificação está em manutenção contínua: https://github.com/idiap/coqui-ai-TTS

Coqui TTS（xTTS）：文本到语音生成的深度学习工具包，支持多种语言和声音克隆功能

Demonstração: https://huggingface.co/spaces/coqui/xtts

Lista de funções

Suporte a vários idiomasSuporte à conversão de texto em fala em mais de 1.100 idiomas.
Modelo de pré-treinamentoModelos pré-treinados: Uma ampla gama de modelos pré-treinados é fornecida, podendo ser usada diretamente pelo usuário.
treinamento de modelosSuporte para treinamento de novos modelos e ajuste fino de modelos existentes.
clonagem de somSuporte à função de clonagem de voz, que permite gerar uma voz para um som específico.
Treinamento eficienteFornecer ferramentas de treinamento de modelos rápidas e eficientes.
Registro detalhadoFornecer registros de treinamento detalhados sobre o terminal e o Tensorboard.
Ferramentas práticasFornecimento de ferramentas para análise e agrupamento de conjuntos de dados.

Usando a Ajuda

Processo de instalação

armazém de clonesPrimeiro, clone o repositório do GitHub do Coqui TTS.
```
git clone https://github.com/coqui-ai/TTS.git
cd TTS
```

2. **安装依赖** ：使用 pip 安装所需的依赖。

```bash
pip install -r requirements.txt

Instalação do TTS Execute o seguinte comando para instalar o TTS.

python setup.py install

Uso

Carregamento de modelos pré-treinados Conversão de texto em fala: a conversão de texto em fala pode ser realizada usando modelos pré-treinados.

from TTS.api import TTS
tts = TTS(model_name="tts_models/en/ljspeech/tacotron2-DDC", progress_bar=True)
tts.tts_to_file(text="Hello, world!", file_path="output.wav")

Treinamento de um novo modelo Você pode treinar novos modelos com base em seu próprio conjunto de dados.

python TTS/bin/train_tts.py --config_path config.json --dataset_path /path/to/dataset

Ajuste fino dos modelos existentes Modelos existentes podem ser ajustados para se adequarem a cenários de aplicativos específicos.

python TTS/bin/train_tts.py --config_path config.json --dataset_path /path/to/dataset --restore_path /path/to/pretrained/model

Procedimento de operação detalhado

Preparação de dados Preparar o conjunto de dados de treinamento e certificar-se de que o formato dos dados atenda aos requisitos.
arquivo de configuração Editar arquivo de configuração config.json, defina os parâmetros de treinamento.
Iniciar o treinamento Execute o script de treinamento para iniciar o treinamento do modelo.
Monitorar o treinamento Monitorar o processo de treinamento, visualizar os registros de treinamento e o desempenho do modelo por meio do terminal e do Tensorboard.
avaliação de modelagem Após a conclusão do treinamento, o desempenho do modelo é avaliado e os ajustes e otimizações necessários são feitos.