Introdução geral
O ChatTTS é um modelo de fala generativo projetado para cenários de diálogo. Ele gera fala natural e expressiva, suporta vários idiomas e vários falantes e é adequado para diálogos interativos. O modelo supera a maioria dos modelos de síntese de fala de código aberto, prevendo e controlando recursos rítmicos refinados, como risos, pausas e interjeições. O ChatTTS fornece modelos pré-treinados para dar suporte a mais pesquisa e desenvolvimento, principalmente para fins acadêmicos.
Lista de funções
- Suporte a vários idiomasO site oferece suporte aos idiomas: chinês e inglês, e mais idiomas serão expandidos no futuro.
- Suporte a vários locutoresA capacidade de gerar vozes de vários falantes o torna adequado para diálogos interativos.
- Controle rítmico refinadoCaracterísticas rítmicas, como risos, pausas e interjeições, podem ser previstas e controladas.
- Modelo de pré-treinamentoFornecimento de 40.000 horas de modelos pré-treinados para dar suporte a mais pesquisa e desenvolvimento.
- código abertoO código é de código aberto no GitHub para uso acadêmico e de pesquisa.
Usando a Ajuda
Processo de instalação
- Clonagem do código do projeto::
git clone https://github.com/2noise/ChatTTS.git
- Instalação de dependências::
cd ChatTTS pip install -r requirements.txt
- Download do modelo pré-treinadoDownload do modelo pré-treinado do HuggingFace ou do ModelScope e coloque-o no diretório especificado.
Uso
- Modelos de carregamento::
de chattts importação ChatTTS model = ChatTTS.load_model('path/to/pretrained/model')
- Gerar discurso::
texto = "Olá e bem-vindo ao ChatTTS!" audio = model.synthesize(text)
- Salvando arquivos de áudio::
com aberto('output.wav', 'wb') como f. f.write(audio)
Operação detalhada da função
- entrada de textoSuporte para entrada de texto misto em chinês e inglês.
- Controle rítmicoCaracterísticas da rima, como risos, pausas e interjeições, são controladas por meio da configuração de parâmetros.
- controle de tomO tom gerado pode ser controlado por um valor de semente de tom predefinido ou código de tom.
- controle emocionalControle as características emocionais do discurso gerado definindo os parâmetros de volatilidade e relevância da emoção.
- saída de streamingSuporte à geração de áudio longo e à leitura de papéis divididos para cenários de diálogo complexos.
Código de amostra (computação)
de chattts importação ChatTTS
Modelo de carregamento #
model = ChatTTS.load_model('path/to/pretrained/model')
# Definição de parâmetros de texto e rima
texto = "Olá e bem-vindo ao ChatTTS!"
params = {
"rir: Verdadeiro,
'pausa': Verdadeiro,
"interjeição: Verdadeiro
}
# Gerar voz
audio = model.synthesize(text, params)
# Salvar arquivos de áudio
com aberto('output.wav', 'wb') como f.
f.write(audio)
Cliente ChatTTS
Experiência rápida
endereço da web | tipologia |
---|---|
Web original | Experiência original na Web |
Forge Web | Forjar uma experiência aprimorada |
Linux | Instalador do Python |
Amostras | Exemplos de sementes de tom |
Clonagem | Experiência de clonagem de tons |
aprimoramento funcional
evento esportivo | ponto brilhante |
---|---|
jianchang512/ChatTTS-ui | Fornece uma interface de API que pode ser chamada em aplicativos de terceiros |
6drf21e/ChatTTS_colab | Fornece saída de streaming com suporte para geração de áudio longo e leitura de função dividida |
lenML/ChatTTS-Forge | Fornece aprimoramento vocal e redução de ruído de fundo com palavras de alerta adicionais |
CCmahua/ChatTTS-Aprimorado | Oferece suporte ao processamento de arquivos em lote e à exportação de arquivos SRT. |
HKoon/ChatTTS-OpenVoice | ajuste OpenVoice Realizar clonagem de som |
Expansão da funcionalidade
evento esportivo | ponto brilhante |
---|---|
6drf21e/ChatTTS_Speaker | Marcação de caracteres de tom e avaliação da estabilidade |
AIFSH/ComfyUI-ChatTTS | ComfyUi que pode ser introduzida como um nó de fluxo de trabalho |
MaterialShadow/ChatTTS-manager | São fornecidos um sistema de gerenciamento de tons e uma interface WebUI. |
Pacote de instalação do ChatTTSPlus Accelerated One-Click
O ChatTTSPlus é uma versão estendida do ChatTTS que acrescenta ao original a aceleração do TensorRT, a clonagem de fala e a implantação de modelos móveis. É fácil de usar, oferece um instalador de um clique no Windows e alcança mais de três vezes a melhoria de desempenho com o TensorRT (de 28 tokens/s para 110 tokens/s em GPUs Windows 3060). O ChatTTSPlus é uma ferramenta de síntese de fala avançada e fácil de usar para uma ampla variedade de cenários, com pontos fortes específicos em aplicativos que exigem alto desempenho e recursos de clonagem de fala.
Endereço: https://github.com/warmshao/ChatTTSPlus