Aprendizagem pessoal com IA
e orientação prática
讯飞绘镜

ChatTTS: um modelo de geração de fala que imita a voz de uma pessoa real falando (pacote de aceleração de um clique do ChatTTS)

Introdução geral

O ChatTTS é um modelo de fala generativo projetado para cenários de diálogo. Ele gera fala natural e expressiva, suporta vários idiomas e vários falantes e é adequado para diálogos interativos. O modelo supera a maioria dos modelos de síntese de fala de código aberto, prevendo e controlando recursos rítmicos refinados, como risos, pausas e interjeições. O ChatTTS fornece modelos pré-treinados para dar suporte a mais pesquisa e desenvolvimento, principalmente para fins acadêmicos.

 


ChatTTS:对话场景的生成语音模型-1

 

ChatTTS:对话场景的生成语音模型-1

 

Lista de funções

  • Suporte a vários idiomasO site oferece suporte aos idiomas: chinês e inglês, e mais idiomas serão expandidos no futuro.
  • Suporte a vários locutoresA capacidade de gerar vozes de vários falantes o torna adequado para diálogos interativos.
  • Controle rítmico refinadoCaracterísticas rítmicas, como risos, pausas e interjeições, podem ser previstas e controladas.
  • Modelo de pré-treinamentoFornecimento de 40.000 horas de modelos pré-treinados para dar suporte a mais pesquisa e desenvolvimento.
  • código abertoO código é de código aberto no GitHub para uso acadêmico e de pesquisa.

 

Usando a Ajuda

Processo de instalação

  1. Clonagem do código do projeto::
    git clone https://github.com/2noise/ChatTTS.git
    
  2. Instalação de dependências::
    cd ChatTTS
    pip install -r requirements.txt
    
  3. Download do modelo pré-treinadoDownload do modelo pré-treinado do HuggingFace ou do ModelScope e coloque-o no diretório especificado.

Uso

  1. Modelos de carregamento::
    from chattts import ChatTTS
    model = ChatTTS.load_model('path/to/pretrained/model')
    
  2. Gerar discurso::
    text = "你好,欢迎使用ChatTTS!"
    audio = model.synthesize(text)
    
  3. Salvando arquivos de áudio::
    with open('output.wav', 'wb') as f:
    f.write(audio)
    

Operação detalhada da função

  • entrada de textoSuporte para entrada de texto misto em chinês e inglês.
  • Controle rítmicoCaracterísticas da rima, como risos, pausas e interjeições, são controladas por meio da configuração de parâmetros.
  • controle de tomO tom gerado pode ser controlado por um valor de semente de tom predefinido ou código de tom.
  • controle emocionalControle as características emocionais do discurso gerado definindo os parâmetros de volatilidade e relevância da emoção.
  • saída de streamingSuporte à geração de áudio longo e à leitura de papéis divididos para cenários de diálogo complexos.

Código de amostra (computação)

from chattts import ChatTTS
# 加载模型
model = ChatTTS.load_model('path/to/pretrained/model')
# 设置文本和韵律参数
text = "你好,欢迎使用ChatTTS!"
params = {
'laugh': True,
'pause': True,
'interjection': True
}
# 生成语音
audio = model.synthesize(text, params)
# 保存音频文件
with open('output.wav', 'wb') as f:
f.write(audio)

 

Cliente ChatTTS

Experiência rápida

endereço da web tipologia
Web original Experiência original na Web
Forge Web Forjar uma experiência aprimorada
Linux Instalador do Python
Amostras Exemplos de sementes de tom
Clonagem Experiência de clonagem de tons

 

aprimoramento funcional

evento esportivo ponto brilhante
jianchang512/ChatTTS-ui Fornece uma interface de API que pode ser chamada em aplicativos de terceiros
6drf21e/ChatTTS_colab Fornece saída de streaming com suporte para geração de áudio longo e leitura de função dividida
lenML/ChatTTS-Forge Fornece aprimoramento vocal e redução de ruído de fundo com palavras de alerta adicionais
CCmahua/ChatTTS-Aprimorado Oferece suporte ao processamento de arquivos em lote e à exportação de arquivos SRT.
HKoon/ChatTTS-OpenVoice ajuste OpenVoice Realizar clonagem de som

 

Expansão da funcionalidade

evento esportivo ponto brilhante
6drf21e/ChatTTS_Speaker Marcação de caracteres de tom e avaliação da estabilidade
AIFSH/ComfyUI-ChatTTS ComfyUi que pode ser introduzida como um nó de fluxo de trabalho
MaterialShadow/ChatTTS-manager São fornecidos um sistema de gerenciamento de tons e uma interface WebUI.

 

Pacote de instalação do ChatTTSPlus Accelerated One-Click

O ChatTTSPlus é uma versão estendida do ChatTTS que acrescenta ao original a aceleração do TensorRT, a clonagem de fala e a implantação de modelos móveis. É fácil de usar, oferece um instalador de um clique no Windows e alcança mais de três vezes a melhoria de desempenho com o TensorRT (de 28 tokens/s para 110 tokens/s em GPUs Windows 3060). O ChatTTSPlus é uma ferramenta de síntese de fala avançada e fácil de usar para uma ampla variedade de cenários, com pontos fortes específicos em aplicativos que exigem alto desempenho e recursos de clonagem de fala.

Endereço: https://github.com/warmshao/ChatTTSPlus

Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " ChatTTS: um modelo de geração de fala que imita a voz de uma pessoa real falando (pacote de aceleração de um clique do ChatTTS)
pt_BRPortuguês do Brasil