IndexTTS: ferramenta de conversão de texto em fala com suporte a mixagem de chinês e inglês

Recursos mais recentes de IAPublicado há 5 meses Círculo de compartilhamento de IA

16.2K 00

Introdução geral

O IndexTTS é uma ferramenta de conversão de texto em fala (TTS) de código aberto hospedada no GitHub e desenvolvida pela equipe do index-tts. Ele se baseia nas tecnologias XTTS e Tortoise e oferece síntese de fala eficiente e de alta qualidade, aprimorando o design do módulo. O indexTTS foi treinado com dezenas de milhares de horas de dados, é compatível com chinês e inglês e tem um desempenho especialmente bom em cenários chineses. Ele corrige erros de pronúncia por meio do pinyin e controla as pausas na fala. A equipe otimizou a qualidade do som, a estabilidade do treinamento e a similaridade do timbre, e afirma que supera os sistemas TTS populares, como o XTTS e o CosyVoice2. Para experimentar a funcionalidade completa, entre em contato com o endereço de e-mail oficial para obter mais informações.

Lista de funções

Oferece suporte à entrada de Pinyin chinês e corrige erros de pronúncia de caracteres polifônicos.
Controle da posição da pausa na fala por meio de pontuação.
Melhore a qualidade do áudio com o BigVGAN2.
Integração do codificador condicional Conformer para melhorar a estabilidade do treinamento e a similaridade do timbre.
Oferece suporte à síntese de fala de amostra zero, que pode ser gerada sem pré-treinamento de fala específica.
Lida com textos mistos em chinês e inglês.

Usando a Ajuda

Como instalar

O IndexTTS é atualmente um projeto de código aberto no GitHub, mas nenhum instalador direto ou serviço on-line está oficialmente disponível. Para usá-lo, você precisa criar seu próprio ambiente. Aqui estão as etapas de instalação:

Preparação do ambiente
- Certifique-se de que seu computador tenha o Python 3.8 ou posterior.
- Instale o Git para fazer download do código.
- O suporte à GPU (por exemplo, placa de vídeo NVIDIA) é necessário para acelerar o processamento, e a instalação do CUDA é recomendada.
Código de download
Digite-o em um terminal ou linha de comando:

git clone https://github.com/index-tts/index-tts.git

Isso fará o download do código do IndexTTS localmente.

Instalação de dependências

Vá para a pasta do projeto:
```
cd index-tts
```
Instale as bibliotecas necessárias. Como nenhuma biblioteca oficial específica <code>requirements.txt</code> é recomendável instalar dependências comuns de TTS, como PyTorch, NumPy e Torchaudio:
```
pip install torch torchaudio numpy
```
Se houver uma dependência específica, você precisará consultar a instrução de importação no código para instalá-la manualmente.

Obter modelos pré-treinados

O modelo de pré-treinamento do IndexTTS não é de código aberto direto. Você precisa entrar em contato conosco por e-mail <code>xuanwu@bilibili.com</code> Obter o arquivo de modelo.
Depois de receber o modelo, coloque os arquivos no diretório do projeto (você precisa consultar a resposta oficial para saber o caminho exato).

Projetos em andamento

Supondo que o modelo esteja no lugar, execute o script principal (o nome do arquivo pode ser <code>main.py</code> (ou nome semelhante, é necessário verificar o código para confirmar):
```
python main.py
```
Se houver requisitos de parâmetros (por exemplo, texto de entrada ou arquivos de configuração), será necessário ajustar o comando de acordo com a documentação oficial.

Como usar os principais recursos

Após a instalação, a função principal do IndexTTS é gerar a fala. Veja a seguir como operá-lo:

Gerar discurso

texto de entrada
Localize a seção de entrada de texto no código (que pode ser um parâmetro de script ou entrada de interface). Por exemplo:

python main.py --text "你好，这是测试文本。"

O texto de entrada pode estar em chinês, inglês ou conteúdo misto.

Correção de pinyin Pronúncia

Se tiver problemas com caracteres polifônicos, digite o pinyin diretamente. Por exemplo:

python main.py --text "xing2 hang2"  # 纠正为“银行”而不是“星航”

O sistema gerará a fala corretamente pronunciada com base no pinyin.

Paradas de controle

Quando a pontuação é adicionada ao texto, o IndexTTS a reconhece automaticamente e ajusta as pausas. Exemplo:

python main.py --text "你好，世界。这是一个测试。"

"," e "." permitirão que a voz faça pausas naturais, imitando o ritmo da fala real.

saída de áudio

A fala gerada geralmente é salva como um arquivo WAV. Verifique o diretório do projeto depois de executá-lo, pois pode haver algo como <code>output.wav</code> do documento.
Você pode abrir o arquivo com o player ou especificar o caminho de saída no código:

python main.py --text "测试" --output "my_audio.wav"

Funções em destaque Procedimento de operação

Síntese de fala com amostragem zero

O IndexTTS suporta síntese de amostra zero e pode imitar sons não treinados.
Como fazer isso: forneça um áudio de referência (o formato geralmente é WAV). Supondo que o código seja compatível com ele:

python main.py --text "hello" --ref_audio "reference.wav"

O sistema analisa o timbre do áudio de referência para gerar um som semelhante.

Saída de áudio de alta qualidade

O IndexTTS é otimizado para a qualidade do som com o BigVGAN2. Não são necessárias configurações adicionais, e o áudio de saída é muito mais claro do que o TTS normal, desde que os modelos sejam carregados corretamente.
Certifique-se de que seu hardware seja compatível com a aceleração de GPU, caso contrário, o processamento ficará mais lento.

advertência

Se a execução informar um erro, verifique se o PyTorch é compatível com sua GPU.
A documentação oficial pode estar incompleta, portanto, recomendamos verificar <code>README.md</code> ou comentários de código.
Para um ajuste mais profundo dos parâmetros, você pode estudar a configuração do Conformer e do BigVGAN2 (é necessário conhecimento de programação e dos princípios de TTS).

cenário do aplicativo

Auxílios educacionais
Os professores podem usar o IndexTTS para converter textos em fala e ajudar os alunos a praticar a audição. O recurso Pinyin Correction também ensina a pronúncia correta.
criação de conteúdo
Âncoras ou proprietários de UPs podem usá-lo para gerar locuções, especialmente para conteúdo de vídeo que exija uma mistura de chinês e inglês.
Desenvolvimento do assistente de voz
Os desenvolvedores podem usar o IndexTTS para criar um atendimento inteligente ao cliente que imite uma voz humana real e proporcione uma experiência de diálogo natural.
aprendizado de idiomas
Os alunos podem usá-lo para praticar a pronúncia, transcrevendo palavras ou frases para a fala, ouvindo-as e imitando-as repetidamente.

QA

Quais idiomas são compatíveis com o IndexTTS?
Ele suporta principalmente chinês e inglês e pode lidar com textos mistos. O suporte a outros idiomas é desconhecido e precisa ser testado.
Como faço para obter a funcionalidade completa?
Contato por e-mail necessário <code>xuanwu@bilibili.com</code>Obtenha modelos pré-treinados e descrições detalhadas.
Qual é a potência de um computador que preciso para executá-lo?
Recomenda-se uma GPU (por exemplo, placa de vídeo NVIDIA); uma CPU também funciona, mas é lenta. Pelo menos 8 GB de RAM.
É gratuito?
O código é de código-fonte aberto e gratuito, mas o uso comercial pode ser limitado, você precisa consultar o funcionário.