Introdução geral
O IndexTTS é uma ferramenta de conversão de texto em fala (TTS) de código aberto hospedada no GitHub e desenvolvida pela equipe do index-tts. Ele se baseia nas tecnologias XTTS e Tortoise e oferece síntese de fala eficiente e de alta qualidade, aprimorando o design do módulo. O indexTTS foi treinado com dezenas de milhares de horas de dados, é compatível com chinês e inglês e tem um desempenho especialmente bom em cenários chineses. Ele corrige erros de pronúncia por meio do pinyin e controla as pausas na fala. A equipe otimizou a qualidade do som, a estabilidade do treinamento e a similaridade do timbre, e afirma que supera os sistemas TTS populares, como o XTTS e o CosyVoice2. Para experimentar a funcionalidade completa, entre em contato com o endereço de e-mail oficial para obter mais informações.
Lista de funções
- Oferece suporte à entrada de Pinyin chinês e corrige erros de pronúncia de caracteres polifônicos.
- Controle da posição da pausa na fala por meio de pontuação.
- Melhore a qualidade do áudio com o BigVGAN2.
- Integração do codificador condicional Conformer para melhorar a estabilidade do treinamento e a similaridade do timbre.
- Oferece suporte à síntese de fala de amostra zero, que pode ser gerada sem pré-treinamento de fala específica.
- Lida com textos mistos em chinês e inglês.
Usando a Ajuda
Como instalar
O IndexTTS é atualmente um projeto de código aberto no GitHub, mas nenhum instalador direto ou serviço on-line está oficialmente disponível. Para usá-lo, você precisa criar seu próprio ambiente. Aqui estão as etapas de instalação:
- Preparação do ambiente
- Certifique-se de que seu computador tenha o Python 3.8 ou posterior.
- Instale o Git para fazer download do código.
- O suporte à GPU (por exemplo, placa de vídeo NVIDIA) é necessário para acelerar o processamento, e a instalação do CUDA é recomendada.
- Código de download
Digite-o em um terminal ou linha de comando:
git clone https://github.com/index-tts/index-tts.git
Isso fará o download do código do IndexTTS localmente.
- Instalação de dependências
- Vá para a pasta do projeto:
cd index-tts
- Instale as bibliotecas necessárias. Como nenhuma biblioteca oficial específica
<code>requirements.txt</code>
é recomendável instalar dependências comuns de TTS, como PyTorch, NumPy e Torchaudio:pip install torch torchaudio numpy
- Se houver uma dependência específica, você precisará consultar a instrução de importação no código para instalá-la manualmente.
- Obter modelos pré-treinados
- O modelo de pré-treinamento do IndexTTS não é de código aberto direto. Você precisa entrar em contato conosco por e-mail
<code>xuanwu@bilibili.com</code>
Obter o arquivo de modelo. - Depois de receber o modelo, coloque os arquivos no diretório do projeto (você precisa consultar a resposta oficial para saber o caminho exato).
- Projetos em andamento
- Supondo que o modelo esteja no lugar, execute o script principal (o nome do arquivo pode ser
<code>main.py</code>
(ou nome semelhante, é necessário verificar o código para confirmar):python main.py
- Se houver requisitos de parâmetros (por exemplo, texto de entrada ou arquivos de configuração), será necessário ajustar o comando de acordo com a documentação oficial.
Como usar os principais recursos
Após a instalação, a função principal do IndexTTS é gerar a fala. Veja a seguir como operá-lo:
Gerar discurso
- texto de entrada
Localize a seção de entrada de texto no código (que pode ser um parâmetro de script ou entrada de interface). Por exemplo:
python main.py --text "你好,这是测试文本。"
O texto de entrada pode estar em chinês, inglês ou conteúdo misto.
Correção de pinyin Pronúncia
- Se tiver problemas com caracteres polifônicos, digite o pinyin diretamente. Por exemplo:
python main.py --text "xing2 hang2" # 纠正为“银行”而不是“星航”
- O sistema gerará a fala corretamente pronunciada com base no pinyin.
Paradas de controle
- Quando a pontuação é adicionada ao texto, o IndexTTS a reconhece automaticamente e ajusta as pausas. Exemplo:
python main.py --text "你好,世界。这是一个测试。"
- "," e "." permitirão que a voz faça pausas naturais, imitando o ritmo da fala real.
saída de áudio
- A fala gerada geralmente é salva como um arquivo WAV. Verifique o diretório do projeto depois de executá-lo, pois pode haver algo como
<code>output.wav</code>
do documento. - Você pode abrir o arquivo com o player ou especificar o caminho de saída no código:
python main.py --text "测试" --output "my_audio.wav"
Funções em destaque Procedimento de operação
Síntese de fala com amostragem zero
- O IndexTTS suporta síntese de amostra zero e pode imitar sons não treinados.
- Como fazer isso: forneça um áudio de referência (o formato geralmente é WAV). Supondo que o código seja compatível com ele:
python main.py --text "hello" --ref_audio "reference.wav"
- O sistema analisa o timbre do áudio de referência para gerar um som semelhante.
Saída de áudio de alta qualidade
- O IndexTTS é otimizado para a qualidade do som com o BigVGAN2. Não são necessárias configurações adicionais, e o áudio de saída é muito mais claro do que o TTS normal, desde que os modelos sejam carregados corretamente.
- Certifique-se de que seu hardware seja compatível com a aceleração de GPU, caso contrário, o processamento ficará mais lento.
advertência
- Se a execução informar um erro, verifique se o PyTorch é compatível com sua GPU.
- A documentação oficial pode estar incompleta, portanto, recomendamos verificar
<code>README.md</code>
ou comentários de código. - Para um ajuste mais profundo dos parâmetros, você pode estudar a configuração do Conformer e do BigVGAN2 (é necessário conhecimento de programação e dos princípios de TTS).
cenário do aplicativo
- Auxílios educacionais
Os professores podem usar o IndexTTS para converter textos em fala e ajudar os alunos a praticar a audição. O recurso Pinyin Correction também ensina a pronúncia correta. - criação de conteúdo
Âncoras ou proprietários de UPs podem usá-lo para gerar locuções, especialmente para conteúdo de vídeo que exija uma mistura de chinês e inglês. - Desenvolvimento do assistente de voz
Os desenvolvedores podem usar o IndexTTS para criar um atendimento inteligente ao cliente que imite uma voz humana real e proporcione uma experiência de diálogo natural. - aprendizado de idiomas
Os alunos podem usá-lo para praticar a pronúncia, transcrevendo palavras ou frases para a fala, ouvindo-as e imitando-as repetidamente.
QA
- Quais idiomas são compatíveis com o IndexTTS?
Ele suporta principalmente chinês e inglês e pode lidar com textos mistos. O suporte a outros idiomas é desconhecido e precisa ser testado. - Como faço para obter a funcionalidade completa?
Contato por e-mail necessário<code>xuanwu@bilibili.com</code>
Obtenha modelos pré-treinados e descrições detalhadas. - Qual é a potência de um computador que preciso para executá-lo?
Recomenda-se uma GPU (por exemplo, placa de vídeo NVIDIA); uma CPU também funciona, mas é lenta. Pelo menos 8 GB de RAM. - É gratuito?
O código é de código-fonte aberto e gratuito, mas o uso comercial pode ser limitado, você precisa consultar o funcionário.