Aprendizagem pessoal com IA
e orientação prática
讯飞绘镜

IndexTTS: ferramenta de conversão de texto em fala com suporte a mixagem de chinês e inglês

Introdução geral

O IndexTTS é uma ferramenta de conversão de texto em fala (TTS) de código aberto hospedada no GitHub e desenvolvida pela equipe do index-tts. Ele se baseia nas tecnologias XTTS e Tortoise e oferece síntese de fala eficiente e de alta qualidade, aprimorando o design do módulo. O indexTTS foi treinado com dezenas de milhares de horas de dados, é compatível com chinês e inglês e tem um desempenho especialmente bom em cenários chineses. Ele corrige erros de pronúncia por meio do pinyin e controla as pausas na fala. A equipe otimizou a qualidade do som, a estabilidade do treinamento e a similaridade do timbre, e afirma que supera os sistemas TTS populares, como o XTTS e o CosyVoice2. Para experimentar a funcionalidade completa, entre em contato com o endereço de e-mail oficial para obter mais informações.

IndexTTS:B站开源的高质量文本转语音工具-1


 

Lista de funções

  • Oferece suporte à entrada de Pinyin chinês e corrige erros de pronúncia de caracteres polifônicos.
  • Controle da posição da pausa na fala por meio de pontuação.
  • Melhore a qualidade do áudio com o BigVGAN2.
  • Integração do codificador condicional Conformer para melhorar a estabilidade do treinamento e a similaridade do timbre.
  • Oferece suporte à síntese de fala de amostra zero, que pode ser gerada sem pré-treinamento de fala específica.
  • Lida com textos mistos em chinês e inglês.

 

Usando a Ajuda

Como instalar

O IndexTTS é atualmente um projeto de código aberto no GitHub, mas nenhum instalador direto ou serviço on-line está oficialmente disponível. Para usá-lo, você precisa criar seu próprio ambiente. Aqui estão as etapas de instalação:

  1. Preparação do ambiente
    • Certifique-se de que seu computador tenha o Python 3.8 ou posterior.
    • Instale o Git para fazer download do código.
    • O suporte à GPU (por exemplo, placa de vídeo NVIDIA) é necessário para acelerar o processamento, e a instalação do CUDA é recomendada.
  2. Código de download
    Digite-o em um terminal ou linha de comando:
git clone https://github.com/index-tts/index-tts.git

Isso fará o download do código do IndexTTS localmente.

  1. Instalação de dependências
  • Vá para a pasta do projeto:
    cd index-tts
    
  • Instale as bibliotecas necessárias. Como nenhuma biblioteca oficial específica <code>requirements.txt</code> é recomendável instalar dependências comuns de TTS, como PyTorch, NumPy e Torchaudio:
    pip install torch torchaudio numpy
    
  • Se houver uma dependência específica, você precisará consultar a instrução de importação no código para instalá-la manualmente.
  1. Obter modelos pré-treinados
  • O modelo de pré-treinamento do IndexTTS não é de código aberto direto. Você precisa entrar em contato conosco por e-mail <code>xuanwu@bilibili.com</code> Obter o arquivo de modelo.
  • Depois de receber o modelo, coloque os arquivos no diretório do projeto (você precisa consultar a resposta oficial para saber o caminho exato).
  1. Projetos em andamento
  • Supondo que o modelo esteja no lugar, execute o script principal (o nome do arquivo pode ser <code>main.py</code> (ou nome semelhante, é necessário verificar o código para confirmar):
    python main.py
    
  • Se houver requisitos de parâmetros (por exemplo, texto de entrada ou arquivos de configuração), será necessário ajustar o comando de acordo com a documentação oficial.

Como usar os principais recursos

Após a instalação, a função principal do IndexTTS é gerar a fala. Veja a seguir como operá-lo:

Gerar discurso

  • texto de entrada
    Localize a seção de entrada de texto no código (que pode ser um parâmetro de script ou entrada de interface). Por exemplo:
python main.py --text "你好,这是测试文本。"

O texto de entrada pode estar em chinês, inglês ou conteúdo misto.

Correção de pinyin Pronúncia

  • Se tiver problemas com caracteres polifônicos, digite o pinyin diretamente. Por exemplo:
python main.py --text "xing2 hang2"  # 纠正为“银行”而不是“星航”
  • O sistema gerará a fala corretamente pronunciada com base no pinyin.

Paradas de controle

  • Quando a pontuação é adicionada ao texto, o IndexTTS a reconhece automaticamente e ajusta as pausas. Exemplo:
python main.py --text "你好,世界。这是一个测试。"
  • "," e "." permitirão que a voz faça pausas naturais, imitando o ritmo da fala real.

saída de áudio

  • A fala gerada geralmente é salva como um arquivo WAV. Verifique o diretório do projeto depois de executá-lo, pois pode haver algo como <code>output.wav</code> do documento.
  • Você pode abrir o arquivo com o player ou especificar o caminho de saída no código:
python main.py --text "测试" --output "my_audio.wav"

Funções em destaque Procedimento de operação

Síntese de fala com amostragem zero

  • O IndexTTS suporta síntese de amostra zero e pode imitar sons não treinados.
  • Como fazer isso: forneça um áudio de referência (o formato geralmente é WAV). Supondo que o código seja compatível com ele:

python main.py --text "hello" --ref_audio "reference.wav"

  • O sistema analisa o timbre do áudio de referência para gerar um som semelhante.

Saída de áudio de alta qualidade

  • O IndexTTS é otimizado para a qualidade do som com o BigVGAN2. Não são necessárias configurações adicionais, e o áudio de saída é muito mais claro do que o TTS normal, desde que os modelos sejam carregados corretamente.
  • Certifique-se de que seu hardware seja compatível com a aceleração de GPU, caso contrário, o processamento ficará mais lento.

advertência

  • Se a execução informar um erro, verifique se o PyTorch é compatível com sua GPU.
  • A documentação oficial pode estar incompleta, portanto, recomendamos verificar <code>README.md</code> ou comentários de código.
  • Para um ajuste mais profundo dos parâmetros, você pode estudar a configuração do Conformer e do BigVGAN2 (é necessário conhecimento de programação e dos princípios de TTS).

 

cenário do aplicativo

  1. Auxílios educacionais
    Os professores podem usar o IndexTTS para converter textos em fala e ajudar os alunos a praticar a audição. O recurso Pinyin Correction também ensina a pronúncia correta.
  2. criação de conteúdo
    Âncoras ou proprietários de UPs podem usá-lo para gerar locuções, especialmente para conteúdo de vídeo que exija uma mistura de chinês e inglês.
  3. Desenvolvimento do assistente de voz
    Os desenvolvedores podem usar o IndexTTS para criar um atendimento inteligente ao cliente que imite uma voz humana real e proporcione uma experiência de diálogo natural.
  4. aprendizado de idiomas
    Os alunos podem usá-lo para praticar a pronúncia, transcrevendo palavras ou frases para a fala, ouvindo-as e imitando-as repetidamente.

 

QA

  1. Quais idiomas são compatíveis com o IndexTTS?
    Ele suporta principalmente chinês e inglês e pode lidar com textos mistos. O suporte a outros idiomas é desconhecido e precisa ser testado.
  2. Como faço para obter a funcionalidade completa?
    Contato por e-mail necessário <code>xuanwu@bilibili.com</code>Obtenha modelos pré-treinados e descrições detalhadas.
  3. Qual é a potência de um computador que preciso para executá-lo?
    Recomenda-se uma GPU (por exemplo, placa de vídeo NVIDIA); uma CPU também funciona, mas é lenta. Pelo menos 8 GB de RAM.
  4. É gratuito?
    O código é de código-fonte aberto e gratuito, mas o uso comercial pode ser limitado, você precisa consultar o funcionário.
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " IndexTTS: ferramenta de conversão de texto em fala com suporte a mixagem de chinês e inglês
pt_BRPortuguês do Brasil