Spark-TTS: uma ferramenta de conversão de texto em fala para gerar fala natural

Recursos mais recentes de IAAtualizado há 7 meses Círculo de compartilhamento de IA

20.9K 00

Introdução geral

O Spark-TTS é uma ferramenta de conversão de texto em fala (TTS) de código aberto desenvolvida pela equipe do SparkAudio e hospedada no GitHub, projetada para ajudar os usuários a converter texto em fala natural e suave com eficiência. Ela se baseia em técnicas avançadas de aprendizagem profunda, suporta vários idiomas e estilos de voz e é adequada para desenvolvedores, pesquisadores ou criadores de conteúdo. Com ênfase na facilidade de uso e na saída de fala de alta qualidade, o projeto fornece modelos pré-treinados e opções de treinamento personalizadas que permitem aos usuários ajustar as características da fala de acordo com suas necessidades. Embora não haja uma documentação oficial detalhada, o código e o suporte da comunidade no repositório do GitHub permitem que os usuários iniciem e explorem seus recursos rapidamente, e a natureza de código aberto do Spark-TTS o torna um recurso útil no campo da síntese de fala, especialmente para cenários em que é necessária uma solução de fala personalizada.

Interface de geração de fala Spark-TTS

Interface de clonagem de voz Spark-TTS

Lista de funções

Conversão de texto em falaConversão rápida de texto de entrada em fala natural, com suporte a vários idiomas.
Suporte a modelos pré-treinadosModelos prontos para uso são fornecidos para que os usuários possam gerar fala sem precisar treinar do zero.
Treinamento de fala personalizadoPermite que os usuários treinem modelos usando seus próprios conjuntos de dados, ajustando o estilo ou a entonação da voz.
Vários estilos de vozSuporte para saída de fala de diferentes gêneros, velocidades e tons.
acesso de código abertoOs usuários podem fazer o download, modificar e otimizar o código para atender às suas necessidades individuais.
Compatibilidade entre plataformasBaseado em um ambiente de programação de uso geral, ele suporta a operação em uma ampla variedade de sistemas operacionais.

Usando a Ajuda

O Spark-TTS, como um projeto de código aberto no GitHub, não tem um instalador autônomo ou uma interface gráfica e é voltado principalmente para usuários com uma certa base de programação. A seguir, apresentamos um guia detalhado para ajudá-lo a começar do zero e aproveitar ao máximo seus recursos.

Processo de instalação

Como o Spark-TTS é um repositório de código baseado no GitHub, você precisa usá-lo clonando o repositório e configurando seu ambiente. Aqui estão as etapas:

Preparação ambiental
- Certifique-se de ter o Python instalado em seu computador (versão recomendada 3.8 ou superior).
- Instale o Git para fazer download de código do GitHub. Você pode fazer o download e instalá-lo no site do Git.
- (Opcional) Instalação de ferramentas de ambiente virtual, como o virtualenvpara isolar as dependências do projeto.
armazém de clones
- Abra um terminal (CMD ou PowerShell para Windows, Terminal para Mac/Linux).
- Digite o seguinte comando para clonar o repositório Spark-TTS localmente:
```
git clone https://github.com/SparkAudio/Spark-TTS.git
```
- Quando a clonagem estiver concluída, vá para o diretório do projeto:
```
cd Spark-TTS
```
Instalação de dependências
- O Spark-TTS geralmente se baseia em estruturas de aprendizagem profunda (como PyTorch ou TensorFlow) e bibliotecas de processamento de áudio. Confira o repositório para requirements.txt (se houver), execute o seguinte comando para instalar a dependência:
```
pip install -r requirements.txt
```
- Caso contrário requirements.txtAs dependências comuns podem incluir:
```
pip install torch torchaudio numpy
```
- Dependendo de seu hardware (CPU ou GPU), certifique-se de instalar a versão correspondente do PyTorch, consulte o site oficial do PyTorch.
Verificar a instalação
- Uma vez no diretório do projeto, execute um script de teste simples (se fornecido pelo repositório). Exemplo:
```
python test.py
```
- Se nenhum erro for relatado, o ambiente foi configurado com êxito.

Funções principais

A função principal do Spark-TTS é converter texto em fala, e o procedimento de operação específico é o seguinte:

1. geração de fala usando modelos pré-treinados

Texto preparadoCrie um arquivo de texto simples (por exemplo input.txt), escreva o texto a ser convertido, por exemplo, "Hello, this is a test voice".
Executando scriptsSupondo que o repositório forneça um generate.py (o nome exato do arquivo é baseado no repositório real), digite-o no terminal:
```
python generate.py --input input.txt --output output.wav
```

Descrição do parâmetro::
- --inputEspecifica o caminho do arquivo de texto de entrada.
- --outputEspecifique o caminho para salvar o arquivo de voz gerado (por exemplo, o caminho para salvar o arquivo de voz gerado). output.wav).
- Se for compatível com o script, adicione --model seleciona o modelo pré-treinado, ou --voice para ajustar o estilo do som.
no finalDepois de executá-lo, você encontrará o arquivo output.wav abra o arquivo com um reprodutor de áudio para ouvir o efeito.

2. treinamento de modelos personalizados

Preparação do conjunto de dadosVocê precisa fornecer o texto e os dados de áudio correspondentes. O formato dos dados geralmente é .txt Documentação (texto) e .wav (áudio), recomenda-se consultar o repositório do arquivo README.md ou pasta de exemplo.
Parâmetros de configuraçãoEditar o arquivo de configuração (possivelmente config.json ou arquivo semelhante), defina os parâmetros de treinamento, como taxa de aprendizado, tamanho do lote etc. Se não houver um arquivo de configuração, modifique os parâmetros diretamente no script.
treinamento de preparaçãoExecute um script de treinamento, por exemplo:
```
python train.py --data_path ./dataset --output_model my_model
```
processo de treinamentoDependendo da quantidade de dados e do desempenho do hardware, o treinamento pode levar horas ou até dias. Quando estiver concluído, você receberá um novo arquivo de modelo (por exemplo my_model.pth).

Usando o novo modeloPassa os caminhos do modelo treinado para o script de geração:

python generate.py --input input.txt --model my_model.pth --output custom_output.wav

3. ajuste do estilo de voz

Se o Spark-TTS suportar a saída de vários estilos (é necessário verificar o código ou a documentação para confirmar), você poderá ajustar a taxa de fala, o tom etc. por meio de parâmetros. Exemplo:
```
python generate.py --input input.txt --speed 1.2 --pitch 0.8 --output styled_output.wav
```
Descrição do parâmetro::
- --speedVelocidade da fala: 1,0 é normal, maior que 1,0 é mais rápido, menor que 1,0 é mais lento.
- --pitchPitch (altura): quanto maior o valor, maior a altura e vice-versa.
Verificação da eficáciaAudição após a geração e ajuste gradualmente os parâmetros até que você esteja satisfeito.

Exemplo de processo de operação

Suponha que você queira converter um texto chinês em um discurso feminino:

estabelecer test.txtEm um dos seus vídeos, o usuário escreveu: "Está um dia lindo, vamos dar um passeio no parque".

Executar comando:

python generate.py --input test.txt --voice female --output park.wav

sonda park.wavConfirme se a fala é natural e suave.
Se você não estiver satisfeito, tente ajustar os parâmetros ou treinar um novo modelo.

advertência

referência de documentaçãoVisão prioritária do armazém no README.mdAs instruções de instalação e uso podem ser mais específicas em seu interior.
Requisitos de hardwareGeração e treinamento podem exigir aceleração da GPU; se não houver GPU disponível, podem ser executados em uma CPU, mas em uma velocidade mais lenta.
Suporte à comunidadeSe você tiver problemas, faça perguntas na página de problemas do GitHub ou procure soluções em projetos TTS semelhantes, como o Coqui TTS.

Com as etapas acima, você pode começar a usar o Spark-TTS facilmente, seja para gerar fala ou personalizar modelos exclusivos.