GPT SoVITS: ferramentas revolucionárias de geração de fala e clonagem de fala

Recursos mais recentes de IAAtualizado há 1 ano Círculo de compartilhamento de IA

21.1K 00

Introdução geral

O GPT-SoVITS é uma ferramenta de conversão e síntese de fala de código aberto que combina o modelo GPT e a tecnologia de troca de voz SoVITS. A ferramenta oferece suporte à conversão instantânea de texto em fala com zero ou poucas amostras e à migração de estilo de voz em apenas 5 segundos de amostras de áudio. Os recursos incluem suporte a vários idiomas, separação de trilhas incorporada e outras funções úteis que facilitam a criação de modelos de voz personalizados até mesmo para iniciantes. Disponível em inglês, japonês e chinês, ele combina com o conjunto de ferramentas WebUI para ajudar em tudo, desde o pré-processamento de dados até o treinamento do modelo. Seja você um novato em IA ou um profissional, aqui você pode experimentar o charme da tecnologia de fala.

Lista de funções

Zero Sample TTS: insira uma amostra de fala de 5 segundos para experimentar a conversão de texto em fala imediatamente.
TTS sem amostras: ajuste fino do modelo usando apenas 1 minuto de dados de treinamento para melhorar a semelhança e o realismo do som.
Suporte a vários idiomas: atualmente suporta inferências para idiomas diferentes do conjunto de treinamento, incluindo inglês, japonês, coreano, cantonês e mandarim.
Ferramentas WebUI: separação integrada de acompanhamento de fala, segmentação automática do conjunto de treinamento, ASR chinês e anotação de texto para ajudar os iniciantes a criar dados de treinamento e modelos GPT/SoVITS.

Usando a Ajuda

Processo de instalação

Usuário do Windows

Faça o download do pacote de integração.
clique duas vezesgo-webui.batInicie a GPT-SoVITS-WebUI.
Siga os prompts da interface.

Usuário do Linux

Crie um ambiente virtual:conda create -n GPTSoVits python=3.9
Ativar o ambiente virtual:conda activate GPTSoVits
Instale a dependência:bash install.sh

Usuários do macOS

Instale a ferramenta de linha de comando Xcode:xcode-select --install
Instale o FFmpeg:brew install ffmpeg

Crie um ambiente virtual e instale as dependências:

conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
pip install -r requirements.txt

Processo de uso

Preparação de dadosPrepare uma amostra de fala de pelo menos 5 segundos para ser carregada na interface WebUI.
treinamento de modelosSelecione o modo de zero ou poucas amostras e carregue os dados de treinamento correspondentes.
transcrição fonéticaDigite o conteúdo do texto, selecione a amostra de fala de destino e clique no botão Convert (Converter).
Exportação de resultados: Após a conclusão da conversão, você pode fazer o download do arquivo de áudio resultante.

Funções

TTS de amostra zeroCarregar uma amostra de voz de 5 segundos na interface WebUI, inserir o conteúdo do texto e clicar no botão Convert (Converter) para gerar o arquivo de voz correspondente.
Amostra menos TTSCarregar pelo menos 1 minuto de dados de treinamento para o ajuste fino do modelo, a fim de melhorar a similaridade e o realismo da fala gerada.
Suporte a vários idiomasSelecione o conteúdo de texto em diferentes idiomas para entrada, e o sistema realizará automaticamente a conversão de idiomas e a geração de fala.
Ferramentas WebUISimplifique o processamento de dados e o processo de treinamento de modelos usando recursos incorporados, como separação de acompanhamento de fala, segmentação automática do conjunto de treinamento, ASR chinês e anotação de texto.