Introdução geral
O GPT-SoVITS é uma ferramenta de conversão e síntese de fala de código aberto que combina o modelo GPT e a tecnologia de troca de voz SoVITS. A ferramenta oferece suporte à conversão instantânea de texto em fala com zero ou poucas amostras e à migração de estilo de voz em apenas 5 segundos de amostras de áudio. Os recursos incluem suporte a vários idiomas, separação de trilhas incorporada e outras funções úteis que facilitam a criação de modelos de voz personalizados até mesmo para iniciantes. Disponível em inglês, japonês e chinês, ele combina com o conjunto de ferramentas WebUI para ajudar em tudo, desde o pré-processamento de dados até o treinamento do modelo. Seja você um novato em IA ou um profissional, aqui você pode experimentar o charme da tecnologia de fala.
Lista de funções
- Zero Sample TTS: insira uma amostra de fala de 5 segundos para experimentar a conversão de texto em fala imediatamente.
- TTS sem amostras: ajuste fino do modelo usando apenas 1 minuto de dados de treinamento para melhorar a semelhança e o realismo do som.
- Suporte a vários idiomas: atualmente suporta inferências para idiomas diferentes do conjunto de treinamento, incluindo inglês, japonês, coreano, cantonês e mandarim.
- Ferramentas WebUI: separação integrada de acompanhamento de fala, segmentação automática do conjunto de treinamento, ASR chinês e anotação de texto para ajudar os iniciantes a criar dados de treinamento e modelos GPT/SoVITS.
Usando a Ajuda
Processo de instalação
Usuário do Windows
- Faça o download do pacote de integração.
- clique duas vezes
go-webui.bat
Inicie a GPT-SoVITS-WebUI. - Siga os prompts da interface.
Usuário do Linux
- Crie um ambiente virtual:
conda create -n GPTSoVits python=3.9
- Ativar o ambiente virtual:
conda activate GPTSoVits
- Instale a dependência:
bash install.sh
Usuários do macOS
- Instale a ferramenta de linha de comando Xcode:
xcode-select --install
- Instale o FFmpeg:
brew install ffmpeg
- Crie um ambiente virtual e instale as dependências:
conda create -n GPTSoVits python=3.9 conda activate GPTSoVits pip install -r requirements.txt
Processo de uso
- Preparação de dadosPrepare uma amostra de fala de pelo menos 5 segundos para ser carregada na interface WebUI.
- treinamento de modelosSelecione o modo de zero ou poucas amostras e carregue os dados de treinamento correspondentes.
- transcrição fonéticaDigite o conteúdo do texto, selecione a amostra de fala de destino e clique no botão Convert (Converter).
- Exportação de resultados: Após a conclusão da conversão, você pode fazer o download do arquivo de áudio resultante.
Funções
- TTS de amostra zeroCarregar uma amostra de voz de 5 segundos na interface WebUI, inserir o conteúdo do texto e clicar no botão Convert (Converter) para gerar o arquivo de voz correspondente.
- Amostra menos TTSCarregar pelo menos 1 minuto de dados de treinamento para o ajuste fino do modelo, a fim de melhorar a similaridade e o realismo da fala gerada.
- Suporte a vários idiomasSelecione o conteúdo de texto em diferentes idiomas para entrada, e o sistema realizará automaticamente a conversão de idiomas e a geração de fala.
- Ferramentas WebUISimplifique o processamento de dados e o processo de treinamento de modelos usando recursos incorporados, como separação de acompanhamento de fala, segmentação automática do conjunto de treinamento, ASR chinês e anotação de texto.