Introdução geral
Recuperação A WebUI de conversão de voz baseada em VITS é uma estrutura de conversão de voz baseada em VITS simples e fácil de usar, que pode realizar a conversão de voz entre quaisquer alto-falantes, incluindo covers de músicas e alteração de voz em tempo real. Ela apresenta baixa latência, excelente efeito de conversão de voz, pequena quantidade de treinamento de dados etc. É compatível com aceleração de placa N, placa A e placa I, oferece interface da Web e interface de conversão de voz em tempo real e também pode chamar o modelo UVR5 para separar rapidamente a voz humana e os vocais de apoio, além de usar o algoritmo de extração de tom vocal mais avançado RMVPE para eliminar o problema de vozes mudas.
O modelo inferior é treinado usando cerca de 50 horas do conjunto de treinamento VCTK de código aberto e alta qualidade, sem preocupações com direitos autorais.
Aguarde o modelo inferior do RVCv3, com parâmetros maiores, dados maiores, melhores resultados, velocidade de inferência essencialmente igual e menos dados de treinamento necessários.
Lista de funções
- Treine seu próprio modelo de conversão de voz com apenas 10 minutos de dados de fala
- Suporta várias taxas de amostragem e tons usando modelos de conversão de fala pré-treinados
- Conversão de fala usando uma interface da Web ou uma interface de alteração de voz em tempo real com suporte de baixa latência de ponta a ponta
- Separe vocais e faixas de apoio usando a modelagem UVR5, compatível com vários formatos de arquivo de áudio
- Use o algoritmo RMVPE para extrair o tom vocal, compatível com pytorch/onnx/DirectML
Usando a Ajuda
- Faça download ou clone deste repositório, instale as dependências e os pré-modelos necessários
- Execute go-web.bat ou go-realtime-gui.bat e selecione a ação que deseja executar.
- De acordo com os avisos da interface, selecione os arquivos ou dispositivos de voz de entrada e saída, ajuste os parâmetros e as opções
- Clique em iniciar ou parar e aproveite a conversão de voz!