WebUI de conversão de voz baseada em recuperação: uma estrutura para conversão de voz baseada em recuperação e simulação de vozes de canto reais

Introdução geral

Recuperação A WebUI de conversão de voz baseada em VITS é uma estrutura de conversão de voz baseada em VITS simples e fácil de usar, que pode realizar a conversão de voz entre quaisquer alto-falantes, incluindo covers de músicas e alteração de voz em tempo real. Ela apresenta baixa latência, excelente efeito de conversão de voz, pequena quantidade de treinamento de dados etc. É compatível com aceleração de placa N, placa A e placa I, oferece interface da Web e interface de conversão de voz em tempo real e também pode chamar o modelo UVR5 para separar rapidamente a voz humana e os vocais de apoio, além de usar o algoritmo de extração de tom vocal mais avançado RMVPE para eliminar o problema de vozes mudas.

experiência on-line do colab

O modelo inferior é treinado usando cerca de 50 horas do conjunto de treinamento VCTK de código aberto e alta qualidade, sem preocupações com direitos autorais.

Aguarde o modelo inferior do RVCv3, com parâmetros maiores, dados maiores, melhores resultados, velocidade de inferência essencialmente igual e menos dados de treinamento necessários.

Interface de raciocínio de treinamento

Interface de mudança de voz em tempo real

Lista de funções

Treine seu próprio modelo de conversão de voz com apenas 10 minutos de dados de fala
Suporta várias taxas de amostragem e tons usando modelos de conversão de fala pré-treinados
Conversão de fala usando uma interface da Web ou uma interface de alteração de voz em tempo real com suporte de baixa latência de ponta a ponta
Separe vocais e faixas de apoio usando a modelagem UVR5, compatível com vários formatos de arquivo de áudio
Use o algoritmo RMVPE para extrair o tom vocal, compatível com pytorch/onnx/DirectML

Usando a Ajuda

Faça download ou clone deste repositório, instale as dependências e os pré-modelos necessários
Execute go-web.bat ou go-realtime-gui.bat e selecione a ação que deseja executar.
De acordo com os avisos da interface, selecione os arquivos ou dispositivos de voz de entrada e saída, ajuste os parâmetros e as opções
Clique em iniciar ou parar e aproveite a conversão de voz!

Artigos relacionados

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco

WebUI de conversão de voz com base em recuperação: uma estrutura para conversão de voz com base em recuperação e simulação de vozes cantadas na vida real

Introdução geral

Lista de funções

Usando a Ajuda

Artigos relacionados

Fish Agent: assistente de clonagem de voz de IA de ponta a ponta, assistente de diálogo de voz em tempo real, projeto derivado do Fish Speech

Amphion MaskGCT: modelo de clonagem de texto para fala com amostragem zero (pacote de implantação local com um clique)

CosyVoice: projeto de código aberto de clonagem de voz de 3 segundos lançado por Ali com suporte para tags controladas emocionalmente

Coqui TTS (xTTS): um kit de ferramentas de aprendizagem profunda para geração de texto para fala com suporte multilíngue e recursos de clonagem de voz

F5-TTS: clonagem de fala sem amostras para gerar vozes clonadas suaves e emocionalmente ricas

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Gerador de imagens FLUX.1 (suporta entrada em chinês)

Novos lançamentos

Artigos populares

Hot Tags.

Chefe do Círculo de Compartilhamento de IA