Introdução geral
O Seed-VC é um projeto de código aberto no GitHub, desenvolvido pela Plachtaa. Ele pode usar de 1 a 30 segundos de áudio de referência para realizar rapidamente a conversão de voz ou música, sem treinamento adicional. O projeto oferece suporte à conversão de voz em tempo real, com latência tão baixa quanto 400 milissegundos, adequada para reuniões on-line, jogos ou uso ao vivo. O Seed-VC oferece três modos: conversão de voz (VC), conversão de músicas (SVC) e conversão em tempo real. Ele usa Sussurro e BigVGAN e outras tecnologias para garantir um som nítido. O código é gratuito e aberto ao público, e os usuários podem fazer o download e desenvolvê-lo localmente. Atualizações oficiais, documentação detalhada e suporte ativo da comunidade.
Lista de funções
- Oferece suporte à conversão de amostra zero: imite a voz ou a música de destino com áudio curto.
- Processamento de voz em tempo real: a voz muda instantaneamente para o tom desejado após a entrada do microfone.
- Conversão de músicas: Converta qualquer música para a voz do cantor especificado.
- Ajuste da duração do áudio: Acelere ou desacelere a fala para controlar o andamento.
- Ajuste de tom: ajuste automática ou manualmente o tom para se adequar ao tom desejado.
- Operação da interface da Web: fornece uma interface gráfica simples para facilitar o uso.
- Suporte para treinamento personalizado: otimize sons específicos com uma pequena quantidade de dados.
- Código-fonte aberto: recursos modificáveis ou atualizáveis pelo usuário.
Usando a Ajuda
Processo de instalação
Para usar o Seed-VC localmente, você precisa primeiro instalar o ambiente. Abaixo estão as etapas detalhadas para Windows, Mac (com chips da série M) ou Linux.
- Preparação do ambiente
- Instale o Python 3.10, basta baixá-lo do site oficial.
- Para instalar o Git, pesquise por "Git for Windows" para usuários do Windows ou brew install git para Mac.
- Os usuários de GPU precisam instalar o CUDA 12.4 e os drivers correspondentes; a CPU também pode ser executada, mas mais lentamente.
- Para instalar o FFmpeg para processamento de áudio, faça o download no site oficial para Windows, instale o ffmpeg com o brew para Mac e instale-o com um gerenciador de pacotes para Linux.
- Código de download
- Abra uma linha de comando (CMD ou Anaconda Prompt para Windows, Terminal para Mac/Linux).
- Digite git clone https://github.com/Plachtaa/seed-vc.git para fazer o download do projeto.
- Vá para o diretório: cd seed-vc .
- Configuração de um ambiente virtual
- Digite python -m venv venv para criar um ambiente autônomo.
- Ativar o ambiente:
- Windows: venv\Scripts\activate
- Mac/Linux: fonte venv/bin/activate
- Consulte (venv) para obter sucesso.
- Instalação de dependências
- Windows/Linux Digite pip install -r requirements.txt.
- Mac série M digite pip install -r requirements-mac.txt .
- Adicionar espelhamento para problemas de rede: HF_ENDPOINT=https://hf-mirror.com pip install -r requirements.txt .
- programa de corrida
- Conversão de voz: python app_vc.py
- Conversão de músicas: python app_svc.py
- Conversão em tempo real: python real-time-gui.py
- Após a execução, o navegador acessa http://localhost:7860 para usar a interface.
Funções principais
1. conversão de voz (VC)
- mover::
- Execute python app_vc.py e abra seu navegador em http://localhost:7860.
- Carregue o áudio original (Source Audio) e o áudio de referência (Reference Audio, 1-30 segundos).
- Defina as etapas de difusão, padrão 25, defina 30-50 para obter melhor qualidade de som.
- Ajuste de comprimento, menos de 1 acelera, mais de 1 reduz a velocidade.
- Clique em Submit, aguarde alguns segundos e faça o download do resultado da conversão.
- tomar nota de::
- A primeira execução fará o download automático do modelo seed-uvit-whisper-small-wavenet.
- O áudio de referência é cortado após 30 segundos.
2 Conversão de voz de música (SVC)
- mover::
- Execute python app_svc.py para abrir a interface da Web.
- Faça upload do áudio da música e do áudio de referência do cantor.
- Marque a condição f0 para manter o tom da música.
- Auto-f0-adjust opcional Ajusta automaticamente o tom.
- Defina o número de etapas de difusão como 30-50 e clique em Submit.
- delicadeza::
- Use um áudio de referência claro e sem ruídos de fundo para obter melhores resultados.
- Os modelos baixam o seed-uvit-whisper-base por padrão.
3. conversão em tempo real
- mover::
- Execute python real-time-gui.py para abrir a interface.
- Carregue o áudio de referência e conecte o microfone.
- Parâmetros de configuração: etapas de difusão 4-10, tempo de bloqueio 0,18 s.
- Clique em "Start" (Iniciar) e a voz muda em tempo real enquanto você fala.
- Use o VB-CABLE para rotear a saída para o microfone virtual.
- solicitação::
- Recomendações de GPU (por exemplo, RTX 3060) com uma latência de cerca de 430 ms.
- A latência de execução da CPU é maior.
4. operações de linha de comando
- Exemplo de conversão de fala::
python inference.py --source input.wav --target ref.wav --output . /out --diffusion-steps 25 --length-adjust 1.0 --fp16 True
- Exemplo de conversão de músicas::
python inference.py --source song.wav --target singer.wav --output . /out --diffusion-steps 50 --f0-condition True --semi-tone-shift 0 --fp16 True
5. treinamento personalizado
- mover::
- Prepare um arquivo de áudio de 1 a 30 segundos (.wav/.mp3, etc.) em uma pasta.
- Treinamento de corrida:
python train.py --config configs/presets/config_dit_mel_seed_uvit_whisper_base_f0_44k.yml --dataset-dir . /data --run-name myrun --max-steps 1000
- Ponto de verificação pós-treinamento em . /runs/myrun/ft_model.pth .
- Raciocínio com modelos personalizados:
python app_svc.py --checkpoint . /runs/myrun/ft_model.pth --config configs/presets/config_dit_mel_seed_uvit_whisper_base_f0_44k.yml
- tomar nota de: pelo menos 1 amostra de áudio para treinar, cerca de 2 minutos para 100 etapas (GPU T4).
Nota suplementar
- Seleção de modelos::
- Em tempo real com seed-uvit-tat-xlsr-tiny (25M parâmetros).
- Voz off-line com seed-uvit-whisper-small-wavenet (98M parâmetros).
- Para vocais, use seed-uvit-whisper-base (parâmetros de 200M, 44kHz).
- ajustar os componentes durante o teste::
- Relate um erro ModuleNotFoundError , verifique a dependência.
- Os Macs podem precisar do Python com o Tkinter instalado para executar GUIs em tempo real.
cenário do aplicativo
- dublagem de entretenimento
Transforme vozes em personagens de desenhos animados para criar vídeos engraçados. - produção musical
Transforma vocais comuns em tons de cantores profissionais, gerando demos de músicas. - interação ao vivo
O âncora muda sua voz em tempo real para aumentar a diversão do programa. - aprendizado de idiomas
Imitar a fala de falantes nativos e praticar a pronúncia.
QA
- Precisa de muitos dados?
Não. É necessário um clipe de áudio curto para a conversão e apenas uma amostra para o treinamento. - Ele é compatível com áudio em chinês?
Suporte. Desde que o áudio de referência esteja em chinês, a conversão também é clara. - E quanto à alta latência?
Use a GPU e defina uma etapa de difusão baixa (4-10). - E quanto à má qualidade do som?
Aumente as etapas de difusão para 50 ou use áudio de referência limpo.