Seed-VC: suporta a conversão em tempo real de fala e música com menos amostras

Recursos mais recentes de IAPublicado há 5 meses Círculo de compartilhamento de IA

2.9K 00

Introdução geral

O Seed-VC é um projeto de código aberto no GitHub, desenvolvido pela Plachtaa. Ele pode usar de 1 a 30 segundos de áudio de referência para realizar rapidamente a conversão de voz ou música, sem treinamento adicional. O projeto oferece suporte à conversão de voz em tempo real, com latência tão baixa quanto 400 milissegundos, adequada para reuniões on-line, jogos ou uso ao vivo. O Seed-VC oferece três modos: conversão de voz (VC), conversão de músicas (SVC) e conversão em tempo real. Ele usa Sussurro e BigVGAN e outras tecnologias para garantir um som nítido. O código é gratuito e aberto ao público, e os usuários podem fazer o download e desenvolvê-lo localmente. Atualizações oficiais, documentação detalhada e suporte ativo da comunidade.

Lista de funções

Oferece suporte à conversão de amostra zero: imite a voz ou a música de destino com áudio curto.
Processamento de voz em tempo real: a voz muda instantaneamente para o tom desejado após a entrada do microfone.
Conversão de músicas: Converta qualquer música para a voz do cantor especificado.
Ajuste da duração do áudio: Acelere ou desacelere a fala para controlar o andamento.
Ajuste de tom: ajuste automática ou manualmente o tom para se adequar ao tom desejado.
Operação da interface da Web: fornece uma interface gráfica simples para facilitar o uso.
Suporte para treinamento personalizado: otimize sons específicos com uma pequena quantidade de dados.
Código-fonte aberto: recursos modificáveis ou atualizáveis pelo usuário.

Usando a Ajuda

Processo de instalação

Para usar o Seed-VC localmente, você precisa primeiro instalar o ambiente. Abaixo estão as etapas detalhadas para Windows, Mac (com chips da série M) ou Linux.

Preparação do ambiente
- Instale o Python 3.10, basta baixá-lo do site oficial.
- Para instalar o Git, pesquise por "Git for Windows" para usuários do Windows ou brew install git para Mac.
- Os usuários de GPU precisam instalar o CUDA 12.4 e os drivers correspondentes; a CPU também pode ser executada, mas mais lentamente.
- Para instalar o FFmpeg para processamento de áudio, faça o download no site oficial para Windows, instale o ffmpeg com o brew para Mac e instale-o com um gerenciador de pacotes para Linux.
Código de download
- Abra uma linha de comando (CMD ou Anaconda Prompt para Windows, Terminal para Mac/Linux).
- Digite git clone https://github.com/Plachtaa/seed-vc.git para fazer o download do projeto.
- Vá para o diretório: cd seed-vc .
Configuração de um ambiente virtual
- Digite python -m venv venv para criar um ambiente autônomo.
- Ativar o ambiente:
  - Windows: venv\Scripts\activate
  - Mac/Linux: fonte venv/bin/activate
- Consulte (venv) para obter sucesso.
Instalação de dependências
- Windows/Linux Digite pip install -r requirements.txt.
- Mac série M digite pip install -r requirements-mac.txt .
- Adicionar espelhamento para problemas de rede: HF_ENDPOINT=https://hf-mirror.com pip install -r requirements.txt .
programa de corrida
- Conversão de voz: python app_vc.py
- Conversão de músicas: python app_svc.py
- Conversão em tempo real: python real-time-gui.py
- Após a execução, o navegador acessa http://localhost:7860 para usar a interface.

Funções principais

1. conversão de voz (VC)

mover::
1. Execute python app_vc.py e abra seu navegador em http://localhost:7860.
2. Carregue o áudio original (Source Audio) e o áudio de referência (Reference Audio, 1-30 segundos).
3. Defina as etapas de difusão, padrão 25, defina 30-50 para obter melhor qualidade de som.
4. Ajuste de comprimento, menos de 1 acelera, mais de 1 reduz a velocidade.
5. Clique em Submit, aguarde alguns segundos e faça o download do resultado da conversão.
tomar nota de::
- A primeira execução fará o download automático do modelo seed-uvit-whisper-small-wavenet.
- O áudio de referência é cortado após 30 segundos.

2 Conversão de voz de música (SVC)

mover::
1. Execute python app_svc.py para abrir a interface da Web.
2. Faça upload do áudio da música e do áudio de referência do cantor.
3. Marque a condição f0 para manter o tom da música.
4. Auto-f0-adjust opcional Ajusta automaticamente o tom.
5. Defina o número de etapas de difusão como 30-50 e clique em Submit.
delicadeza::
- Use um áudio de referência claro e sem ruídos de fundo para obter melhores resultados.
- Os modelos baixam o seed-uvit-whisper-base por padrão.

3. conversão em tempo real

mover::
1. Execute python real-time-gui.py para abrir a interface.
2. Carregue o áudio de referência e conecte o microfone.
3. Parâmetros de configuração: etapas de difusão 4-10, tempo de bloqueio 0,18 s.
4. Clique em "Start" (Iniciar) e a voz muda em tempo real enquanto você fala.
5. Use o VB-CABLE para rotear a saída para o microfone virtual.
solicitação::
- Recomendações de GPU (por exemplo, RTX 3060) com uma latência de cerca de 430 ms.
- A latência de execução da CPU é maior.

4. operações de linha de comando

Exemplo de conversão de fala::

 python inference.py --source input.wav --target ref.wav --output ./out --diffusion-steps 25 --length-adjust 1.0 --fp16 True

Exemplo de conversão de músicas::

 python inference.py --source song.wav --target singer.wav --output ./out --diffusion-steps 50 --f0-condition True --semi-tone-shift 0 --fp16 True

5. treinamento personalizado

mover::

Prepare um arquivo de áudio de 1 a 30 segundos (.wav/.mp3, etc.) em uma pasta.

Treinamento de corrida:

 python train.py --config configs/presets/config_dit_mel_seed_uvit_whisper_base_f0_44k.yml --dataset-dir ./data --run-name myrun --max-steps 1000

Ponto de verificação pós-treinamento em . /runs/myrun/ft_model.pth .

Raciocínio com modelos personalizados:

 python app_svc.py --checkpoint ./runs/myrun/ft_model.pth --config configs/presets/config_dit_mel_seed_uvit_whisper_base_f0_44k.yml

tomar nota de: pelo menos 1 amostra de áudio para treinar, cerca de 2 minutos para 100 etapas (GPU T4).

Nota suplementar

Seleção de modelos::
- Em tempo real com seed-uvit-tat-xlsr-tiny (25M parâmetros).
- Voz off-line com seed-uvit-whisper-small-wavenet (98M parâmetros).
- Para vocais, use seed-uvit-whisper-base (parâmetros de 200M, 44kHz).
ajustar os componentes durante o teste::
- Relate um erro ModuleNotFoundError , verifique a dependência.
- Os Macs podem precisar do Python com o Tkinter instalado para executar GUIs em tempo real.

cenário do aplicativo

dublagem de entretenimento
Transforme vozes em personagens de desenhos animados para criar vídeos engraçados.
produção musical
Transforma vocais comuns em tons de cantores profissionais, gerando demos de músicas.
interação ao vivo
O âncora muda sua voz em tempo real para aumentar a diversão do programa.
aprendizado de idiomas
Imitar a fala de falantes nativos e praticar a pronúncia.

QA

Precisa de muitos dados?
Não. É necessário um clipe de áudio curto para a conversão e apenas uma amostra para o treinamento.
Ele é compatível com áudio em chinês?
Suporte. Desde que o áudio de referência esteja em chinês, a conversão também é clara.
E quanto à alta latência?
Use a GPU e defina uma etapa de difusão baixa (4-10).
E quanto à má qualidade do som?
Aumente as etapas de difusão para 50 ou use áudio de referência limpo.