Aprendizagem pessoal com IA
e orientação prática
Espelho de desenho CyberKnife

Seed-VC: suporta a conversão em tempo real de fala e música com menos amostras

Introdução geral

O Seed-VC é um projeto de código aberto no GitHub, desenvolvido pela Plachtaa. Ele pode usar de 1 a 30 segundos de áudio de referência para realizar rapidamente a conversão de voz ou música, sem treinamento adicional. O projeto oferece suporte à conversão de voz em tempo real, com latência tão baixa quanto 400 milissegundos, adequada para reuniões on-line, jogos ou uso ao vivo. O Seed-VC oferece três modos: conversão de voz (VC), conversão de músicas (SVC) e conversão em tempo real. Ele usa Sussurro e BigVGAN e outras tecnologias para garantir um som nítido. O código é gratuito e aberto ao público, e os usuários podem fazer o download e desenvolvê-lo localmente. Atualizações oficiais, documentação detalhada e suporte ativo da comunidade.

Seed-VC: suporte à conversão em tempo real de fala e música com menos amostras-1


 

Lista de funções

  • Oferece suporte à conversão de amostra zero: imite a voz ou a música de destino com áudio curto.
  • Processamento de voz em tempo real: a voz muda instantaneamente para o tom desejado após a entrada do microfone.
  • Conversão de músicas: Converta qualquer música para a voz do cantor especificado.
  • Ajuste da duração do áudio: Acelere ou desacelere a fala para controlar o andamento.
  • Ajuste de tom: ajuste automática ou manualmente o tom para se adequar ao tom desejado.
  • Operação da interface da Web: fornece uma interface gráfica simples para facilitar o uso.
  • Suporte para treinamento personalizado: otimize sons específicos com uma pequena quantidade de dados.
  • Código-fonte aberto: recursos modificáveis ou atualizáveis pelo usuário.

 

Usando a Ajuda

Processo de instalação

Para usar o Seed-VC localmente, você precisa primeiro instalar o ambiente. Abaixo estão as etapas detalhadas para Windows, Mac (com chips da série M) ou Linux.

  1. Preparação do ambiente
    • Instale o Python 3.10, basta baixá-lo do site oficial.
    • Para instalar o Git, pesquise por "Git for Windows" para usuários do Windows ou brew install git para Mac.
    • Os usuários de GPU precisam instalar o CUDA 12.4 e os drivers correspondentes; a CPU também pode ser executada, mas mais lentamente.
    • Para instalar o FFmpeg para processamento de áudio, faça o download no site oficial para Windows, instale o ffmpeg com o brew para Mac e instale-o com um gerenciador de pacotes para Linux.
  2. Código de download
    • Abra uma linha de comando (CMD ou Anaconda Prompt para Windows, Terminal para Mac/Linux).
    • Digite git clone https://github.com/Plachtaa/seed-vc.git para fazer o download do projeto.
    • Vá para o diretório: cd seed-vc .
  3. Configuração de um ambiente virtual
    • Digite python -m venv venv para criar um ambiente autônomo.
    • Ativar o ambiente:
      • Windows: venv\Scripts\activate
      • Mac/Linux: fonte venv/bin/activate
    • Consulte (venv) para obter sucesso.
  4. Instalação de dependências
    • Windows/Linux Digite pip install -r requirements.txt.
    • Mac série M digite pip install -r requirements-mac.txt .
    • Adicionar espelhamento para problemas de rede: HF_ENDPOINT=https://hf-mirror.com pip install -r requirements.txt .
  5. programa de corrida
    • Conversão de voz: python app_vc.py
    • Conversão de músicas: python app_svc.py
    • Conversão em tempo real: python real-time-gui.py
    • Após a execução, o navegador acessa http://localhost:7860 para usar a interface.

Funções principais

1. conversão de voz (VC)

  • mover::
    1. Execute python app_vc.py e abra seu navegador em http://localhost:7860.
    2. Carregue o áudio original (Source Audio) e o áudio de referência (Reference Audio, 1-30 segundos).
    3. Defina as etapas de difusão, padrão 25, defina 30-50 para obter melhor qualidade de som.
    4. Ajuste de comprimento, menos de 1 acelera, mais de 1 reduz a velocidade.
    5. Clique em Submit, aguarde alguns segundos e faça o download do resultado da conversão.
  • tomar nota de::
    • A primeira execução fará o download automático do modelo seed-uvit-whisper-small-wavenet.
    • O áudio de referência é cortado após 30 segundos.

2 Conversão de voz de música (SVC)

  • mover::
    1. Execute python app_svc.py para abrir a interface da Web.
    2. Faça upload do áudio da música e do áudio de referência do cantor.
    3. Marque a condição f0 para manter o tom da música.
    4. Auto-f0-adjust opcional Ajusta automaticamente o tom.
    5. Defina o número de etapas de difusão como 30-50 e clique em Submit.
  • delicadeza::
    • Use um áudio de referência claro e sem ruídos de fundo para obter melhores resultados.
    • Os modelos baixam o seed-uvit-whisper-base por padrão.

3. conversão em tempo real

  • mover::
    1. Execute python real-time-gui.py para abrir a interface.
    2. Carregue o áudio de referência e conecte o microfone.
    3. Parâmetros de configuração: etapas de difusão 4-10, tempo de bloqueio 0,18 s.
    4. Clique em "Start" (Iniciar) e a voz muda em tempo real enquanto você fala.
    5. Use o VB-CABLE para rotear a saída para o microfone virtual.
  • solicitação::
    • Recomendações de GPU (por exemplo, RTX 3060) com uma latência de cerca de 430 ms.
    • A latência de execução da CPU é maior.

4. operações de linha de comando

  • Exemplo de conversão de fala::
     python inference.py --source input.wav --target ref.wav --output . /out --diffusion-steps 25 --length-adjust 1.0 --fp16 True
  • Exemplo de conversão de músicas::
     python inference.py --source song.wav --target singer.wav --output . /out --diffusion-steps 50 --f0-condition True --semi-tone-shift 0 --fp16 True
    

5. treinamento personalizado

  • mover::
    1. Prepare um arquivo de áudio de 1 a 30 segundos (.wav/.mp3, etc.) em uma pasta.
    2. Treinamento de corrida:
       python train.py --config configs/presets/config_dit_mel_seed_uvit_whisper_base_f0_44k.yml --dataset-dir . /data --run-name myrun --max-steps 1000
      
    3. Ponto de verificação pós-treinamento em . /runs/myrun/ft_model.pth .
    4. Raciocínio com modelos personalizados:
       python app_svc.py --checkpoint . /runs/myrun/ft_model.pth --config configs/presets/config_dit_mel_seed_uvit_whisper_base_f0_44k.yml
      
  • tomar nota de: pelo menos 1 amostra de áudio para treinar, cerca de 2 minutos para 100 etapas (GPU T4).

Nota suplementar

  • Seleção de modelos::
    • Em tempo real com seed-uvit-tat-xlsr-tiny (25M parâmetros).
    • Voz off-line com seed-uvit-whisper-small-wavenet (98M parâmetros).
    • Para vocais, use seed-uvit-whisper-base (parâmetros de 200M, 44kHz).
  • ajustar os componentes durante o teste::
    • Relate um erro ModuleNotFoundError , verifique a dependência.
    • Os Macs podem precisar do Python com o Tkinter instalado para executar GUIs em tempo real.

 

cenário do aplicativo

  1. dublagem de entretenimento
    Transforme vozes em personagens de desenhos animados para criar vídeos engraçados.
  2. produção musical
    Transforma vocais comuns em tons de cantores profissionais, gerando demos de músicas.
  3. interação ao vivo
    O âncora muda sua voz em tempo real para aumentar a diversão do programa.
  4. aprendizado de idiomas
    Imitar a fala de falantes nativos e praticar a pronúncia.

 

QA

  1. Precisa de muitos dados?
    Não. É necessário um clipe de áudio curto para a conversão e apenas uma amostra para o treinamento.
  2. Ele é compatível com áudio em chinês?
    Suporte. Desde que o áudio de referência esteja em chinês, a conversão também é clara.
  3. E quanto à alta latência?
    Use a GPU e defina uma etapa de difusão baixa (4-10).
  4. E quanto à má qualidade do som?
    Aumente as etapas de difusão para 50 ou use áudio de referência limpo.
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Seed-VC: suporta a conversão em tempo real de fala e música com menos amostras

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil