Seed-VC: admite la conversión en tiempo real de voz y canciones con menos muestras.

Introducción general

Seed-VC es un proyecto de código abierto en GitHub, desarrollado por Plachtaa. Puede utilizar de 1 a 30 segundos de audio de referencia para lograr rápidamente la conversión de voz o canciones, sin formación adicional. El proyecto admite la conversión de voz en tiempo real, con una latencia de tan sólo 400 milisegundos, adecuada para reuniones en línea, juegos o uso en directo. Seed-VC ofrece tres modos: conversión de voz (VC), conversión de canciones (SVC) y conversión en tiempo real. Utiliza Susurro y BigVGAN y otras tecnologías para garantizar un sonido nítido. El código es gratuito y abierto al público, y los usuarios pueden descargarlo y compilarlo localmente. Actualizaciones oficiales, documentación detallada y apoyo activo de la comunidad.

Seed-VC:支持少样本实时转换语音和歌声

 

Lista de funciones

  • Admite conversión a muestra cero: imita la voz o canción de destino con audio corto.
  • Procesamiento de voz en tiempo real: la voz cambia instantáneamente al tono de destino tras la entrada del micrófono.
  • Conversión de canciones: convierte cualquier canción a la voz del cantante especificado.
  • Ajuste de la duración del audio: acelera o ralentiza el habla para controlar el tempo.
  • Ajuste del tono: ajusta automática o manualmente el tono para adaptarlo al tono deseado.
  • Funcionamiento mediante interfaz web: ofrece una interfaz gráfica sencilla para facilitar su uso.
  • Soporte para entrenamiento personalizado: optimice sonidos específicos con una pequeña cantidad de datos.
  • Código fuente abierto: características modificables o actualizables por el usuario.

 

Utilizar la ayuda

Proceso de instalación

Para utilizar Seed-VC localmente, es necesario instalar primero el entorno. A continuación se detallan los pasos para Windows, Mac (con chips de la serie M) o Linux.

  1. Preparar el entorno
    • Instala Python 3.10, sólo tienes que descargarlo de la web oficial.
    • Para instalar Git, busca "Git for Windows" para usuarios de Windows, o brew install git for Mac.
    • Los usuarios de GPU necesitan instalar CUDA 12.4 y los controladores correspondientes, la CPU también puede funcionar pero más lentamente.
    • Para instalar FFmpeg para el procesamiento de audio, descárgalo de la web oficial para Windows, instala ffmpeg con brew para Mac, e instálalo con un gestor de paquetes para Linux.
  2. Descargar código
    • Abra una línea de comandos (CMD o Anaconda Prompt para Windows, Terminal para Mac/Linux).
    • Escriba git clone https://github.com/Plachtaa/seed-vc.git para descargar el proyecto.
    • Vaya al directorio: cd seed-vc .
  3. Crear un entorno virtual
    • Escriba python -m venv venv para crear un entorno independiente.
    • Activar el entorno:
      • Windows: venv\Scripts\activar
      • Mac/Linux: fuente venv/bin/activate
    • Ver (venv) para el éxito.
  4. Instalación de dependencias
    • Windows/Linux Introduzca pip install -r requirements.txt.
    • Mac serie M introduzca pip install -r requirements-mac.txt .
    • Añadir mirroring para problemas de red: HF_ENDPOINT=https://hf-mirror.com pip install -r requirements.txt .
  5. programa de carrera
    • Conversión de voz: python app_vc.py
    • Conversión de canciones: python app_svc.py
    • Conversión en tiempo real: python real-time-gui.py
    • Una vez en marcha, el navegador visita http://localhost:7860 para utilizar la interfaz.

Funciones principales

1. Conversión de voz (VC)

  • mover::
    1. Ejecute python app_vc.py y abra su navegador en http://localhost:7860.
    2. Sube el audio original (Source Audio) y el audio de referencia (Reference Audio, 1-30 segundos).
    3. Ajuste los Pasos de Difusión, por defecto 25, ajuste 30-50 para una mejor calidad de sonido.
    4. Longitud Ajustar, menos de 1 para acelerar, más de 1 para ralentizar.
    5. Haga clic en Enviar, espere unos segundos y descargue los resultados de la conversión.
  • tenga en cuenta::
    • La primera ejecución descargará automáticamente el modelo seed-uvit-whisper-small-wavenet.
    • El audio de referencia se corta a los 30 segundos.

2. Conversión de voz de canción (SVC)

  • mover::
    1. Ejecuta python app_svc.py para abrir la interfaz web.
    2. Sube el audio de la canción y el audio de referencia del cantante.
    3. Marca la condición f0 para mantener el tono de la canción.
    4. Opcional auto-f0-adjust Ajusta automáticamente el tono.
    5. Ajuste el número de pasos de difusión a 30-50 y haga clic en Enviar.
  • finura::
    • Utilice audio de referencia claro y sin ruido de fondo para obtener los mejores resultados.
    • Los modelos descargan seed-uvit-whisper-base por defecto.

3. Conversión en tiempo real

  • mover::
    1. Ejecuta python real-time-gui.py para abrir la interfaz.
    2. Carga el audio de referencia y conecta el micrófono.
    3. Parámetros de ajuste: pasos de difusión 4-10, tiempo de bloqueo 0,18 seg.
    4. Pulsa "Start" y la voz cambiará en tiempo real mientras hablas.
    5. Utilice VB-CABLE para encaminar la salida al micrófono virtual.
  • solicitar::
    • GPU recomendadas (por ejemplo, RTX 3060) con una latencia de unos 430 ms.
    • La latencia de funcionamiento de la CPU es mayor.

4. Operaciones desde la línea de comandos

  • Ejemplo de conversión de discurso::
     python inference.py --source input.wav --target ref.wav --output ./out --diffusion-steps 25 --length-adjust 1.0 --fp16 True
  • Ejemplo de conversión de canciones::
     python inference.py --source song.wav --target singer.wav --output ./out --diffusion-steps 50 --f0-condition True --semi-tone-shift 0 --fp16 True
    

5. Formación a medida

  • mover::
    1. Prepara un archivo de audio de 1-30 segundos (.wav/.mp3, etc.) en una carpeta.
    2. Entrenamiento de carrera:
       python train.py --config configs/presets/config_dit_mel_seed_uvit_whisper_base_f0_44k.yml --dataset-dir ./data --run-name myrun --max-steps 1000
      
    3. Punto de control post-entrenamiento en . /runs/myrun/ft_model.pth .
    4. Razonamiento con modelos personalizados:
       python app_svc.py --checkpoint ./runs/myrun/ft_model.pth --config configs/presets/config_dit_mel_seed_uvit_whisper_base_f0_44k.yml
      
  • tenga en cuentaal menos 1 muestra de audio para entrenar, unos 2 minutos para 100 pasos (GPU T4).

nota complementaria

  • Selección de modelos::
    • En tiempo real con seed-uvit-tat-xlsr-tiny (25M parámetros).
    • Voz offline con seed-uvit-whisper-small-wavenet (98M parámetros).
    • Para las voces, utiliza seed-uvit-whisper-base (parámetros 200M, 44kHz).
  • ajustar los componentes durante las pruebas::
    • Informar de un error ModuleNotFoundError , compruebe la dependencia.
    • Los Mac pueden necesitar Python con Tkinter instalado para ejecutar GUIs en tiempo real.

 

escenario de aplicación

  1. doblaje de entretenimiento
    Convierte voces en personajes de dibujos animados para hacer vídeos divertidos.
  2. producción musical
    Transforma voces ordinarias en tonos de cantante profesional, generando demos de canciones.
  3. interacción en directo
    El presentador cambia de voz en tiempo real para aumentar la diversión del espectáculo.
  4. aprendizaje de idiomas
    Imitar el habla de hablantes nativos y practicar la pronunciación.

 

CONTROL DE CALIDAD

  1. ¿Necesita muchos datos?
    No. Se necesita 1 clip de audio corto para la conversión y sólo 1 muestra para el entrenamiento.
  2. ¿Admite audio chino?
    Soporte. Siempre que el audio de referencia esté en chino, la conversión también es clara.
  3. ¿Y la alta latencia?
    Utiliza la GPU y establece un paso de difusión bajo (4-10).
  4. ¿Y la mala calidad del sonido?
    Aumente los pasos de difusión a 50 o utilice audio de referencia limpio.
© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...