Seed-VC: admite la conversión en tiempo real de voz y canciones con menos muestras.
Últimos recursos sobre IAPublicado hace 5 meses Círculo de intercambio de inteligencia artificial 2.8K 00
Introducción general
Seed-VC es un proyecto de código abierto en GitHub, desarrollado por Plachtaa. Puede utilizar de 1 a 30 segundos de audio de referencia para lograr rápidamente la conversión de voz o canciones, sin formación adicional. El proyecto admite la conversión de voz en tiempo real, con una latencia de tan sólo 400 milisegundos, adecuada para reuniones en línea, juegos o uso en directo. Seed-VC ofrece tres modos: conversión de voz (VC), conversión de canciones (SVC) y conversión en tiempo real. Utiliza Susurro y BigVGAN y otras tecnologías para garantizar un sonido nítido. El código es gratuito y abierto al público, y los usuarios pueden descargarlo y compilarlo localmente. Actualizaciones oficiales, documentación detallada y apoyo activo de la comunidad.

Lista de funciones
- Admite conversión a muestra cero: imita la voz o canción de destino con audio corto.
- Procesamiento de voz en tiempo real: la voz cambia instantáneamente al tono de destino tras la entrada del micrófono.
- Conversión de canciones: convierte cualquier canción a la voz del cantante especificado.
- Ajuste de la duración del audio: acelera o ralentiza el habla para controlar el tempo.
- Ajuste del tono: ajusta automática o manualmente el tono para adaptarlo al tono deseado.
- Funcionamiento mediante interfaz web: ofrece una interfaz gráfica sencilla para facilitar su uso.
- Soporte para entrenamiento personalizado: optimice sonidos específicos con una pequeña cantidad de datos.
- Código fuente abierto: características modificables o actualizables por el usuario.
Utilizar la ayuda
Proceso de instalación
Para utilizar Seed-VC localmente, es necesario instalar primero el entorno. A continuación se detallan los pasos para Windows, Mac (con chips de la serie M) o Linux.
- Preparar el entorno
- Instala Python 3.10, sólo tienes que descargarlo de la web oficial.
- Para instalar Git, busca "Git for Windows" para usuarios de Windows, o brew install git for Mac.
- Los usuarios de GPU necesitan instalar CUDA 12.4 y los controladores correspondientes, la CPU también puede funcionar pero más lentamente.
- Para instalar FFmpeg para el procesamiento de audio, descárgalo de la web oficial para Windows, instala ffmpeg con brew para Mac, e instálalo con un gestor de paquetes para Linux.
- Descargar código
- Abra una línea de comandos (CMD o Anaconda Prompt para Windows, Terminal para Mac/Linux).
- Escriba git clone https://github.com/Plachtaa/seed-vc.git para descargar el proyecto.
- Vaya al directorio: cd seed-vc .
- Crear un entorno virtual
- Escriba python -m venv venv para crear un entorno independiente.
- Activar el entorno:
- Windows: venv\Scripts\activar
- Mac/Linux: fuente venv/bin/activate
- Ver (venv) para el éxito.
- Instalación de dependencias
- Windows/Linux Introduzca pip install -r requirements.txt.
- Mac serie M introduzca pip install -r requirements-mac.txt .
- Añadir mirroring para problemas de red: HF_ENDPOINT=https://hf-mirror.com pip install -r requirements.txt .
- programa de carrera
- Conversión de voz: python app_vc.py
- Conversión de canciones: python app_svc.py
- Conversión en tiempo real: python real-time-gui.py
- Una vez en marcha, el navegador visita http://localhost:7860 para utilizar la interfaz.
Funciones principales
1. Conversión de voz (VC)
- mover::
- Ejecute python app_vc.py y abra su navegador en http://localhost:7860.
- Sube el audio original (Source Audio) y el audio de referencia (Reference Audio, 1-30 segundos).
- Ajuste los Pasos de Difusión, por defecto 25, ajuste 30-50 para una mejor calidad de sonido.
- Longitud Ajustar, menos de 1 para acelerar, más de 1 para ralentizar.
- Haga clic en Enviar, espere unos segundos y descargue los resultados de la conversión.
- tenga en cuenta::
- La primera ejecución descargará automáticamente el modelo seed-uvit-whisper-small-wavenet.
- El audio de referencia se corta a los 30 segundos.
2. Conversión de voz de canción (SVC)
- mover::
- Ejecuta python app_svc.py para abrir la interfaz web.
- Sube el audio de la canción y el audio de referencia del cantante.
- Marca la condición f0 para mantener el tono de la canción.
- Opcional auto-f0-adjust Ajusta automáticamente el tono.
- Ajuste el número de pasos de difusión a 30-50 y haga clic en Enviar.
- finura::
- Utilice audio de referencia claro y sin ruido de fondo para obtener los mejores resultados.
- Los modelos descargan seed-uvit-whisper-base por defecto.
3. Conversión en tiempo real
- mover::
- Ejecuta python real-time-gui.py para abrir la interfaz.
- Carga el audio de referencia y conecta el micrófono.
- Parámetros de ajuste: pasos de difusión 4-10, tiempo de bloqueo 0,18 seg.
- Pulsa "Start" y la voz cambiará en tiempo real mientras hablas.
- Utilice VB-CABLE para encaminar la salida al micrófono virtual.
- solicitar::
- GPU recomendadas (por ejemplo, RTX 3060) con una latencia de unos 430 ms.
- La latencia de funcionamiento de la CPU es mayor.
4. Operaciones desde la línea de comandos
- Ejemplo de conversión de discurso::
python inference.py --source input.wav --target ref.wav --output ./out --diffusion-steps 25 --length-adjust 1.0 --fp16 True
- Ejemplo de conversión de canciones::
python inference.py --source song.wav --target singer.wav --output ./out --diffusion-steps 50 --f0-condition True --semi-tone-shift 0 --fp16 True
5. Formación a medida
- mover::
- Prepara un archivo de audio de 1-30 segundos (.wav/.mp3, etc.) en una carpeta.
- Entrenamiento de carrera:
python train.py --config configs/presets/config_dit_mel_seed_uvit_whisper_base_f0_44k.yml --dataset-dir ./data --run-name myrun --max-steps 1000
- Punto de control post-entrenamiento en . /runs/myrun/ft_model.pth .
- Razonamiento con modelos personalizados:
python app_svc.py --checkpoint ./runs/myrun/ft_model.pth --config configs/presets/config_dit_mel_seed_uvit_whisper_base_f0_44k.yml
- tenga en cuentaal menos 1 muestra de audio para entrenar, unos 2 minutos para 100 pasos (GPU T4).
nota complementaria
- Selección de modelos::
- En tiempo real con seed-uvit-tat-xlsr-tiny (25M parámetros).
- Voz offline con seed-uvit-whisper-small-wavenet (98M parámetros).
- Para las voces, utiliza seed-uvit-whisper-base (parámetros 200M, 44kHz).
- ajustar los componentes durante las pruebas::
- Informar de un error ModuleNotFoundError , compruebe la dependencia.
- Los Mac pueden necesitar Python con Tkinter instalado para ejecutar GUIs en tiempo real.
escenario de aplicación
- doblaje de entretenimiento
Convierte voces en personajes de dibujos animados para hacer vídeos divertidos. - producción musical
Transforma voces ordinarias en tonos de cantante profesional, generando demos de canciones. - interacción en directo
El presentador cambia de voz en tiempo real para aumentar la diversión del espectáculo. - aprendizaje de idiomas
Imitar el habla de hablantes nativos y practicar la pronunciación.
CONTROL DE CALIDAD
- ¿Necesita muchos datos?
No. Se necesita 1 clip de audio corto para la conversión y sólo 1 muestra para el entrenamiento. - ¿Admite audio chino?
Soporte. Siempre que el audio de referencia esté en chino, la conversión también es clara. - ¿Y la alta latencia?
Utiliza la GPU y establece un paso de difusión bajo (4-10). - ¿Y la mala calidad del sonido?
Aumente los pasos de difusión a 50 o utilice audio de referencia limpio.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...