Seed-VC: admite la conversión en tiempo real de voz y canciones con menos muestras.

Últimos recursos sobre IAPublicado hace 10 meses Círculo de intercambio de inteligencia artificial

98.9K 00

Introducción general

Seed-VC es un proyecto de código abierto en GitHub, desarrollado por Plachtaa. Puede utilizar de 1 a 30 segundos de audio de referencia para lograr rápidamente la conversión de voz o canciones, sin formación adicional. El proyecto admite la conversión de voz en tiempo real, con una latencia de tan sólo 400 milisegundos, adecuada para reuniones en línea, juegos o uso en directo. Seed-VC ofrece tres modos: conversión de voz (VC), conversión de canciones (SVC) y conversión en tiempo real. Utiliza Susurro y BigVGAN y otras tecnologías para garantizar un sonido nítido. El código es gratuito y abierto al público, y los usuarios pueden descargarlo y compilarlo localmente. Actualizaciones oficiales, documentación detallada y apoyo activo de la comunidad.

Lista de funciones

Admite conversión a muestra cero: imita la voz o canción de destino con audio corto.
Procesamiento de voz en tiempo real: la voz cambia instantáneamente al tono de destino tras la entrada del micrófono.
Conversión de canciones: convierte cualquier canción a la voz del cantante especificado.
Ajuste de la duración del audio: acelera o ralentiza el habla para controlar el tempo.
Ajuste del tono: ajusta automática o manualmente el tono para adaptarlo al tono deseado.
Funcionamiento mediante interfaz web: ofrece una interfaz gráfica sencilla para facilitar su uso.
Soporte para entrenamiento personalizado: optimice sonidos específicos con una pequeña cantidad de datos.
Código fuente abierto: características modificables o actualizables por el usuario.

Utilizar la ayuda

Proceso de instalación

Para utilizar Seed-VC localmente, es necesario instalar primero el entorno. A continuación se detallan los pasos para Windows, Mac (con chips de la serie M) o Linux.

Preparar el entorno
- Instala Python 3.10, sólo tienes que descargarlo de la web oficial.
- Para instalar Git, busca "Git for Windows" para usuarios de Windows, o brew install git for Mac.
- Los usuarios de GPU necesitan instalar CUDA 12.4 y los controladores correspondientes, la CPU también puede funcionar pero más lentamente.
- Para instalar FFmpeg para el procesamiento de audio, descárgalo de la web oficial para Windows, instala ffmpeg con brew para Mac, e instálalo con un gestor de paquetes para Linux.
Descargar código
- Abra una línea de comandos (CMD o Anaconda Prompt para Windows, Terminal para Mac/Linux).
- Escriba git clone https://github.com/Plachtaa/seed-vc.git para descargar el proyecto.
- Vaya al directorio: cd seed-vc .
Crear un entorno virtual
- Escriba python -m venv venv para crear un entorno independiente.
- Activar el entorno:
  - Windows: venv\Scripts\activar
  - Mac/Linux: fuente venv/bin/activate
- Ver (venv) para el éxito.
Instalación de dependencias
- Windows/Linux Introduzca pip install -r requirements.txt.
- Mac serie M introduzca pip install -r requirements-mac.txt .
- Añadir mirroring para problemas de red: HF_ENDPOINT=https://hf-mirror.com pip install -r requirements.txt .
programa de carrera
- Conversión de voz: python app_vc.py
- Conversión de canciones: python app_svc.py
- Conversión en tiempo real: python real-time-gui.py
- Una vez en marcha, el navegador visita http://localhost:7860 para utilizar la interfaz.

Funciones principales

1. Conversión de voz (VC)

mover::
1. Ejecute python app_vc.py y abra su navegador en http://localhost:7860.
2. Sube el audio original (Source Audio) y el audio de referencia (Reference Audio, 1-30 segundos).
3. Ajuste los Pasos de Difusión, por defecto 25, ajuste 30-50 para una mejor calidad de sonido.
4. Longitud Ajustar, menos de 1 para acelerar, más de 1 para ralentizar.
5. Haga clic en Enviar, espere unos segundos y descargue los resultados de la conversión.
tenga en cuenta::
- La primera ejecución descargará automáticamente el modelo seed-uvit-whisper-small-wavenet.
- El audio de referencia se corta a los 30 segundos.

2. Conversión de voz de canción (SVC)

mover::
1. Ejecuta python app_svc.py para abrir la interfaz web.
2. Sube el audio de la canción y el audio de referencia del cantante.
3. Marca la condición f0 para mantener el tono de la canción.
4. Opcional auto-f0-adjust Ajusta automáticamente el tono.
5. Ajuste el número de pasos de difusión a 30-50 y haga clic en Enviar.
finura::
- Utilice audio de referencia claro y sin ruido de fondo para obtener los mejores resultados.
- Los modelos descargan seed-uvit-whisper-base por defecto.

3. Conversión en tiempo real

mover::
1. Ejecuta python real-time-gui.py para abrir la interfaz.
2. Carga el audio de referencia y conecta el micrófono.
3. Parámetros de ajuste: pasos de difusión 4-10, tiempo de bloqueo 0,18 seg.
4. Pulsa "Start" y la voz cambiará en tiempo real mientras hablas.
5. Utilice VB-CABLE para encaminar la salida al micrófono virtual.
solicitar::
- GPU recomendadas (por ejemplo, RTX 3060) con una latencia de unos 430 ms.
- La latencia de funcionamiento de la CPU es mayor.

4. Operaciones desde la línea de comandos

Ejemplo de conversión de discurso::

 python inference.py --source input.wav --target ref.wav --output ./out --diffusion-steps 25 --length-adjust 1.0 --fp16 True

Ejemplo de conversión de canciones::

 python inference.py --source song.wav --target singer.wav --output ./out --diffusion-steps 50 --f0-condition True --semi-tone-shift 0 --fp16 True

5. Formación a medida

mover::

Prepara un archivo de audio de 1-30 segundos (.wav/.mp3, etc.) en una carpeta.

Entrenamiento de carrera:

 python train.py --config configs/presets/config_dit_mel_seed_uvit_whisper_base_f0_44k.yml --dataset-dir ./data --run-name myrun --max-steps 1000

Punto de control post-entrenamiento en . /runs/myrun/ft_model.pth .

Razonamiento con modelos personalizados:

 python app_svc.py --checkpoint ./runs/myrun/ft_model.pth --config configs/presets/config_dit_mel_seed_uvit_whisper_base_f0_44k.yml

tenga en cuentaal menos 1 muestra de audio para entrenar, unos 2 minutos para 100 pasos (GPU T4).

nota complementaria

Selección de modelos::
- En tiempo real con seed-uvit-tat-xlsr-tiny (25M parámetros).
- Voz offline con seed-uvit-whisper-small-wavenet (98M parámetros).
- Para las voces, utiliza seed-uvit-whisper-base (parámetros 200M, 44kHz).
ajustar los componentes durante las pruebas::
- Informar de un error ModuleNotFoundError , compruebe la dependencia.
- Los Mac pueden necesitar Python con Tkinter instalado para ejecutar GUIs en tiempo real.

escenario de aplicación

doblaje de entretenimiento
Convierte voces en personajes de dibujos animados para hacer vídeos divertidos.
producción musical
Transforma voces ordinarias en tonos de cantante profesional, generando demos de canciones.
interacción en directo
El presentador cambia de voz en tiempo real para aumentar la diversión del espectáculo.
aprendizaje de idiomas
Imitar el habla de hablantes nativos y practicar la pronunciación.

CONTROL DE CALIDAD

¿Necesita muchos datos?
No. Se necesita 1 clip de audio corto para la conversión y sólo 1 muestra para el entrenamiento.
¿Admite audio chino?
Soporte. Siempre que el audio de referencia esté en chino, la conversión también es clara.
¿Y la alta latencia?
Utiliza la GPU y establece un paso de difusión bajo (4-10).
¿Y la mala calidad del sonido?
Aumente los pasos de difusión a 50 o utilice audio de referencia limpio.

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

Lynx - Modelo de generación de vídeo de alta fidelidad de código abierto de ByteHop

Últimos recursos sobre IA

hace 3 meses

022.9K

EmotiVoice: motor de conversión de texto a voz con controles multivoz y emocionales.

Últimos recursos sobre IA # AI texto a voz

hace 10 meses

059.9K

Ling-1T - Modelo lingüístico universal de código abierto del Grupo Ant para billones de parámetros.

Últimos recursos sobre IA

hace 3 meses

041.4K

SkyReels V2: una herramienta de IA de código abierto para generar vídeos de duración ilimitada

Últimos recursos sobre IA # AI Imagen a Vídeo # AI Java Proyecto de código abierto # AI de texto a vídeo

hace 9 meses

0102.9K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

Seed-VC: admite la conversión en tiempo real de voz y canciones con menos muestras.

Introducción general

Lista de funciones

Utilizar la ayuda

Proceso de instalación

Funciones principales

1. Conversión de voz (VC)

2. Conversión de voz de canción (SVC)

3. Conversión en tiempo real

4. Operaciones desde la línea de comandos

5. Formación a medida

nota complementaria

escenario de aplicación

CONTROL DE CALIDAD

PilottAI: un proyecto de código abierto para crear aplicaciones empresariales de inteligencia múltiple

Bots de atención al cliente con inteligencia artificial que son atendidos automáticamente por los vendedores de Idle Fish a lo largo del día.

Artículos relacionados

Lynx - Modelo de generación de vídeo de alta fidelidad de código abierto de ByteHop

EmotiVoice: motor de conversión de texto a voz con controles multivoz y emocionales.

Ling-1T - Modelo lingüístico universal de código abierto del Grupo Ant para billones de parámetros.

SkyReels V2: una herramienta de IA de código abierto para generar vídeos de duración ilimitada

Sin comentarios

Últimas colecciones

Últimos artículos

Seed-VC: admite la conversión en tiempo real de voz y canciones con menos muestras.

Introducción general

Lista de funciones

Utilizar la ayuda

Proceso de instalación

Funciones principales

1. Conversión de voz (VC)

2. Conversión de voz de canción (SVC)

3. Conversión en tiempo real

4. Operaciones desde la línea de comandos

5. Formación a medida

nota complementaria

escenario de aplicación

CONTROL DE CALIDAD

PilottAI: un proyecto de código abierto para crear aplicaciones empresariales de inteligencia múltiple

Bots de atención al cliente con inteligencia artificial que son atendidos automáticamente por los vendedores de Idle Fish a lo largo del día.

Artículos relacionados

Lynx - Modelo de generación de vídeo de alta fidelidad de código abierto de ByteHop

EmotiVoice: motor de conversión de texto a voz con controles multivoz y emocionales.

Ling-1T - Modelo lingüístico universal de código abierto del Grupo Ant para billones de parámetros.

SkyReels V2: una herramienta de IA de código abierto para generar vídeos de duración ilimitada

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos