Wav2Lip: herramienta de código abierto para generar sincronías labiales de alta precisión (recomendado)

Introducción general

Wav2Lip es una herramienta de código abierto de alta precisión para la sincronización labial diseñada para sincronizar con precisión audio arbitrario con la sincronización labial en vídeo. Presentada en ACM Multimedia 2020 por Rudrabha Mukhopadhyay et al, la herramienta aprovecha técnicas avanzadas de IA para permitir una sincronización labial de alta calidad en diversos entornos.

Hacía mucho tiempo que no se iteraba sobre el proyecto, y ésta es una versión recién optimizada:Easy-Wav2Lip: herramienta para la sincronización labial de vídeo de alta calidad, optimizada para Wav2Lip . Para obtener más información sobre la integración de Wav2Lip, consulte la página Translation Starter: Herramienta de código abierto para la sincronización de contenidos de vídeo | Conversión de idiomas | Sincronización labial .

Wav2Lip en Laboratorios Sync Se ofrece alojamiento gratuito.

Notas de Colab:

https://colab.research.google.com/drive/1IjFW1cLevs6Ouyu4Yht4mnR4yeuMqO7Y#scrollTo=Qgo-oaI3JU2u

https://colab.research.google.com/drive/1tZpDWXz49W6wDcTprANRGLo2D_EbD5J8?usp=sharing

 

Lista de funciones

  • Sincronización labial de alta precisión: sincroniza con precisión cualquier audio con la sincronización labial del vídeo.
  • Compatibilidad multilingüe: funciona con una gran variedad de idiomas y sonidos, incluidas caras CGI y sonidos sintetizados.
  • Código abierto y gratuito : El código es totalmente público, y los usuarios son libres de utilizarlo y modificarlo.
  • Demostración interactiva: Ofrece una demostración en línea en la que los usuarios pueden cargar archivos de vídeo y audio para experimentar.
  • Modelos de preentrenamiento: Proporcionan una variedad de modelos de preentrenamiento, que los usuarios pueden utilizar directamente o como entrenamiento secundario.
  • Código de entrenamiento completo: Incluye el código de entrenamiento para el Discriminador de Sincronización Bucal y el modelo Wav2Lip.

 

Utilizar la ayuda

Proceso de instalación

  1. Almacén de clonación :
    copia bash
git clonehttps://github.com/Rudrabha/Wav2Lip
  1. Instalar dependencias :
    copia bash
pip install -r requirements.txt
  1. Descargar modelo preentrenado: Descarga el modelo preentrenado en el directorio especificado, por ejemplo. face_detection/detection/sfd/s3fd.pth.
  2. Ejecutar el código de inferencia :
    copia bash
python inference.py --checkpoint_path <ckpt> --face <video.mp4> --audio <an-audio-source>

Proceso de utilización

  1. Acceso al servidor local: Abrir en el navegador http://localhost:3000.
  2. Sugerencia de entrada : Introduzca la descripción de la imagen que desea generar en el cuadro de entrada y la imagen se generará en tiempo real.
  3. Visualización y descarga de imágenes : Las imágenes generadas se muestran en la página y en una futura versión se añadirá un botón de descarga.
  4. Usar Modo Consistencia : Active el Modo Consistencia para generar imágenes consistentes, manteniendo el fondo o los objetos principales consistentes.
  5. Ver historial de imágenes : Utilice la función de historial de imágenes para ver todas las imágenes generadas y navegar entre ellas.

Funciones avanzadas

  • Consejos mejorados: Optimice los resultados generados con las opciones de consejos mejorados.
  • Seleccionar modelo : Seleccione diferentes modelos de IA en función de sus necesidades.
  • Desarrollo a medida : Como Wav2Lip es de código abierto, los usuarios pueden hacer un desarrollo secundario según sus propias necesidades.

 

Instalador de un solo clic para Windows de Wav2Lip (optimizado para memoria)

Enlace: https://pan.quark.cn/s/4755eabcdf52
Código de extracción: Xr86

© declaración de copyright
AiPPT

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...