SVLS: SadTalker mejorado para generar personas digitales utilizando vídeo de retratos

Introducción general

SadTalker-Video-Lip-Sync es una herramienta de síntesis labial de vídeo basada en la implementación de SadTalkers. El proyecto genera formas labiales a través de la voz y utiliza la mejora configurable de la región facial para mejorar la claridad de las formas labiales generadas. El proyecto también utiliza el algoritmo de interpolación de fotogramas DAIN para rellenar los fotogramas del vídeo generado y hacer que la transición de los labios sea más suave, realista y natural. Los usuarios pueden generar rápidamente vídeos con formas labiales de alta calidad mediante sencillas operaciones de línea de comandos, que resultan adecuadas para diversas necesidades de producción y edición de vídeo.

SVLS:SadTalker增强版,使用人像视频生成数字人

SadTalker original

SVLS:SadTalker增强版,使用人像视频生成数字人

SadTalker Mejorado

 

Lista de funciones

  • Generación de labios por voz: Conducción de los movimientos de los labios en un vídeo a través de un archivo de audio.
  • Realce de la zona facial: Mejora configurable de la imagen de los labios o de toda la cara para mejorar la claridad del vídeo.
  • Inserción del marco DAIN: Utiliza algoritmos de aprendizaje profundo para parchear fotogramas en vídeos con el fin de mejorar la suavidad del vídeo.
  • Múltiples opciones de mejora: Admite tres modos: sin realce, realce de labios y realce facial completo.
  • Modelo de preentrenamientoProporcionar una variedad de modelos preentrenados para que los usuarios puedan empezar rápidamente.
  • Funcionamiento sencillo desde la línea de comandosFácil de configurar y ejecutar mediante parámetros de línea de comandos.

 

Utilizar la ayuda

Preparación medioambiental

  1. Instale las dependencias necesarias:
   pip install torch==1.12.1+cu113 torchvision==0.13.1+cu113 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu113
conda install ffmpeg
pip install -r requirements.txt
  1. Si necesita utilizar el modelo DAIN para rellenar el marco, también necesita instalar Paddle:
   python -m pip install paddlepaddle-gpu==2.3.2.post112 -f https://www.paddlepaddle.org.cn/whl/linux/mkl/avx/stable.html

Estructura del proyecto

  • checkpointsalmacenar modelos preentrenados
  • dian_output: Almacena las salidas de inserción de trama DAIN
  • examplesArchivos de audio y vídeo de muestra
  • resultsGenerar resultados
  • srcCódigo fuente
  • sync_show: Demostración del efecto de síntesis
  • third_partBibliotecas de terceros
  • inference.py: Guión de razonamiento
  • README.mdDocumento de descripción del proyecto

razonamiento modelizado

Utilice el siguiente comando para la inferencia del modelo:

python inference.py --driven_audio <audio.wav> --source_video <video.mp4> --enhancer <none, lip, face> --use_DAIN --time_step 0.5
  • --driven_audioArchivos de audio de entrada
  • --source_videoArchivo de vídeo de entrada
  • --enhancerModo mejorado (ninguno, labios, cara)
  • --use_DAIN: Si utilizar marcos DAIN
  • --time_step: Frecuencia de imagen interpolada (por defecto 0,5, es decir, 25fps -> 50fps)

efecto síntesis

Los efectos de vídeo generados se muestran en el ./sync_show Catálogo:

  • original.mp4Vídeo original
  • sync_none.mp4: Efectos de síntesis sin ninguna mejora
  • none_dain_50fps.mp4: Añadir 25fps a 50fps utilizando sólo el modelo DAIN
  • lip_dain_50fps.mp4: Mejoras en la zona de los labios + modelo DAIN para pasar de 25fps a 50fps
  • face_dain_50fps.mp4: Mejora de toda la zona facial + modelo DAIN para pasar de 25 fps a 50 fps

Modelo de preentrenamiento

Ruta de descarga del modelo preentrenado:

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...