SVLS: SadTalker mejorado para generar personas digitales utilizando vídeo de retratos
Últimos recursos sobre IAPublicado hace 7 meses Círculo de intercambio de inteligencia artificial 11K 00
Introducción general
SadTalker-Video-Lip-Sync es una herramienta de síntesis labial de vídeo basada en la implementación de SadTalkers. El proyecto genera formas labiales a través de la voz y utiliza la mejora configurable de la región facial para mejorar la claridad de las formas labiales generadas. El proyecto también utiliza el algoritmo de interpolación de fotogramas DAIN para rellenar los fotogramas del vídeo generado y hacer que la transición de los labios sea más suave, realista y natural. Los usuarios pueden generar rápidamente vídeos con formas labiales de alta calidad mediante sencillas operaciones de línea de comandos, que resultan adecuadas para diversas necesidades de producción y edición de vídeo.

SadTalker original

SadTalker Mejorado
Lista de funciones
- Generación de labios por voz: Conducción de los movimientos de los labios en un vídeo a través de un archivo de audio.
- Realce de la zona facial: Mejora configurable de la imagen de los labios o de toda la cara para mejorar la claridad del vídeo.
- Inserción del marco DAIN: Utiliza algoritmos de aprendizaje profundo para parchear fotogramas en vídeos con el fin de mejorar la suavidad del vídeo.
- Múltiples opciones de mejora: Admite tres modos: sin realce, realce de labios y realce facial completo.
- Modelo de preentrenamientoProporcionar una variedad de modelos preentrenados para que los usuarios puedan empezar rápidamente.
- Funcionamiento sencillo desde la línea de comandosFácil de configurar y ejecutar mediante parámetros de línea de comandos.
Utilizar la ayuda
Preparación medioambiental
- Instale las dependencias necesarias:
pip install torch==1.12.1+cu113 torchvision==0.13.1+cu113 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu113
conda install ffmpeg
pip install -r requirements.txt
- Si necesita utilizar el modelo DAIN para rellenar el marco, también necesita instalar Paddle:
python -m pip install paddlepaddle-gpu==2.3.2.post112 -f https://www.paddlepaddle.org.cn/whl/linux/mkl/avx/stable.html
Estructura del proyecto
checkpoints
almacenar modelos preentrenadosdian_output
: Almacena las salidas de inserción de trama DAINexamples
Archivos de audio y vídeo de muestraresults
Generar resultadossrc
Código fuentesync_show
: Demostración del efecto de síntesisthird_part
Bibliotecas de tercerosinference.py
: Guión de razonamientoREADME.md
Documento de descripción del proyecto
razonamiento modelizado
Utilice el siguiente comando para la inferencia del modelo:
python inference.py --driven_audio <audio.wav> --source_video <video.mp4> --enhancer <none, lip, face> --use_DAIN --time_step 0.5
--driven_audio
Archivos de audio de entrada--source_video
Archivo de vídeo de entrada--enhancer
Modo mejorado (ninguno, labios, cara)--use_DAIN
: Si utilizar marcos DAIN--time_step
: Frecuencia de imagen interpolada (por defecto 0,5, es decir, 25fps -> 50fps)
efecto síntesis
Los efectos de vídeo generados se muestran en el ./sync_show
Catálogo:
original.mp4
Vídeo originalsync_none.mp4
: Efectos de síntesis sin ninguna mejoranone_dain_50fps.mp4
: Añadir 25fps a 50fps utilizando sólo el modelo DAINlip_dain_50fps.mp4
: Mejoras en la zona de los labios + modelo DAIN para pasar de 25fps a 50fpsface_dain_50fps.mp4
: Mejora de toda la zona facial + modelo DAIN para pasar de 25 fps a 50 fps
Modelo de preentrenamiento
Ruta de descarga del modelo preentrenado:
- Baidu.com:enlace (en un sitio web) Código del extracto: klfv
- Google Drive:enlace (en un sitio web)
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...