SVLS: SadTalker mejorado para generar personas digitales utilizando vídeo de retratos

Últimos recursos sobre IAPublicado hace 11 meses Círculo de intercambio de inteligencia artificial

Introducción general

SadTalker-Video-Lip-Sync es una herramienta de síntesis labial de vídeo basada en la implementación de SadTalkers. El proyecto genera formas labiales a través de la voz y utiliza la mejora configurable de la región facial para mejorar la claridad de las formas labiales generadas. El proyecto también utiliza el algoritmo de interpolación de fotogramas DAIN para rellenar los fotogramas del vídeo generado y hacer que la transición de los labios sea más suave, realista y natural. Los usuarios pueden generar rápidamente vídeos con formas labiales de alta calidad mediante sencillas operaciones de línea de comandos, que resultan adecuadas para diversas necesidades de producción y edición de vídeo.

SadTalker original

SadTalker Mejorado

Lista de funciones

Generación de labios por voz: Conducción de los movimientos de los labios en un vídeo a través de un archivo de audio.
Realce de la zona facial: Mejora configurable de la imagen de los labios o de toda la cara para mejorar la claridad del vídeo.
Inserción del marco DAIN: Utiliza algoritmos de aprendizaje profundo para parchear fotogramas en vídeos con el fin de mejorar la suavidad del vídeo.
Múltiples opciones de mejora: Admite tres modos: sin realce, realce de labios y realce facial completo.
Modelo de preentrenamientoProporcionar una variedad de modelos preentrenados para que los usuarios puedan empezar rápidamente.
Funcionamiento sencillo desde la línea de comandosFácil de configurar y ejecutar mediante parámetros de línea de comandos.

Utilizar la ayuda

Preparación medioambiental

Instale las dependencias necesarias:

   pip install torch==1.12.1+cu113 torchvision==0.13.1+cu113 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu113
conda install ffmpeg
pip install -r requirements.txt

Si necesita utilizar el modelo DAIN para rellenar el marco, también necesita instalar Paddle:

   python -m pip install paddlepaddle-gpu==2.3.2.post112 -f https://www.paddlepaddle.org.cn/whl/linux/mkl/avx/stable.html

Estructura del proyecto

checkpointsalmacenar modelos preentrenados
dian_output: Almacena las salidas de inserción de trama DAIN
examplesArchivos de audio y vídeo de muestra
resultsGenerar resultados
srcCódigo fuente
sync_show: Demostración del efecto de síntesis
third_partBibliotecas de terceros
inference.py: Guión de razonamiento
README.mdDocumento de descripción del proyecto

razonamiento modelizado

Utilice el siguiente comando para la inferencia del modelo:

python inference.py --driven_audio <audio.wav> --source_video <video.mp4> --enhancer <none, lip, face> --use_DAIN --time_step 0.5

--driven_audioArchivos de audio de entrada
--source_videoArchivo de vídeo de entrada
--enhancerModo mejorado (ninguno, labios, cara)
--use_DAIN: Si utilizar marcos DAIN
--time_step: Frecuencia de imagen interpolada (por defecto 0,5, es decir, 25fps -> 50fps)

efecto síntesis

Los efectos de vídeo generados se muestran en el ./sync_show Catálogo:

original.mp4Vídeo original
sync_none.mp4: Efectos de síntesis sin ninguna mejora
none_dain_50fps.mp4: Añadir 25fps a 50fps utilizando sólo el modelo DAIN
lip_dain_50fps.mp4: Mejoras en la zona de los labios + modelo DAIN para pasar de 25fps a 50fps
face_dain_50fps.mp4: Mejora de toda la zona facial + modelo DAIN para pasar de 25 fps a 50 fps

Modelo de preentrenamiento

Ruta de descarga del modelo preentrenado:

Baidu.com:enlace (en un sitio web) Código del extracto: klfv
Google Drive:enlace (en un sitio web)

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

TPO-LLM-WebUI: un marco de IA en el que se pueden introducir preguntas para entrenar un modelo en tiempo real y obtener los resultados.

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Ajuste del modelo grande

hace 10 meses

040.6K

Chat Everywhere：长期稳定的免费GPT3.5聊天助手，国内无法直连

Chat Everywhere: Asistente de chat gratuito GPT3.5 estable a largo plazo, doméstico no se puede conectar directamente.

Últimos recursos sobre IA Plataforma de diálogo multimodelo integrada # AI

hace 1 año

040.1K

PR Agent: herramienta automatizada de análisis de pull requests

Últimos recursos sobre IA # AI Java Proyecto de código abierto

hace 11 meses

040.7K

PaCoRe - Marco de razonamiento colaborativo paralelo de StepStar para la Inteligencia Artificial

Últimos recursos sobre IA

hace 2 semanas

011K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

SVLS: SadTalker mejorado para generar personas digitales utilizando vídeo de retratos

Introducción general

Lista de funciones

Utilizar la ayuda

Preparación medioambiental

Estructura del proyecto

razonamiento modelizado

efecto síntesis

Modelo de preentrenamiento

Tifa-DeepsexV2-7b-MGRPO: un modelo que admite juegos de rol y diálogos complejos, con un rendimiento superior a 32b (con instalador de un solo clic).

debdeb.io: la IA debate ambos lados del argumento basándose en los temas introducidos, aprende las habilidades de ambos lados del debate.

Artículos relacionados

TPO-LLM-WebUI: un marco de IA en el que se pueden introducir preguntas para entrenar un modelo en tiempo real y obtener los resultados.

Chat Everywhere: Asistente de chat gratuito GPT3.5 estable a largo plazo, doméstico no se puede conectar directamente.

PR Agent: herramienta automatizada de análisis de pull requests

PaCoRe - Marco de razonamiento colaborativo paralelo de StepStar para la Inteligencia Artificial

Sin comentarios

Últimas colecciones

Últimos artículos

SVLS: SadTalker mejorado para generar personas digitales utilizando vídeo de retratos

Introducción general

Lista de funciones

Utilizar la ayuda

Preparación medioambiental

Estructura del proyecto

razonamiento modelizado

efecto síntesis

Modelo de preentrenamiento

Tifa-DeepsexV2-7b-MGRPO: un modelo que admite juegos de rol y diálogos complejos, con un rendimiento superior a 32b (con instalador de un solo clic).

debdeb.io: la IA debate ambos lados del argumento basándose en los temas introducidos, aprende las habilidades de ambos lados del debate.

Artículos relacionados

TPO-LLM-WebUI: un marco de IA en el que se pueden introducir preguntas para entrenar un modelo en tiempo real y obtener los resultados.

Chat Everywhere: Asistente de chat gratuito GPT3.5 estable a largo plazo, doméstico no se puede conectar directamente.

PR Agent: herramienta automatizada de análisis de pull requests

PaCoRe - Marco de razonamiento colaborativo paralelo de StepStar para la Inteligencia Artificial

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos