SVLS : SadTalker amélioré pour générer des personnes numériques à partir de portraits vidéo

Introduction générale

SadTalker-Video-Lip-Sync est un outil de synthèse labiale vidéo basé sur l'implémentation de SadTalkers. Le projet génère des formes de lèvres par le biais de la génération vocale et utilise l'amélioration configurable de la région faciale pour améliorer la clarté des formes de lèvres générées. Le projet utilise également l'algorithme d'interpolation de trame DAIN pour remplir les trames dans la vidéo générée afin de rendre la transition des lèvres plus fluide, réaliste et naturelle. Les utilisateurs peuvent rapidement générer des vidéos de formes de lèvres de haute qualité grâce à de simples opérations en ligne de commande, qui conviennent à divers besoins en matière de production et d'édition vidéo.

SVLS:SadTalker增强版,使用人像视频生成数字人

SadTalker original

SVLS:SadTalker增强版,使用人像视频生成数字人

SadTalker amélioré

 

Liste des fonctions

  • Génération de lèvres pilotée par la parole: Pilotage des mouvements des lèvres dans une vidéo à partir d'un fichier audio.
  • Amélioration de la zone facialeAmélioration de l'image : Amélioration configurable de l'image des lèvres ou de la zone du visage pour une meilleure clarté vidéo.
  • Insertion du cadre DAINLes algorithmes d'apprentissage profond permettent d'appliquer des correctifs aux images des vidéos afin d'améliorer la fluidité de la vidéo.
  • Multiples options d'améliorationLa fonction de mise en valeur du visage est disponible en trois modes : sans mise en valeur, avec mise en valeur des lèvres et avec mise en valeur du visage entier.
  • Modèle de pré-entraînementLes modèles préformés : fournir une variété de modèles préformés pour que les utilisateurs puissent commencer rapidement.
  • Fonctionnement simple en ligne de commandeLe système est facile à configurer et à utiliser grâce aux paramètres de la ligne de commande.

 

Utiliser l'aide

Préparation de l'environnement

  1. Installer les dépendances nécessaires :
   pip install torch==1.12.1+cu113 torchvision==0.13.1+cu113 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu113
conda install ffmpeg
pip install -r requirements.txt
  1. Si vous devez utiliser le modèle DAIN pour le remplissage des cadres, vous devez également installer Paddle :
   python -m pip install paddlepaddle-gpu==2.3.2.post112 -f https://www.paddlepaddle.org.cn/whl/linux/mkl/avx/stable.html

Structure du projet

  • checkpoints: stocker les modèles pré-entraînés
  • dian_outputLes sorties d'insertion de trames DAIN sont stockées
  • examplesFichiers audio et vidéo : Exemples de fichiers audio et vidéo
  • resultsLes résultats : Générer des résultats
  • srcCode source
  • sync_show: Démonstration de l'effet de synthèse
  • third_partBibliothèque de tiers : bibliothèques de tiers
  • inference.pyLe rôle de l'homme et de la femme dans la société : Script de raisonnement
  • README.mdDocument de description du projet

raisonnement modélisé

Utilisez la commande suivante pour l'inférence du modèle :

python inference.py --driven_audio <audio.wav> --source_video <video.mp4> --enhancer <none, lip, face> --use_DAIN --time_step 0.5
  • --driven_audioFichiers audio d'entrée : Fichiers audio d'entrée
  • --source_videoFichiers vidéo d'entrée
  • --enhancerModes améliorés (aucun, lèvres, visage)
  • --use_DAINUtilisation ou non des cadres DAIN
  • --time_step: Fréquence d'images interpolée (par défaut 0.5, c'est-à-dire 25fps -> 50fps)

effet de synthèse

Les effets vidéo générés sont affichés dans la section ./sync_show Catalogue :

  • original.mp4Vidéo d'origine : Vidéo d'origine
  • sync_none.mp4Effets de synthèse sans amélioration de la qualité de l'image
  • none_dain_50fps.mp4Le modèle DAIN : Passer de 25fps à 50fps en utilisant uniquement le modèle DAIN
  • lip_dain_50fps.mp4Améliorations de la zone des lèvres + modèle DAIN pour ajouter 25 images par seconde à 50 images par seconde
  • face_dain_50fps.mp4Amélioration de la surface totale du visage + modèle DAIN pour ajouter 25 images par seconde à 50 images par seconde

Modèle de pré-entraînement

Chemin de téléchargement du modèle pré-entraîné :

© déclaration de droits d'auteur
AiPPT

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...