SVLS : SadTalker amélioré pour générer des personnes numériques à partir de portraits vidéo

Dernières ressources sur l'IAPosté il y a 7 mois Cercle de partage de l'IA

18.7K 00

Introduction générale

SadTalker-Video-Lip-Sync est un outil de synthèse labiale vidéo basé sur l'implémentation de SadTalkers. Le projet génère des formes de lèvres par le biais de la génération vocale et utilise l'amélioration configurable de la région faciale pour améliorer la clarté des formes de lèvres générées. Le projet utilise également l'algorithme d'interpolation de trame DAIN pour remplir les trames dans la vidéo générée afin de rendre la transition des lèvres plus fluide, réaliste et naturelle. Les utilisateurs peuvent rapidement générer des vidéos de formes de lèvres de haute qualité grâce à de simples opérations en ligne de commande, qui conviennent à divers besoins en matière de production et d'édition vidéo.

SadTalker original

SadTalker amélioré

Liste des fonctions

Génération de lèvres pilotée par la parole: Pilotage des mouvements des lèvres dans une vidéo à partir d'un fichier audio.
Amélioration de la zone facialeAmélioration de l'image : Amélioration configurable de l'image des lèvres ou de la zone du visage pour une meilleure clarté vidéo.
Insertion du cadre DAINLes algorithmes d'apprentissage profond permettent d'appliquer des correctifs aux images des vidéos afin d'améliorer la fluidité de la vidéo.
Multiples options d'améliorationLa fonction de mise en valeur du visage est disponible en trois modes : sans mise en valeur, avec mise en valeur des lèvres et avec mise en valeur du visage entier.
Modèle de pré-entraînementLes modèles préformés : fournir une variété de modèles préformés pour que les utilisateurs puissent commencer rapidement.
Fonctionnement simple en ligne de commandeLe système est facile à configurer et à utiliser grâce aux paramètres de la ligne de commande.

Utiliser l'aide

Préparation de l'environnement

Installer les dépendances nécessaires :

   pip install torch==1.12.1+cu113 torchvision==0.13.1+cu113 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu113
conda install ffmpeg
pip install -r requirements.txt

Si vous devez utiliser le modèle DAIN pour le remplissage des cadres, vous devez également installer Paddle :

   python -m pip install paddlepaddle-gpu==2.3.2.post112 -f https://www.paddlepaddle.org.cn/whl/linux/mkl/avx/stable.html

Structure du projet

checkpoints: stocker les modèles pré-entraînés
dian_outputLes sorties d'insertion de trames DAIN sont stockées
examplesFichiers audio et vidéo : Exemples de fichiers audio et vidéo
resultsLes résultats : Générer des résultats
srcCode source
sync_show: Démonstration de l'effet de synthèse
third_partBibliothèque de tiers : bibliothèques de tiers
inference.pyLe rôle de l'homme et de la femme dans la société : Script de raisonnement
README.mdDocument de description du projet

raisonnement modélisé

Utilisez la commande suivante pour l'inférence du modèle :

python inference.py --driven_audio <audio.wav> --source_video <video.mp4> --enhancer <none, lip, face> --use_DAIN --time_step 0.5

--driven_audioFichiers audio d'entrée : Fichiers audio d'entrée
--source_videoFichiers vidéo d'entrée
--enhancerModes améliorés (aucun, lèvres, visage)
--use_DAINUtilisation ou non des cadres DAIN
--time_step: Fréquence d'images interpolée (par défaut 0.5, c'est-à-dire 25fps -> 50fps)

effet de synthèse

Les effets vidéo générés sont affichés dans la section ./sync_show Catalogue :

original.mp4Vidéo d'origine : Vidéo d'origine
sync_none.mp4Effets de synthèse sans amélioration de la qualité de l'image
none_dain_50fps.mp4Le modèle DAIN : Passer de 25fps à 50fps en utilisant uniquement le modèle DAIN
lip_dain_50fps.mp4Améliorations de la zone des lèvres + modèle DAIN pour ajouter 25 images par seconde à 50 images par seconde
face_dain_50fps.mp4Amélioration de la surface totale du visage + modèle DAIN pour ajouter 25 images par seconde à 50 images par seconde

Modèle de pré-entraînement

Chemin de téléchargement du modèle pré-entraîné :

Baidu.com :lien (sur un site web) Code de l'extrait : klfv
Google Drive :lien (sur un site web)

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

AI ContentCraft：生成短故事、对话脚本、配音、配图的多功能AI内容创作工具

AI ContentCraft : un outil polyvalent de création de contenu IA pour générer des histoires courtes, des scripts de dialogue, des voix off et des graphiques.

Dernières ressources sur l'IA # AI Rédaction # AI Java Open Source Projecct

Il y a 8 mois

019.3K

ROMA - Cadre méta-agent à source ouverte pour la décomposition automatique de tâches complexes pour le traitement parallèle

Dernières ressources sur l'IA

Il y a 4 jours

04.5K

AIStarter : déploiement en un clic de toutes sortes de logiciels populaires de gestion de projets d'IA open source

Dernières ressources sur l'IA # Outil de grand modèle à source ouverte déployé localement

Il y a 10 mois

120K

MiMo-VL - Le modèle multimodal open source de Xiaomi

Dernières ressources sur l'IA

Il y a 4 mois

015.5K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

SVLS : SadTalker amélioré pour générer des personnes numériques à partir de portraits vidéo

Introduction générale

Liste des fonctions

Utiliser l'aide

Préparation de l'environnement

Structure du projet

raisonnement modélisé

effet de synthèse

Modèle de pré-entraînement

Tifa-DeepsexV2-7b-MGRPO : un modèle qui supporte les jeux de rôle et les dialogues complexes, avec des performances supérieures à 32b (avec installateur en un clic)

debdeb.io : l'IA débat des deux côtés de l'argument en se basant sur des sujets d'entrée, pour apprendre les deux côtés du débat.

Articles connexes

AI ContentCraft : un outil polyvalent de création de contenu IA pour générer des histoires courtes, des scripts de dialogue, des voix off et des graphiques.

ROMA - Cadre méta-agent à source ouverte pour la décomposition automatique de tâches complexes pour le traitement parallèle

AIStarter : déploiement en un clic de toutes sortes de logiciels populaires de gestion de projets d'IA open source

MiMo-VL - Le modèle multimodal open source de Xiaomi

Pas de commentaires

Dernières collections

Derniers articles

SVLS : SadTalker amélioré pour générer des personnes numériques à partir de portraits vidéo

Introduction générale

Liste des fonctions

Utiliser l'aide

Préparation de l'environnement

Structure du projet

raisonnement modélisé

effet de synthèse

Modèle de pré-entraînement

Tifa-DeepsexV2-7b-MGRPO : un modèle qui supporte les jeux de rôle et les dialogues complexes, avec des performances supérieures à 32b (avec installateur en un clic)

debdeb.io : l'IA débat des deux côtés de l'argument en se basant sur des sujets d'entrée, pour apprendre les deux côtés du débat.

Articles connexes

AI ContentCraft : un outil polyvalent de création de contenu IA pour générer des histoires courtes, des scripts de dialogue, des voix off et des graphiques.

ROMA - Cadre méta-agent à source ouverte pour la décomposition automatique de tâches complexes pour le traitement parallèle

AIStarter : déploiement en un clic de toutes sortes de logiciels populaires de gestion de projets d'IA open source

MiMo-VL - Le modèle multimodal open source de Xiaomi

Pas de commentaires

Outils d'IA sélectionnés

Dernières collections

Derniers articles