Version de manipulation visuelle basée sur Wav2Lip du Digital Man Integration Pack

Dernières ressources sur l'IAMise à jour il y a 8 mois Cercle de partage de l'IA

Bonjour à tous, aujourd'hui je partage avec vous un outil de création de personnages numériques ! Il est facile à utiliser et prend en charge le traitement par lots. (Je pense que nous avons appris quelque chose sur la technologie des personnes numériques, avant le grand incendie Guo Degang parler anglais, beauté russe parler chinois, etc. sont l'incarnation de la technologie des personnes numériques.

Il existe en fait de nombreux types de personnages numériques, par exemple, celui que j'ai partagé est la forme vidéo des personnages numériques, puis il y a aussi des modèles 3D de personnages numériques réalisés avec UnrealEngine, et ils sont tous appliqués dans des endroits différents. Les personnes intéressées peuvent aller voir pour comprendre, mais il n'y a pas trop d'explications.

Qu'est-ce que c'est ? Tu ne sais pas ce qu'est une personne numérique ? （"Baidu)

Cela dit, celle que nous partageons aujourd'hui se trouve dans l'original. Wav2Lip Le projet est basé sur l'optimisation et le déploiement. J'ai également trouvé de nombreux problèmes, tels que la mise en cache, l'interface, les problèmes d'efficacité d'exécution, et ainsi de suite, et j'ai ciblé l'optimisation.

Exigences de configuration

Windows (ordinateur)

La carte N doit être une carte N ! L'unité centrale n'est pas prise en charge !

MAC

En cours de développement, toujours en train de résoudre les problèmes de mps ! Cela fait des jours que j'essaie ! Alors les MAC'ers attendent encore un peu ?

Ne pensez pas vraiment que je suis lent mes amis, je fais beaucoup de tests et je regarde s'il y a quelque chose que je peux optimiser avec chaque pack d'intégration une fois qu'il est fait !

Mises à jour

Nouveautés par rapport à l'original

1. ajout d'une interface webui.

2. prendre en charge le traitement par lots.

3. l'optimisation du problème de cache d'origine.

4. l'optimisation de l'efficacité du traitement.

Utilisation

vouloir

Les fichiers audio et vidéo doivent être préparés.

fichier audio (ordinateur): :

Il est recommandé que la durée de l'audio soit la même que celle de la vidéo (par exemple, si votre vidéo dure 10 secondes, il est recommandé que la durée de l'audio soit de 10 secondes. Si la durée de l'audio est supérieure à celle de la vidéo, la vidéo sera automatiquement mise en boucle vers l'arrière pour la prolonger).
Format des fichiers audio : wav et mp3

fichier vidéo: :

Les images vidéo que vous sélectionnez doivent toutes contenir un visage, sinon une erreur sera signalée. (Par exemple, si votre vidéo dure 10 secondes au total et qu'il y a 2 secondes au milieu sans visage dans le cadre, une erreur sera signalée).
Format vidéo mp4 encodé H264 recommandé

Conseil : cette version prend en charge le traitement par lots. Le traitement par lots prend en charge plusieurs vidéos avec plusieurs sons, plusieurs vidéos avec un seul son.

Un exemple :

Vous avez 3 vidéos et 3 morceaux d'audio, alors ils seront traités dans l'ordre que vous avez choisi : la vidéo 1 correspondant à l'audio 1 et la vidéo 2 correspondant à l'audio 2.
Si vous avez 3 vidéos et 1 audio, le traitement se fera comme si toutes les vidéos que vous avez téléchargées correspondaient à cet audio. La vidéo 1 correspond à l'audio 1, la vidéo 2 correspond à l'audio 1 et la vidéo 3 correspond à l'audio 3.

début de la transformation

La méthode la plus simple :

Faites glisser et déposez la vidéo et l'audio dans les boîtes de fichiers correspondantes, cliquez sur Démarrer la génération, et c'est fini !

Si vous souhaitez en savoir plus sur la fonction de chaque paramètre, lisez la suite !

Détails des paramètres

Qualité vidéo :

Rapide et rapide : Wav2Lip audio to port type mode.

Amélioration : Wav2Lip audio to lip mode + Lips with mask feathering around the lips to remove the border around the lips.

Amélioré : Wav2Lip Audio to Lip Mode + Mask Feathering + GFPGAN HD Face Enhancement

Expérimental : Optimisation de l'efficacité d'exécution sur un modèle amélioré.

Recommandé par défaut si votre machine n'est pas trop mal configurée.Amélioréerépondre en chantantExpérimental

Options de résolution

pleine résolution

demi-résolution

Attention :

Dans certains cas, il existe des problèmes d'incompatibilité, il est donc recommandé de sélectionner la pleine résolution.

Options de la version de Wav2Lip

Wav2Lip

Avantages : synchronisation plus précise de la bouche, maintien de la bouche fermée en l'absence de son.

Inconvénients : il arrive que des dents manquent (dans certains cas).

Wav2Lip_GAN

Avantages : l'effet est plus esthétique et conserve l'expression originale du locuteur.

Inconvénients : ne couvre pas très bien l'action des lèvres, surtout en l'absence de son.

Recommandation :

Essayez d'abord Wav2Lip, puis passez à la version Wav2Lip_GAN si vous rencontrez l'effet d'un grand espace dans l'embouchure.

Activer le lissage des visages

Lorsque cette option est activée, wav2lip recadre le visage sur chaque image indépendamment.

Idéal pour les mouvements rapides ou le montage vidéo.

Si le visage est bizarrement incliné, cela peut entraîner des convulsions.

Lorsque cette option est désactivée, wav2lip fusionne les positions des visages détectés entre 5 images.

Idéal pour les mouvements lents, en particulier pour les visages qui ne sont pas couramment inclinés.

Lorsque le visage se déplace rapidement dans le cadre, la bouche peut être décalée et paraître horrible entre les coupes.

Rembourrage (Remplissage): :

Cette option contrôle le nombre de pixels ajoutés ou supprimés du cadrage du visage dans chaque direction.

Cette option peut aider à supprimer les lignes dures du menton ou d'autres bords du visage, mais un remplissage trop important ou trop faible peut modifier la taille ou la position de la bouche. Il est courant d'ajouter 10 pixels au bas de l'image et il est recommandé d'expérimenter différentes valeurs pour trouver le meilleur résultat.

Section Masque Masque

Taille du masque

augmente la taille de la zone couverte par le masque.(Un cadre autour du visage peut réduire cette valeur, par exemple 1,5)

Masque en plume

Détermine la quantité de mélange entre le centre et les bords du masque.(Une bordure autour du visage peut également augmenter cette valeur)

Activer le suivi de la bouche du masque

Actualise la position du masque en fonction de la position de la bouche à chaque image (plus lent).

Attention :

Comme les images sont recadrées au niveau du visage, la position de la bouche est déjà approximative. Cette fonction n'est activée que lorsqu'il est constaté que le masque de la vidéo ne semble pas suivre la bouche.

Activation du débogage des masques

En l'activant, l'arrière-plan devient gris et le masque devient coloré, et vous pouvez voir la position du masque dans le cadre. (Une fois que ce paramètre est passé à True, vous pouvez voir l'effet du paramètre de manière plus intuitive).

Acquisition d'un pack d'intégration

Quark : https://pan.quark.cn/s/382936a190e2

Baidu:https://pan.baidu.com/s/17FJpF-V3rxhlg89QunLIDw?pwd=9mnu

pousser jusqu'au bout

En ce qui concerne les personnes numériques, il existe en fait de nombreux moyens d'y parvenir, tels que heygen, Wav2lip, Geneface++, etc., ces outils n'ont pas le même effet, chacun a ses propres avantages et inconvénients.

Je vous propose une autre idée de production : utiliser la fonction FaceFusion Effectuez d'abord une permutation de visage sur la vidéo, puis utilisez GPT SoVITS La synthèse vocale est réalisée, puis le projet est utilisé pour la production démographique numérique.