Wav2Lip : outil open source de génération de synchronisation labiale de haute précision (recommandé)

Dernières ressources sur l'IAMise à jour il y a 8 mois Cercle de partage de l'IA

33.1K 00

Introduction générale

Wav2Lip est un outil open-source de génération de synchronisation labiale de haute précision conçu pour synchroniser avec précision un son arbitraire avec la synchronisation labiale d'une vidéo. Présenté à ACM Multimedia 2020 par Rudrabha Mukhopadhyay et al, l'outil s'appuie sur des techniques d'IA avancées pour permettre une synchronisation labiale de haute qualité dans une variété d'environnements. Adapté à la recherche, à l'enseignement et à l'utilisation personnelle, Wav2Lip est fourni avec un code d'entraînement complet, un code d'inférence et des modèles pré-entraînés.

Cela fait longtemps que le projet n'a pas été itéré, et il s'agit d'une version récemment optimisée :Easy-Wav2Lip : outil de synchronisation labiale vidéo de haute qualité, optimisé pour Wav2Lip . Pour plus d'informations sur la façon dont Wav2Lip s'intègre, vous pouvez vous référer à la page d'accueil de Wav2Lip. Translation Starter : Outil de synchronisation de traduction de contenu vidéo Open Source | Conversion de langue | Lip Sync .

Wav2Lip en Sync Labs L'hébergement est gratuit.

Colab Notes :
https://colab.research.google.com/drive/1IjFW1cLevs6Ouyu4Yht4mnR4yeuMqO7Y#scrollTo=Qgo-oaI3JU2u
https://colab.research.google.com/drive/1tZpDWXz49W6wDcTprANRGLo2D_EbD5J8?usp=sharing

Liste des fonctions

Synchronisation labiale de haute précision : synchronisation précise de n'importe quel fichier audio avec la synchronisation labiale de la vidéo.
Prise en charge multilingue : fonctionne avec une grande variété de langues et de sons, y compris des visages CGI et des sons synthétiques.
Open source et gratuit : le code est entièrement public, et les utilisateurs sont libres de l'utiliser et de le modifier.
Démonstration interactive : fournit une démonstration en ligne où les utilisateurs peuvent télécharger des fichiers vidéo et audio pour en faire l'expérience.
Modèles de pré-entraînement : les modèles de pré-entraînement sont nombreux et les utilisateurs peuvent les utiliser directement ou les utiliser pour l'entraînement secondaire.
Code d'entraînement complet : comprend le code d'entraînement pour le discriminateur de synchronisation de la bouche et le modèle Wav2Lip.

Utiliser l'aide

Processus d'installation

Entrepôt de clonage :
copie bash

git clonehttps://github.com/Rudrabha/Wav2Lip

Installer les dépendances :
copie bash

pip install -r requirements.txt

Télécharger le modèle pré-entraîné : Télécharger le modèle pré-entraîné dans le répertoire spécifié, par ex. face_detection/detection/sfd/s3fd.pth.
Exécuter le code d'inférence :
copie bash

python inference.py --checkpoint_path <ckpt> --face <video.mp4> --audio <an-audio-source>

Processus d'utilisation

Accès au serveur local : Ouvrir dans le navigateur http://localhost:3000.
Conseil de saisie : Saisissez la description de l'image que vous souhaitez générer dans le champ de saisie et l'image sera générée en temps réel.
Visualisation et téléchargement des images : les images générées sont affichées sur la page et un bouton de téléchargement sera ajouté dans une prochaine version.
Utiliser le mode cohérence : activer le mode cohérence pour générer des images cohérentes, en gardant l'arrière-plan ou les objets principaux cohérents.
Afficher l'historique des images : la fonction d'historique des images permet de visualiser toutes les images générées et de naviguer entre elles.

Fonctionnalités avancées

Conseils améliorés : Optimisez les résultats générés grâce aux options de conseils améliorés.
Sélectionner le modèle : Sélectionnez différents modèles d'IA en fonction de vos besoins.
Développement personnalisé : Wav2Lip étant un logiciel libre, les utilisateurs peuvent effectuer des développements secondaires en fonction de leurs propres besoins.