Allgemeine Einführung
Wav2Lip ist ein quelloffenes, hochpräzises Tool zur Erzeugung von Lippensynchronisation, das entwickelt wurde, um beliebige Audiodaten mit der Lippensynchronisation in Videos zu synchronisieren. Das auf der ACM Multimedia 2020 von Rudrabha Mukhopadhyay et al. vorgestellte Tool nutzt fortschrittliche KI-Techniken, um eine qualitativ hochwertige Lippensynchronisation in einer Vielzahl von Umgebungen zu ermöglichen.Wav2Lip eignet sich für die Forschung, den akademischen und persönlichen Gebrauch und wird mit vollständigem Trainingscode, Inferenzcode und vortrainierten Modellen geliefert.
Wav2Lip in Sync Labs bietet kostenloses Hosting.
Colab Notes:
https://colab.research.google.com/drive/1IjFW1cLevs6Ouyu4Yht4mnR4yeuMqO7Y#scrollTo=Qgo-oaI3JU2u
https://colab.research.google.com/drive/1tZpDWXz49W6wDcTprANRGLo2D_EbD5J8?usp=sharing
Funktionsliste
- Hochpräzise Lippensynchronisation: Präzise Synchronisation von Audio mit der Lippensynchronisation im Video.
- Mehrsprachige Unterstützung: Funktioniert mit einer Vielzahl von Sprachen und Klängen, einschließlich CGI-Gesichtern und synthetischen Klängen.
- Open Source und kostenlos: Der Code ist vollständig öffentlich und kann von den Benutzern frei verwendet und verändert werden.
- Interaktive Demo: Bietet eine Online-Demo, in die Benutzer Video- und Audiodateien hochladen können, um sie zu erleben.
- Pre-Training-Modelle: Bieten eine Vielzahl von Pre-Training-Modelle, Benutzer können direkt verwenden oder sekundäre Ausbildung.
- Vollständiger Trainingscode: Enthält den Trainingscode für den Mouth Synchronisation Discriminator und das Wav2Lip-Modell.
Hilfe verwenden
Ablauf der Installation
- Klon-Lagerhaus :
Bash-Kopie
git clonehttps://github.com/Rudrabha/Wav2Lip
- Abhängigkeiten installieren:
Bash-Kopie
Pip-Installation -r Anforderungen.txt
- Download des trainierten Modells: Laden Sie das trainierte Modell in das angegebene Verzeichnis herunter, z. B.
gesicht_erkennung/erkennung/sfd/s3fd.pth
. - Führen Sie den Inferenzcode aus:
Bash-Kopie
python inference.py --kontrollpunkt_pfad <ckpt> --Gesicht <video.mp4> --Audio <eine-Audio-Quelle>
Verwendung Prozess
- Zugriff auf den lokalen Server: Öffnen im Browser
http://localhost:3000
. - Eingabe-Tipp: Geben Sie die Beschreibung des zu erzeugenden Bildes in das Eingabefeld ein und das Bild wird in Echtzeit erzeugt.
- Anzeigen und Herunterladen von Bildern: Die erzeugten Bilder werden auf der Seite angezeigt und eine Schaltfläche zum Herunterladen wird in einer zukünftigen Version hinzugefügt.
- Konsistenzmodus verwenden: Aktivieren Sie den Konsistenzmodus, um konsistente Bilder zu erzeugen, bei denen der Hintergrund oder die Hauptobjekte konsistent bleiben.
- Bildverlauf anzeigen: Mit der Funktion Bildverlauf können Sie alle erzeugten Bilder anzeigen und zwischen ihnen navigieren.
Erweiterte Funktionen
- Erweiterte Tipps: Optimieren Sie die generierten Ergebnisse mit erweiterten Tipp-Optionen.
- Modell auswählen: Wählen Sie je nach Bedarf verschiedene AI-Modelle aus.
- Benutzerdefinierte Entwicklung: Da Wav2Lip Open Source ist, können Benutzer Sekundärentwicklungen nach ihren eigenen Bedürfnissen durchführen.