Wav2Lip: Open-Source-Tool für hochpräzise Lippensynchronisation (empfohlen)

Neueste AI-RessourcenAktualisiert vor 8 Monaten AI-Austauschkreis

Allgemeine Einführung

Wav2Lip ist ein quelloffenes, hochpräzises Tool zur Erzeugung von Lippensynchronisation, das entwickelt wurde, um beliebige Audiodaten mit der Lippensynchronisation in Videos zu synchronisieren. Das auf der ACM Multimedia 2020 von Rudrabha Mukhopadhyay et al. vorgestellte Tool nutzt fortschrittliche KI-Techniken, um eine qualitativ hochwertige Lippensynchronisation in einer Vielzahl von Umgebungen zu ermöglichen.Wav2Lip eignet sich für die Forschung, den akademischen und persönlichen Gebrauch und wird mit vollständigem Trainingscode, Inferenzcode und vortrainierten Modellen geliefert.

Es ist schon lange her, dass das Projekt überarbeitet wurde, und dies ist eine kürzlich optimierte Version:Easy-Wav2Lip: Tool für hochwertige Video-Lippensynchronisation, optimiert für Wav2Lip . Weitere Informationen über die Integration von Wav2Lip finden Sie in der Translation Starter: Open-Source-Tool für die Synchronisation von Videoinhalten | Sprachkonvertierung | Lippensynchronisation .

Wav2Lip in Sync Labs Es wird kostenloses Hosting angeboten.

Colab Notes:
https://colab.research.google.com/drive/1IjFW1cLevs6Ouyu4Yht4mnR4yeuMqO7Y#scrollTo=Qgo-oaI3JU2u
https://colab.research.google.com/drive/1tZpDWXz49W6wDcTprANRGLo2D_EbD5J8?usp=sharing

Funktionsliste

Hochpräzise Lippensynchronisation: Präzise Synchronisation von Audio mit der Lippensynchronisation im Video.
Mehrsprachige Unterstützung: Funktioniert mit einer Vielzahl von Sprachen und Klängen, einschließlich CGI-Gesichtern und synthetischen Klängen.
Open Source und kostenlos: Der Code ist vollständig öffentlich und kann von den Benutzern frei verwendet und verändert werden.
Interaktive Demo: Bietet eine Online-Demo, in die Benutzer Video- und Audiodateien hochladen können, um sie zu erleben.
Pre-Training-Modelle: Bieten eine Vielzahl von Pre-Training-Modelle, Benutzer können direkt verwenden oder sekundäre Ausbildung.
Vollständiger Trainingscode: Enthält den Trainingscode für den Mouth Synchronisation Discriminator und das Wav2Lip-Modell.

Hilfe verwenden

Einbauverfahren

Klon-Lagerhaus :
Bash-Kopie

git clonehttps://github.com/Rudrabha/Wav2Lip

Abhängigkeiten installieren:
Bash-Kopie

pip install -r requirements.txt

Download des trainierten Modells: Laden Sie das trainierte Modell in das angegebene Verzeichnis herunter, z. B. face_detection/detection/sfd/s3fd.pth.
Führen Sie den Inferenzcode aus:
Bash-Kopie

python inference.py --checkpoint_path <ckpt> --face <video.mp4> --audio <an-audio-source>

Verwendungsprozess

Zugriff auf den lokalen Server: Öffnen im Browser http://localhost:3000.
Eingabe-Tipp: Geben Sie die Beschreibung des zu erzeugenden Bildes in das Eingabefeld ein und das Bild wird in Echtzeit erzeugt.
Anzeigen und Herunterladen von Bildern: Die erzeugten Bilder werden auf der Seite angezeigt und eine Schaltfläche zum Herunterladen wird in einer zukünftigen Version hinzugefügt.
Konsistenzmodus verwenden: Aktivieren Sie den Konsistenzmodus, um konsistente Bilder zu erzeugen, bei denen der Hintergrund oder die Hauptobjekte konsistent bleiben.
Bildverlauf anzeigen: Mit der Funktion Bildverlauf können Sie alle erzeugten Bilder anzeigen und zwischen ihnen navigieren.

Erweiterte Funktionen

Erweiterte Tipps: Optimieren Sie die generierten Ergebnisse mit erweiterten Tipp-Optionen.
Modell auswählen: Wählen Sie je nach Bedarf verschiedene AI-Modelle aus.
Benutzerdefinierte Entwicklung: Da Wav2Lip Open Source ist, können Benutzer Sekundärentwicklungen nach ihren eigenen Bedürfnissen durchführen.