AI Personal Learning
und praktische Anleitung
讯飞绘镜

Wav2Lip: Open-Source-Tool für hochpräzise Lippensynchronisation (empfohlen)

Allgemeine Einführung

Wav2Lip ist ein quelloffenes, hochpräzises Tool zur Erzeugung von Lippensynchronisation, das entwickelt wurde, um beliebige Audiodaten mit der Lippensynchronisation in Videos zu synchronisieren. Das auf der ACM Multimedia 2020 von Rudrabha Mukhopadhyay et al. vorgestellte Tool nutzt fortschrittliche KI-Techniken, um eine qualitativ hochwertige Lippensynchronisation in einer Vielzahl von Umgebungen zu ermöglichen.Wav2Lip eignet sich für die Forschung, den akademischen und persönlichen Gebrauch und wird mit vollständigem Trainingscode, Inferenzcode und vortrainierten Modellen geliefert.

Es ist schon lange her, dass das Projekt überarbeitet wurde, und dies ist eine kürzlich optimierte Version:Easy-Wav2Lip: Tool für hochwertige Video-Lippensynchronisation, optimiert für Wav2Lip . Weitere Informationen über die Integration von Wav2Lip finden Sie in der Translation Starter: Open-Source-Tool für die Synchronisation von Videoinhalten | Sprachkonvertierung | Lippensynchronisation .


Wav2Lip in Sync Labs Es wird kostenloses Hosting angeboten.

Colab Notes:

https://colab.research.google.com/drive/1IjFW1cLevs6Ouyu4Yht4mnR4yeuMqO7Y#scrollTo=Qgo-oaI3JU2u

https://colab.research.google.com/drive/1tZpDWXz49W6wDcTprANRGLo2D_EbD5J8?usp=sharing

 

Funktionsliste

  • Hochpräzise Lippensynchronisation: Präzise Synchronisation von Audio mit der Lippensynchronisation im Video.
  • Mehrsprachige Unterstützung: Funktioniert mit einer Vielzahl von Sprachen und Klängen, einschließlich CGI-Gesichtern und synthetischen Klängen.
  • Open Source und kostenlos: Der Code ist vollständig öffentlich und kann von den Benutzern frei verwendet und verändert werden.
  • Interaktive Demo: Bietet eine Online-Demo, in die Benutzer Video- und Audiodateien hochladen können, um sie zu erleben.
  • Pre-Training-Modelle: Bieten eine Vielzahl von Pre-Training-Modelle, Benutzer können direkt verwenden oder sekundäre Ausbildung.
  • Vollständiger Trainingscode: Enthält den Trainingscode für den Mouth Synchronisation Discriminator und das Wav2Lip-Modell.

 

Hilfe verwenden

Einbauverfahren

  1. Klon-Lagerhaus :
    Bash-Kopie
git clonehttps://github.com/Rudrabha/Wav2Lip
  1. Abhängigkeiten installieren:
    Bash-Kopie
pip install -r requirements.txt
  1. Download des trainierten Modells: Laden Sie das trainierte Modell in das angegebene Verzeichnis herunter, z. B. face_detection/detection/sfd/s3fd.pth.
  2. Führen Sie den Inferenzcode aus:
    Bash-Kopie
python inference.py --checkpoint_path <ckpt> --face <video.mp4> --audio <an-audio-source>

Verwendungsprozess

  1. Zugriff auf den lokalen Server: Öffnen im Browser http://localhost:3000.
  2. Eingabe-Tipp: Geben Sie die Beschreibung des zu erzeugenden Bildes in das Eingabefeld ein und das Bild wird in Echtzeit erzeugt.
  3. Anzeigen und Herunterladen von Bildern: Die erzeugten Bilder werden auf der Seite angezeigt und eine Schaltfläche zum Herunterladen wird in einer zukünftigen Version hinzugefügt.
  4. Konsistenzmodus verwenden: Aktivieren Sie den Konsistenzmodus, um konsistente Bilder zu erzeugen, bei denen der Hintergrund oder die Hauptobjekte konsistent bleiben.
  5. Bildverlauf anzeigen: Mit der Funktion Bildverlauf können Sie alle erzeugten Bilder anzeigen und zwischen ihnen navigieren.

Erweiterte Funktionen

  • Erweiterte Tipps: Optimieren Sie die generierten Ergebnisse mit erweiterten Tipp-Optionen.
  • Modell auswählen: Wählen Sie je nach Bedarf verschiedene AI-Modelle aus.
  • Benutzerdefinierte Entwicklung: Da Wav2Lip Open Source ist, können Benutzer Sekundärentwicklungen nach ihren eigenen Bedürfnissen durchführen.

 

Wav2Lip Windows Ein-Klick-Installer (Speicheroptimiert)

首席AI分享圈Dieser Inhalt wurde vom Autor versteckt, bitte geben Sie den Verifizierungscode ein, um den Inhalt zu sehen
Captcha:
Bitte achten Sie auf diese Website WeChat öffentliche Nummer, Antwort "CAPTCHA, eine Art von Challenge-Response-Test (Computertechnik)", um den Verifizierungscode zu erhalten. Suchen Sie in WeChat nach "Leiter des AI-Austauschkreises"oder"Looks-AI" oder WeChat Scannen der rechten Seite des QR-Codes kann die Aufmerksamkeit auf diese Website WeChat öffentliche Zahl zu zahlen.

Darf nicht ohne Genehmigung vervielfältigt werden:Leiter des AI-Austauschkreises " Wav2Lip: Open-Source-Tool für hochpräzise Lippensynchronisation (empfohlen)
de_DEDeutsch