Allgemeine Einführung
SadTalker-Video-Lip-Sync ist ein Video-Lippen-Synthese-Tool, das auf der SadTalker-Implementierung basiert. Das Projekt erzeugt Lippenformen durch stimmgesteuerte Generierung und verwendet konfigurierbare Gesichtsregionsverbesserung, um die Klarheit der generierten Lippenformen zu verbessern. Das Projekt verwendet außerdem den DAIN-Frame-Interpolationsalgorithmus, um Frames im generierten Video aufzufüllen, um den Lippenübergang glatter, realistischer und natürlicher zu gestalten. Benutzer können durch einfache Befehlszeilenoperationen schnell qualitativ hochwertige Lippenformvideos erzeugen, die für verschiedene Videoproduktions- und Bearbeitungsanforderungen geeignet sind.

SadTalker Original

SadTalker Verbessert
Funktionsliste
- Sprachgesteuerte LippengenerierungSteuerung der Lippenbewegungen im Video durch die Audiodatei.
- Verschönerung des GesichtsbereichsKonfigurierbare Bildverbesserung für die Lippe oder den gesamten Gesichtsbereich zur Verbesserung der Videoklarheit.
- DAIN-Rahmen einfügenDeep-Learning-Algorithmen verwenden, um Frames in Videos zu patchen, um die Glätte des Videos zu verbessern.
- Mehrere ErweiterungsoptionenUnterstützt drei Modi: keine Verstärkung, Lippenverstärkung und vollständige Gesichtsverstärkung.
- Pre-Training ModellBieten Sie eine Vielzahl von vortrainierten Modellen an, um den Benutzern einen schnellen Einstieg zu ermöglichen.
- Einfache Bedienung über die BefehlszeileEinfach zu konfigurieren und über Kommandozeilenparameter auszuführen.
Hilfe verwenden
Vorbereitung der Umwelt
- Installieren Sie die erforderlichen Abhängigkeiten:
pip install torch==1.12.1+cu113 torchvision==0.13.1+cu113 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu113
conda install ffmpeg
pip install -r requirements.txt
- Wenn Sie das DAIN-Modell für die Rahmenfüllung verwenden möchten, müssen Sie auch Paddle installieren:
python -m pip install paddlepaddle-gpu==2.3.2.post112 -f https://www.paddlepaddle.org.cn/whl/linux/mkl/avx/stable.html
Struktur des Projekts
checkpoints
Speichern von vortrainierten Modellendian_output
DAIN: Speichert DAIN-Rahmeneinfügungsausgängeexamples
Beispiele für Audio- und Videodateienresults
: Ergebnisse generierensrc
: Quellcodesync_show
Synthese-Effekt: Demonstrationthird_part
: Bibliotheken von Drittanbieterninference.py
: Reasoning ScriptREADME.md
: Dokument zur Projektbeschreibung
modellhafte Argumentation
Verwenden Sie den folgenden Befehl für die Modellinferenz:
python inference.py --driven_audio <audio.wav> --source_video <video.mp4> --enhancer <none, lip, face> --use_DAIN --time_step 0.5
--driven_audio
: Eingabe von Audiodateien--source_video
: Eingabe von Videodateien--enhancer
Verbesserte Modi (keine, Lippe, Gesicht)--use_DAIN
DAIN-Rahmen: Ob DAIN-Rahmen verwendet werden sollen--time_step
Interpolierte Bildrate (Standardwert 0,5, d.h. 25fps -> 50fps)
Synthese-Effekt
Die erzeugten Videoeffekte werden im Fenster ./sync_show
Katalog:
original.mp4
: Original Videosync_none.mp4
Synthese-Effekte ohne jegliche Verstärkungnone_dain_50fps.mp4
Hinzufügen von 25fps zu 50fps unter ausschließlicher Verwendung des DAIN-Modellslip_dain_50fps.mp4
Verbesserungen im Lippenbereich + DAIN-Modell, um 25fps zu 50fps hinzuzufügenface_dain_50fps.mp4
Verbesserung des gesamten Gesichtsbereichs + DAIN-Modell zur Erhöhung von 25fps auf 50fps
Pre-Training Modell
Download-Pfad für das vortrainierte Modell:
- Baidu.com:Link (auf einer Website) Auszug Code: klfv
- Google Drive:Link (auf einer Website)