Allgemeine Einführung
SadTalker-Video-Lip-Sync ist ein Video-Lippen-Synthese-Tool, das auf der SadTalker-Implementierung basiert. Das Projekt erzeugt Lippenformen durch stimmgesteuerte Generierung und verwendet konfigurierbare Gesichtsregionsverbesserung, um die Klarheit der generierten Lippenformen zu verbessern. Das Projekt verwendet außerdem den DAIN-Frame-Interpolationsalgorithmus, um Frames im generierten Video aufzufüllen, um den Lippenübergang glatter, realistischer und natürlicher zu gestalten. Benutzer können durch einfache Befehlszeilenoperationen schnell qualitativ hochwertige Lippenformvideos erzeugen, die für verschiedene Videoproduktions- und Bearbeitungsanforderungen geeignet sind.
SadTalker Original
SadTalker Verbessert
Funktionsliste
- Sprachgesteuerte LippengenerierungSteuerung der Lippenbewegungen in einem Video durch eine Audiodatei.
- Verschönerung des GesichtsbereichsKonfigurierbare Bildverbesserung für die Lippe oder den gesamten Gesichtsbereich zur Verbesserung der Videoklarheit.
- DAIN-Rahmen einfügenDeep-Learning-Algorithmen verwenden, um Frames in Videos zu patchen, um die Glätte des Videos zu verbessern.
- Mehrere ErweiterungsoptionenUnterstützt drei Modi: keine Verstärkung, Lippenverstärkung und vollständige Gesichtsverstärkung.
- Pre-Training ModellBieten Sie eine Vielzahl von vortrainierten Modellen an, damit die Benutzer schnell loslegen können.
- Einfache Bedienung über die BefehlszeileEinfach zu konfigurieren und über Kommandozeilenparameter auszuführen.
Hilfe verwenden
Vorbereitung der Umwelt
- Installieren Sie die erforderlichen Abhängigkeiten:
pip install torch==1.12.1+cu113 torchvision==0.13.1+cu113 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu113
conda install ffmpeg
pip install -r anforderungen.txt
- Wenn Sie das DAIN-Modell für die Rahmenfüllung verwenden möchten, müssen Sie auch Paddle installieren:
python -m pip install paddlepaddle-gpu==2.3.2.post112 -f https://www.paddlepaddle.org.cn/whl/linux/mkl/avx/stable.html
Struktur des Projekts
Kontrollpunkte
Vorgefertigte Modelle speicherndian_output
DAIN: Speichert DAIN-RahmeneinfügungsausgängeBeispiele
Beispiele für Audio- und VideodateienErgebnisse
: Ergebnisse generierensrc
: Quellcodesync_show
Synthese-Effekt: Demonstrationdritter_teil
: Bibliotheken von Drittanbieterninferenz.py
: Reasoning ScriptREADME.md
: Dokument zur Projektbeschreibung
modellhafte Argumentation
Verwenden Sie den folgenden Befehl für die Modellinferenz:
python inference.py --driven_audio
-angetriebenes_Audio
: Eingabe von Audiodateien--Quelle_Video
: Eingabe von Videodateien--Verstärker
Verbesserte Modi (keine, Lippe, Gesicht)--use_DAIN
DAIN-Rahmen: Ob DAIN-Rahmen verwendet werden sollen---zeit_schritt
Interpolierte Bildrate (Standardwert 0,5, d.h. 25fps -> 50fps)
Synthese-Effekt
Die erzeugten Videoeffekte werden im Fenster . /sync_show
Katalog:
original.mp4
: Original Videosync_none.mp4
Synthese-Effekte ohne jegliche Verstärkungnone_dain_50fps.mp4
Hinzufügen von 25fps zu 50fps unter ausschließlicher Verwendung des DAIN-Modellslip_dain_50fps.mp4
Verbesserungen im Lippenbereich + DAIN-Modell, um 25fps zu 50fps hinzuzufügengesicht_dain_50fps.mp4
Verbesserung des gesamten Gesichtsbereichs + DAIN-Modell zur Erhöhung von 25fps auf 50fps
Pre-Training Modell
Download-Pfad für das vortrainierte Modell:
- Baidu.com:Link (auf einer Website) Auszug Code: klfv
- Google Drive:Link (auf einer Website)