AI Personal Learning
und praktische Anleitung
讯飞绘镜

SVLS: SadTalker erweitert, um digitale Personen anhand von Porträtvideos zu erzeugen

Allgemeine Einführung

SadTalker-Video-Lip-Sync ist ein Video-Lippen-Synthese-Tool, das auf der SadTalker-Implementierung basiert. Das Projekt erzeugt Lippenformen durch stimmgesteuerte Generierung und verwendet konfigurierbare Gesichtsregionsverbesserung, um die Klarheit der generierten Lippenformen zu verbessern. Das Projekt verwendet außerdem den DAIN-Frame-Interpolationsalgorithmus, um Frames im generierten Video aufzufüllen, um den Lippenübergang glatter, realistischer und natürlicher zu gestalten. Benutzer können durch einfache Befehlszeilenoperationen schnell qualitativ hochwertige Lippenformvideos erzeugen, die für verschiedene Videoproduktions- und Bearbeitungsanforderungen geeignet sind.

SVLS:SadTalker增强版,使用人像视频生成数字人-1

SadTalker Original


SVLS:SadTalker增强版,使用人像视频生成数字人-1

SadTalker Verbessert

 

Funktionsliste

  • Sprachgesteuerte LippengenerierungSteuerung der Lippenbewegungen im Video durch die Audiodatei.
  • Verschönerung des GesichtsbereichsKonfigurierbare Bildverbesserung für die Lippe oder den gesamten Gesichtsbereich zur Verbesserung der Videoklarheit.
  • DAIN-Rahmen einfügenDeep-Learning-Algorithmen verwenden, um Frames in Videos zu patchen, um die Glätte des Videos zu verbessern.
  • Mehrere ErweiterungsoptionenUnterstützt drei Modi: keine Verstärkung, Lippenverstärkung und vollständige Gesichtsverstärkung.
  • Pre-Training ModellBieten Sie eine Vielzahl von vortrainierten Modellen an, um den Benutzern einen schnellen Einstieg zu ermöglichen.
  • Einfache Bedienung über die BefehlszeileEinfach zu konfigurieren und über Kommandozeilenparameter auszuführen.

 

Hilfe verwenden

Vorbereitung der Umwelt

  1. Installieren Sie die erforderlichen Abhängigkeiten:
   pip install torch==1.12.1+cu113 torchvision==0.13.1+cu113 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu113
conda install ffmpeg
pip install -r requirements.txt
  1. Wenn Sie das DAIN-Modell für die Rahmenfüllung verwenden möchten, müssen Sie auch Paddle installieren:
   python -m pip install paddlepaddle-gpu==2.3.2.post112 -f https://www.paddlepaddle.org.cn/whl/linux/mkl/avx/stable.html

Struktur des Projekts

  • checkpointsSpeichern von vortrainierten Modellen
  • dian_outputDAIN: Speichert DAIN-Rahmeneinfügungsausgänge
  • examplesBeispiele für Audio- und Videodateien
  • results: Ergebnisse generieren
  • src: Quellcode
  • sync_showSynthese-Effekt: Demonstration
  • third_part: Bibliotheken von Drittanbietern
  • inference.py: Reasoning Script
  • README.md: Dokument zur Projektbeschreibung

modellhafte Argumentation

Verwenden Sie den folgenden Befehl für die Modellinferenz:

python inference.py --driven_audio <audio.wav> --source_video <video.mp4> --enhancer <none, lip, face> --use_DAIN --time_step 0.5
  • --driven_audio: Eingabe von Audiodateien
  • --source_video: Eingabe von Videodateien
  • --enhancerVerbesserte Modi (keine, Lippe, Gesicht)
  • --use_DAINDAIN-Rahmen: Ob DAIN-Rahmen verwendet werden sollen
  • --time_stepInterpolierte Bildrate (Standardwert 0,5, d.h. 25fps -> 50fps)

Synthese-Effekt

Die erzeugten Videoeffekte werden im Fenster ./sync_show Katalog:

  • original.mp4: Original Video
  • sync_none.mp4Synthese-Effekte ohne jegliche Verstärkung
  • none_dain_50fps.mp4Hinzufügen von 25fps zu 50fps unter ausschließlicher Verwendung des DAIN-Modells
  • lip_dain_50fps.mp4Verbesserungen im Lippenbereich + DAIN-Modell, um 25fps zu 50fps hinzuzufügen
  • face_dain_50fps.mp4Verbesserung des gesamten Gesichtsbereichs + DAIN-Modell zur Erhöhung von 25fps auf 50fps

Pre-Training Modell

Download-Pfad für das vortrainierte Modell:

Darf nicht ohne Genehmigung vervielfältigt werden:Leiter des AI-Austauschkreises " SVLS: SadTalker erweitert, um digitale Personen anhand von Porträtvideos zu erzeugen
de_DEDeutsch