SVLS: SadTalker erweitert, um digitale Personen anhand von Porträtvideos zu erzeugen

Neueste AI-RessourcenGeschrieben vor 6 Monaten AI-Austauschkreis

1.8K 00

Allgemeine Einführung

SadTalker-Video-Lip-Sync ist ein Video-Lippen-Synthese-Tool, das auf der SadTalker-Implementierung basiert. Das Projekt erzeugt Lippenformen durch stimmgesteuerte Generierung und verwendet konfigurierbare Gesichtsregionsverbesserung, um die Klarheit der generierten Lippenformen zu verbessern. Das Projekt verwendet außerdem den DAIN-Frame-Interpolationsalgorithmus, um Frames im generierten Video aufzufüllen, um den Lippenübergang glatter, realistischer und natürlicher zu gestalten. Benutzer können durch einfache Befehlszeilenoperationen schnell qualitativ hochwertige Lippenformvideos erzeugen, die für verschiedene Videoproduktions- und Bearbeitungsanforderungen geeignet sind.

SadTalker Original

SadTalker Verbessert

Funktionsliste

Sprachgesteuerte LippengenerierungSteuerung der Lippenbewegungen im Video durch die Audiodatei.
Verschönerung des GesichtsbereichsKonfigurierbare Bildverbesserung für die Lippe oder den gesamten Gesichtsbereich zur Verbesserung der Videoklarheit.
DAIN-Rahmen einfügenDeep-Learning-Algorithmen verwenden, um Frames in Videos zu patchen, um die Glätte des Videos zu verbessern.
Mehrere ErweiterungsoptionenUnterstützt drei Modi: keine Verstärkung, Lippenverstärkung und vollständige Gesichtsverstärkung.
Pre-Training ModellBieten Sie eine Vielzahl von vortrainierten Modellen an, um den Benutzern einen schnellen Einstieg zu ermöglichen.
Einfache Bedienung über die BefehlszeileEinfach zu konfigurieren und über Kommandozeilenparameter auszuführen.

Hilfe verwenden

Vorbereitung der Umwelt

Installieren Sie die erforderlichen Abhängigkeiten:

   pip install torch==1.12.1+cu113 torchvision==0.13.1+cu113 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu113
conda install ffmpeg
pip install -r requirements.txt

Wenn Sie das DAIN-Modell für die Rahmenfüllung verwenden möchten, müssen Sie auch Paddle installieren:

   python -m pip install paddlepaddle-gpu==2.3.2.post112 -f https://www.paddlepaddle.org.cn/whl/linux/mkl/avx/stable.html

Struktur des Projekts

checkpointsSpeichern von vortrainierten Modellen
dian_outputDAIN: Speichert DAIN-Rahmeneinfügungsausgänge
examplesBeispiele für Audio- und Videodateien
results: Ergebnisse generieren
src: Quellcode
sync_showSynthese-Effekt: Demonstration
third_part: Bibliotheken von Drittanbietern
inference.py: Reasoning Script
README.md: Dokument zur Projektbeschreibung

modellhafte Argumentation

Verwenden Sie den folgenden Befehl für die Modellinferenz:

python inference.py --driven_audio <audio.wav> --source_video <video.mp4> --enhancer <none, lip, face> --use_DAIN --time_step 0.5

--driven_audio: Eingabe von Audiodateien
--source_video: Eingabe von Videodateien
--enhancerVerbesserte Modi (keine, Lippe, Gesicht)
--use_DAINDAIN-Rahmen: Ob DAIN-Rahmen verwendet werden sollen
--time_stepInterpolierte Bildrate (Standardwert 0,5, d.h. 25fps -> 50fps)

Synthese-Effekt

Die erzeugten Videoeffekte werden im Fenster ./sync_show Katalog:

original.mp4: Original Video
sync_none.mp4Synthese-Effekte ohne jegliche Verstärkung
none_dain_50fps.mp4Hinzufügen von 25fps zu 50fps unter ausschließlicher Verwendung des DAIN-Modells
lip_dain_50fps.mp4Verbesserungen im Lippenbereich + DAIN-Modell, um 25fps zu 50fps hinzuzufügen
face_dain_50fps.mp4Verbesserung des gesamten Gesichtsbereichs + DAIN-Modell zur Erhöhung von 25fps auf 50fps

Pre-Training Modell

Download-Pfad für das vortrainierte Modell:

Baidu.com:Link (auf einer Website) Auszug Code: klfv
Google Drive:Link (auf einer Website)

Artikel Copyright AI-Austauschkreis Alle, bitte nicht ohne Erlaubnis vervielfältigen.

Hinzufügen eines RAG-gesteuerten Online-Chat-Tools zu Next.js-Anwendungen

Neueste AI-Ressourcen # AI Java Open Source Projekt

vor 6 Monaten

01.8K

HumanOmni: ein multimodales Makromodell zur Analyse menschlicher Videoemotionen und -handlungen

Neueste AI-Ressourcen # AI Java Open Source Projekt # Visuelle Zielerfassung

vor 5 Monaten

01.5K

Mem0: ein Open-Source-Projekt, das eine intelligente Speicherschicht für KI-Assistenten und -Agenten bereitstellt

Neueste AI-Ressourcen # AI Java Open Source Projekt

vor 11 Monaten

03K

Tabnine: KI-Code-Assistent, integriert in IDE zur Erstellung von Code-Use-Cases-Plugin (kostenpflichtig)

Neueste AI-Ressourcen # AI-Programmierung

vor 8 Monaten

02.3K

Keine Kommentare

Sie müssen eingeloggt sein, um an den Kommentaren teilnehmen zu können!

Jetzt anmelden

Keine Kommentare...

SVLS: SadTalker erweitert, um digitale Personen anhand von Porträtvideos zu erzeugen

Allgemeine Einführung

Funktionsliste

Hilfe verwenden

Vorbereitung der Umwelt

Struktur des Projekts

modellhafte Argumentation

Synthese-Effekt

Pre-Training Modell

Tifa-DeepsexV2-7b-MGRPO: ein Modell, das Rollenspiele und komplexe Dialoge unterstützt, mit einer Leistung jenseits von 32b (mit Ein-Klick-Installer)

debdeb.io: KI debattiert beide Seiten des Arguments basierend auf eingegebenen Themen, lernt beide Seiten der Debatte zu beherrschen

Ähnliche Artikel

Hinzufügen eines RAG-gesteuerten Online-Chat-Tools zu Next.js-Anwendungen

HumanOmni: ein multimodales Makromodell zur Analyse menschlicher Videoemotionen und -handlungen

Mem0: ein Open-Source-Projekt, das eine intelligente Speicherschicht für KI-Assistenten und -Agenten bereitstellt

Tabnine: KI-Code-Assistent, integriert in IDE zur Erstellung von Code-Use-Cases-Plugin (kostenpflichtig)

Keine Kommentare

Neueste Kollektionen

Neueste Artikel

SVLS: SadTalker erweitert, um digitale Personen anhand von Porträtvideos zu erzeugen

Allgemeine Einführung

Funktionsliste

Hilfe verwenden

Vorbereitung der Umwelt

Struktur des Projekts

modellhafte Argumentation

Synthese-Effekt

Pre-Training Modell

Tifa-DeepsexV2-7b-MGRPO: ein Modell, das Rollenspiele und komplexe Dialoge unterstützt, mit einer Leistung jenseits von 32b (mit Ein-Klick-Installer)

debdeb.io: KI debattiert beide Seiten des Arguments basierend auf eingegebenen Themen, lernt beide Seiten der Debatte zu beherrschen

Ähnliche Artikel

Hinzufügen eines RAG-gesteuerten Online-Chat-Tools zu Next.js-Anwendungen

HumanOmni: ein multimodales Makromodell zur Analyse menschlicher Videoemotionen und -handlungen

Mem0: ein Open-Source-Projekt, das eine intelligente Speicherschicht für KI-Assistenten und -Agenten bereitstellt

Tabnine: KI-Code-Assistent, integriert in IDE zur Erstellung von Code-Use-Cases-Plugin (kostenpflichtig)

Keine Kommentare

Ausgewählte AI-Tools

Neueste Kollektionen

Neueste Artikel