Allgemeine Einführung
LatentSync ist ein innovatives Audio Conditional Potential Diffusion Modeling Framework, das von ByteDance als Open Source zur Verfügung gestellt wird und speziell für die hochwertige Videosynchronisation von Lippen entwickelt wurde. Im Gegensatz zu herkömmlichen Methoden verwendet LatentSync einen End-to-End-Ansatz zur direkten Erzeugung natürlicher, glatter Lippensynchronisationseffekte ohne zwischengeschaltete Aktionsdarstellungen. Das Projekt verwendet das Whisper-Modell, um Sprache in Audioeinbettungen umzuwandeln, die über eine Cross-Attention-Schicht in U-Net integriert werden, um eine genaue Generierung von Videobildern zu ermöglichen. Das System unterstützt nicht nur die Verarbeitung von Videos aus dem wirklichen Leben, sondern auch die Lippensynchronisation von Anime-Figuren, was eine breite Palette von Anwendungen ermöglicht. Das Projekt ist vollständig quelloffen und stellt den Inferenzcode, den Datenverarbeitungsfluss und den Trainingscode zur Verfügung, so dass Forscher und Entwickler diese Technologie leicht reproduzieren und verbessern können. Endlich gibt es eine andere Lösung als Wav2Lip Eine Alternative zum
Funktionsliste
- End-to-End-Audio-gesteuerte Lippensynchronisation
- Unterstützung der Lippensynchronisation für Live-Action-Videos und Anime-Figuren
- Automatische Audio- und Videoausrichtung und Synchronisationskorrektur
- Hochwertige Gesichtserkennung und -ausrichtung
- Automatische Szenensegmentierung und Videosegmentierungsverarbeitung
- Bewertung und Filterung der Videoqualität
- Bereitstellung einer vollständigen Datenverarbeitungspipeline
- Unterstützung für benutzerdefiniertes Modelltraining
Hilfe verwenden
Umgebung Konfiguration
- Systemanforderungen:
- GPU-Speicherbedarf: mindestens 6,5 GB
- NVIDIA-Grafikkarten mit CUDA-Unterstützung
- Python-Umgebung
- Installationsschritte:
Quelle setup_env.sh
Nach einer erfolgreichen Installation sollte die Struktur der Checkpoint-Datei wie folgt aussehen:
. /checkpoints/
|-- latentsync_unet.pt # Hauptmodelldatei
|-- latentsync_syncnet.pt # Synchrones Netzmodell
|-- Flüstern
| `-- tiny.pt # Sprachverarbeitungsmodelle
|-- auxiliary/ #-Hilfsmodellverzeichnis
Verwendung Prozess
- Basic Reasoning Verwendung:
- in Bewegung sein
. /inference.sh
grundlegende Schlüsse ziehen - Dies kann durch Anpassung der
anleitung_skala
Parameter auf 1,5 setzen, um die Genauigkeit der Lippensynchronisation zu verbessern
- in Bewegung sein
- Datenverarbeitungsablauf:
- Video-Vorverarbeitung:
- Korrigiert die Videobildrate automatisch auf 25 Bilder pro Sekunde
- Audio-Resampling auf 16000Hz
- Automatische Erkennung und Segmentierung von Szenen
- Video in 5-10-Sekunden-Segmente aufteilen
- Bearbeitung von Gesichtern:
- Gesichtsgröße erkennen und filtern (>256 x 256 erforderlich)
- Entfernen von Szenen mit mehreren Gesichtern
- Affine Transformation auf der Grundlage von Gesichtsmerkmalspunkten
- Einheitliche Größenänderung auf 256 x 256
- Qualitätskontrolle:
- Synchronisiertes Screening des Konfidenzwerts (Schwellenwert von 3)
- Automatische Anpassung von Audio- und Video-Offsets
- Bewertung der Bildqualität mit hyperIQA
- Video-Vorverarbeitung:
- Erweiterte Funktionen:
- Modellausbildung:
- U-Net Ausbildung: mit
. /train_unet.sh
- SyncNet-Schulung: Verwendung
. /train_syncnet.sh
- U-Net Ausbildung: mit
- Die Parameter in der Konfigurationsdatei können nach Bedarf angepasst werden, z. B. das Datenverzeichnis, der Speicherpfad für den Prüfpunkt usw.
- Modellausbildung:
caveat
- Achten Sie bei der Argumentation auf ausreichend Videospeicher (mindestens 6,5 GB)
- Bitte vergewissern Sie sich vor der Bearbeitung, dass das Video eine gute Qualität aufweist.
- Es wird empfohlen, vor der Verarbeitung großer Videomengen Tests in kleinem Maßstab durchzuführen.
- Vor dem Training eines benutzerdefinierten Modells muss ein vollständiger Datenverarbeitungsablauf abgeschlossen sein.
- Bitte beachten Sie die einschlägigen Zulassungsvorschriften