Allgemeine Einführung
MuseV ist ein öffentliches Projekt auf GitHub, das auf die Erzeugung von Avatar-Videos von unbegrenzter Länge und hoher Wiedergabetreue abzielt. Es basiert auf der Diffusionstechnologie und bietet verschiedene Funktionen wie Image2Video, Text2Image2Video, Video2Video und mehr. Details der Modellstruktur, Anwendungsfälle, Schnellstartanleitung, Inferenzskripte und Danksagungen werden bereitgestellt.
MuseV ist ein Rahmenwerk zur Erzeugung virtueller menschlicher Videos, das auf einem Diffusionsmodell mit den folgenden Merkmalen basiert:
Es unterstützt die Erzeugung unendlicher Längen mit Hilfe eines neuartigen visuellen bedingten parallelen Entrauschungsschemas ohne das Problem der Fehlerakkumulation, insbesondere für Szenen mit festen Kamerapositionen.
Es wird ein vortrainiertes Modell für die Erzeugung von Avatar-Videos bereitgestellt, das anhand eines Datensatzes von Charakteren trainiert wurde.
Unterstützt Bild-zu-Video-, Text-zu-Bild-zu-Video- und Video-zu-Video-Generierung.
Kompatibel mit dem Stable Diffusion-Ökosystem zur Grafikerstellung, einschließlich base_model, lora, controlnet und anderen.
Unterstützung für mehrere Referenzbildtechnologien, einschließlich IPAdapter, ReferenceOnly, ReferenceNet, IPAdapterFaceID.
Wir werden den Schulungscode später ebenfalls einführen.
Funktionsliste
Unbegrenzt lange Videos erzeugen
Naturgetreue virtuelle menschliche Bilder
Vielseitige Unterstützung: Image2Video, Text2Image2Video, Video2Video
Klare Modellstruktur und Anwendungsfälle
Schnellstart und Reasoning Scripts
Hilfe verwenden
Besuchen Sie die GitHub-Repositories für Updates und herunterladbare Ressourcen
Folgen Sie der Schnellstartanleitung für die Ersteinrichtung des Projekts
Verwenden Sie die mitgelieferten Inferenzskripte, um Videoinhalte zu erstellen.
Methode der kombinierten Nutzung:
Methode 1: Live-Videoaufnahme + Muse Talk
Methode 2: Bild + MuseV + Muse Talk
ein fertiges Produkt
Lassen Sie die Anime-Figur in einer Videoschleife aus einem Standbild sprechen. Die Lippen der Zeichentrickfigur selbst fehlen, was das Sprechen seltsam macht, beim nächsten Mal sollten Sie das Bild durch "Lippen" ersetzen, vorzugsweise durch eine "echte Person". 45 Sekunden Video im offiziellen Warten Sie etwa 15 Minuten auf die Testumgebung.
Video in ComfyUI-Workflows zum Sprechen bringen
Wir starten MuseTalk
MuseTalk ist ein hochwertiges Echtzeit-Mundsynchronisationsmodell (30fps+ auf NVIDIA Tesla V100). MuseTalk kann mit Eingabevideos, wie z. B. dem von MuseV generierten, als vollständige Avatarlösung verwendet werden.