Plug-in für ComfyUI zur Bereitstellung von Videogenerierungsfunktionen auf der Grundlage von Wan 2.1

Neueste AI-RessourcenGeschrieben vor 6 Monaten AI-Austauschkreis

27.8K 00

Allgemeine Einführung

ComfyUI-WanVideoWrapper ist ein Open-Source-Plugin des Entwicklers kijai, entwickelt für ComfyUI Plattform-Design. Sie basiert auf WanVideo's Wan2.1 Modell, bietet leistungsstarke Funktionen zur Videoerzeugung und -verarbeitung. Benutzer können es für die Konvertierung von Bild zu Video (I2V), Text zu Video (T2V) und Video zu Video (V2V) verwenden. Das Plugin eignet sich für KI-Enthusiasten, Videoersteller und Benutzer, die ein effizientes Tool benötigen. Das Projekt wird auf GitHub gehostet und hat bis März 2025 über 1300 Sterne und eine aktive Community erhalten. Es ist immer noch als "Work in Progress" gekennzeichnet und die Funktionen werden verbessert.

Funktionsliste

Bild zu Video (I2V)Konvertierung von Standbildern in bewegte Videos mit Unterstützung für benutzerdefinierte Bildraten und Auflösungen.
Text zu Video (T2V)Generierung von Videos auf der Grundlage von Textbeschreibungen mit einstellbaren Generierungsparametern.
Video zu Video (V2V)Verbessern Sie vorhandene Videos oder ändern Sie den Stil, damit die Action nicht abreißt.
Wan2.1 Modellunterstützung: Verwendung von Wan2.1's Transformator und VAE-Modelle und ist auch mit den nativen ComfyUI-Codierungsmodulen kompatibel.
Erzeugung langer VideosUnterstützung für die Erstellung von Videos mit mehr als 1000 Bildern durch Einstellungen für Fenstergröße und Überlappung.
LeistungsoptimierungUnterstützung von torch.compile zur Verbesserung der Generierungsgeschwindigkeit.

Hilfe verwenden

Einbauverfahren

Um ComfyUI-WanVideoWrapper zu verwenden, müssen Sie zunächst ComfyUI installieren und das Plugin hinzufügen. Nachfolgend finden Sie die detaillierten Schritte:

ComfyUI installieren
- Laden Sie das Hauptprogramm von ComfyUI von GitHub herunter (https://github.com/comfyanonymous/ComfyUI).
- Entpacken Sie lokal, z. B. C:\ComfyUI.
- existieren ComfyUI_windows_portable Datei läuft run_nvidia_gpu.bat Start (Windows-Benutzer).
Installieren Sie das WanVideoWrapper-Plugin
- Wechseln Sie in das ComfyUI-Stammverzeichnis im Verzeichnis custom_nodes Mappe.
- Klonen Sie das Plugin mit dem Git-Befehl:
```
git clone https://github.com/kijai/ComfyUI-WanVideoWrapper.git
```
- Wechseln Sie in das Plugin-Verzeichnis:
```
cd ComfyUI-WanVideoWrapper
```
- Installieren Sie die Abhängigkeit:
```
python_embeded\python.exe -m pip install -r requirements.txt
```
  - Wenn Sie die portable Version verwenden, wird die ComfyUI_windows_portable Ordner zu starten:
```
python_embeded\python.exe -m pip install -r ComfyUI\custom_nodes\ComfyUI-WanVideoWrapper\requirements.txt
```
Wan2.1-Modell herunterladen
- Besuchen Sie das Hugging Face Model Repository (https://huggingface.co/Kijai/WanVideo_comfy).
- Laden Sie die erforderlichen Dokumente herunter:
  - Textkodierer in ComfyUI/models/text_encoders.
  - Das Transformatormodell wird in der ComfyUI/models/diffusion_models.
  - Platzierung des VAE-Modells ComfyUI/models/vae.
- Das ursprüngliche Modell kann auch durch den ComfyUI-eigenen Text-Encoder und CLIP Vision ersetzt werden.
ComfyUI starten
- Sobald die Installation abgeschlossen ist, starten Sie ComfyUI neu und der Plugin-Knoten wird automatisch in die Schnittstelle geladen.

Hauptfunktionen

1) Bild zu Video (I2V)

vorläufigStellen Sie sicher, dass das Wan2.1-Modell und die VAE geladen sind.
Verfahren:
1. Hinzufügen der ComfyUI-Schnittstelle WanVideoModelLoader Knoten das Modell Wan2.1 I2V aus.
2. erhöhen. WanVideoVAELoader Knoten, um das VAE-Modell zu laden.
3. Kosten oder Aufwand Load Image Knoten, um ein Bild hochzuladen.
4. erhöhen. WanVideoSampler legen Sie die Anzahl der Bilder (z. B. 81 Bilder) und die Auflösung (z. B. 512x512) fest.
5. Mörtel VHS_VideoCombine legen Sie die Bildrate (z.B. 16fps) und das Ausgabeformat (z.B. MP4) fest.
6. Klicken Sie auf "Generieren" und das Ergebnis wird gespeichert unter ComfyUI/output Mappe.
zur Kenntnis nehmenOffizielle Tests zeigen, dass 512x512x81 Bilder etwa 16 GB Videospeicher beanspruchen, was durch eine geringere Auflösung reduziert werden kann.

2. text-zu-video (T2V)

vorläufig:: Bereiten Sie Textbeschreibungen vor, z. B. "Stadtstraßen bei Nacht".
Verfahren:
1. erhöhen. LoadWanVideoT5TextEncoder Knoten (oder mit dem ComfyUI-eigenen CLIP-Modell).
2. erhöhen. WanVideoTextEncode Knoten den Text ein.
3. Mörtel WanVideoModelLoader im Gesang antworten WanVideoSampler legen Sie die Anzahl der Bilder (z. B. 256) und die Auflösung (z. B. 720p) fest.
4. erhöhen. WanVideoDecode Knoten Dekodierung.
5. Kosten oder Aufwand VHS_VideoCombine Der Knoten gibt Video aus.
6. Klicken Sie auf "Generieren", die Generierungszeit hängt von der Hardware ab.
auf etw. aufmerksam machenIm offiziellen Beispiel erzeugt das 1.3B T2V Modell 1025 Frames mit 5GB RAM in 10 Minuten (RTX 5090).

3. von Video zu Video (V2V)

vorläufigBereiten Sie ein kurzes Video (MP4-Format) vor.
Verfahren:
1. Kosten oder Aufwand VHS_LoadVideo Der Knoten lädt das Video.
2. erhöhen. WanVideoEncode Node-codiertes Video.
3. Mörtel WanVideoSampler Knoten, um die Anreicherungsparameter anzupassen.
4. erhöhen. WanVideoDecode Knoten Dekodierung.
5. Kosten oder Aufwand VHS_VideoCombine Der Knoten gibt die Ergebnisse aus.
6. Klicken Sie auf "Generieren", um die Erweiterung abzuschließen.
typisches BeispielOffizielle Prüfung von V2V mit dem Modell 14B T2V ergibt bessere Ergebnisse.

4. die Erstellung von Videos in Langform

Verfahren:
1. existieren WanVideoSampler Der Knoten legt die Anzahl der Bilder fest (z. B. 1025 Bilder).
2. Legen Sie die Fenstergröße (z. B. 81 Bilder) und den Überlappungswert (z. B. 16) fest, um eine gleichmäßige Bewegung zu gewährleisten.
3. Die übrigen Schritte sind die gleichen wie bei T2V oder I2V.
Hardware-VoraussetzungGrafikprozessoren mit hohem Videospeicher (z. B. 24 GB) werden empfohlen, und die Bildwiederholrate kann auf leistungsschwächeren Rechnern reduziert werden.

Ausgewählte Funktionen

Wan2.1-KernunterstützungDas Plugin basiert auf dem Wan2.1-Modell und bietet effiziente Möglichkeiten zur Videoerzeugung.
Kompatibel mit nativen ComfyUI-ModulenComfyUI's eigener Text-Encoder und CLIP Vision können ohne zusätzliche Modelle verwendet werden.
Erzeugung langer VideosUnterstützung für ultralange Videos mit Fenster- und Überlappungseinstellungen und stabile Leistung mit 1025 fps in offiziellen Tests.
LeistungsoptimierungUnterstützung für torch.compile, was die Generierungsgeschwindigkeit deutlich erhöht.

allgemeine Probleme

Knoten nicht angezeigtÜberprüfen Sie, ob die Installation der Abhängigkeiten abgeschlossen ist, oder starten Sie ComfyUI neu.
unzureichender VideospeicherVerringern Sie die Auflösung oder die Bildwiederholrate, die offiziell empfohlen wird, je nach Hardware angepasst zu werden.
ModellpfadfehlerVergewissern Sie sich, dass das Modell in den richtigen Ordner eingeordnet ist, siehe die offiziellen Anweisungen.