Wan2.1: Erzeugung von Videos in hoher Qualität auf Consumer-GPUs

Neueste AI-RessourcenAktualisiert vor 7 Monaten AI-Austauschkreis

22.6K 00

Allgemeine Einführung

Wan2.1 ist eine vom Wan-Video-Team entwickelte und auf GitHub freigegebene Suite von Tools zur Videoerstellung, die sich darauf konzentriert, die Grenzen der Videoerstellung durch die Technologie der künstlichen Intelligenz zu verschieben. Basierend auf einer fortschrittlichen Diffusionskonverter-Architektur integriert es einen einzigartigen zeitvariablen Auto-Encoder (Wan-VAE), der Text-zu-Video, Bild-zu-Video usw. unterstützt. Die Highlights von Wan2.1 sind seine hervorragende Leistung und die Unterstützung von Consumer-Grade-Hardware, wie z. B. das T2V-1.3B-Modell, das nur 8,19 GB Videospeicher für die Ausführung benötigt und 5-Sekunden-480P-Videos auf der RTX 4090 erzeugt. Video auf der RTX 4090. Das Projekt bietet nicht nur effiziente Funktionen zur Videoerstellung, sondern unterstützt auch die Codierung und Decodierung von 1080P-Videos ohne Längenbeschränkung, wodurch es für Inhaltsersteller, Entwickler und akademische Forschungsteams weithin anwendbar ist.

Funktionsliste

Text zu VideoDynamische Videoinhalte auf der Grundlage von eingegebenen Textbeschreibungen generieren und mehrsprachige Texteingaben unterstützen.
Bild-zu-Video (Bild-zu-Video)Konvertierung von Standbildern in bewegte Videos unter Beibehaltung der ursprünglichen Proportionen und der natürlichen Bewegung des Bildes.
VideobearbeitungÄndern oder optimieren Sie bestehende Videos mit Hilfe von KI-Technologie.
Unterstützt hochauflösende AusgabeVideos mit 480P und 720P können erstellt werden, und einige Modelle unterstützen 1080P ohne Längenbegrenzung.
Wan-VAE-Technik:: Bietet eine effiziente zeitliche Komprimierung, unterstützt die Erzeugung langer Videos und behält die zeitlichen Informationen bei.
GPU-Optimierung für Verbraucher:: Läuft auf handelsüblicher Hardware, was die Hürde für die Nutzung senkt.
Multitasking-UnterstützungUmfasst Text-zu-Bild-, Video-zu-Audio- und andere Erweiterungen.
Erstellung chinesischer und englischer TexteGenerieren Sie klaren chinesischen und englischen Text in Videos.

Hilfe verwenden

Wan2.1 ist ein leistungsfähiges Open-Source-Tool zur Videoerstellung für Benutzer, die schnell hochwertige Videoinhalte erstellen möchten. Nachfolgend finden Sie eine detaillierte Installations- und Nutzungsanleitung, die Ihnen den schnellen Einstieg erleichtert.

Einbauverfahren

Die Installation von Wan2.1 erfordert einige technische Kenntnisse, hauptsächlich über das GitHub-Repository, um den Code und die Modellgewichte zu erhalten. Hier sind die Schritte:

1. die Vorbereitung der Umwelt

BetriebssystemUnterstützung für Windows, Linux oder macOS.
Hardware-VoraussetzungGPUs mit mindestens 8 GB Videospeicher (z. B. RTX 3060 Ti oder 4090), Nvidia-GPUs werden empfohlen.
Software-AbhängigkeitPython 3.10+, Git, Grafiktreiber und CUDA (bei Verwendung einer GPU).
Installation von PythonLaden Sie Python 3.10 oder höher von der offiziellen Website herunter und aktivieren Sie während der Installation das Kontrollkästchen "Python zu PATH hinzufügen".

2. das Herunterladen von Code und Modellen

Öffnen Sie ein Terminal oder eine Befehlszeile und geben Sie den folgenden Befehl ein, um das Repository zu klonen:

git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1

Installieren Sie abhängige Bibliotheken:

pip install -r requirements.txt

Laden Sie die Modellgewichte von Hugging Face herunter (T2V-1.3B als Beispiel):

pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-T2V-1.3B --local-dir ./Wan2.1-T2V-1.3B

Optionale Modelle: T2V-14B (höhere Leistung, erfordert mehr Videospeicher), I2V-480P/720P.

3. die Konfigurationsumgebung

Wenn der Videospeicher knapp ist, aktivieren Sie die Optimierungsparameter (z. B. --offload_model True im Gesang antworten --t5_cpu).
Stellen Sie sicher, dass der GPU-Treiber und CUDA korrekt installiert sind, indem Sie den nvidia-smi Prüfen.

4. die Überprüfung der Installation

Führen Sie den folgenden Befehl aus, um die Umgebung zu testen:

python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --prompt "测试视频生成"

Wenn die Videodatei ausgegeben wird, ist die Installation erfolgreich.

Funktion Betriebsablauf

Text zu Video

Vorbereiteter Text:: Schreiben Sie beschreibende Aufforderungen, z. B. "Eine Katze läuft anmutig über das Gras, während die Kamera ihr folgt."
Befehl ausführen:

python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --prompt "A cute cat walking gracefully on a lush green field"

Parametrisierung:

--sizeEinstellen der Auflösung (z.B. 832)480 oder 1280720).
--offload_model TrueOptimierung für niedrigen Videospeicher.
--sample_shift 8 --sample_guide_scale 6:: Verbesserung der Qualität der Erzeugung.

AusfuhrenDas erzeugte Video wird im aktuellen Verzeichnis gespeichert und ist etwa 5 Sekunden lang.

Bild-zu-Video (Bild-zu-Video)

Bereiten Sie das Bild vorHochladen eines JPG/PNG-Bildes (z. B. input.jpg).
Befehl ausführen:

python generate.py --task i2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-I2V-14B-720P --image input.jpg --prompt "Summer beach vacation style"

am EndeDas Modell erzeugt ein dynamisches Video auf der Grundlage des Bildes, wobei die ursprünglichen Proportionen und die natürliche Bewegung erhalten bleiben.

Videobearbeitung

Eingang Video: Bereiten Sie eine vorhandene Videodatei vor.
Redaktionelle ArbeitenDiffSynth-Studio: Verwenden Sie ein Tool wie DiffSynth-Studio (Wan 2.1 unterstützt Erweiterungen), um das entsprechende Modul von der Kommandozeile aus aufzurufen.
Beispielbefehl (Rechnen)Siehe die GitHub-Dokumentation für spezifische Parameter, und grundlegende Bearbeitung wird derzeit unterstützt.

Hochauflösende Ausgabe

Bei Verwendung des Modells T2V-14B oder I2V-720P stellen Sie den --size 1280*720Die neueren Grafikkarten benötigen mehr Speicher (etwa 17 GB).
Wan-VAE unterstützt 1080P ohne Längenbeschränkung, geeignet für die Erzeugung langer Videos.

Generierung von chinesischem und englischem Text

Fügen Sie eine textliche Beschreibung in die Aufforderung ein, z. B. "Ein Schild mit der Aufschrift 'Welcome' in Englisch und Chinesisch".
Führen Sie den Befehl Text in Video aus, und das Modell bettet automatisch Klartext in das Video ein.

Tipps und Tricks

Leistung optimierenFür Low-End-Hardware werden 1,3B-Modelle und 480P-Auflösung empfohlen; für High-End-Hardware sollten Sie 14B und 720P verwenden.
Vorschläge für StichwortwörterVerbessern Sie die Qualität der Erstellung, indem Sie detaillierte Beschreibungen verwenden (z. B. Handlung, Szene, Beleuchtung).
Unterstützung der Gemeinschaft: Treten Sie den Diskussionsgruppen auf GitHub Issues oder Discord bei, um Hilfe zu erhalten.

Mit diesen Schritten können Sie mit Wan2.1 problemlos professionelle Videoinhalte für kreative Präsentationen und akademische Forschung erstellen.