AI Personal Learning
und praktische Anleitung
Sitzsack Marscode1

Wan2.1: Erzeugung von Videos in hoher Qualität auf Consumer-GPUs

Allgemeine Einführung

Wan2.1 ist eine vom Wan-Video-Team entwickelte und auf GitHub freigegebene Suite von Tools zur Videoerstellung, die sich darauf konzentriert, die Grenzen der Videoerstellung durch die Technologie der künstlichen Intelligenz zu verschieben. Basierend auf einer fortschrittlichen Diffusionskonverter-Architektur integriert es einen einzigartigen zeitvariablen Auto-Encoder (Wan-VAE), der Text-zu-Video, Bild-zu-Video usw. unterstützt. Die Highlights von Wan2.1 sind seine hervorragende Leistung und die Unterstützung von Consumer-Grade-Hardware, wie z. B. das T2V-1.3B-Modell, das nur 8,19 GB Videospeicher für die Ausführung benötigt und 5-Sekunden-480P-Videos auf der RTX 4090 erzeugt. Video auf der RTX 4090. Das Projekt bietet nicht nur effiziente Funktionen zur Videoerstellung, sondern unterstützt auch die Codierung und Decodierung von 1080P-Videos ohne Längenbeschränkung, wodurch es für Inhaltsersteller, Entwickler und akademische Forschungsteams weithin anwendbar ist.

Ähnliche Geschichte:Videogenerierungsmodell VBench führt die Charts an... An der Spitze der Charts - WanX 2.1 wird bald Open Source sein!


Wan2.1: Erzeugung von Videos in hoher Qualität auf Consumer-GPUs-1

 

Funktionsliste

  • Text zu VideoDynamische Videoinhalte auf der Grundlage von eingegebenen Textbeschreibungen generieren und mehrsprachige Texteingaben unterstützen.
  • Bild-zu-Video (Bild-zu-Video)Konvertierung von Standbildern in bewegte Videos unter Beibehaltung der ursprünglichen Proportionen und der natürlichen Bewegung des Bildes.
  • VideobearbeitungÄndern oder optimieren Sie bestehende Videos mithilfe von KI-Technologie.
  • Unterstützt hochauflösende AusgabeVideos mit 480P und 720P können erstellt werden, und einige Modelle unterstützen 1080P ohne Längenbegrenzung.
  • Wan-VAE-Technik:: Bietet eine effiziente zeitliche Komprimierung, unterstützt die Erzeugung langer Videos und behält die zeitlichen Informationen bei.
  • GPU-Optimierung für Verbraucher:: Läuft auf handelsüblicher Hardware, was die Hürde für die Nutzung senkt.
  • Multitasking-UnterstützungUmfasst Text-zu-Bild-, Video-zu-Audio- und andere Erweiterungen.
  • Erstellung chinesischer und englischer TexteGenerieren Sie klaren chinesischen und englischen Text in Videos.

 

Hilfe verwenden

Wan2.1 ist ein leistungsfähiges Open-Source-Tool zur Videoerstellung für Benutzer, die schnell hochwertige Videoinhalte erstellen möchten. Nachfolgend finden Sie eine detaillierte Installations- und Nutzungsanleitung, die Ihnen den schnellen Einstieg erleichtert.

Ablauf der Installation

Die Installation von Wan2.1 erfordert einige technische Kenntnisse, hauptsächlich über das GitHub-Repository, um den Code und die Modellgewichte zu erhalten. Hier sind die Schritte:

1. die Vorbereitung der Umwelt

  • BetriebssystemUnterstützung für Windows, Linux oder macOS.
  • Hardware-VoraussetzungGPUs mit mindestens 8 GB Videospeicher (z. B. RTX 3060 Ti oder 4090), Nvidia-GPUs werden empfohlen.
  • Software-AbhängigkeitPython 3.10+, Git, Grafiktreiber und CUDA (bei Verwendung einer GPU).
  • Installation von PythonLaden Sie Python 3.10 oder höher von der offiziellen Website herunter und aktivieren Sie während der Installation das Kontrollkästchen "Python zu PATH hinzufügen".

2. das Herunterladen von Code und Modellen

  1. Öffnen Sie ein Terminal oder eine Befehlszeile und geben Sie den folgenden Befehl ein, um das Repository zu klonen:
git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1
  1. Installieren Sie abhängige Bibliotheken:
pip install -r anforderungen.txt
  1. Laden Sie die Modellgewichte von Hugging Face herunter (T2V-1.3B als Beispiel):
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-T2V-1.3B --local-dir . /Wan2.1-T2V-1.3B
  • Optionale Modelle: T2V-14B (höhere Leistung, erfordert mehr Videospeicher), I2V-480P/720P.

3. die Konfigurationsumgebung

  • Wenn der Videospeicher knapp ist, aktivieren Sie die Optimierungsparameter (z. B. --offload_model Wahr im Gesang antworten ---t5_cpu).
  • Stellen Sie sicher, dass der GPU-Treiber und CUDA korrekt installiert sind, indem Sie den nvidia-smi Prüfen.

4. die Überprüfung der Installation

Führen Sie den folgenden Befehl aus, um die Umgebung zu testen:

python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir . /Wan2.1-T2V-1.3B --prompt "test video generation"

Wenn die Videodatei ausgegeben wird, ist die Installation erfolgreich.

Funktion Betriebsablauf

Text zu Video

  1. Vorbereiteter Text:: Schreiben Sie beschreibende Aufforderungen, z. B. "Eine Katze läuft anmutig über das Gras, während die Kamera ihr folgt."
  2. Befehl ausführen:
python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir . /Wan2.1-T2V-1.3B --prompt "Eine niedliche Katze, die anmutig auf einer saftig grünen Wiese spaziert"
  1. Parametrisierung:
  • -GrößeAuflösung einstellen (z.B. 832)480 oder 1280720).
  • --offload_model WahrOptimierung für niedrigen Videospeicher.
  • --sample_shift 8 --sample_guide_scale 6:: Verbesserung der Qualität der Erzeugung.
  1. AusfuhrenDas erzeugte Video wird im aktuellen Verzeichnis gespeichert und ist etwa 5 Sekunden lang.

Bild-zu-Video (Bild-zu-Video)

  1. Vorbereiten des BildesHochladen eines JPG/PNG-Bildes (z. B. Eingabe.jpg).
  2. Befehl ausführen:
python generate.py --task i2v-14B --size 1280*720 --ckpt_dir . /Wan2.1-I2V-14B-720P --image input.jpg --prompt "Sommerstrandurlaub im Stil"
  1. am EndeDas Modell erzeugt ein dynamisches Video auf der Grundlage des Bildes, wobei die ursprünglichen Proportionen und natürlichen Bewegungen erhalten bleiben.

Videobearbeitung

  1. Eingang Video: Bereiten Sie eine vorhandene Videodatei vor.
  2. Redaktionelle ArbeitenDiffSynth-Studio: Verwenden Sie ein Tool wie DiffSynth-Studio (Wan 2.1 unterstützt Erweiterungen), um das entsprechende Modul von der Kommandozeile aus aufzurufen.
  3. Beispielbefehl (Rechnen)Siehe die GitHub-Dokumentation für spezifische Parameter, und grundlegende Bearbeitung wird derzeit unterstützt.

Hochauflösende Ausgabe

  • Bei Verwendung des Modells T2V-14B oder I2V-720P stellen Sie den -Größe 1280*720Die neueren Grafikkarten benötigen mehr Speicher (etwa 17 GB).
  • Wan-VAE unterstützt 1080P ohne Längenbeschränkung, geeignet für die Erzeugung langer Videos.

Generierung von chinesischem und englischem Text

  1. Fügen Sie eine textliche Beschreibung in die Aufforderung ein, z. B. "Ein Schild mit der Aufschrift 'Welcome' in Englisch und Chinesisch".
  2. Führen Sie den Befehl Text in Video aus, und das Modell bettet automatisch Klartext in das Video ein.

Tipps & Tricks

  • Leistung optimierenFür Low-End-Hardware werden 1,3B-Modelle und 480P-Auflösung empfohlen; für High-End-Hardware sollten Sie 14B und 720P verwenden.
  • Vorschläge für StichwortwörterVerbessern Sie die Qualität der Erstellung, indem Sie detaillierte Beschreibungen verwenden (z. B. Handlung, Szene, Beleuchtung).
  • Unterstützung der Gemeinschaft: Treten Sie den Diskussionsgruppen auf GitHub Issues oder Discord bei, um Hilfe zu erhalten.

Mit diesen Schritten können Sie mit Wan2.1 problemlos professionelle Videoinhalte für kreative Präsentationen und akademische Forschung erstellen.

CDN1
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " Wan2.1: Erzeugung von Videos in hoher Qualität auf Consumer-GPUs

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)