AI Personal Learning
und praktische Anleitung
豆包Marscode1

SkyReels-V1: Open-Source-Videomodelle für die Erstellung von qualitativ hochwertigen Videos über menschliche Handlungen

Allgemeine Einführung

SkyReels-V1 ist ein Open-Source-Projekt, das vom SkyworkAI-Team entwickelt wurde und sich auf die Generierung hochwertiger, auf den Menschen bezogener Videoinhalte konzentriert. Das Projekt basiert auf HunyuanVideo SkyMovie ist das weltweit erste Basismodell für menschliche Action-Videos, das durch die Feinabstimmung von Millionen hochwertiger Film- und Fernsehclips erstellt wurde. Der Open-Source-Charakter von SkyReels-V1 hebt es von anderen Tools seiner Klasse ab und macht es für Kreative, Pädagogen und KI-Forscher geeignet, um es für Skizzen, Animationen oder die Erforschung von Technologien zu nutzen. Das Projekt wird auf GitHub gehostet. Das Projekt wird auf GitHub gehostet und bietet detaillierten Code, Modellgewichte und Dokumentation für Benutzer, um schnell loszulegen.

SkyReels-V1:生成高品质人体动作视频的开源视频模型-1


 

Funktionsliste

  • Text zu Video (T2V)Generieren Sie animierte Videos auf der Grundlage von Textbeschreibungen, die der Benutzer eingibt, z. B. "Eine Katze mit Sonnenbrille arbeitet als Rettungsschwimmer im Schwimmbad".
  • Bild zu Video (I2V)Konvertieren von Standbildern in bewegte Videos, wobei die ursprünglichen Bildmerkmale erhalten bleiben und natürliche Bewegungen hinzugefügt werden.
  • Erweiterte GesichtsanimationUnterstützt 33 subtile Ausdrücke und mehr als 400 Bewegungskombinationen, die menschliche Emotionen und Körpersprache genau wiedergeben.
  • Bild in KinoqualitätTraining mit hochwertigen Film- und Fernsehdaten, um professionelle Komposition, Lichteffekte und Kameraführung zu gewährleisten.
  • Effizienter Reasoning-RahmenSchnelle Videoerstellung durch SkyReelsInfer, das paralleles Rechnen mit mehreren GPUs unterstützt, um die Effizienz der Erstellung zu verbessern.
  • Flexible Anpassung der ParameterBenutzerdefinierbare Parameter wie Videoauflösung (z.B. 544x960), Bildrate (z.B. 97 fps) und Führungsskala.
  • Gewichtung von Open-Source-Modellen:: Bereitstellung von vortrainierten Modellen zum direkten Download und zur Sekundärentwicklung durch Entwickler.

 

Hilfe verwenden

Einbauverfahren

SkyReels-V1 ist ein Python-basiertes Tool, das eine gewisse Unterstützung der Hardware- und Softwareumgebung erfordert. Nachfolgend finden Sie die detaillierten Schritte zur Installation und Verwendung:

Anforderungen an die Umwelt

  • SoftwareEs wird empfohlen, Computer mit NVIDIA-GPUs wie RTX 4090 oder A800 zu verwenden, um CUDA-Unterstützung zu gewährleisten.
  • BetriebssystemWindows, Linux oder macOS (letzteres kann zusätzliche Konfiguration erfordern).
  • Software-AbhängigkeitPython 3.10+, CUDA 12.2, PyTorch, Git.

Installationsschritte

  1. Klon-Lager
    Öffnen Sie ein Terminal und geben Sie den folgenden Befehl ein, um den SkyReels-V1-Projektcode herunterzuladen:
git clone https://github.com/SkyworkAI/SkyReels-V1.git
cd SkyReels-V1

Dadurch wird ein lokaler Projektordner erstellt.

  1. Erstellen einer virtuellen Umgebung(fakultativ, aber empfohlen)
    Um Abhängigkeitskonflikte zu vermeiden, wird eine virtuelle Umgebung empfohlen:
conda create -n skyreels python=3.10
conda activate skyreels
  1. Installation von Abhängigkeiten
    Das Projekt bietet eine requirements.txt Datei, führen Sie den folgenden Befehl aus, um die erforderlichen Bibliotheken zu installieren:
pip install -r requirements.txt

Vergewissern Sie sich, dass das Netzwerk offen ist. Es kann einige Minuten dauern, bis die Installation abgeschlossen ist.

  1. Download Modellgewichte
    Die Modellgewichte für SkyReels-V1 werden auf Hugging Face gehostet und können lokal manuell oder durch Angabe des Pfades direkt über den Code heruntergeladen werden. Zugang Hugging Face ModellseiteHerunterladen SkyReels-V1-Hunyuan-T2V Ordner, der sich im Projektverzeichnis befindet (z. B. /path/to/SkyReels-V1/models).
  2. Überprüfen der Installation
    Führen Sie den Beispielbefehl aus, um zu testen, ob die Umgebung funktioniert:
python3 video_generate.py --model_id ./models/SkyReels-V1-Hunyuan-T2V --prompt "FPS-24, A dog running in a park"

Wenn keine Fehler gemeldet werden und ein Video erzeugt wird, ist die Installation erfolgreich.

Bedienung der Hauptfunktionen

Text zu Video (T2V)

  1. Vorbereiten von Stichwörtern
    Schreiben Sie einen Hinweis, der den Inhalt des Videos beschreibt. Er muss z. B. mit "FPS-24" beginnen:
FPS-24, A cat wearing sunglasses and working as a lifeguard at a pool
  1. Führen Sie den Befehl generate aus
    Geben Sie den folgenden Befehl in das Terminal ein:
python3 video_generate.py 
--model_id /path/to/SkyReels-V1-Hunyuan-T2V 
--guidance_scale 6.0 
--height 544 
--width 960 
--num_frames 97 
--prompt "FPS-24, A cat wearing sunglasses and working as a lifeguard at a pool" 
--embedded_guidance_scale 1.0 
--quant --offload --high_cpu_memory 
--gpu_num 1
  • --guidance_scaleSteuert die Intensität der Textsteuerung, empfohlen wird 6.0.
  • --height im Gesang antworten --widthEinstellen der Videoauflösung, Standard 544x960.
  • --num_framesErzeugt Bilder. 97 Bilder entsprechen etwa 4 Sekunden Video (24 FPS).
  • --quantund--offloadOptimieren Sie die Speichernutzung für Low-End-Geräte.
  1. Ausgabeergebnis
    Das erzeugte Video wird im Ordner results/skyreels mit einem Dateinamen aus Stichwort + Seed-Wert, z. B. FPS-24_A_cat_wearing_sunglasses_42_0.mp4.

Bild zu Video (I2V)

  1. Bereiten Sie das Bild vor
    Laden Sie ein Standbild (z. B. PNG oder JPG) hoch. Achten Sie darauf, dass es klar ist und eine empfohlene Auflösung von etwa 544x960 hat.
  2. Befehl ausführen
    erhöhen. --task_type i2v im Gesang antworten --image Parameter, zum Beispiel:
python3 video_generate.py 
--model_id /path/to/SkyReels-V1-Hunyuan-T2V 
--task_type i2v 
--guidance_scale 6.0 
--height 544 
--width 960 
--num_frames 97 
--prompt "FPS-24, A person dancing" 
--image ./input/cat_photo.png 
--embedded_guidance_scale 1.0
  1. Ergebnisse anzeigen
    Das Ausgabevideo generiert dynamische Inhalte auf der Grundlage des Bildes, das ebenfalls in der Datei results/skyreels Mappe.

Anpassung der Parameter zur Optimierung der Ergebnisse

  • Bildrate und Dauer:: Änderungen --num_frames im Gesang antworten --fps(Standardwert 24) oder 240 fps für 10-Sekunden-Videos.
  • Bildqualität:: Erhöhung --num_inference_steps(Standardwert 30), was die Detailgenauigkeit verbessert, aber länger dauert.
  • Multi-GPU-Unterstützung: Einstellungen --gpu_num für die Anzahl der verfügbaren GPUs zur Beschleunigung der Verarbeitung.

Featured Function Bedienung

Erweiterte Gesichtsanimation

Das zentrale Highlight von SkyReels-V1 ist seine Fähigkeit zur Gesichtsanimation. Der Cue beschreibt einen bestimmten Ausdruck (z.B. "überrascht" oder "lächelnd") und das Modell erzeugt automatisch einen von 33 Ausdrücken mit natürlichen Bewegungen. Zum Beispiel:

FPS-24, Eine herzhaft lachende Frau in einem Cafe

Nach der Generierung zeigen die Figuren im Video ein realistisches Lächeln und Mikrobewegungen mit Details, die mit denen von Live-Action vergleichbar sind.

Grafiken in Kinoqualität

SkyReels-V1 gibt standardmäßig Videos mit professioneller Beleuchtung und Komposition aus, ohne dass eine zusätzliche Konfiguration erforderlich ist. Fügen Sie dem Cue eine Szenenbeschreibung hinzu (z. B. "unter Neonlichtern bei Nacht"), um einen filmischeren Look zu erzielen.

caveat

  • Hardware-BeschränkungWenn der GPU-Speicher nicht ausreicht (z. B. weniger als 12 GB), empfiehlt es sich, die Option --quant im Gesang antworten --offloadoder reduzieren Sie die Auflösung auf 512x320.
  • SchlagworttechnikPrägnante und spezifische Beschreibungen sind am besten, vermeiden Sie vage Worte.
  • Unterstützung der GemeinschaftBesuchen Sie die GitHub Issues-Seite, um Feedback einzureichen oder die Diskussionen in der Community zu verfolgen.

Mit diesen Schritten können Benutzer leicht mit SkyReels-V1 beginnen und hochwertige Videoinhalte erstellen, egal ob es sich um kurze Skizzen oder Animationsexperimente handelt.

Darf nicht ohne Genehmigung vervielfältigt werden:Leiter des AI-Austauschkreises " SkyReels-V1: Open-Source-Videomodelle für die Erstellung von qualitativ hochwertigen Videos über menschliche Handlungen
de_DEDeutsch