SkyReels V2 : un outil d'IA open source pour générer des vidéos de longueur illimitée
Introduction générale
SkyReels-V2 est un modèle de génération vidéo open source développé par SkyworkAI. Il prend en charge la génération de vidéos de longueur illimitée grâce à des techniques avancées de forçage par diffusion pour les tâches texte-vidéo (T2V) et image-vidéo (I2V). Les utilisateurs peuvent générer un contenu vidéo de qualité cinématographique à partir de descriptions textuelles ou d'images d'entrée. Le modèle a fait ses preuves dans la communauté open source, avec des performances comparables à celles de modèles commerciaux tels que Kling et Runway-Gen4. Il fournit des modèles d'inférence flexibles adaptés aux développeurs, aux créateurs et aux chercheurs, et le code et les poids du modèle pour SkyReels-V2 sont publiquement disponibles sur GitHub pour un téléchargement et un déploiement faciles.

Liste des fonctions
- Génération de vidéos de longueur illimitéeLes vidéos peuvent être générées à partir de n'importe quelle longueur, qu'il s'agisse d'un court ou d'un long métrage.
- Du texte à la vidéo (T2V)Générer du contenu vidéo correspondant à la description par le biais d'invites textuelles.
- De l'image à la vidéo (I2V)Générer une vidéo dynamique sur la base de l'image d'entrée, en conservant les caractéristiques de l'image.
- soutien multimodal: Combinaison de la modélisation du langage à grande échelle (MLLM) et de l'apprentissage par renforcement pour améliorer la qualité de la génération vidéo.
- Génération d'histoiresLes vidéos de la série "Storyboards" : générer automatiquement des storyboards vidéo qui correspondent à la logique de la narration.
- contrôle de la caméraLe point de vue du réalisateur : Il permet de personnaliser les angles de vue et les mouvements de la caméra.
- Cohérence multi-sujetsLe système SkyReels-A2 permet d'assurer la cohérence visuelle des vidéos multirôles.
- Cadre de raisonnement efficaceLa technologie de l'information et de la communication (TIC) : elle prend en charge le raisonnement multi-GPU afin d'optimiser la vitesse de génération et l'utilisation des ressources.
Utiliser l'aide
Processus d'installation
SkyReels-V2 est un projet open source basé sur Python, vous devez configurer l'environnement localement ou sur le serveur. Voici les étapes détaillées de l'installation :
- entrepôt de clones
Ouvrez un terminal et exécutez la commande suivante pour obtenir le code SkyReels-V2 :git clone https://github.com/SkyworkAI/SkyReels-V2 cd SkyReels-V2
- Créer un environnement virtuel
Il est recommandé de créer un environnement virtuel utilisant Python 3.10.12 pour éviter les conflits de dépendance :conda create -n skyreels-v2 python=3.10 conda activate skyreels-v2
- Installation des dépendances
Installez les bibliothèques Python nécessaires au projet et exécutez-le :pip install -r requirements.txt
- Télécharger le modèle de poids
Les poids modèles pour SkyReels-V2 sont hébergés sur Hugging Face. Téléchargez-les à l'aide de la commande suivante :pip install -U "huggingface_hub[cli]" huggingface-cli download Skywork/SkyReels-V2 --local-dir ./models
Assurez-vous que vous disposez de suffisamment d'espace disque (la taille des modèles peut atteindre plusieurs dizaines de gigaoctets).
- exigences en matière de matériel
- configuration minimaleRTX 4090 monobloc (24 Go de VRAM) avec prise en charge du FP8 pour réduire quantitativement les besoins en mémoire.
- Configurations recommandéesLes GPU : Plusieurs GPU (par exemple, 4 à 8 A100) pour permettre une inférence parallèle efficace.
- Au moins 32 Go de mémoire système et 100 Go d'espace disque.
Utilisation
SkyReels-V2 propose deux fonctions principales : Text to Video (T2V) et Image to Video (I2V). La procédure d'utilisation spécifique est décrite ci-dessous :
Du texte à la vidéo (T2V)
- Préparation des indices
Rédigez des messages-guides décrivant le contenu de la vidéo, par exemple :A serene lake surrounded by towering mountains, with swans gliding across the water.
Des repères négatifs peuvent être ajoutés pour éviter les éléments indésirables :
low quality, deformation, bad composition
- Exécuter le script généré
modificationsgenerate_video.py
définir la résolution, la fréquence d'images, etc :python generate_video.py --model_id "Skywork/SkyReels-V2-T2V-14B-540P" --prompt "A serene lake surrounded by mountains" --num_frames 97 --fps 24 --outdir ./output
--model_id
Sélectionnez le modèle (par exemple 540P ou 720P).--num_frames
: Définit la fréquence d'images vidéo (97 par défaut).--fps
: Fréquence d'images (24 par défaut).--outdir
Chemin d'enregistrement de la vidéo de sortie : Chemin d'enregistrement de la vidéo de sortie.
- Voir la sortie
La vidéo générée sera enregistrée au format MP4, par exemple.output/serene_lake_42_0.mp4
.
De l'image à la vidéo (I2V)
- Préparation de l'image d'entrée
Fournir une image de haute qualité (par exemple PNG ou JPG), en veillant à ce que la résolution corresponde au modèle (960x544 par défaut). - Exécuter le script généré
existentgenerate_video.py
Spécifiez le chemin d'accès à l'image dans le champpython generate_video.py --model_id "Skywork/SkyReels-V2-I2V-14B-540P" --prompt "A warrior fighting in a forest" --image ./input_image.jpg --num_frames 97 --fps 24 --outdir ./output
--image
: Saisir le chemin d'accès à l'image.- Les autres paramètres sont similaires à ceux du T2V.
- Paramètres d'optimisation
- utiliser
--guidance_scale
(Défaut 6.0) Règle l'intensité de la direction du texte. - utiliser
--inference_steps
(par défaut 30) Contrôle la qualité de la génération, plus il y a d'étapes, plus la qualité est élevée, mais plus cela prend de temps. - commencer à utiliser
--offload
Utilisation optimisée de la mémoire pour les périphériques à faible mémoire graphique.
- utiliser
Fonction en vedette Fonctionnement
- Durée illimitée de la vidéo
SkyReels-V2 utilise la technologie de forçage par diffusion pour permettre la génération de vidéos très longues. Exécuter des scripts d'inférence de vidéos longues :python inference_long_video.py --model_id "Skywork/SkyReels-V2-T2V-14B-720P" --prompt "A sci-fi movie scene" --num_frames 1000
- Il est recommandé de les générer par segments de 97 à 192 images chacun, puis de les assembler à l'aide d'outils de post-production.
- Génération d'histoires
Utilisez la fonction Story Generation du système SkyReels-A2 pour entrer une description de l'intrigue :A hero’s journey through a futuristic city, facing challenges.
La course à pied :
python story_generate.py --prompt "A hero’s journey" --output story_video.mp4
Le système génère des vidéos contenant des story-boards, en organisant automatiquement les scènes et les prises de vue.
- contrôle de la caméra
faire passer (un projet de loi, une inspection, etc.)--camera_angle
définit la vue de l'objectif (par exemple, "frontale" ou "de profil") :python generate_video.py --prompt "A car chase" --camera_angle "profile" --outdir ./output
- Cohérence multi-sujets
SkyReels-A2 prend en charge les scènes à plusieurs personnages. Fournit plusieurs images de référence à exécuter :python multi_subject.py --prompt "Two characters talking" --images "char1.jpg,char2.jpg" --outdir ./output
Veillez à ce que les personnages soient visuellement cohérents dans la vidéo.
Optimisation et débogage
- déficit de mémoire: Activer
--quant
Quantification à l'aide du FP8, ou--offload
Décharger l'unité centrale de certains calculs. - Générer de la qualité: Augmentation
--inference_steps
(par exemple 50) ou ajuster--guidance_scale
(par exemple, 8.0). - Soutien communautaire: Consultez GitHub Issues en cas de problème ou rejoignez le groupe de discussion. SkyReels Discussion communautaire.
scénario d'application
- Création d'une courte vidéo
Les créateurs peuvent utiliser la fonction T2V pour générer rapidement de courts clips vidéo à partir d'un texte, adaptés à la production de contenu pour les médias sociaux. - Préproduction de films
Les réalisateurs peuvent utiliser les fonctions de génération de vidéos et d'histoires de longueur illimitée pour créer des bandes-annonces ou des films conceptuels, réduisant ainsi les coûts initiaux. - Vitrine virtuelle du commerce électronique
Utilisez la fonction I2V pour transformer les photos de produits en vidéos dynamiques afin de montrer comment le produit est utilisé dans une scène virtuelle. - Animation pédagogique
Les enseignants peuvent générer des animations pédagogiques à partir de descriptions textuelles afin de visualiser des concepts complexes, tels que le processus d'une expérience scientifique. - développement de jeux
Les développeurs peuvent générer des scènes de jeu ou des animations de personnages à utiliser comme matériel pour le prototypage ou les transitions.
QA
- Quelles sont les résolutions prises en charge par SkyReels-V2 ?
Il prend actuellement en charge les formats 540P (960x544) et 720P (1280x720), avec la possibilité de passer à des résolutions plus élevées à l'avenir. - De combien de mémoire vidéo ai-je besoin pour le faire fonctionner ?
Une seule RTX 4090 (24 Go) peut exécuter un raisonnement de base, et les configurations multi-GPU peuvent accélérer les vidéos brutes et cultivées. - Comment améliorer la qualité des vidéos générées ?
Augmenter le nombre d'étapes de raisonnement (--inference_steps
), optimiser les mots d'incitation ou utiliser des images d'entrée de haute qualité. - Prend-il en charge la génération en temps réel ?
Actuellement, la génération hors ligne, la génération en temps réel nécessite un support matériel plus important et pourrait être optimisée à l'avenir. - Les poids modèles sont-ils gratuits ?
Oui, SkyReels-V2 est entièrement open source et les poids peuvent être téléchargés gratuitement sur Hugging Face.
© déclaration de droits d'auteur
L'article est protégé par le droit d'auteur et ne doit pas être reproduit sans autorisation.
Articles connexes
Pas de commentaires...