SkyReels V2 : un outil d'IA open source pour générer des vidéos de longueur illimitée

Introduction générale

SkyReels-V2 est un modèle de génération vidéo open source développé par SkyworkAI. Il prend en charge la génération de vidéos de longueur illimitée grâce à des techniques avancées de forçage par diffusion pour les tâches texte-vidéo (T2V) et image-vidéo (I2V). Les utilisateurs peuvent générer un contenu vidéo de qualité cinématographique à partir de descriptions textuelles ou d'images d'entrée. Le modèle a fait ses preuves dans la communauté open source, avec des performances comparables à celles de modèles commerciaux tels que Kling et Runway-Gen4. Il fournit des modèles d'inférence flexibles adaptés aux développeurs, aux créateurs et aux chercheurs, et le code et les poids du modèle pour SkyReels-V2 sont publiquement disponibles sur GitHub pour un téléchargement et un déploiement faciles.

SkyReels V2:生成无限长度视频的开源AI工具

 

Liste des fonctions

  • Génération de vidéos de longueur illimitéeLes vidéos peuvent être générées à partir de n'importe quelle longueur, qu'il s'agisse d'un court ou d'un long métrage.
  • Du texte à la vidéo (T2V)Générer du contenu vidéo correspondant à la description par le biais d'invites textuelles.
  • De l'image à la vidéo (I2V)Générer une vidéo dynamique sur la base de l'image d'entrée, en conservant les caractéristiques de l'image.
  • soutien multimodal: Combinaison de la modélisation du langage à grande échelle (MLLM) et de l'apprentissage par renforcement pour améliorer la qualité de la génération vidéo.
  • Génération d'histoiresLes vidéos de la série "Storyboards" : générer automatiquement des storyboards vidéo qui correspondent à la logique de la narration.
  • contrôle de la caméraLe point de vue du réalisateur : Il permet de personnaliser les angles de vue et les mouvements de la caméra.
  • Cohérence multi-sujetsLe système SkyReels-A2 permet d'assurer la cohérence visuelle des vidéos multirôles.
  • Cadre de raisonnement efficaceLa technologie de l'information et de la communication (TIC) : elle prend en charge le raisonnement multi-GPU afin d'optimiser la vitesse de génération et l'utilisation des ressources.

 

Utiliser l'aide

Processus d'installation

SkyReels-V2 est un projet open source basé sur Python, vous devez configurer l'environnement localement ou sur le serveur. Voici les étapes détaillées de l'installation :

  1. entrepôt de clones
    Ouvrez un terminal et exécutez la commande suivante pour obtenir le code SkyReels-V2 :

    git clone https://github.com/SkyworkAI/SkyReels-V2
    cd SkyReels-V2
    
  2. Créer un environnement virtuel
    Il est recommandé de créer un environnement virtuel utilisant Python 3.10.12 pour éviter les conflits de dépendance :

    conda create -n skyreels-v2 python=3.10
    conda activate skyreels-v2
    
  3. Installation des dépendances
    Installez les bibliothèques Python nécessaires au projet et exécutez-le :

    pip install -r requirements.txt
    
  4. Télécharger le modèle de poids
    Les poids modèles pour SkyReels-V2 sont hébergés sur Hugging Face. Téléchargez-les à l'aide de la commande suivante :

    pip install -U "huggingface_hub[cli]"
    huggingface-cli download Skywork/SkyReels-V2 --local-dir ./models
    

    Assurez-vous que vous disposez de suffisamment d'espace disque (la taille des modèles peut atteindre plusieurs dizaines de gigaoctets).

  5. exigences en matière de matériel
    • configuration minimaleRTX 4090 monobloc (24 Go de VRAM) avec prise en charge du FP8 pour réduire quantitativement les besoins en mémoire.
    • Configurations recommandéesLes GPU : Plusieurs GPU (par exemple, 4 à 8 A100) pour permettre une inférence parallèle efficace.
    • Au moins 32 Go de mémoire système et 100 Go d'espace disque.

Utilisation

SkyReels-V2 propose deux fonctions principales : Text to Video (T2V) et Image to Video (I2V). La procédure d'utilisation spécifique est décrite ci-dessous :

Du texte à la vidéo (T2V)

  1. Préparation des indices
    Rédigez des messages-guides décrivant le contenu de la vidéo, par exemple :

    A serene lake surrounded by towering mountains, with swans gliding across the water.
    

    Des repères négatifs peuvent être ajoutés pour éviter les éléments indésirables :

    low quality, deformation, bad composition
    
  2. Exécuter le script généré
    modifications generate_video.py définir la résolution, la fréquence d'images, etc :

    python generate_video.py --model_id "Skywork/SkyReels-V2-T2V-14B-540P" --prompt "A serene lake surrounded by mountains" --num_frames 97 --fps 24 --outdir ./output
    
    • --model_idSélectionnez le modèle (par exemple 540P ou 720P).
    • --num_frames: Définit la fréquence d'images vidéo (97 par défaut).
    • --fps: Fréquence d'images (24 par défaut).
    • --outdirChemin d'enregistrement de la vidéo de sortie : Chemin d'enregistrement de la vidéo de sortie.
  3. Voir la sortie
    La vidéo générée sera enregistrée au format MP4, par exemple. output/serene_lake_42_0.mp4.

De l'image à la vidéo (I2V)

  1. Préparation de l'image d'entrée
    Fournir une image de haute qualité (par exemple PNG ou JPG), en veillant à ce que la résolution corresponde au modèle (960x544 par défaut).
  2. Exécuter le script généré
    existent generate_video.py Spécifiez le chemin d'accès à l'image dans le champ

    python generate_video.py --model_id "Skywork/SkyReels-V2-I2V-14B-540P" --prompt "A warrior fighting in a forest" --image ./input_image.jpg --num_frames 97 --fps 24 --outdir ./output
    
    • --image: Saisir le chemin d'accès à l'image.
    • Les autres paramètres sont similaires à ceux du T2V.
  3. Paramètres d'optimisation
    • utiliser --guidance_scale(Défaut 6.0) Règle l'intensité de la direction du texte.
    • utiliser --inference_steps(par défaut 30) Contrôle la qualité de la génération, plus il y a d'étapes, plus la qualité est élevée, mais plus cela prend de temps.
    • commencer à utiliser --offload Utilisation optimisée de la mémoire pour les périphériques à faible mémoire graphique.

Fonction en vedette Fonctionnement

  1. Durée illimitée de la vidéo
    SkyReels-V2 utilise la technologie de forçage par diffusion pour permettre la génération de vidéos très longues. Exécuter des scripts d'inférence de vidéos longues :

    python inference_long_video.py --model_id "Skywork/SkyReels-V2-T2V-14B-720P" --prompt "A sci-fi movie scene" --num_frames 1000
    
    • Il est recommandé de les générer par segments de 97 à 192 images chacun, puis de les assembler à l'aide d'outils de post-production.
  2. Génération d'histoires
    Utilisez la fonction Story Generation du système SkyReels-A2 pour entrer une description de l'intrigue :

    A hero’s journey through a futuristic city, facing challenges.
    

    La course à pied :

    python story_generate.py --prompt "A hero’s journey" --output story_video.mp4
    

    Le système génère des vidéos contenant des story-boards, en organisant automatiquement les scènes et les prises de vue.

  3. contrôle de la caméra
    faire passer (un projet de loi, une inspection, etc.) --camera_angle définit la vue de l'objectif (par exemple, "frontale" ou "de profil") :

    python generate_video.py --prompt "A car chase" --camera_angle "profile" --outdir ./output
    
  4. Cohérence multi-sujets
    SkyReels-A2 prend en charge les scènes à plusieurs personnages. Fournit plusieurs images de référence à exécuter :

    python multi_subject.py --prompt "Two characters talking" --images "char1.jpg,char2.jpg" --outdir ./output
    

    Veillez à ce que les personnages soient visuellement cohérents dans la vidéo.

Optimisation et débogage

  • déficit de mémoire: Activer --quant Quantification à l'aide du FP8, ou --offload Décharger l'unité centrale de certains calculs.
  • Générer de la qualité: Augmentation --inference_steps(par exemple 50) ou ajuster --guidance_scale(par exemple, 8.0).
  • Soutien communautaire: Consultez GitHub Issues en cas de problème ou rejoignez le groupe de discussion. SkyReels Discussion communautaire.

 

scénario d'application

  1. Création d'une courte vidéo
    Les créateurs peuvent utiliser la fonction T2V pour générer rapidement de courts clips vidéo à partir d'un texte, adaptés à la production de contenu pour les médias sociaux.
  2. Préproduction de films
    Les réalisateurs peuvent utiliser les fonctions de génération de vidéos et d'histoires de longueur illimitée pour créer des bandes-annonces ou des films conceptuels, réduisant ainsi les coûts initiaux.
  3. Vitrine virtuelle du commerce électronique
    Utilisez la fonction I2V pour transformer les photos de produits en vidéos dynamiques afin de montrer comment le produit est utilisé dans une scène virtuelle.
  4. Animation pédagogique
    Les enseignants peuvent générer des animations pédagogiques à partir de descriptions textuelles afin de visualiser des concepts complexes, tels que le processus d'une expérience scientifique.
  5. développement de jeux
    Les développeurs peuvent générer des scènes de jeu ou des animations de personnages à utiliser comme matériel pour le prototypage ou les transitions.

 

QA

  1. Quelles sont les résolutions prises en charge par SkyReels-V2 ?
    Il prend actuellement en charge les formats 540P (960x544) et 720P (1280x720), avec la possibilité de passer à des résolutions plus élevées à l'avenir.
  2. De combien de mémoire vidéo ai-je besoin pour le faire fonctionner ?
    Une seule RTX 4090 (24 Go) peut exécuter un raisonnement de base, et les configurations multi-GPU peuvent accélérer les vidéos brutes et cultivées.
  3. Comment améliorer la qualité des vidéos générées ?
    Augmenter le nombre d'étapes de raisonnement (--inference_steps), optimiser les mots d'incitation ou utiliser des images d'entrée de haute qualité.
  4. Prend-il en charge la génération en temps réel ?
    Actuellement, la génération hors ligne, la génération en temps réel nécessite un support matériel plus important et pourrait être optimisée à l'avenir.
  5. Les poids modèles sont-ils gratuits ?
    Oui, SkyReels-V2 est entièrement open source et les poids peuvent être téléchargés gratuitement sur Hugging Face.
© déclaration de droits d'auteur
AiPPT

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...