Wan2.1 : Générer des vidéos de haute qualité sur des GPU grand public

Dernières ressources sur l'IAMise à jour il y a 7 mois Cercle de partage de l'IA

22.7K 00

Introduction générale

Wan2.1 est une suite d'outils de génération vidéo développée par l'équipe de Wan-Video et en libre accès sur GitHub, qui vise à repousser les limites de la création vidéo grâce à la technologie de l'intelligence artificielle. Basé sur une architecture de convertisseur de diffusion avancée, il intègre un auto-encodeur à variation temporelle unique (Wan-VAE) qui prend en charge la conversion de texte en vidéo, d'image en vidéo, etc. Les points forts de Wan2.1 sont ses excellentes performances et sa prise en charge du matériel grand public, comme le modèle T2V-1.3B qui ne nécessite que 8,19 Go de mémoire vidéo pour fonctionner et qui génère des vidéos 480P de 5 secondes sur la RTX 4090. Il génère des vidéos de 5 secondes en 480P sur la RTX 4090. Le projet offre non seulement des capacités de génération vidéo efficaces, mais prend également en charge l'encodage et le décodage 1080P sans limitation de longueur, ce qui le rend largement applicable aux créateurs de contenu, aux développeurs et aux équipes de recherche universitaires.

Article connexe :Le modèle de génération vidéo VBench en tête des classements... En tête des classements - WanX 2.1 sera bientôt en open source !

Liste des fonctions

Du texte à la vidéoGénération de contenu vidéo dynamique sur la base de descriptions textuelles, avec prise en charge de la saisie de textes multilingues.
Image-to-Video (Image vers vidéo)La conversion d'images fixes en vidéos animées, en conservant les proportions originales et le mouvement naturel de l'image.
Montage vidéoModifier ou optimiser des vidéos existantes grâce à la technologie de l'IA.
Prise en charge de la sortie haute résolutionLes vidéos peuvent être générées en 480P et 720P, et certains modèles prennent en charge le 1080P sans limite de longueur.
Technologie Wan-VAE: : assure une compression temporelle efficace, prend en charge la génération de vidéos de longue durée et conserve les informations temporelles.
Optimisation du GPU du consommateurLes logiciels de gestion de l'information : : fonctionnent sur du matériel courant, ce qui abaisse la barrière à l'utilisation.
support multitâcheLes services d'aide à l'écriture et à la lecture sont également disponibles : ils comprennent la conversion de texte en image, de vidéo en audio, et d'autres extensions.
Génération de textes en chinois et en anglaisLes vidéos peuvent être accompagnées d'un texte clair en chinois et en anglais.

Utiliser l'aide

Wan2.1 est un puissant outil de génération vidéo open source destiné aux utilisateurs qui souhaitent générer rapidement du contenu vidéo de haute qualité. Vous trouverez ci-dessous un guide d'installation et d'utilisation détaillé pour vous aider à démarrer rapidement.

Processus d'installation

L'installation de Wan2.1 nécessite quelques compétences techniques, principalement via le dépôt GitHub pour obtenir le code et les poids des modèles. Voici les étapes à suivre :

1. préparation à l'environnement

système d'exploitationLes logiciels de gestion de l'information sont compatibles avec Windows, Linux et macOS.
exigences en matière de matérielGPU : GPU avec au moins 8GB de mémoire vidéo (par exemple RTX 3060 Ti ou 4090), les GPU Nvidia sont recommandés.
dépendance logiciellePython 3.10+, Git, pilotes graphiques et CUDA (si vous utilisez un GPU).
Installation de PythonTélécharger Python 3.10 ou plus sur le site officiel, et cocher la case "Add Python to PATH" lors de l'installation.

2. téléchargement du code et des modèles

Ouvrez un terminal ou une ligne de commande et entrez la commande suivante pour cloner le dépôt :

git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1

Installer les bibliothèques dépendantes :

pip install -r requirements.txt

Téléchargez les poids modèles de Hugging Face (T2V-1.3B à titre d'exemple) :

pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-T2V-1.3B --local-dir ./Wan2.1-T2V-1.3B

Modèles en option : T2V-14B (plus performant, nécessite plus de mémoire vidéo), I2V-480P/720P.

3. environnement de configuration

Si la mémoire vidéo est faible, activez les paramètres d'optimisation (par ex. --offload_model True répondre en chantant --t5_cpu).
Assurez-vous que le pilote du GPU et CUDA sont correctement installés en utilisant la commande nvidia-smi Vérifier.

4. vérification de l'installation

Exécutez la commande suivante pour tester l'environnement :

python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --prompt "测试视频生成"

Si le fichier vidéo est édité, l'installation est réussie.

Fonction Opération Déroulement

Du texte à la vidéo

Texte préparé: : Rédiger des textes descriptifs, par exemple : "Un chat marche gracieusement sur l'herbe, tandis que la caméra le suit".
Exécuter la commande:

python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --prompt "A cute cat walking gracefully on a lush green field"

paramétrage:

--sizeRésolution : Définir la résolution (par exemple, 832)480 ou 1280720).
--offload_model TrueOptimisation de la mémoire vidéo.
--sample_shift 8 --sample_guide_scale 6: : Amélioration de la qualité de la production.

exportationsLa vidéo générée est enregistrée dans le répertoire actuel et dure environ 5 secondes.

Image-to-Video (Image vers vidéo)

Préparer l'imageTélécharger une image JPG/PNG (par ex. input.jpg).
Exécuter la commande:

python generate.py --task i2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-I2V-14B-720P --image input.jpg --prompt "Summer beach vacation style"

en fin de compteLe modèle génère une vidéo dynamique basée sur l'image, en conservant les proportions originales et les mouvements naturels.

Montage vidéo

Entrée vidéoPréparer un fichier vidéo existant.
Opérations éditorialesPour cela, utilisez un outil tel que DiffSynth-Studio (Wan 2.1 prend en charge les extensions) pour invoquer le module concerné à partir de la ligne de commande.
exemple de commande (informatique)Les modifications de base sont actuellement prises en charge.

Sortie haute résolution

Avec le modèle T2V-14B ou I2V-720P, réglez le paramètre --size 1280*720Les cartes graphiques plus récentes nécessitent plus de mémoire (environ 17 Go).
Wan-VAE prend en charge le format 1080P sans limitation de longueur, ce qui convient à la production de vidéos de longue durée.

Générer des textes en chinois et en anglais

Inclure une description textuelle dans l'invite, par exemple "Un panneau disant "Bienvenue" en anglais et en chinois".
Exécutez la commande Text to Video et le modèle intégrera automatiquement un texte clair dans la vidéo.

Conseils et astuces

optimiser les performancesPour le matériel bas de gamme, les modèles 1,3B et la résolution 480P sont recommandés ; pour le matériel haut de gamme, essayez 14B et 720P.
Suggestions de mots clésAméliorer la qualité de la génération en utilisant des descriptions détaillées (par exemple, l'action, la scène, l'éclairage).
Soutien communautairePour obtenir de l'aide, rejoignez les groupes de discussion GitHub Issues ou Discord.

Avec ces étapes, vous pouvez facilement utiliser Wan2.1 pour générer du contenu vidéo de qualité professionnelle pour des présentations créatives et des recherches académiques.