Pyramid Flow : une version open source de "Kringle" lancée par Racer, basée sur SD3 et fonctionnant sur des GPU de moins de 8GB (version de déploiement en un clic)
Introduction générale
Pyramid Flow est une méthode efficace de génération vidéo autorégressive basée sur la technique de correspondance des flux. Pyramid Flow est capable de générer des vidéos de haute qualité de 10 secondes à une résolution de 768p à 24 FPS et prend en charge la génération d'image à vidéo. L'ensemble du cadre est optimisé de bout en bout, à l'aide d'un seul modèle DiT, formé en 20,7k heures d'entraînement avec le GPU A100.

Expérience en ligne : https://huggingface.co/spaces/Pyramid-Flow/pyramid-flow
Liste des fonctions
- Génération efficace de vidéosVidéo de haute qualité : génère des vidéos de 10 secondes de haute qualité à une résolution de 768p à 24 FPS.
- Génération d'images en vidéoSupport pour la génération de vidéos à partir d'images : Support pour la génération de vidéos à partir d'images.
- Prise en charge de la multirésolutionLes points de contrôle des modèles sont disponibles en résolutions 768p et 384p.
- Délestage de l'unité centraleLes deux types de délestage du processeur sont pris en charge pour réduire les besoins en mémoire du GPU.
- Support multi-GPULe système d'inférence multi-GPU : fournit des scripts d'inférence multi-GPU qui prennent en charge le parallélisme des séquences afin d'économiser de la mémoire par GPU.
Utiliser l'aide
Paramètres environnementaux
- Utilisez conda pour créer un environnement :
cd Pyramid-Flow conda create --name pyramid-flow python=3.8.10 conda activate pyramid-flow
- Installer la dépendance :
pip install -r requirements.txt
Téléchargement et chargement du modèle
- Télécharger les points de contrôle des modèles à partir de Huggingface :
# 下载 768p 和 384p 模型检查点
- Modèles de chargement :
model_dtype, torch_dtype = 'bf16', torch.bfloat16 model = PyramidDiTForVideoGeneration( 'PATH', # 下载的检查点目录 model_dtype, model_variant='diffusion_transformer_768p', # 或 'diffusion_transformer_384p' ) model.vae.enable_tiling() model.enable_sequential_cpu_offload()
Génération de texte en vidéo
- Définissez les paramètres de génération et générez la vidéo :
frames = model.generate( prompt="你的文本提示", num_inference_steps=[20, 20, 20], video_num_inference_steps=[10, 10, 10], height=768, width=1280, temp=16, # temp=16: 5s, temp=31: 10s guidance_scale=9.0, # 384p 设为 7 video_guidance_scale=5.0, output_type="pil", save_memory=True, ) export_to_video(frames, "./text_to_video_sample.mp4", fps=24)
Génération d'images en vidéo
- Définissez les paramètres de génération et générez la vidéo :
prompt = "FPV flying over the Great Wall" with torch.no_grad(), torch.cuda.amp.autocast(enabled=True, dtype=torch_dtype): frames = model.generate_i2v( prompt=prompt, input_image=image, num_inference_steps=[10, 10, 10], temp=16, video_guidance_scale=4.0, output_type="pil", save_memory=True, ) export_to_video(frames, "./image_to_video_sample.mp4", fps=24)
Inférence multi-GPU
- Inférence à l'aide de plusieurs GPU :
# 在 2 个或 4 个 GPU 上运行推理脚本
Niu One Click Deployment Edition
Le code de décryptage du fichier de démarrage est placé dans l'adresse de téléchargement. Si le téléchargement du modèle est souvent interrompu après le démarrage, consultez le document officiel pour télécharger le fichier du modèle séparément, ce qui représente environ 30G.
Mot de passe de décompression du fichier : niugee.com
Fichiers partagés via Netflix : PyramidFlow-Niu Deployment-Free Local One-Click Package (Paquet de déploiement local en un clic)
Lien : https://pan.baidu.com/s/1yV4wafDkquBNwG8bS0zjDg?pwd=p5fw Code d'extraction : p5fw (Nouvelle version 1.1)
Google Drive :
https://drive.google.com/drive/u/1/folders/1SIvP6qP2Z4CRHpbsfXawl3tksv5ZBRGo (Nouvelle version 1.1)
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...