Pyramid Flow : une version open source de "Kringle" lancée par Racer, basée sur SD3 et fonctionnant sur des GPU de moins de 8GB (version de déploiement en un clic)

Dernières ressources sur l'IAMise à jour il y a 10 mois Cercle de partage de l'IA

11.2K 00

Introduction générale

Pyramid Flow est une méthode efficace de génération vidéo autorégressive basée sur la technique de correspondance des flux. Pyramid Flow est capable de générer des vidéos de haute qualité de 10 secondes à une résolution de 768p à 24 FPS et prend en charge la génération d'image à vidéo. L'ensemble du cadre est optimisé de bout en bout, à l'aide d'un seul modèle DiT, formé en 20,7k heures d'entraînement avec le GPU A100.

$Pyramid Flow：快手推出的开源版\$

Expérience en ligne : https://huggingface.co/spaces/Pyramid-Flow/pyramid-flow

Liste des fonctions

Génération efficace de vidéosVidéo de haute qualité : génère des vidéos de 10 secondes de haute qualité à une résolution de 768p à 24 FPS.
Génération d'images en vidéoSupport pour la génération de vidéos à partir d'images : Support pour la génération de vidéos à partir d'images.
Prise en charge de la multirésolutionLes points de contrôle des modèles sont disponibles en résolutions 768p et 384p.
Délestage de l'unité centraleLes deux types de délestage du processeur sont pris en charge pour réduire les besoins en mémoire du GPU.
Support multi-GPULe système d'inférence multi-GPU : fournit des scripts d'inférence multi-GPU qui prennent en charge le parallélisme des séquences afin d'économiser de la mémoire par GPU.

Utiliser l'aide

Paramètres environnementaux

Utilisez conda pour créer un environnement :

cd Pyramid-Flow
conda create --name pyramid-flow python=3.8.10
conda activate pyramid-flow

Installer la dépendance :
```
pip install -r requirements.txt
```

Téléchargement et chargement du modèle

Télécharger les points de contrôle des modèles à partir de Huggingface :
```
# 下载 768p 和 384p 模型检查点
```

Modèles de chargement :

model_dtype, torch_dtype = 'bf16', torch.bfloat16
model = PyramidDiTForVideoGeneration(
    'PATH',  # 下载的检查点目录
    model_dtype,
    model_variant='diffusion_transformer_768p',  # 或 'diffusion_transformer_384p'
)
model.vae.enable_tiling()
model.enable_sequential_cpu_offload()

Génération de texte en vidéo

Définissez les paramètres de génération et générez la vidéo :

frames = model.generate(
    prompt="你的文本提示",
    num_inference_steps=[20, 20, 20],
    video_num_inference_steps=[10, 10, 10],
    height=768,
    width=1280,
    temp=16,  # temp=16: 5s, temp=31: 10s
    guidance_scale=9.0,  # 384p 设为 7
    video_guidance_scale=5.0,
    output_type="pil",
    save_memory=True,
)
export_to_video(frames, "./text_to_video_sample.mp4", fps=24)

Génération d'images en vidéo

Définissez les paramètres de génération et générez la vidéo :

prompt = "FPV flying over the Great Wall"
with torch.no_grad(), torch.cuda.amp.autocast(enabled=True, dtype=torch_dtype):
    frames = model.generate_i2v(
        prompt=prompt,
        input_image=image,
        num_inference_steps=[10, 10, 10],
        temp=16,
        video_guidance_scale=4.0,
        output_type="pil",
        save_memory=True,
    )
export_to_video(frames, "./image_to_video_sample.mp4", fps=24)

Inférence multi-GPU

Inférence à l'aide de plusieurs GPU :

# 在 2 个或 4 个 GPU 上运行推理脚本

Niu One Click Deployment Edition

Le code de décryptage du fichier de démarrage est placé dans l'adresse de téléchargement. Si le téléchargement du modèle est souvent interrompu après le démarrage, consultez le document officiel pour télécharger le fichier du modèle séparément, ce qui représente environ 30G.

Mot de passe de décompression du fichier : niugee.com
Fichiers partagés via Netflix : PyramidFlow-Niu Deployment-Free Local One-Click Package (Paquet de déploiement local en un clic)
Lien : https://pan.baidu.com/s/1yV4wafDkquBNwG8bS0zjDg?pwd=p5fw Code d'extraction : p5fw (Nouvelle version 1.1)

Google Drive :
https://drive.google.com/drive/u/1/folders/1SIvP6qP2Z4CRHpbsfXawl3tksv5ZBRGo (Nouvelle version 1.1)

Dernières ressources sur l'IA # AI Image to Video # AI Java Open Source Projecct

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

Stable Audio : musique instrumentale pure générée par l'intelligence artificielle, accompagnement libre et génération de musique de fond

Dernières ressources sur l'IA # AI Music

Il y a 11 mois

011.9K

Local-NotebookLM : PDF local pour générer des podcasts vocaux d'outils open source

Dernières ressources sur l'IA # AI Java Open Source Projecct # AI Speech to Text

Il y a 6 mois

013K

UIGEN-T1-Qwen-7b : Modèles spécialisés pour la génération de composants UI HTML et CSS

Dernières ressources sur l'IA # AI Java Open Source Projecct

Il y a 7 mois

010.4K

FlashMLA：优化Hopper GPU的MLA解码内核（DeepSeek 开源周第一天）

FlashMLA : Optimisation des noyaux de décodage MLA pour les GPU Hopper (DeepSeek Open Source Week Day 1)

Dernières ressources sur l'IA # AI Java Open Source Projecct

Il y a 6 mois

011.9K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

Pyramid Flow : une version open source de "Kringle" lancée par Racer, basée sur SD3 et fonctionnant sur des GPU de moins de 8GB (version de déploiement en un clic)

Introduction générale

Liste des fonctions

Utiliser l'aide

Paramètres environnementaux

Téléchargement et chargement du modèle

Génération de texte en vidéo

Génération d'images en vidéo

Inférence multi-GPU

Niu One Click Deployment Edition

Aidge Intelligent Translation Platform (Marco MT) : traduction de matériel de commerce électronique, solutions de localisation de contenu

Pièces pour les développeurs : mémoire à long terme des extraits de code dans le développement, l'assistant IA fournit des suggestions intelligentes basées sur la mémoire

Articles connexes

Stable Audio : musique instrumentale pure générée par l'intelligence artificielle, accompagnement libre et génération de musique de fond

Local-NotebookLM : PDF local pour générer des podcasts vocaux d'outils open source

UIGEN-T1-Qwen-7b : Modèles spécialisés pour la génération de composants UI HTML et CSS

FlashMLA : Optimisation des noyaux de décodage MLA pour les GPU Hopper (DeepSeek Open Source Week Day 1)

Pas de commentaires

Dernières collections

Derniers articles

Pyramid Flow : une version open source de "Kringle" lancée par Racer, basée sur SD3 et fonctionnant sur des GPU de moins de 8GB (version de déploiement en un clic)

Introduction générale

Liste des fonctions

Utiliser l'aide

Paramètres environnementaux

Téléchargement et chargement du modèle

Génération de texte en vidéo

Génération d'images en vidéo

Inférence multi-GPU

Niu One Click Deployment Edition

Aidge Intelligent Translation Platform (Marco MT) : traduction de matériel de commerce électronique, solutions de localisation de contenu

Pièces pour les développeurs : mémoire à long terme des extraits de code dans le développement, l'assistant IA fournit des suggestions intelligentes basées sur la mémoire

Articles connexes

Stable Audio : musique instrumentale pure générée par l'intelligence artificielle, accompagnement libre et génération de musique de fond

Local-NotebookLM : PDF local pour générer des podcasts vocaux d'outils open source

UIGEN-T1-Qwen-7b : Modèles spécialisés pour la génération de composants UI HTML et CSS

FlashMLA : Optimisation des noyaux de décodage MLA pour les GPU Hopper (DeepSeek Open Source Week Day 1)

Pas de commentaires

Outils d'IA sélectionnés

Dernières collections

Derniers articles