Pyramid Flow: una versión de código abierto de "Kringle" lanzada por Racer, basada en SD3 y que funciona en GPU de menos de 8 GB (versión de despliegue con un solo clic).
Introducción general
Pyramid Flow es un eficaz método autorregresivo de generación de vídeo basado en la técnica Flow Matching. El método permite generar y descomprimir contenidos de vídeo con mayor eficiencia computacional interpolando entre diferentes resoluciones y niveles de ruido.Pyramid Flow es capaz de generar vídeos de 10 segundos de alta calidad con una resolución de 768p a 24 FPS y admite la generación de imagen a vídeo. Todo el marco de trabajo está optimizado de extremo a extremo, utilizando un único modelo DiT, entrenado en 20,7k horas de entrenamiento en la GPU A100.

Experiencia en línea: https://huggingface.co/spaces/Pyramid-Flow/pyramid-flow
Lista de funciones
- Generación eficiente de vídeo: Genera vídeo de 10 segundos de alta calidad con una resolución de 768p a 24 FPS.
- Generación de imagen a vídeo: Soporte para generar vídeo a partir de imágenes.
- Soporte multirresolución: Los puntos de control del modelo están disponibles en resoluciones de 768p y 384p.
- Descarga de la CPU: Se admiten dos tipos de descarga de la CPU para reducir los requisitos de memoria de la GPU.
- Soporte Multi-GPUProporciona scripts de inferencia multi-GPU que soportan el paralelismo de secuencias para ahorrar memoria por GPU.
Utilizar la ayuda
Entorno
- Crear un entorno utilizando conda:
cd Pyramid-Flow conda create --name pyramid-flow python=3.8.10 conda activate pyramid-flow - Instale la dependencia:
pip install -r requirements.txt
Descarga y carga de modelos
- Descarga los puntos de control del modelo de Huggingface:
# 下载 768p 和 384p 模型检查点 - Modelos de carga:
model_dtype, torch_dtype = 'bf16', torch.bfloat16 model = PyramidDiTForVideoGeneration( 'PATH', # 下载的检查点目录 model_dtype, model_variant='diffusion_transformer_768p', # 或 'diffusion_transformer_384p' ) model.vae.enable_tiling() model.enable_sequential_cpu_offload()
Generación de texto a vídeo
- Configura los parámetros de generación y genera el vídeo:
frames = model.generate( prompt="你的文本提示", num_inference_steps=[20, 20, 20], video_num_inference_steps=[10, 10, 10], height=768, width=1280, temp=16, # temp=16: 5s, temp=31: 10s guidance_scale=9.0, # 384p 设为 7 video_guidance_scale=5.0, output_type="pil", save_memory=True, ) export_to_video(frames, "./text_to_video_sample.mp4", fps=24)
Generación de imagen a vídeo
- Configura los parámetros de generación y genera el vídeo:
prompt = "FPV flying over the Great Wall" with torch.no_grad(), torch.cuda.amp.autocast(enabled=True, dtype=torch_dtype): frames = model.generate_i2v( prompt=prompt, input_image=image, num_inference_steps=[10, 10, 10], temp=16, video_guidance_scale=4.0, output_type="pil", save_memory=True, ) export_to_video(frames, "./image_to_video_sample.mp4", fps=24)
Inferencia multi-GPU
- Inferencia utilizando múltiples GPUs:
# 在 2 个或 4 个 GPU 上运行推理脚本
Edición Niu One Click Deployment
El código de descifrado del archivo de inicio se encuentra en la dirección de descarga. Si la descarga del modelo se interrumpe a menudo tras el arranque, consulta el documento oficial para descargar el archivo del modelo por separado, que pesa unos 30 G.
Contraseña de descompresión de archivos: niugee.com
Archivos compartidos a través de Netflix: PyramidFlow-Niu Deployment-Free Local One-Click Package
Enlace: https://pan.baidu.com/s/1yV4wafDkquBNwG8bS0zjDg?pwd=p5fw Código de extracción: p5fw (Nueva versión 1.1)
Google Drive:
https://drive.google.com/drive/u/1/folders/1SIvP6qP2Z4CRHpbsfXawl3tksv5ZBRGo (Nueva versión 1.1)
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...




