Pyramid Flow: una versión de código abierto de "Kringle" lanzada por Racer, basada en SD3 y que funciona en GPU de menos de 8 GB (versión de despliegue con un solo clic).

Últimos recursos sobre IA2年前更新 Círculo de intercambio de inteligencia artificial

Introducción general

Pyramid Flow es un eficaz método autorregresivo de generación de vídeo basado en la técnica Flow Matching. El método permite generar y descomprimir contenidos de vídeo con mayor eficiencia computacional interpolando entre diferentes resoluciones y niveles de ruido.Pyramid Flow es capaz de generar vídeos de 10 segundos de alta calidad con una resolución de 768p a 24 FPS y admite la generación de imagen a vídeo. Todo el marco de trabajo está optimizado de extremo a extremo, utilizando un único modelo DiT, entrenado en 20,7k horas de entrenamiento en la GPU A100.

$Pyramid Flow：快手推出的开源版\$

Experiencia en línea: https://huggingface.co/spaces/Pyramid-Flow/pyramid-flow

Lista de funciones

Generación eficiente de vídeo: Genera vídeo de 10 segundos de alta calidad con una resolución de 768p a 24 FPS.
Generación de imagen a vídeo: Soporte para generar vídeo a partir de imágenes.
Soporte multirresolución: Los puntos de control del modelo están disponibles en resoluciones de 768p y 384p.
Descarga de la CPU: Se admiten dos tipos de descarga de la CPU para reducir los requisitos de memoria de la GPU.
Soporte Multi-GPUProporciona scripts de inferencia multi-GPU que soportan el paralelismo de secuencias para ahorrar memoria por GPU.

Utilizar la ayuda

Entorno

Crear un entorno utilizando conda:

cd Pyramid-Flow
conda create --name pyramid-flow python=3.8.10
conda activate pyramid-flow

Instale la dependencia:
```
pip install -r requirements.txt
```

Descarga y carga de modelos

Descarga los puntos de control del modelo de Huggingface:
```
# 下载 768p 和 384p 模型检查点
```

Modelos de carga:

model_dtype, torch_dtype = 'bf16', torch.bfloat16
model = PyramidDiTForVideoGeneration(
    'PATH',  # 下载的检查点目录
    model_dtype,
    model_variant='diffusion_transformer_768p',  # 或 'diffusion_transformer_384p'
)
model.vae.enable_tiling()
model.enable_sequential_cpu_offload()

Generación de texto a vídeo

Configura los parámetros de generación y genera el vídeo:

frames = model.generate(
    prompt="你的文本提示",
    num_inference_steps=[20, 20, 20],
    video_num_inference_steps=[10, 10, 10],
    height=768,
    width=1280,
    temp=16,  # temp=16: 5s, temp=31: 10s
    guidance_scale=9.0,  # 384p 设为 7
    video_guidance_scale=5.0,
    output_type="pil",
    save_memory=True,
)
export_to_video(frames, "./text_to_video_sample.mp4", fps=24)

Generación de imagen a vídeo

Configura los parámetros de generación y genera el vídeo:

prompt = "FPV flying over the Great Wall"
with torch.no_grad(), torch.cuda.amp.autocast(enabled=True, dtype=torch_dtype):
    frames = model.generate_i2v(
        prompt=prompt,
        input_image=image,
        num_inference_steps=[10, 10, 10],
        temp=16,
        video_guidance_scale=4.0,
        output_type="pil",
        save_memory=True,
    )
export_to_video(frames, "./image_to_video_sample.mp4", fps=24)

Inferencia multi-GPU

Inferencia utilizando múltiples GPUs:

# 在 2 个或 4 个 GPU 上运行推理脚本

Edición Niu One Click Deployment

El código de descifrado del archivo de inicio se encuentra en la dirección de descarga. Si la descarga del modelo se interrumpe a menudo tras el arranque, consulta el documento oficial para descargar el archivo del modelo por separado, que pesa unos 30 G.

Contraseña de descompresión de archivos: niugee.com
Archivos compartidos a través de Netflix: PyramidFlow-Niu Deployment-Free Local One-Click Package
Enlace: https://pan.baidu.com/s/1yV4wafDkquBNwG8bS0zjDg?pwd=p5fw Código de extracción: p5fw (Nueva versión 1.1)

Google Drive:
https://drive.google.com/drive/u/1/folders/1SIvP6qP2Z4CRHpbsfXawl3tksv5ZBRGo (Nueva versión 1.1)

Últimos recursos sobre IA # AI Imagen a Vídeo # AI Java Proyecto de código abierto

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

AnswerAI: tutores de IA que proporcionan ayudas inteligentes al estudio para un aprendizaje personalizado

Últimos recursos sobre IA # AI Herramientas educativas

hace 2 años

089.2K

Sim Studio: creador de flujos de trabajo de código abierto para agentes de IA

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Flujo de trabajo de bajo código # Marco de desarrollo del cuerpo inteligente

hace 1 año

0133.7K

VideoChat：自定义形象和音色克隆的实时语音交互数字人，支持端到端语音方案和级联方案

VideoChat: persona digital interactiva de voz en tiempo real con clonación personalizada de imágenes y tonos, compatible con soluciones de voz de extremo a extremo y soluciones en cascada.

Últimos recursos sobre IA # AI Java Proyecto de código abierto # AI Digital Man

hace 2 años

084.7K

LocalAI：开源的本地AI部署方案，支持多种模型架构，WebUI统一管理模型和API

LocalAI: soluciones de despliegue de IA local de código abierto, compatibilidad con múltiples arquitecturas de modelos, gestión unificada de modelos y API mediante WebUI.

Últimos recursos sobre IA # Herramienta de modelos de gran tamaño de código abierto desplegada localmente

hace 2 años

0115.3K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

Pyramid Flow: una versión de código abierto de "Kringle" lanzada por Racer, basada en SD3 y que funciona en GPU de menos de 8 GB (versión de despliegue con un solo clic).

Introducción general

Lista de funciones

Utilizar la ayuda

Entorno

Descarga y carga de modelos

Generación de texto a vídeo

Generación de imagen a vídeo

Inferencia multi-GPU

Edición Niu One Click Deployment

Plataforma de traducción inteligente Aidge (Marco MT): traducción de material de comercio electrónico, soluciones de localización de contenidos

Piezas para desarrolladores: memoria a largo plazo de fragmentos de código en desarrollo, el asistente de IA ofrece sugerencias inteligentes basadas en la memoria

Artículos relacionados

AnswerAI: tutores de IA que proporcionan ayudas inteligentes al estudio para un aprendizaje personalizado

Sim Studio: creador de flujos de trabajo de código abierto para agentes de IA

VideoChat: persona digital interactiva de voz en tiempo real con clonación personalizada de imágenes y tonos, compatible con soluciones de voz de extremo a extremo y soluciones en cascada.

LocalAI: soluciones de despliegue de IA local de código abierto, compatibilidad con múltiples arquitecturas de modelos, gestión unificada de modelos y API mediante WebUI.

Sin comentarios

Últimas colecciones

Últimos artículos

Pyramid Flow: una versión de código abierto de "Kringle" lanzada por Racer, basada en SD3 y que funciona en GPU de menos de 8 GB (versión de despliegue con un solo clic).

Introducción general

Lista de funciones

Utilizar la ayuda

Entorno

Descarga y carga de modelos

Generación de texto a vídeo

Generación de imagen a vídeo

Inferencia multi-GPU

Edición Niu One Click Deployment

Plataforma de traducción inteligente Aidge (Marco MT): traducción de material de comercio electrónico, soluciones de localización de contenidos

Piezas para desarrolladores: memoria a largo plazo de fragmentos de código en desarrollo, el asistente de IA ofrece sugerencias inteligentes basadas en la memoria

Artículos relacionados

AnswerAI: tutores de IA que proporcionan ayudas inteligentes al estudio para un aprendizaje personalizado

Sim Studio: creador de flujos de trabajo de código abierto para agentes de IA

VideoChat: persona digital interactiva de voz en tiempo real con clonación personalizada de imágenes y tonos, compatible con soluciones de voz de extremo a extremo y soluciones en cascada.

LocalAI: soluciones de despliegue de IA local de código abierto, compatibilidad con múltiples arquitecturas de modelos, gestión unificada de modelos y API mediante WebUI.

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos