Pyramid Flow: версия "Kringle" с открытым исходным кодом, созданная Racer, основанная на SD3 и работающая на GPU объемом менее 8 ГБ (версия для развертывания одним щелчком мыши).
Общее введение
Pyramid Flow - это эффективный авторегрессионный метод генерации видео, основанный на технике Flow Matching. Метод позволяет генерировать и декомпрессировать видеоконтент с высокой вычислительной эффективностью за счет интерполяции между различными разрешениями и уровнями шума. Pyramid Flow способен генерировать высококачественные 10-секундные видеоролики с разрешением 768p при 24 кадр/с и поддерживает генерацию изображений в видео. Весь фреймворк оптимизирован из конца в конец и использует одну модель DiT, обученную за 20,7 тыс. часов работы на GPU A100.

Опыт работы в Интернете: https://huggingface.co/spaces/Pyramid-Flow/pyramid-flow
Список функций
- Эффективная генерация видео: Создает высококачественное 10-секундное видео с разрешением 768p при 24 кадр/с.
- Генерация изображений в видео: Поддержка создания видео из изображений.
- Поддержка мультиразрешения: Модельные контрольные точки доступны в разрешениях 768p и 384p.
- Разгрузка процессора: Поддерживаются два типа разгрузки CPU для снижения требований к памяти GPU.
- Поддержка нескольких графических процессоров: Предоставляет скрипты выводов для нескольких GPU, поддерживающие параллелизм последовательностей для экономии памяти на каждом GPU.
Использование помощи
Параметры окружающей среды
- Используйте conda для создания среды:
cd Pyramid-Flow conda create --name pyramid-flow python=3.8.10 conda activate pyramid-flow
- Установите зависимость:
pip install -r requirements.txt
Загрузка и выгрузка моделей
- Загрузите контрольные точки модели с сайта Huggingface:
# 下载 768p 和 384p 模型检查点
- Модели для погрузки:
model_dtype, torch_dtype = 'bf16', torch.bfloat16 model = PyramidDiTForVideoGeneration( 'PATH', # 下载的检查点目录 model_dtype, model_variant='diffusion_transformer_768p', # 或 'diffusion_transformer_384p' ) model.vae.enable_tiling() model.enable_sequential_cpu_offload()
Генерация текста в видео
- Установите параметры генерации и создайте видео:
frames = model.generate( prompt="你的文本提示", num_inference_steps=[20, 20, 20], video_num_inference_steps=[10, 10, 10], height=768, width=1280, temp=16, # temp=16: 5s, temp=31: 10s guidance_scale=9.0, # 384p 设为 7 video_guidance_scale=5.0, output_type="pil", save_memory=True, ) export_to_video(frames, "./text_to_video_sample.mp4", fps=24)
Генерация изображений в видео
- Установите параметры генерации и создайте видео:
prompt = "FPV flying over the Great Wall" with torch.no_grad(), torch.cuda.amp.autocast(enabled=True, dtype=torch_dtype): frames = model.generate_i2v( prompt=prompt, input_image=image, num_inference_steps=[10, 10, 10], temp=16, video_guidance_scale=4.0, output_type="pil", save_memory=True, ) export_to_video(frames, "./image_to_video_sample.mp4", fps=24)
Выводы на нескольких процессорах
- Выводы с использованием нескольких графических процессоров:
# 在 2 个或 4 个 GPU 上运行推理脚本
Niu One Click Deployment Edition
Код расшифровки файла запуска находится в адресе загрузки. Если загрузка модели часто прерывается после запуска, проверьте официальный документ, чтобы скачать файл модели отдельно, который составляет около 30 Гб.
Пароль для распаковки файлов: niugee.com
Файлы, переданные через Netflix: PyramidFlow-Niu Deployment-Free Local One-Click Package
Ссылка: https://pan.baidu.com/s/1yV4wafDkquBNwG8bS0zjDg?pwd=p5fw Код извлечения: p5fw (Новая версия 1.1)
Google Диск:
https://drive.google.com/drive/u/1/folders/1SIvP6qP2Z4CRHpbsfXawl3tksv5ZBRGo (Новая версия 1.1)
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...