Pyramid Flow: версия "Kringle" с открытым исходным кодом, созданная Racer, основанная на SD3 и работающая на GPU объемом менее 8 ГБ (версия для развертывания одним щелчком мыши).

Последние ресурсы по искусственному интеллектуОбновлено 1 год назад Круг обмена ИИ

56.5K 00

Общее введение

Pyramid Flow - это эффективный авторегрессионный метод генерации видео, основанный на технике Flow Matching. Метод позволяет генерировать и декомпрессировать видеоконтент с высокой вычислительной эффективностью за счет интерполяции между различными разрешениями и уровнями шума. Pyramid Flow способен генерировать высококачественные 10-секундные видеоролики с разрешением 768p при 24 кадр/с и поддерживает генерацию изображений в видео. Весь фреймворк оптимизирован из конца в конец и использует одну модель DiT, обученную за 20,7 тыс. часов работы на GPU A100.

$Pyramid Flow：快手推出的开源版\$

Опыт работы в Интернете: https://huggingface.co/spaces/Pyramid-Flow/pyramid-flow

Список функций

Эффективная генерация видео: Создает высококачественное 10-секундное видео с разрешением 768p при 24 кадр/с.
Генерация изображений в видео: Поддержка создания видео из изображений.
Поддержка мультиразрешения: Модельные контрольные точки доступны в разрешениях 768p и 384p.
Разгрузка процессора: Поддерживаются два типа разгрузки CPU для снижения требований к памяти GPU.
Поддержка нескольких графических процессоров: Предоставляет скрипты выводов для нескольких GPU, поддерживающие параллелизм последовательностей для экономии памяти на каждом GPU.

Использование помощи

Параметры окружающей среды

Используйте conda для создания среды:

cd Pyramid-Flow
conda create --name pyramid-flow python=3.8.10
conda activate pyramid-flow

Установите зависимость:
```
pip install -r requirements.txt
```

Загрузка и выгрузка моделей

Загрузите контрольные точки модели с сайта Huggingface:
```
# 下载 768p 和 384p 模型检查点
```

Модели для погрузки:

model_dtype, torch_dtype = 'bf16', torch.bfloat16
model = PyramidDiTForVideoGeneration(
    'PATH',  # 下载的检查点目录
    model_dtype,
    model_variant='diffusion_transformer_768p',  # 或 'diffusion_transformer_384p'
)
model.vae.enable_tiling()
model.enable_sequential_cpu_offload()

Генерация текста в видео

Установите параметры генерации и создайте видео:

frames = model.generate(
    prompt="你的文本提示",
    num_inference_steps=[20, 20, 20],
    video_num_inference_steps=[10, 10, 10],
    height=768,
    width=1280,
    temp=16,  # temp=16: 5s, temp=31: 10s
    guidance_scale=9.0,  # 384p 设为 7
    video_guidance_scale=5.0,
    output_type="pil",
    save_memory=True,
)
export_to_video(frames, "./text_to_video_sample.mp4", fps=24)

Генерация изображений в видео

Установите параметры генерации и создайте видео:

prompt = "FPV flying over the Great Wall"
with torch.no_grad(), torch.cuda.amp.autocast(enabled=True, dtype=torch_dtype):
    frames = model.generate_i2v(
        prompt=prompt,
        input_image=image,
        num_inference_steps=[10, 10, 10],
        temp=16,
        video_guidance_scale=4.0,
        output_type="pil",
        save_memory=True,
    )
export_to_video(frames, "./image_to_video_sample.mp4", fps=24)

Выводы на нескольких процессорах

Выводы с использованием нескольких графических процессоров:
```
# 在 2 个或 4 个 GPU 上运行推理脚本
```

Niu One Click Deployment Edition

Код расшифровки файла запуска находится в адресе загрузки. Если загрузка модели часто прерывается после запуска, проверьте официальный документ, чтобы скачать файл модели отдельно, который составляет около 30 Гб.

Пароль для распаковки файлов: niugee.com
Файлы, переданные через Netflix: PyramidFlow-Niu Deployment-Free Local One-Click Package
Ссылка: https://pan.baidu.com/s/1yV4wafDkquBNwG8bS0zjDg?pwd=p5fw Код извлечения: p5fw (Новая версия 1.1)

Google Диск:
https://drive.google.com/drive/u/1/folders/1SIvP6qP2Z4CRHpbsfXawl3tksv5ZBRGo (Новая версия 1.1)

Последние ресурсы по искусственному интеллекту # AI Преобразование изображений в видео # AI Java Open Source Projecct