FramePack: 6 Гб графической памяти для быстрого роста длинных видео с открытым исходным кодом
Общее введение
FramePack - это инструмент генерации видео с открытым исходным кодом, направленный на повышение практичности методов диффузии видео. Он отделяет усилия по генерации от длины видео, сжимая входные кадры до фиксированной длины с помощью уникальной нейронной сети предсказания следующего кадра. Это означает, что даже при генерации длинных видео требования к графической памяти существенно не увеличиваются. framePack может генерировать тысячи кадров со скоростью 30 кадров в секунду, используя всего 6 ГБ графической памяти, что делает его подходящим для среднего потребительского GPU. Проект был разработан Лвмином Чжаном и основан на видеомодели Hunyuan, оптимизированной всего для 1,3 миллиарда параметров модели, сочетая эффективность с облегчением. framePack FramePack - это простой в использовании интерфейс Gradio, который поддерживает генерацию изображений в видео с оптимизированной скоростью до 1,5 секунды на кадр. Он подходит для создателей контента, разработчиков и обычных пользователей, заинтересованных в генерации видео.

Список функций
- Генерация изображений в видео: генерируйте видео с движением из одного изображения с поддержкой длинных видеорасширений.
- Оптимизация под низкий уровень оперативной памяти: 60 секунд видео со скоростью 30 кадров в секунду можно получить, используя всего 6 ГБ оперативной памяти.
- Предсказание следующего кадра: генерирование нагрузки, не зависящей от длины видео, путем сжатия контекста.
- Пользовательский интерфейс Gradio: предоставляет интуитивно понятные функции для загрузки изображений, ввода подсказок и предварительного просмотра созданных видеороликов.
- Поддержка нескольких механизмов внимания: поддерживаются PyTorch, xformers, flash-attn и sage-attention.
- Кросс-платформенная совместимость: поддержка Linux и Windows, совместимость с графическими процессорами серии NVIDIA RTX 30XX/40XX/50XX.
- Оптимизированная скорость генерации: оптимизирована с помощью teacache до 1,5 секунд на кадр.
- Поддержка пакетного обучения: поддержка сверхбольшого пакетного обучения, аналогичного диффузии изображений.
Использование помощи
Процесс установки
Установка FramePack носит более технический характер и подходит для пользователей с некоторым опытом настройки Python и GPU-окружения. Ниже приведены подробные шаги по установке для систем Windows и Linux, а также ссылки на официальную страницу GitHub и веб-ресурсы.
Экологические требования
- операционная система: Linux или Windows.
- Графические процессоры: Серия NVIDIA RTX 30XX/40XX/50XX с поддержкой fp16 и bf16 (GTX 10XX/20XX не тестировались).
- память: Минимум 6 ГБ (60 секунд видео со скоростью 30 кадров в секунду).
- Версия Python: Рекомендуется Python 3.10 (обратите внимание: версии Python должны строго соответствовать друг другу, иначе может возникнуть несовместимость библиотек).
- CUDA: Должна быть установлена совместимая с GPU версия CUDA (например, CUDA 12.6).
Этапы установки
- Клон FramePack Warehouse
Откройте терминал или командную строку и выполните следующую команду, чтобы клонировать проект:git clone https://github.com/lllyasviel/FramePack.git cd FramePack
- Создание виртуальной среды
Чтобы избежать конфликтов зависимостей, рекомендуется создать виртуальную среду Python:python -m venv venv
Активируйте виртуальную среду:
- Окна:
venv\Scripts\activate.bat
- Linux:
source venv/bin/activate
- Окна:
- Установка PyTorch и зависимостей
Установите PyTorch, соответствующий версии CUDA (например, CUDA 12.6):pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
Установите зависимости проекта:
pip install -r requirements.txt
- (Дополнительно) Установка Sage Attention или Flash Attention
Для повышения производительности вы можете установить Sage Attention (вам нужно выбрать правильный файл колеса для вашей версии CUDA и Python):pip install https://github.com/woct0rdho/SageAttention/releases/download/v2.1.1-windows/sageattention-2.1.1+cu126torch2.6.0-cp312-cp312-win_amd64.whl
Примечание: Sage Attention может немного повлиять на качество генерации, поэтому для начинающих пользователей его можно пропустить.
- Запуск интерфейса Gradio
После завершения установки выполните следующую команду, чтобы запустить интерфейс:python demo_gradio.py
После запуска в терминале отображается что-то вроде
http://127.0.0.1:7860/
Вы можете получить доступ к интерфейсу Gradio программы FramePack, перейдя по URL-адресу в вашем браузере.
Общие проблемы при установке
- Несоответствие версий Python: Если установка зависимостей не удалась, проверьте, что версия Python равна 3.10. Используйте
python --version
Просмотрите текущую версию. - Конфликт зависимостейЕсли
requirements.txt
версия библиотеки несовместима, вы можете удалитьav
, иnumpy
, иscipy
если версия обозначена, переустановите последнюю версию:pip install av numpy scipy
- Недостаточно видеопамяти: Если видеопамять меньше 6 ГБ, генерация может не работать. Рекомендуется использовать графический процессор с большей памятью или сократить длину видео.
Использование
Основная функция FramePack - создание видео из одного изображения и поддержка управления видеоконтентом с помощью подсказок. Ниже приведена подробная процедура работы.
1. Доступ к интерфейсу Gradio
активировать (план) demo_gradio.py
После этого в браузере появится пользовательский интерфейс FramePack. Интерфейс разделен на левую и правую секции:
- Слева: Загрузите изображения и введите слова подсказки.
- Справа: Отображение сгенерированного видео и скрытого предварительного просмотра (скрытый предварительный просмотр).
2. Загрузка изображений
Нажмите на область "Загрузка изображения" слева и выберите локальное изображение (рекомендуемое разрешение 544x704 или аналогичного размера). FramePack сгенерирует видеоконтент на основе этого изображения.
3. Ввод подсказок
Введите в текстовое поле Cue Word короткое предложение, описывающее действие видео. Рекомендуется использовать краткие, ориентированные на действие слова подсказки, например:
The girl dances gracefully, with clear movements, full of charm.
A robot jumps energetically, spinning in a futuristic city.
FramePack официально рекомендует генерировать реплики действий через GPT в формате:
Вы - ассистент, который пишет короткие, ориентированные на движение подсказки для анимации изображений. Когда пользователь присылает изображение, ответьте ему одной лаконичной подсказкой, описывающей визуальное движение. описание визуального движения.
4. создание видео
Нажмите кнопку Generate в интерфейсе, и FramePack начнет процесс. Процесс генерации происходит по сегментам, каждый сегмент генерирует около 1 секунды видео, которое постепенно сшивается в целостное видео. Ход генерации отображается с помощью индикатора выполнения и потенциального превью. Созданный файл сохраняется в папке ./outputs/
папка.
5. Просмотр и настройка
В начале процесса генерации вы можете получить только короткое видео (например, 1 секунду). Это нормально, и вам придется подождать, пока будут сгенерированы дополнительные клипы, чтобы получить полноценное видео. Если результат вас не устраивает, вы можете настроить слова подсказки или изменить входное изображение, чтобы сгенерировать его заново.
Оптимизация скорости генерации
- начать использовать teacache: Включение режима teacache в настройках генерации увеличивает скорость с 2,5 до 1,5 сек/кадр.
- Более быстрая генерация с высокопроизводительными графическими процессорами: например, NVIDIA 4090.
- Отключите sage-attention: если sage-attention установлен, его можно отключить для первого теста, чтобы обеспечить качественную генерацию.
Функциональное управление
Низкий уровень генерации памяти
Основное достоинство FramePack - низкие требования к видеопамяти. Благодаря сжатию входного контекста для создания 60 секунд видео со скоростью 30 кадров в секунду требуется всего 6 ГБ видеопамяти. Никаких дополнительных настроек не требуется, система автоматически оптимизирует распределение графической памяти.
Предсказание следующего кадра
FramePack генерирует видео кадр за кадром с помощью нейронной сети предсказания следующего кадра. Пользователи могут просматривать потенциальные превью каждого сгенерированного сегмента в режиме реального времени в интерфейсе Gradio, чтобы убедиться, что видеоконтент соответствует ожиданиям.
Интерфейс Gradio
Интерфейс Gradio прост и интуитивно понятен, поддерживает быструю загрузку и предварительный просмотр. Пользователи могут использовать --share
параметр для совместного использования интерфейса с общедоступной сетью, или через --port
ответить пением --server
Параметры пользовательского порта и адреса сервера:
python demo_gradio.py --share --port 7861 --server 0.0.0.0
сценарий применения
- создание контента
FramePack подходит для создания коротких динамичных видеороликов. Например, создание танцевального видео из изображения персонажа для создания контента в социальных сетях. Небольшой объем видеопамяти позволяет легко начать работу обычному пользователю. - разработка игр
Разработчики могут использовать FramePack для создания динамических анимаций сцен, таких как движение персонажей или изменение окружения, экономя время на ручном моделировании. Облегченные модели поддерживают возможности рендеринга в реальном времени. - Обучение и демонстрация
Преподаватели или тренеры могут создавать обучающие видеоролики из неподвижных изображений для демонстрации динамических процессов (например, моделирования научных экспериментов). Интерфейс Gradio прост в использовании и подходит для нетехнических пользователей. - пограничные вычисления
Модель FramePack с 1,3 млрд параметров подходит для развертывания на пограничных устройствах, таких как мобильные устройства или встраиваемые системы, для локализованной генерации видео.
QA
- Какие графические процессоры поддерживает FramePack?
Поддерживает графические процессоры NVIDIA RTX серий 30XX, 40XX, 50XX с минимальным объемом оперативной памяти 6 ГБ. GTX 10XX/20XX не тестировались, могут быть несовместимы. - Сколько времени требуется для создания видео?
На NVIDIA 4090 это 2,5 сек/кадр без оптимизации и 1,5 сек/кадр с включенным teacache. На создание 5 секунд видео уходит около 3-4 минут. - Как можно улучшить качество генерации?
Используйте высококачественные входные изображения, пишите четкие сигналы к действию, отключите sage-attention и отключите teacache для окончательной генерации высокого качества. - Можно ли создавать длинные видеоролики?
Да, FramePack поддерживает генерацию тысяч видеокадров (например, 60 секунд при 30 кадрах в секунду). Требования к видеопамяти фиксированы и не увеличиваются в зависимости от длины видео.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие посты
Нет комментариев...