Step-Video-T2V: модель видео Vincennes, поддерживающая многоязычный ввод и генерацию длинного видео
Общее введение
Step-Video-T2V - это продвинутая модель конвертации текста в видео от StepFun AI (Step Star). Модель имеет 3 миллиарда параметров и способна генерировать видео со скоростью до 204 кадров в секунду. Благодаря глубокому сжатию Variable Auto-Encoder (VAE) модель достигает пространственного сжатия 16x16 и временного сжатия 8x, что повышает эффективность обучения и вывода. Step-Video-T2V демонстрирует хорошие результаты в области генерации видео, особенно в плане движения видео и эффективности. Однако при обработке сложных движений остаются некоторые проблемы. Модель имеет открытый исходный код, и пользователи могут получить доступ и внести свой вклад на GitHub.

Список функций
- Создание высококачественного видео: генерируйте видео со скоростью до 204 кадров в секунду, используя 3 миллиарда параметров.
- Техника глубокого сжатия: пространственное сжатие 16x16 и временное сжатие 8x с использованием вариационного самокодера глубокого сжатия.
- Двуязычная поддержка: поддержка текстовых оповещений на английском и китайском языках.
- Открытый исходный код и поддержка сообщества: модели и эталонные наборы данных находятся в открытом доступе, что способствует развитию инноваций и расширению возможностей создателей.
Использование помощи
Процесс установки
- Клонирование репозиториев GitHub:
git clone https://github.com/stepfun-ai/Step-Video-T2V.git
- Перейдите в каталог проектов:
cd Step-Video-T2V
- Создайте и активируйте виртуальную среду:
conda create -n stepvideo python=3.10 conda activate stepvideo
- Установите зависимость:
pip install -e . pip install flash-attn --no-build-isolation ## flash-attn是可选的
Руководство по использованию
Создать видео
- Подготовьте текстовые подсказки для сохранения в файле, например
prompt.txt
::飞机在蓝天中飞翔
- Запустите сценарий создания видео:
python generate_video.py --input prompt.txt --output video.mp4
Подробный порядок работы функций
- Создание видео высокого качества::
- Ввод текста: пользователь вводит текст, описывающий содержание видео.
- Обработка модели: модель Step-Video-T2V анализирует текст и генерирует видео.
- Видеовыход: сгенерированное видео сохраняется в формате MP4, который может быть просмотрен и распространен пользователями в любое время.
- Технология глубокого сжатия::
- Пространственное сжатие: повысьте эффективность создания видео благодаря технологии пространственного сжатия 16x16.
- Временное сжатие: скорость и качество создания видео дополнительно оптимизированы благодаря технологии 8-кратного временного сжатия.
- Двуязычная поддержка::
- Поддержка английского языка: пользователи могут вводить английский текст, а модель автоматически разбирает его и генерирует соответствующее видео.
- Поддержка китайского языка: пользователи могут вводить китайский текст, модель также может генерировать соответствующее видео, чтобы поддержать потребности многоязычных пользователей.
- Открытый исходный код и поддержка сообщества::
- Открытый исходный код: пользователи могут получить доступ к полному коду модели на GitHub, чтобы самостоятельно развертывать и изменять ее.
- Вклад сообщества: пользователи могут вносить вклад в код, чтобы участвовать в улучшении и оптимизации модели.
Выводы и квантификация на одном процессоре
Проект Step-Video-T2V поддерживает вывод и квантование на одном GPU, что значительно сокращает объем требуемой графической памяти. Пожалуйста, обратитесь кСвязанные примерыУзнайте подробности.
Лучшие практики настройки рассуждений
Step-Video-T2V отлично справляется с задачей вывода, стабильно генерируя видео с высокой точностью и динамикой. Однако наши эксперименты показывают, что вариации гиперпараметров вывода влияют на качество генерации.
Модели | infer_steps | cfg_scale | временной_сдвиг | num_frames |
---|---|---|---|---|
Step-Video-T2V | 30-50 | 9.0 | 13.0 | 204 |
Шаг-Видео-Т2В-Турбо (Шаг умозаключений) Дистилляция) | 10-15 | 5.0 | 17.0 | 204 |
Скачать модель
моделирование | 🤗 Обнимающееся лицо | 🤖 Modelscope |
---|---|---|
Step-Video-T2V | загрузка | загрузка |
Step-Video-T2V-Turbo (ступенчатая дистилляция выводов) | загрузка | загрузка |
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...