Step-Video-T2V: модель видео Vincennes, поддерживающая многоязычный ввод и генерацию длинного видео

Последние ресурсы по искусственному интеллектуОпубликовано 1 год назад Круг обмена ИИ

63.6K 00

Общее введение

Step-Video-T2V - это продвинутая модель конвертации текста в видео от StepFun AI (Step Star). Модель имеет 3 миллиарда параметров и способна генерировать видео со скоростью до 204 кадров в секунду. Благодаря глубокому сжатию Variable Auto-Encoder (VAE) модель достигает пространственного сжатия 16x16 и временного сжатия 8x, что повышает эффективность обучения и вывода. Step-Video-T2V демонстрирует хорошие результаты в области генерации видео, особенно в плане движения видео и эффективности. Однако при обработке сложных движений остаются некоторые проблемы. Модель имеет открытый исходный код, и пользователи могут получить доступ и внести свой вклад на GitHub.

Список функций

Создание высококачественного видео: генерируйте видео со скоростью до 204 кадров в секунду, используя 3 миллиарда параметров.
Техника глубокого сжатия: пространственное сжатие 16x16 и временное сжатие 8x с использованием вариационного самокодера глубокого сжатия.
Двуязычная поддержка: поддержка текстовых оповещений на английском и китайском языках.
Открытый исходный код и поддержка сообщества: модели и эталонные наборы данных находятся в открытом доступе, что способствует развитию инноваций и расширению возможностей создателей.

Использование помощи

Процесс установки

Клонирование репозиториев GitHub:

git clone https://github.com/stepfun-ai/Step-Video-T2V.git

Перейдите в каталог проектов:
```
cd Step-Video-T2V
```
Создайте и активируйте виртуальную среду:
```
conda create -n stepvideo python=3.10
conda activate stepvideo
```

Установите зависимость:

pip install -e .
pip install flash-attn --no-build-isolation  ## flash-attn是可选的

Руководство по использованию

Создать видео

Подготовьте текстовые подсказки для сохранения в файле, напримерprompt.txt::
```
飞机在蓝天中飞翔
```

Запустите сценарий создания видео:

python generate_video.py --input prompt.txt --output video.mp4

Подробный порядок работы функций

Создание видео высокого качества::
- Ввод текста: пользователь вводит текст, описывающий содержание видео.
- Обработка модели: модель Step-Video-T2V анализирует текст и генерирует видео.
- Видеовыход: сгенерированное видео сохраняется в формате MP4, который может быть просмотрен и распространен пользователями в любое время.
Технология глубокого сжатия::
- Пространственное сжатие: повысьте эффективность создания видео благодаря технологии пространственного сжатия 16x16.
- Временное сжатие: скорость и качество создания видео дополнительно оптимизированы благодаря технологии 8-кратного временного сжатия.
Двуязычная поддержка::
- Поддержка английского языка: пользователи могут вводить английский текст, а модель автоматически разбирает его и генерирует соответствующее видео.
- Поддержка китайского языка: пользователи могут вводить китайский текст, модель также может генерировать соответствующее видео, чтобы поддержать потребности многоязычных пользователей.
Открытый исходный код и поддержка сообщества::
- Открытый исходный код: пользователи могут получить доступ к полному коду модели на GitHub, чтобы самостоятельно развертывать и изменять ее.
- Вклад сообщества: пользователи могут вносить вклад в код, чтобы участвовать в улучшении и оптимизации модели.

Выводы и квантификация на одном процессоре

Проект Step-Video-T2V поддерживает вывод и квантование на одном GPU, что значительно сокращает объем требуемой графической памяти. Пожалуйста, обратитесь кСвязанные примерыУзнайте подробности.

Лучшие практики настройки рассуждений

Step-Video-T2V отлично справляется с задачей вывода, стабильно генерируя видео с высокой точностью и динамикой. Однако наши эксперименты показывают, что вариации гиперпараметров вывода влияют на качество генерации.

Модели	infer_steps	cfg_scale	временной_сдвиг	num_frames
Step-Video-T2V	30-50	9.0	13.0	204
Шаг-Видео-Т2В-Турбо (Шаг умозаключений) Дистилляция)	10-15	5.0	17.0	204

Скачать модель

моделирование	🤗 Обнимающееся лицо	🤖 Modelscope
Step-Video-T2V	загрузка	загрузка
Step-Video-T2V-Turbo (ступенчатая дистилляция выводов)	загрузка	загрузка