Step-Video-T2V: модель видео Vincennes, поддерживающая многоязычный ввод и генерацию длинного видео

Общее введение

Step-Video-T2V - это продвинутая модель конвертации текста в видео от StepFun AI (Step Star). Модель имеет 3 миллиарда параметров и способна генерировать видео со скоростью до 204 кадров в секунду. Благодаря глубокому сжатию Variable Auto-Encoder (VAE) модель достигает пространственного сжатия 16x16 и временного сжатия 8x, что повышает эффективность обучения и вывода. Step-Video-T2V демонстрирует хорошие результаты в области генерации видео, особенно в плане движения видео и эффективности. Однако при обработке сложных движений остаются некоторые проблемы. Модель имеет открытый исходный код, и пользователи могут получить доступ и внести свой вклад на GitHub.

Step-Video-T2V:支持多语言输入和长视频生成的文生视频模型

 

Список функций

  • Создание высококачественного видео: генерируйте видео со скоростью до 204 кадров в секунду, используя 3 миллиарда параметров.
  • Техника глубокого сжатия: пространственное сжатие 16x16 и временное сжатие 8x с использованием вариационного самокодера глубокого сжатия.
  • Двуязычная поддержка: поддержка текстовых оповещений на английском и китайском языках.
  • Открытый исходный код и поддержка сообщества: модели и эталонные наборы данных находятся в открытом доступе, что способствует развитию инноваций и расширению возможностей создателей.

 

Использование помощи

Процесс установки

  1. Клонирование репозиториев GitHub:
    git clone https://github.com/stepfun-ai/Step-Video-T2V.git
    
  2. Перейдите в каталог проектов:
    cd Step-Video-T2V
    
  3. Создайте и активируйте виртуальную среду:
    conda create -n stepvideo python=3.10
    conda activate stepvideo
    
  4. Установите зависимость:
    pip install -e .
    pip install flash-attn --no-build-isolation  ## flash-attn是可选的
    

Руководство по использованию

Создать видео

  1. Подготовьте текстовые подсказки для сохранения в файле, напримерprompt.txt::
    飞机在蓝天中飞翔
    
  2. Запустите сценарий создания видео:
    python generate_video.py --input prompt.txt --output video.mp4
    

Подробный порядок работы функций

  1. Создание видео высокого качества::
    • Ввод текста: пользователь вводит текст, описывающий содержание видео.
    • Обработка модели: модель Step-Video-T2V анализирует текст и генерирует видео.
    • Видеовыход: сгенерированное видео сохраняется в формате MP4, который может быть просмотрен и распространен пользователями в любое время.
  2. Технология глубокого сжатия::
    • Пространственное сжатие: повысьте эффективность создания видео благодаря технологии пространственного сжатия 16x16.
    • Временное сжатие: скорость и качество создания видео дополнительно оптимизированы благодаря технологии 8-кратного временного сжатия.
  3. Двуязычная поддержка::
    • Поддержка английского языка: пользователи могут вводить английский текст, а модель автоматически разбирает его и генерирует соответствующее видео.
    • Поддержка китайского языка: пользователи могут вводить китайский текст, модель также может генерировать соответствующее видео, чтобы поддержать потребности многоязычных пользователей.
  4. Открытый исходный код и поддержка сообщества::
    • Открытый исходный код: пользователи могут получить доступ к полному коду модели на GitHub, чтобы самостоятельно развертывать и изменять ее.
    • Вклад сообщества: пользователи могут вносить вклад в код, чтобы участвовать в улучшении и оптимизации модели.

Выводы и квантификация на одном процессоре

Проект Step-Video-T2V поддерживает вывод и квантование на одном GPU, что значительно сокращает объем требуемой графической памяти. Пожалуйста, обратитесь кСвязанные примерыУзнайте подробности.

Лучшие практики настройки рассуждений

Step-Video-T2V отлично справляется с задачей вывода, стабильно генерируя видео с высокой точностью и динамикой. Однако наши эксперименты показывают, что вариации гиперпараметров вывода влияют на качество генерации.

Моделиinfer_stepscfg_scaleвременной_сдвигnum_frames
Step-Video-T2V30-509.013.0204
Шаг-Видео-Т2В-Турбо (Шаг умозаключений) Дистилляция)10-155.017.0204

Скачать модель

моделирование🤗 Обнимающееся лицо🤖 Modelscope
Step-Video-T2Vзагрузказагрузка
Step-Video-T2V-Turbo (ступенчатая дистилляция выводов)загрузказагрузка
© заявление об авторских правах

Похожие статьи

Travo:AI旅行指南,多语言讲解当地景点,城市旅游指南互动APP

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...