StreamingT2V: динамическая и масштабируемая генерация из текста в длинное видео

Общее введение

StreamingT2V - это публичный проект, разработанный исследовательской группой Picsart AI и направленный на создание связных, динамичных и масштабируемых длинных видео на основе текстовых описаний. Технология использует передовой авторегрессионный подход, который гарантирует получение временной последовательности видео, точно соответствующего тексту описания и сохраняющего высокое качество изображения. Она способна генерировать видео со скоростью до 1200 кадров в секунду и продолжительностью до двух минут, с возможностью масштабирования на более длительные периоды времени. Эффективность метода не ограничивается конкретной моделью Text2Video, т. е. усовершенствование модели будет способствовать дальнейшему повышению качества видео.

Потоковое вещаниеT2V Онлайн опыт

 

StreamingT2V:从文本到长视频的动态且可扩展的生成技术

 

Список функций

Поддерживает создание видеороликов со скоростью до 1200 кадров в секунду и продолжительностью до двух минут.
Поддерживает временную согласованность видео и изображений с высоким качеством кадров
Динамическое создание видео, которое точно соответствует текстовому описанию
Поддержка нескольких базовых моделей для повышения качества создаваемых видеороликов
Поддержка преобразования текста в видео и изображения в видео
Предоставьте онлайн-демонстрацию Gradio

 

 

Использование помощи

Клонируйте репозиторий проекта и установите необходимое окружение
Загрузите грузы и поместите их в нужный каталог
Запустите пример кода для преобразования текста в видео или изображения в видео
Ознакомьтесь с подробными результатами и демонстрациями на странице проекта

 

время вывода

 

ModelscopeT2V в качестве базовой модели

 

частота кадровБолее быстрое время вывода превью (256×256)Время обдумывания окончательного результата (720×720)
24 кадра40 секунд.165 секунд.
56 кадров75 секунд360 секунд
80 кадров110 секунд.525 секунд.
240 кадров340 секунд.1610 секунд (около 27 минут)
600 кадров860 секунд.5128 секунд (около 85 минут)
1200 кадров.1710 секунд (около 28 минут)10225 секунд (около 170 минут)
AnimateDiffв качестве базовой модели

 

частота кадровБолее быстрое время вывода превью (256×256)Время обдумывания окончательного результата (720×720)
24 кадра50 секунд.180 секунд.
56 кадров85 секунд.370 секунд.
80 кадров120 секунд.535 секунд.
240 кадров350 секунд.1620 секунд (около 27 минут)
600 кадров870 секунд.5138 секунд (~85 минут)
1200 кадров.1720 секунд (около 28 минут)10235 секунд (около 170 минут)
SVDВ качестве базовой модели

 

частота кадровБолее быстрое время вывода превью (256×256)Время обдумывания окончательного результата (720×720)
24 кадра80 секунд.210 секунд.
56 кадров115 секунд.400 секунд.
80 кадров150 секунд.565 секунд.
240 кадров380 секунд.1650 секунд (около 27 минут)
600 кадров900 секунд.5168 секунд (~86 минут)
1200 кадров.1750 секунд (около 29 минут)10265 секунд (~171 минута)

Все измерения проводились с использованием графического процессора NVIDIA A100 (80 ГБ). Когда количество кадров превышало 80, использовалось случайное смешивание. Для случайного смешиванияchunk_sizeи значениеoverlap_sizeустановлены на 112 и 32, соответственно.

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...