StreamingT2V: динамическая и масштабируемая генерация из текста в длинное видео

Последние ресурсы по искусственному интеллектуОбновлено 1 год назад Круг обмена ИИ

Общее введение

StreamingT2V - это публичный проект, разработанный исследовательской группой Picsart AI и направленный на создание связных, динамичных и масштабируемых длинных видео на основе текстовых описаний. Технология использует передовой авторегрессионный подход, который гарантирует получение временной последовательности видео, точно соответствующего тексту описания и сохраняющего высокое качество изображения. Она способна генерировать видео со скоростью до 1200 кадров в секунду и продолжительностью до двух минут, с возможностью масштабирования на более длительные периоды времени. Эффективность метода не ограничивается конкретной моделью Text2Video, т. е. усовершенствование модели будет способствовать дальнейшему повышению качества видео.

Потоковое вещаниеT2V Онлайн опыт

Список функций

Поддерживает создание видеороликов со скоростью до 1200 кадров в секунду и продолжительностью до двух минут.
Поддерживает временную согласованность видео и изображений с высоким качеством кадров
Динамическое создание видео, которое точно соответствует текстовому описанию
Поддержка нескольких базовых моделей для повышения качества создаваемых видеороликов
Поддержка преобразования текста в видео и изображения в видео
Предоставьте онлайн-демонстрацию Gradio

Использование помощи

Клонируйте репозиторий проекта и установите необходимое окружение
Загрузите грузы и поместите их в нужный каталог
Запустите пример кода для преобразования текста в видео или изображения в видео
Ознакомьтесь с подробными результатами и демонстрациями на странице проекта

время вывода

ModelscopeT2V в качестве базовой модели

частота кадров	Более быстрое время вывода превью (256×256)	Время обдумывания окончательного результата (720×720)
24 кадра	40 секунд.	165 секунд.
56 кадров	75 секунд	360 секунд
80 кадров	110 секунд.	525 секунд.
240 кадров	340 секунд.	1610 секунд (около 27 минут)
600 кадров	860 секунд.	5128 секунд (около 85 минут)
1200 кадров.	1710 секунд (около 28 минут)	10225 секунд (около 170 минут)

AnimateDiffв качестве базовой модели

частота кадров	Более быстрое время вывода превью (256×256)	Время обдумывания окончательного результата (720×720)
24 кадра	50 секунд.	180 секунд.
56 кадров	85 секунд.	370 секунд.
80 кадров	120 секунд.	535 секунд.
240 кадров	350 секунд.	1620 секунд (около 27 минут)
600 кадров	870 секунд.	5138 секунд (~85 минут)
1200 кадров.	1720 секунд (около 28 минут)	10235 секунд (около 170 минут)

SVDВ качестве базовой модели

частота кадров	Более быстрое время вывода превью (256×256)	Время обдумывания окончательного результата (720×720)
24 кадра	80 секунд.	210 секунд.
56 кадров	115 секунд.	400 секунд.
80 кадров	150 секунд.	565 секунд.
240 кадров	380 секунд.	1650 секунд (около 27 минут)
600 кадров	900 секунд.	5168 секунд (~86 минут)
1200 кадров.	1750 секунд (около 29 минут)	10265 секунд (~171 минута)

Все измерения проводились с использованием графического процессора NVIDIA A100 (80 ГБ). Когда количество кадров превышало 80, использовалось случайное смешивание. Для случайного смешиванияchunk_sizeи значениеoverlap_sizeустановлены на 112 и 32, соответственно.