StreamingT2V: динамическая и масштабируемая генерация из текста в длинное видео
Общее введение
StreamingT2V - это публичный проект, разработанный исследовательской группой Picsart AI и направленный на создание связных, динамичных и масштабируемых длинных видео на основе текстовых описаний. Технология использует передовой авторегрессионный подход, который гарантирует получение временной последовательности видео, точно соответствующего тексту описания и сохраняющего высокое качество изображения. Она способна генерировать видео со скоростью до 1200 кадров в секунду и продолжительностью до двух минут, с возможностью масштабирования на более длительные периоды времени. Эффективность метода не ограничивается конкретной моделью Text2Video, т. е. усовершенствование модели будет способствовать дальнейшему повышению качества видео.
Потоковое вещаниеT2V Онлайн опыт

Список функций
Поддерживает создание видеороликов со скоростью до 1200 кадров в секунду и продолжительностью до двух минут.
Поддерживает временную согласованность видео и изображений с высоким качеством кадров
Динамическое создание видео, которое точно соответствует текстовому описанию
Поддержка нескольких базовых моделей для повышения качества создаваемых видеороликов
Поддержка преобразования текста в видео и изображения в видео
Предоставьте онлайн-демонстрацию Gradio
Использование помощи
Клонируйте репозиторий проекта и установите необходимое окружение
Загрузите грузы и поместите их в нужный каталог
Запустите пример кода для преобразования текста в видео или изображения в видео
Ознакомьтесь с подробными результатами и демонстрациями на странице проекта
время вывода
ModelscopeT2V в качестве базовой модели
частота кадров | Более быстрое время вывода превью (256×256) | Время обдумывания окончательного результата (720×720) |
---|---|---|
24 кадра | 40 секунд. | 165 секунд. |
56 кадров | 75 секунд | 360 секунд |
80 кадров | 110 секунд. | 525 секунд. |
240 кадров | 340 секунд. | 1610 секунд (около 27 минут) |
600 кадров | 860 секунд. | 5128 секунд (около 85 минут) |
1200 кадров. | 1710 секунд (около 28 минут) | 10225 секунд (около 170 минут) |
AnimateDiffв качестве базовой модели
частота кадров | Более быстрое время вывода превью (256×256) | Время обдумывания окончательного результата (720×720) |
---|---|---|
24 кадра | 50 секунд. | 180 секунд. |
56 кадров | 85 секунд. | 370 секунд. |
80 кадров | 120 секунд. | 535 секунд. |
240 кадров | 350 секунд. | 1620 секунд (около 27 минут) |
600 кадров | 870 секунд. | 5138 секунд (~85 минут) |
1200 кадров. | 1720 секунд (около 28 минут) | 10235 секунд (около 170 минут) |
SVDВ качестве базовой модели
частота кадров | Более быстрое время вывода превью (256×256) | Время обдумывания окончательного результата (720×720) |
---|---|---|
24 кадра | 80 секунд. | 210 секунд. |
56 кадров | 115 секунд. | 400 секунд. |
80 кадров | 150 секунд. | 565 секунд. |
240 кадров | 380 секунд. | 1650 секунд (около 27 минут) |
600 кадров | 900 секунд. | 5168 секунд (~86 минут) |
1200 кадров. | 1750 секунд (около 29 минут) | 10265 секунд (~171 минута) |
Все измерения проводились с использованием графического процессора NVIDIA A100 (80 ГБ). Когда количество кадров превышало 80, использовалось случайное смешивание. Для случайного смешиванияchunk_size
и значениеoverlap_size
установлены на 112 и 32, соответственно.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...