StreamingT2V: generación dinámica y escalable de texto a vídeo largo

Introducción general

StreamingT2V es un proyecto público desarrollado por el equipo de investigación en IA de Picsart centrado en generar vídeos largos coherentes, dinámicos y escalables a partir de descripciones textuales. Esta tecnología utiliza un enfoque autorregresivo avanzado que garantiza un vídeo temporalmente coherente que se corresponde estrechamente con el texto de la descripción y mantiene una imagen de alta calidad de fotogramas. Es capaz de generar vídeos de hasta 1200 fps y hasta dos minutos de duración, con potencial para escalar a periodos de tiempo más largos. La eficacia de la técnica no está limitada por un modelo Text2Video específico, es decir, las mejoras en el modelo mejorarán aún más la calidad del vídeo.

StreamingT2V Experiencia en línea

 

StreamingT2V:从文本到长视频的动态且可扩展的生成技术

 

Lista de funciones

Admite la generación de vídeos de hasta 1200 fps y hasta dos minutos de duración.
Mantiene la coherencia temporal del vídeo y de las imágenes de alta calidad de fotogramas
Generación dinámica de vídeos que se corresponden estrechamente con la descripción del texto
Admite múltiples aplicaciones del modelo Base para mejorar la calidad de los vídeos generados
Conversión de texto a vídeo y de imagen a vídeo
Demostración en línea de Gradio

 

 

Utilizar la ayuda

Clonar el repositorio del proyecto e instalar el entorno necesario
Descargar pesos y colocarlos en el catálogo correcto
Ejecutar código de ejemplo para la conversión de texto a vídeo o de imagen a vídeo
Consulte la página del proyecto para ver los resultados detallados y las demostraciones

 

tiempo de inferencia

 

ModelscopeT2V como modelo base

 

frecuencia de imagenTiempo de inferencia de previsualización más rápido (256×256)Tiempo de razonamiento para el resultado final (720×720)
24 cuadros40 segundos.165 segundos.
56 cuadros75 segundos360 segundos
80 cuadros110 segundos.525 segundos.
240 cuadros340 segundos.1610 segundos (unos 27 minutos)
600 cuadros860 segundos.5128 segundos (unos 85 minutos)
1200 cuadros.1710 segundos (unos 28 minutos)10225 segundos (unos 170 minutos)
AnimateDiffcomo modelo base

 

frecuencia de imagenTiempo de inferencia de previsualización más rápido (256×256)Tiempo de razonamiento para el resultado final (720×720)
24 cuadros50 segundos.180 segundos.
56 cuadros85 segundos.370 segundos.
80 cuadros120 segundos.535 segundos.
240 cuadros350 segundos.1620 segundos (unos 27 minutos)
600 cuadros870 segundos.5138 segundos (~85 minutos)
1200 cuadros.1720 segundos (unos 28 minutos)10235 segundos (unos 170 minutos)
SVDComo modelo básico

 

frecuencia de imagenTiempo de inferencia de previsualización más rápido (256×256)Tiempo de razonamiento para el resultado final (720×720)
24 cuadros80 segundos.210 segundos.
56 cuadros115 segundos.400 segundos.
80 cuadros150 segundos.565 segundos.
240 cuadros380 segundos.1650 segundos (unos 27 minutos)
600 cuadros900 segundos.5168 segundos (~86 minutos)
1200 cuadros.1750 segundos (aprox. 29 minutos)10265 segundos (~171 minutos)

Todas las mediciones se realizaron con la GPU NVIDIA A100 (80 GB). Cuando el número de fotogramas superaba los 80, se utilizaba la mezcla aleatoria. Para la mezcla aleatoria, elchunk_sizey el valor deoverlap_sizese fijan en 112 y 32, respectivamente.

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...