Step-Video-T2V: un modelo de vídeo de Vincennes que admite la entrada multilingüe y la generación de vídeos largos
Últimos recursos sobre IAPublicado hace 6 meses Círculo de intercambio de inteligencia artificial 2.2K 00
Introducción general
Step-Video-T2V es un modelo avanzado de conversión de texto a vídeo de StepFun AI (Step Star). El modelo tiene 3.000 millones de parámetros y es capaz de generar vídeos de hasta 204 fps. Con un Auto-Encoder Variable (VAE) profundamente comprimido, el modelo logra una compresión espacial de 16x16 y una compresión temporal de 8x, lo que mejora la eficiencia del entrenamiento y la inferencia.Step-Video-T2V tiene un buen rendimiento en el campo de la generación de vídeo, especialmente en términos de movimiento y eficiencia del vídeo. Sin embargo, aún existen algunos problemas a la hora de tratar movimientos complejos. El modelo es de código abierto y los usuarios pueden acceder al código y contribuir a él en GitHub.

Lista de funciones
- Genera vídeo de alta calidad: genera vídeo de hasta 204 fps utilizando 3.000 millones de parámetros.
- Técnica de compresión profunda: compresión espacial 16x16 y compresión temporal 8x utilizando un autocodificador variacional de compresión profunda.
- Soporte bilingüe: admite alertas de texto en inglés y chino.
- Código abierto y apoyo de la comunidad: los modelos y conjuntos de datos de referencia son de código abierto para fomentar la innovación y capacitar a los creadores.
Utilizar la ayuda
Proceso de instalación
- Clonación de repositorios GitHub:
git clone https://github.com/stepfun-ai/Step-Video-T2V.git
- Vaya al catálogo de proyectos:
cd Step-Video-T2V
- Crear y activar un entorno virtual:
conda create -n stepvideo python=3.10 conda activate stepvideo
- Instale la dependencia:
pip install -e . pip install flash-attn --no-build-isolation ## flash-attn是可选的
Normas de uso
Generar vídeo
- Prepare indicaciones de texto para guardarlas en un archivo, por ejemplo
prompt.txt
::飞机在蓝天中飞翔
- Ejecute el script de generación de vídeo:
python generate_video.py --input prompt.txt --output video.mp4
Flujo detallado de funcionamiento de las funciones
- Generar vídeo de alta calidad::
- Entrada de texto: El usuario introduce un texto que describe el contenido del vídeo.
- Procesamiento del modelo: el modelo Step-Video-T2V analiza el texto y genera el vídeo.
- Salida de vídeo: El vídeo generado se guarda en formato MP4, que los usuarios pueden ver y compartir en cualquier momento.
- Tecnología de compresión profunda::
- Compresión espacial: mejore la eficacia de la generación de vídeo mediante la tecnología de compresión espacial 16x16.
- Compresión temporal: la velocidad y la calidad de generación de vídeo se optimizan aún más gracias a la tecnología de compresión temporal 8x.
- Asistencia bilingüe::
- Soporte de inglés: los usuarios pueden introducir texto en inglés, y el modelo lo analiza automáticamente y genera el vídeo correspondiente.
- Compatibilidad con chino: los usuarios pueden introducir texto en chino, el modelo también puede generar el vídeo correspondiente, compatibilidad con las necesidades multilingües de los usuarios.
- Código abierto y apoyo comunitario::
- Código abierto: los usuarios pueden acceder al código completo del modelo en GitHub para desplegarlo y modificarlo ellos mismos.
- Contribución de la comunidad: los usuarios pueden enviar contribuciones de código para participar en la mejora y optimización del modelo.
Inferencia y cuantificación en una sola GPU
El proyecto Step-Video-T2V admite la inferencia y cuantificación en una sola GPU, lo que reduce significativamente la cantidad de memoria gráfica necesaria. ConsulteEjemplos relacionadosInfórmate.
Mejores prácticas de razonamiento
Step-Video-T2V funciona bien en el entorno de inferencia, generando de forma consistente vídeos dinámicos y de alta fidelidad. Sin embargo, nuestros experimentos muestran que las variaciones en los hiperparámetros de inferencia afectan a la calidad de la generación.
Modelos | infer_steps | cfg_escala | turno_horario | num_frames |
---|---|---|---|---|
Step-Vídeo-T2V | 30-50 | 9.0 | 13.0 | 204 |
Paso-Vídeo-T2V-Turbo (Paso de inferencia) Destilación) | 10-15 | 5.0 | 17.0 | 204 |
Descarga de modelos
modelización | 🤗 Cara de abrazo | 🤖 Modelscope |
---|---|---|
Step-Vídeo-T2V | descargando | descargando |
Step-Video-T2V-Turbo (Destilación por pasos de inferencia) | descargando | descargando |
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...