Step-Video-T2V: un modelo de vídeo de Vincennes que admite la entrada multilingüe y la generación de vídeos largos

Introducción general

Step-Video-T2V es un modelo avanzado de conversión de texto a vídeo de StepFun AI (Step Star). El modelo tiene 3.000 millones de parámetros y es capaz de generar vídeos de hasta 204 fps. Con un Auto-Encoder Variable (VAE) profundamente comprimido, el modelo logra una compresión espacial de 16x16 y una compresión temporal de 8x, lo que mejora la eficiencia del entrenamiento y la inferencia.Step-Video-T2V tiene un buen rendimiento en el campo de la generación de vídeo, especialmente en términos de movimiento y eficiencia del vídeo. Sin embargo, aún existen algunos problemas a la hora de tratar movimientos complejos. El modelo es de código abierto y los usuarios pueden acceder al código y contribuir a él en GitHub.

Step-Video-T2V:支持多语言输入和长视频生成的文生视频模型

 

Lista de funciones

  • Genera vídeo de alta calidad: genera vídeo de hasta 204 fps utilizando 3.000 millones de parámetros.
  • Técnica de compresión profunda: compresión espacial 16x16 y compresión temporal 8x utilizando un autocodificador variacional de compresión profunda.
  • Soporte bilingüe: admite alertas de texto en inglés y chino.
  • Código abierto y apoyo de la comunidad: los modelos y conjuntos de datos de referencia son de código abierto para fomentar la innovación y capacitar a los creadores.

 

Utilizar la ayuda

Proceso de instalación

  1. Clonación de repositorios GitHub:
    git clone https://github.com/stepfun-ai/Step-Video-T2V.git
    
  2. Vaya al catálogo de proyectos:
    cd Step-Video-T2V
    
  3. Crear y activar un entorno virtual:
    conda create -n stepvideo python=3.10
    conda activate stepvideo
    
  4. Instale la dependencia:
    pip install -e .
    pip install flash-attn --no-build-isolation  ## flash-attn是可选的
    

Normas de uso

Generar vídeo

  1. Prepare indicaciones de texto para guardarlas en un archivo, por ejemploprompt.txt::
    飞机在蓝天中飞翔
    
  2. Ejecute el script de generación de vídeo:
    python generate_video.py --input prompt.txt --output video.mp4
    

Flujo detallado de funcionamiento de las funciones

  1. Generar vídeo de alta calidad::
    • Entrada de texto: El usuario introduce un texto que describe el contenido del vídeo.
    • Procesamiento del modelo: el modelo Step-Video-T2V analiza el texto y genera el vídeo.
    • Salida de vídeo: El vídeo generado se guarda en formato MP4, que los usuarios pueden ver y compartir en cualquier momento.
  2. Tecnología de compresión profunda::
    • Compresión espacial: mejore la eficacia de la generación de vídeo mediante la tecnología de compresión espacial 16x16.
    • Compresión temporal: la velocidad y la calidad de generación de vídeo se optimizan aún más gracias a la tecnología de compresión temporal 8x.
  3. Asistencia bilingüe::
    • Soporte de inglés: los usuarios pueden introducir texto en inglés, y el modelo lo analiza automáticamente y genera el vídeo correspondiente.
    • Compatibilidad con chino: los usuarios pueden introducir texto en chino, el modelo también puede generar el vídeo correspondiente, compatibilidad con las necesidades multilingües de los usuarios.
  4. Código abierto y apoyo comunitario::
    • Código abierto: los usuarios pueden acceder al código completo del modelo en GitHub para desplegarlo y modificarlo ellos mismos.
    • Contribución de la comunidad: los usuarios pueden enviar contribuciones de código para participar en la mejora y optimización del modelo.

Inferencia y cuantificación en una sola GPU

El proyecto Step-Video-T2V admite la inferencia y cuantificación en una sola GPU, lo que reduce significativamente la cantidad de memoria gráfica necesaria. ConsulteEjemplos relacionadosInfórmate.

Mejores prácticas de razonamiento

Step-Video-T2V funciona bien en el entorno de inferencia, generando de forma consistente vídeos dinámicos y de alta fidelidad. Sin embargo, nuestros experimentos muestran que las variaciones en los hiperparámetros de inferencia afectan a la calidad de la generación.

Modelosinfer_stepscfg_escalaturno_horarionum_frames
Step-Vídeo-T2V30-509.013.0204
Paso-Vídeo-T2V-Turbo (Paso de inferencia) Destilación)10-155.017.0204

Descarga de modelos

modelización🤗 Cara de abrazo🤖 Modelscope
Step-Vídeo-T2Vdescargandodescargando
Step-Video-T2V-Turbo (Destilación por pasos de inferencia)descargandodescargando
© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...