Step-Video-T2V: un modelo de vídeo de Vincennes que admite la entrada multilingüe y la generación de vídeos largos

Últimos recursos sobre IAPublicado hace 1 año Círculo de intercambio de inteligencia artificial

63.6K 00

Introducción general

Step-Video-T2V es un modelo avanzado de conversión de texto a vídeo de StepFun AI (Step Star). El modelo tiene 3.000 millones de parámetros y es capaz de generar vídeos de hasta 204 fps. Con un Auto-Encoder Variable (VAE) profundamente comprimido, el modelo logra una compresión espacial de 16x16 y una compresión temporal de 8x, lo que mejora la eficiencia del entrenamiento y la inferencia.Step-Video-T2V tiene un buen rendimiento en el campo de la generación de vídeo, especialmente en términos de movimiento y eficiencia del vídeo. Sin embargo, aún existen algunos problemas a la hora de tratar movimientos complejos. El modelo es de código abierto y los usuarios pueden acceder al código y contribuir a él en GitHub.

Lista de funciones

Genera vídeo de alta calidad: genera vídeo de hasta 204 fps utilizando 3.000 millones de parámetros.
Técnica de compresión profunda: compresión espacial 16x16 y compresión temporal 8x utilizando un autocodificador variacional de compresión profunda.
Soporte bilingüe: admite alertas de texto en inglés y chino.
Código abierto y apoyo de la comunidad: los modelos y conjuntos de datos de referencia son de código abierto para fomentar la innovación y capacitar a los creadores.

Utilizar la ayuda

Proceso de instalación

Clonación de repositorios GitHub:

git clone https://github.com/stepfun-ai/Step-Video-T2V.git

Vaya al catálogo de proyectos:
```
cd Step-Video-T2V
```

Crear y activar un entorno virtual:

conda create -n stepvideo python=3.10
conda activate stepvideo

Instale la dependencia:

pip install -e .
pip install flash-attn --no-build-isolation  ## flash-attn是可选的

Normas de uso

Generar vídeo

Prepare indicaciones de texto para guardarlas en un archivo, por ejemploprompt.txt::
```
飞机在蓝天中飞翔
```

Ejecute el script de generación de vídeo:

python generate_video.py --input prompt.txt --output video.mp4

Flujo detallado de funcionamiento de las funciones

Generar vídeo de alta calidad::
- Entrada de texto: El usuario introduce un texto que describe el contenido del vídeo.
- Procesamiento del modelo: el modelo Step-Video-T2V analiza el texto y genera el vídeo.
- Salida de vídeo: El vídeo generado se guarda en formato MP4, que los usuarios pueden ver y compartir en cualquier momento.
Tecnología de compresión profunda::
- Compresión espacial: mejore la eficacia de la generación de vídeo mediante la tecnología de compresión espacial 16x16.
- Compresión temporal: la velocidad y la calidad de generación de vídeo se optimizan aún más gracias a la tecnología de compresión temporal 8x.
Asistencia bilingüe::
- Soporte de inglés: los usuarios pueden introducir texto en inglés, y el modelo lo analiza automáticamente y genera el vídeo correspondiente.
- Compatibilidad con chino: los usuarios pueden introducir texto en chino, el modelo también puede generar el vídeo correspondiente, compatibilidad con las necesidades multilingües de los usuarios.
Código abierto y apoyo comunitario::
- Código abierto: los usuarios pueden acceder al código completo del modelo en GitHub para desplegarlo y modificarlo ellos mismos.
- Contribución de la comunidad: los usuarios pueden enviar contribuciones de código para participar en la mejora y optimización del modelo.

Inferencia y cuantificación en una sola GPU

El proyecto Step-Video-T2V admite la inferencia y cuantificación en una sola GPU, lo que reduce significativamente la cantidad de memoria gráfica necesaria. ConsulteEjemplos relacionadosInfórmate.

Mejores prácticas de razonamiento

Step-Video-T2V funciona bien en el entorno de inferencia, generando de forma consistente vídeos dinámicos y de alta fidelidad. Sin embargo, nuestros experimentos muestran que las variaciones en los hiperparámetros de inferencia afectan a la calidad de la generación.

Modelos	infer_steps	cfg_escala	turno_horario	num_frames
Step-Vídeo-T2V	30-50	9.0	13.0	204
Paso-Vídeo-T2V-Turbo (Paso de inferencia) Destilación)	10-15	5.0	17.0	204

Descarga de modelos

modelización	🤗 Cara de abrazo	🤖 Modelscope
Step-Vídeo-T2V	descargando	descargando
Step-Video-T2V-Turbo (Destilación por pasos de inferencia)	descargando	descargando

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

Codeium (Windsurf Editor): herramienta gratuita de completado de código AI y chat, Windsurf escribe el código completo del proyecto de forma conversacional.

Últimos recursos sobre IA # AI IDE # Programación de IA

hace 1 año

0189.2K

UltraLight Digital Human：开源端侧实时运行的超轻量级数字人，附一键安装包

UltraLight Digital Human: humano digital ultraligero de código abierto que funciona en tiempo real y se instala con un solo clic.

Últimos recursos sobre IA # AI Digital Man

hace 1 año

067.2K

Goose: inteligencias de programación escalables de código abierto que automatizan tareas de programación de procesos completos.

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Programación de IA # Marco de desarrollo del cuerpo inteligente

hace 1 año

085K

Teacherbot: IA de ayuda al profesor que genera planes de clase y cuestionarios (de pago)

Últimos recursos sobre IA # AI Herramientas educativas

hace 2 años

056.6K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

Step-Video-T2V: un modelo de vídeo de Vincennes que admite la entrada multilingüe y la generación de vídeos largos

Introducción general

Lista de funciones

Utilizar la ayuda

Proceso de instalación

Normas de uso

Generar vídeo

Flujo detallado de funcionamiento de las funciones

Inferencia y cuantificación en una sola GPU

Mejores prácticas de razonamiento

Descarga de modelos

OmniParser: capturas de pantalla de la interfaz de usuario convertidas en elementos estructurados para facilitar la comprensión y manipulación de modelos de gran tamaño.

Bardeen AI: una herramienta de orquestación de flujos de trabajo sin código centrada en escenarios de trabajo

Artículos relacionados

Codeium (Windsurf Editor): herramienta gratuita de completado de código AI y chat, Windsurf escribe el código completo del proyecto de forma conversacional.

UltraLight Digital Human: humano digital ultraligero de código abierto que funciona en tiempo real y se instala con un solo clic.

Goose: inteligencias de programación escalables de código abierto que automatizan tareas de programación de procesos completos.

Teacherbot: IA de ayuda al profesor que genera planes de clase y cuestionarios (de pago)

Sin comentarios

Últimas colecciones

Últimos artículos

Step-Video-T2V: un modelo de vídeo de Vincennes que admite la entrada multilingüe y la generación de vídeos largos

Introducción general

Lista de funciones

Utilizar la ayuda

Proceso de instalación

Normas de uso

Generar vídeo

Flujo detallado de funcionamiento de las funciones

Inferencia y cuantificación en una sola GPU

Mejores prácticas de razonamiento

Descarga de modelos

OmniParser: capturas de pantalla de la interfaz de usuario convertidas en elementos estructurados para facilitar la comprensión y manipulación de modelos de gran tamaño.

Bardeen AI: una herramienta de orquestación de flujos de trabajo sin código centrada en escenarios de trabajo

Artículos relacionados

Codeium (Windsurf Editor): herramienta gratuita de completado de código AI y chat, Windsurf escribe el código completo del proyecto de forma conversacional.

UltraLight Digital Human: humano digital ultraligero de código abierto que funciona en tiempo real y se instala con un solo clic.

Goose: inteligencias de programación escalables de código abierto que automatizan tareas de programación de procesos completos.

Teacherbot: IA de ayuda al profesor que genera planes de clase y cuestionarios (de pago)

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos