Step-Video-T2V：支持多语言输入和长视频生成的文生视频模型

1.7K 00

综合介绍

Step-Video-T2V是由StepFun AI（阶跃星辰）推出的一款先进的文本到视频转换模型。该模型拥有30亿参数，能够生成长达204帧的视频。通过深度压缩变分自编码器（VAE），模型实现了16x16的空间压缩和8x的时间压缩，从而提高了训练和推理的效率。Step-Video-T2V在视频生成领域表现出色，尤其在视频运动和效率方面。然而，对于处理复杂动作仍存在一定的挑战。该模型是开源的，使用者可以在GitHub上获取和贡献代码。

功能列表

生成高质量视频：利用30亿参数生成长达204帧的视频。
深度压缩技术：采用深度压缩变分自编码器，实现16x16空间压缩和8x时间压缩。
双语支持：支持英文和中文的文本提示。
开源和社区支持：模型和基准数据集开源，促进创新并赋能创作者。

使用帮助

安装流程

克隆GitHub仓库：

git clone https://github.com/stepfun-ai/Step-Video-T2V.git

进入项目目录：
```
cd Step-Video-T2V
```

创建并激活虚拟环境：

conda create -n stepvideo python=3.10
conda activate stepvideo

安装依赖：

pip install -e .
pip install flash-attn --no-build-isolation  ## flash-attn是可选的

使用指南

生成视频

准备文本提示，保存在一个文件中，例如prompt.txt：
```
飞机在蓝天中飞翔
```

运行视频生成脚本：

python generate_video.py --input prompt.txt --output video.mp4

详细功能操作流程

生成高质量视频：
- 文本输入：用户输入描述视频内容的文本。
- 模型处理：Step-Video-T2V模型解析文本并生成视频。
- 视频输出：生成的视频保存为MP4格式，用户可以随时观看和分享。
深度压缩技术：
- 空间压缩：通过16x16的空间压缩技术，提高视频生成效率。
- 时间压缩：通过8x的时间压缩技术，进一步优化视频生成速度和质量。
双语支持：
- 英文支持：用户可以输入英文文本，模型自动解析并生成对应视频。
- 中文支持：用户可以输入中文文本，模型同样能生成相应视频，支持多语言用户需求。
开源和社区支持：
- 开源代码：用户可以在GitHub上获取模型的全部代码，自行部署和修改。
- 社区贡献：用户可以提交代码贡献，参与模型的改进和优化。