综合介绍
Wan2.1 是由 Wan-Video 团队开发并在 GitHub 上开源的一个视频生成工具套件,专注于通过人工智能技术推动视频创作的边界。它基于先进的扩散变换器架构,集成了独特的时空变分自编码器(Wan-VAE),支持文本转视频、图像转视频等多种功能。Wan2.1 的亮点在于其卓越的性能和对消费级硬件的支持,例如 T2V-1.3B 模型仅需 8.19GB 显存即可运行,能在 RTX 4090 上生成 5 秒 480P 视频。项目不仅提供高效的视频生成能力,还支持 1080P 无长度限制的视频编码与解码,广泛适用于内容创作者、开发者和学术研究团队。
相关报道:视频生成模型 VBench 排行榜前...榜首——WanX 2.1 即将开源!
功能列表
- 文本转视频(Text-to-Video): 根据输入的文本描述生成动态视频内容,支持多语言文本输入。
- 图像转视频(Image-to-Video): 将静态图像转化为动态视频,保持图像原始比例和自然运动。
- 视频编辑(Video Editing): 通过 AI 技术对已有视频进行修改或优化。
- 支持高分辨率输出: 可生成 480P 和 720P 视频,部分模型支持 1080P 无长度限制。
- Wan-VAE 技术: 提供高效的时空压缩,支持长时间视频生成且保留时间信息。
- 消费级 GPU 优化: 在普通硬件上运行,降低使用门槛。
- 多任务支持: 包括文本生成图像、视频转音频等扩展功能。
- 中英文文本生成: 可在视频中生成清晰的中英文文字。
使用帮助
Wan2.1 是一个功能强大的开源视频生成工具,适合希望快速生成高质量视频内容的用户。以下是详细的安装和使用指南,帮助你快速上手。
安装流程
Wan2.1 的安装需要一定的技术基础,主要通过 GitHub 仓库获取代码和模型权重。以下是具体步骤:
1. 环境准备
- 操作系统: 支持 Windows、Linux 或 macOS。
- 硬件要求: 至少 8GB 显存的 GPU(如 RTX 3060 Ti 或 4090),推荐 Nvidia GPU。
- 软件依赖: Python 3.10+,Git,显卡驱动及 CUDA(若使用 GPU)。
- 安装 Python: 在官网下载 Python 3.10 或更高版本,安装时勾选“Add Python to PATH”。
2. 下载代码和模型
- 打开终端或命令行,输入以下命令克隆仓库:
git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1
- 安装依赖库:
pip install -r requirements.txt
- 从 Hugging Face 下载模型权重(以 T2V-1.3B 为例):
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-T2V-1.3B --local-dir ./Wan2.1-T2V-1.3B
- 可选模型:T2V-14B(更高性能,需更多显存)、I2V-480P/720P。
3. 配置环境
- 如果显存较低,可启用优化参数(如
--offload_model True
和--t5_cpu
)。 - 确保 GPU 驱动和 CUDA 已正确安装,可通过
nvidia-smi
检查。
4. 验证安装
运行以下命令测试环境:
python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --prompt "测试视频生成"
若输出视频文件,说明安装成功。
功能操作流程
文本转视频(Text-to-Video)
- 准备文本: 编写描述性强的提示词,例如“一只猫在草地上优雅行走,镜头跟随”。
- 运行命令:
python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --prompt "A cute cat walking gracefully on a lush green field"
- 参数调整:
--size
: 设置分辨率(如 832480 或 1280720)。--offload_model True
: 低显存优化。--sample_shift 8 --sample_guide_scale 6
: 提高生成质量。
- 输出: 生成的视频保存在当前目录,约 5 秒长度。
图像转视频(Image-to-Video)
- 准备图像: 上传一张 JPG/PNG 图片(如
input.jpg
)。 - 运行命令:
python generate.py --task i2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-I2V-14B-720P --image input.jpg --prompt "Summer beach vacation style"
- 结果: 模型根据图像生成动态视频,保持原始比例和自然运动。
视频编辑
- 输入视频: 准备一个已有视频文件。
- 编辑操作: 使用 DiffSynth-Studio 等工具(Wan2.1 支持扩展),通过命令行调用相关模块。
- 示例命令: 具体参数需参考 GitHub 文档,目前支持基础编辑功能。
高分辨率输出
- 使用 T2V-14B 或 I2V-720P 模型,设置
--size 1280*720
,需更高显存(约 17GB)。 - Wan-VAE 支持 1080P 无长度限制,适合长视频生成。
生成中英文文本
- 在提示词中加入文字描述,如“A sign saying 'Welcome' in English and Chinese”。
- 运行文本转视频命令,模型会自动在视频中嵌入清晰文字。
使用技巧
- 优化性能: 对于低端硬件,推荐 1.3B 模型和 480P 分辨率;高端硬件可尝试 14B 和 720P。
- 提示词建议: 使用详细描述(如动作、场景、光线)提高生成质量。
- 社区支持: 加入 GitHub Issues 或 Discord 讨论组获取帮助。
通过以上步骤,你可以轻松使用 Wan2.1 生成专业级视频内容,无论是创意展示还是学术研究,都能得心应手。