综合介绍
ComfyUI-WanVideoWrapper 是一个由开发者 kijai 创建的开源插件,专为 ComfyUI 平台设计。它基于 WanVideo 的 Wan2.1 模型,提供了强大的视频生成和处理功能。用户可以通过它实现图像转视频(I2V)、文本转视频(T2V)和视频到视频(V2V)转换。这个插件适合 AI 爱好者、视频创作者以及需要高效工具的用户。项目托管在 GitHub 上,截至 2025 年 3 月,已获 1300 多个星标,社区活跃。目前仍标记为“开发中”(Work in Progress),功能在不断完善。
功能列表
- 图像转视频(I2V): 将静态图片转为动态视频,支持自定义帧数和分辨率。
- 文本转视频(T2V): 根据文字描述生成视频,可调整生成参数。
- 视频到视频(V2V): 对已有视频进行增强或风格转换,保持动作流畅。
- Wan2.1 模型支持: 使用 Wan2.1 的 Transformer 和 VAE 模型,也兼容 ComfyUI 原生编码模块。
- 长视频生成: 通过窗口大小和重叠设置,支持生成超 1000 帧的视频。
- 性能优化: 支持 torch.compile,提升生成速度。
使用帮助
安装流程
要使用 ComfyUI-WanVideoWrapper,需先安装 ComfyUI 并添加插件。以下是详细步骤:
- 安装 ComfyUI
- 从 GitHub 下载 ComfyUI 主程序(https://github.com/comfyanonymous/ComfyUI)。
- 解压到本地,例如
C:\ComfyUI
。 - 在
ComfyUI_windows_portable
文件夹运行run_nvidia_gpu.bat
启动(Windows 用户)。
- 安装 WanVideoWrapper 插件
- 进入 ComfyUI 根目录下的
custom_nodes
文件夹。 - 使用 Git 命令克隆插件:
git clone https://github.com/kijai/ComfyUI-WanVideoWrapper.git
- 进入插件目录:
cd ComfyUI-WanVideoWrapper
- 安装依赖:
python_embeded\python.exe -m pip install -r requirements.txt
- 如果使用便携版,在
ComfyUI_windows_portable
文件夹运行:python_embeded\python.exe -m pip install -r ComfyUI\custom_nodes\ComfyUI-WanVideoWrapper\requirements.txt
- 如果使用便携版,在
- 进入 ComfyUI 根目录下的
- 下载 Wan2.1 模型
- 访问 Hugging Face 模型仓库(https://huggingface.co/Kijai/WanVideo_comfy)。
- 下载所需文件:
- 文本编码器放入
ComfyUI/models/text_encoders
。 - Transformer 模型放入
ComfyUI/models/diffusion_models
。 - VAE 模型放入
ComfyUI/models/vae
。
- 文本编码器放入
- 也可使用 ComfyUI 自带的文本编码器和 CLIP Vision 替代原始模型。
- 启动 ComfyUI
- 安装完成后,重启 ComfyUI,插件节点会自动加载到界面。
主要功能操作流程
1. 图像转视频(I2V)
- 准备工作: 确保已加载 Wan2.1 模型和 VAE。
- 操作步骤:
- 在 ComfyUI 界面添加
WanVideoModelLoader
节点,选择 Wan2.1 I2V 模型。 - 添加
WanVideoVAELoader
节点,加载 VAE 模型。 - 用
Load Image
节点上传图片。 - 添加
WanVideoSampler
节点,设置帧数(如 81 帧)、分辨率(如 512x512)。 - 连接
VHS_VideoCombine
节点,设置帧率(如 16fps)和输出格式(如 MP4)。 - 点击“生成”,结果保存至
ComfyUI/output
文件夹。
- 在 ComfyUI 界面添加
- 注意: 官方测试显示,512x512x81 帧占用约 16GB 显存,可降低分辨率减少需求。
2. 文本转视频(T2V)
- 准备工作: 准备文字描述,例如“夜晚的城市街道”。
- 操作步骤:
- 添加
LoadWanVideoT5TextEncoder
节点(或用 ComfyUI 原生 CLIP 模型)。 - 添加
WanVideoTextEncode
节点,输入文字。 - 连接
WanVideoModelLoader
和WanVideoSampler
节点,设置帧数(如 256)、分辨率(如 720p)。 - 添加
WanVideoDecode
节点解码。 - 用
VHS_VideoCombine
节点输出视频。 - 点击“生成”,生成时间依硬件而定。
- 添加
- 提示: 官方示例中,1.3B T2V 模型生成 1025 帧用 5GB 显存,耗时 10 分钟(RTX 5090)。
3. 视频到视频(V2V)
- 准备工作: 准备一段短视频(MP4 格式)。
- 操作步骤:
- 用
VHS_LoadVideo
节点加载视频。 - 添加
WanVideoEncode
节点编码视频。 - 连接
WanVideoSampler
节点,调整增强参数。 - 添加
WanVideoDecode
节点解码。 - 用
VHS_VideoCombine
节点输出结果。 - 点击“生成”,完成增强。
- 用
- 示例: 官方测试用 14B T2V 模型进行 V2V,效果更优。
4. 长视频生成
- 操作步骤:
- 在
WanVideoSampler
节点设置帧数(如 1025 帧)。 - 设置窗口大小(如 81 帧)和重叠值(如 16),确保动作连贯。
- 其他步骤与 T2V 或 I2V 相同。
- 在
- 硬件要求: 推荐高显存 GPU(如 24GB),低配机器可减小帧数。
特色功能详解
- Wan2.1 核心支持: 插件基于 Wan2.1 模型,提供高效视频生成能力。
- 兼容 ComfyUI 原生模块: 可使用 ComfyUI 自带文本编码器和 CLIP Vision,无需额外模型。
- 长视频生成: 通过窗口和重叠设置,支持超长视频,官方测试 1025 帧表现稳定。
- 性能优化: 支持 torch.compile,显著提升生成速度。
常见问题
- 节点未显示: 检查依赖安装是否完整,或重启 ComfyUI。
- 显存不足: 降低分辨率或帧数,官方建议根据硬件调整。
- 模型路径错误: 确保模型放入正确文件夹,参考官方说明。