AI个人学习
和实操指南
豆包Marscode1

基于Wan2.1为ComfyUI提供视频生成能力的插件

综合介绍

ComfyUI-WanVideoWrapper 是一个由开发者 kijai 创建的开源插件,专为 ComfyUI 平台设计。它基于 WanVideo 的 Wan2.1 模型,提供了强大的视频生成和处理功能。用户可以通过它实现图像转视频(I2V)、文本转视频(T2V)和视频到视频(V2V)转换。这个插件适合 AI 爱好者、视频创作者以及需要高效工具的用户。项目托管在 GitHub 上,截至 2025 年 3 月,已获 1300 多个星标,社区活跃。目前仍标记为“开发中”(Work in Progress),功能在不断完善。

基于Wan2.1为ComfyUI提供视频生成能力的插件-1


 

功能列表

  • 图像转视频(I2V): 将静态图片转为动态视频,支持自定义帧数和分辨率。
  • 文本转视频(T2V): 根据文字描述生成视频,可调整生成参数。
  • 视频到视频(V2V): 对已有视频进行增强或风格转换,保持动作流畅。
  • Wan2.1 模型支持: 使用 Wan2.1 的 Transformer 和 VAE 模型,也兼容 ComfyUI 原生编码模块。
  • 长视频生成: 通过窗口大小和重叠设置,支持生成超 1000 帧的视频。
  • 性能优化: 支持 torch.compile,提升生成速度。

 

使用帮助

安装流程

要使用 ComfyUI-WanVideoWrapper,需先安装 ComfyUI 并添加插件。以下是详细步骤:

  1. 安装 ComfyUI
    • 从 GitHub 下载 ComfyUI 主程序(https://github.com/comfyanonymous/ComfyUI)。
    • 解压到本地,例如 C:\ComfyUI
    • 在 ComfyUI_windows_portable 文件夹运行 run_nvidia_gpu.bat 启动(Windows 用户)。
  2. 安装 WanVideoWrapper 插件
    • 进入 ComfyUI 根目录下的 custom_nodes 文件夹。
    • 使用 Git 命令克隆插件:
      git clone https://github.com/kijai/ComfyUI-WanVideoWrapper.git
      
    • 进入插件目录:
      cd ComfyUI-WanVideoWrapper
      
    • 安装依赖:
      python_embeded\python.exe -m pip install -r requirements.txt
      
      • 如果使用便携版,在 ComfyUI_windows_portable 文件夹运行:
        python_embeded\python.exe -m pip install -r ComfyUI\custom_nodes\ComfyUI-WanVideoWrapper\requirements.txt
        
  3. 下载 Wan2.1 模型
    • 访问 Hugging Face 模型仓库(https://huggingface.co/Kijai/WanVideo_comfy)。
    • 下载所需文件:
      • 文本编码器放入 ComfyUI/models/text_encoders
      • Transformer 模型放入 ComfyUI/models/diffusion_models
      • VAE 模型放入 ComfyUI/models/vae
    • 也可使用 ComfyUI 自带的文本编码器和 CLIP Vision 替代原始模型。
  4. 启动 ComfyUI
    • 安装完成后,重启 ComfyUI,插件节点会自动加载到界面。

主要功能操作流程

1. 图像转视频(I2V)

  • 准备工作: 确保已加载 Wan2.1 模型和 VAE。
  • 操作步骤:
    1. 在 ComfyUI 界面添加 WanVideoModelLoader 节点,选择 Wan2.1 I2V 模型。
    2. 添加 WanVideoVAELoader 节点,加载 VAE 模型。
    3. 用 Load Image 节点上传图片。
    4. 添加 WanVideoSampler 节点,设置帧数(如 81 帧)、分辨率(如 512x512)。
    5. 连接 VHS_VideoCombine 节点,设置帧率(如 16fps)和输出格式(如 MP4)。
    6. 点击“生成”,结果保存至 ComfyUI/output 文件夹。
  • 注意: 官方测试显示,512x512x81 帧占用约 16GB 显存,可降低分辨率减少需求。

2. 文本转视频(T2V)

  • 准备工作: 准备文字描述,例如“夜晚的城市街道”。
  • 操作步骤:
    1. 添加 LoadWanVideoT5TextEncoder 节点(或用 ComfyUI 原生 CLIP 模型)。
    2. 添加 WanVideoTextEncode 节点,输入文字。
    3. 连接 WanVideoModelLoader 和 WanVideoSampler 节点,设置帧数(如 256)、分辨率(如 720p)。
    4. 添加 WanVideoDecode 节点解码。
    5. 用 VHS_VideoCombine 节点输出视频。
    6. 点击“生成”,生成时间依硬件而定。
  • 提示: 官方示例中,1.3B T2V 模型生成 1025 帧用 5GB 显存,耗时 10 分钟(RTX 5090)。

3. 视频到视频(V2V)

  • 准备工作: 准备一段短视频(MP4 格式)。
  • 操作步骤:
    1. 用 VHS_LoadVideo 节点加载视频。
    2. 添加 WanVideoEncode 节点编码视频。
    3. 连接 WanVideoSampler 节点,调整增强参数。
    4. 添加 WanVideoDecode 节点解码。
    5. 用 VHS_VideoCombine 节点输出结果。
    6. 点击“生成”,完成增强。
  • 示例: 官方测试用 14B T2V 模型进行 V2V,效果更优。

4. 长视频生成

  • 操作步骤:
    1. 在 WanVideoSampler 节点设置帧数(如 1025 帧)。
    2. 设置窗口大小(如 81 帧)和重叠值(如 16),确保动作连贯。
    3. 其他步骤与 T2V 或 I2V 相同。
  • 硬件要求: 推荐高显存 GPU(如 24GB),低配机器可减小帧数。

特色功能详解

  • Wan2.1 核心支持: 插件基于 Wan2.1 模型,提供高效视频生成能力。
  • 兼容 ComfyUI 原生模块: 可使用 ComfyUI 自带文本编码器和 CLIP Vision,无需额外模型。
  • 长视频生成: 通过窗口和重叠设置,支持超长视频,官方测试 1025 帧表现稳定。
  • 性能优化: 支持 torch.compile,显著提升生成速度。

常见问题

  • 节点未显示: 检查依赖安装是否完整,或重启 ComfyUI。
  • 显存不足: 降低分辨率或帧数,官方建议根据硬件调整。
  • 模型路径错误: 确保模型放入正确文件夹,参考官方说明。
CDN1
未经允许不得转载:首席AI分享圈 » 基于Wan2.1为ComfyUI提供视频生成能力的插件

首席AI分享圈

首席AI分享圈专注于人工智能学习,提供全面的AI学习内容、AI工具和实操指导。我们的目标是通过高质量的内容和实践经验分享,帮助用户掌握AI技术,一起挖掘AI的无限潜能。无论您是AI初学者还是资深专家,这里都是您获取知识、提升技能、实现创新的理想之地。

联系我们
zh_CN简体中文