Plug-in para ComfyUI para proporcionar capacidad de generación de vídeo basado en Wan 2.1

Últimos recursos sobre IAPublicado hace 1 año Círculo de intercambio de inteligencia artificial

137.9K 00

Introducción general

ComfyUI-WanVideoWrapper es un plugin de código abierto creado por el desarrollador kijai, diseñado para ComfyUI diseño de la plataforma. Se basa en la plataforma de WanVideo Wan2.1 proporciona potentes funciones de generación y procesamiento de vídeo. Los usuarios pueden utilizarlo para la conversión de imagen a vídeo (I2V), texto a vídeo (T2V) y vídeo a vídeo (V2V). El plugin es adecuado para entusiastas de la IA, creadores de vídeo y usuarios que necesiten una herramienta eficaz. El proyecto está alojado en GitHub y en marzo de 2025 contaba con más de 1300 estrellas y una comunidad activa. Todavía está marcado como "Work in Progress" y se están mejorando sus características.

Lista de funciones

Imagen a vídeo (I2V)Convierte imágenes fijas en vídeo animado con soporte para resoluciones y frecuencias de imagen personalizadas.
Texto a vídeo (T2V): Genera vídeos basados en descripciones de texto con parámetros de generación ajustables.
Vídeo a vídeo (V2V)Mejora o cambia el estilo de los vídeos existentes para que la acción fluya.
Wan2.1 Soporte de modelos: Usando Wan2.1's Transformador y VAE, y también es compatible con los módulos de codificación nativos de ComfyUI.
Generación de vídeos largos: Soporte para generar vídeos con más de 1000 fotogramas mediante ajustes de tamaño de ventana y solapamiento.
optimización del rendimiento: Soporta torch.compile para mejorar la velocidad de generación.

Utilizar la ayuda

Proceso de instalación

Para usar ComfyUI-WanVideoWrapper, necesitas instalar ComfyUI y añadir el plugin primero. Abajo están los pasos detallados:

Instalar ComfyUI
- Descarga el programa principal de ComfyUI desde GitHub (https://github.com/comfyanonymous/ComfyUI).
- Descomprimir localmente, por ejemplo C:\ComfyUI.
- existe ComfyUI_windows_portable archivo en ejecución run_nvidia_gpu.bat Inicio (usuarios de Windows).

Instalar el plugin WanVideoWrapper

Ve al directorio raíz de ComfyUI en el custom_nodes Carpeta.

Clona el plugin usando el comando Git:

git clone https://github.com/kijai/ComfyUI-WanVideoWrapper.git

Vaya al directorio de plugins:
```
cd ComfyUI-WanVideoWrapper
```

Instale la dependencia:

python_embeded\python.exe -m pip install -r requirements.txt

Si utiliza la versión portátil, el ComfyUI_windows_portable para ejecutar:

python_embeded\python.exe -m pip install -r ComfyUI\custom_nodes\ComfyUI-WanVideoWrapper\requirements.txt

Descargar el modelo Wan2.1
- Visite el repositorio de modelos Hugging Face (https://huggingface.co/Kijai/WanVideo_comfy).
- Descargue los documentos necesarios:
  - Codificador de texto en ComfyUI/models/text_encoders.
  - El modelo de Transformador se coloca en el ComfyUI/models/diffusion_models.
  - Colocación del modelo VAE ComfyUI/models/vae.
- El modelo original también puede ser sustituido por el propio codificador de texto de ComfyUI y CLIP Vision.
Iniciar ComfyUI
- Una vez completada la instalación, reinicia ComfyUI y el nodo plugin se cargará automáticamente en la interfaz.

Funciones principales

1. De imagen a vídeo (I2V)

preliminar: Asegúrese de que el modelo Wan2.1 y la VAE están cargados.
procedimiento:
1. Añadir la interfaz ComfyUI WanVideoModelLoader seleccione el modelo Wan2.1 I2V.
2. aumentar WanVideoVAELoader para cargar el modelo VAE.
3. gasto o desembolso Load Image para cargar una imagen.
4. aumentar WanVideoSampler establezca el número de fotogramas (por ejemplo, 81 fotogramas) y la resolución (por ejemplo, 512x512).
5. lechada VHS_VideoCombine establece la frecuencia de imagen (por ejemplo, 16 fps) y el formato de salida (por ejemplo, MP4).
6. Haga clic en "Generar" y el resultado se guardará en ComfyUI/output Carpeta.
tenga en cuenta: Las pruebas oficiales demuestran que 512x512x81 fotogramas ocupan unos 16 GB de memoria de vídeo, lo que puede reducirse bajando la resolución.

2. Texto a vídeo (T2V)

preliminar:: Prepara descripciones de texto, por ejemplo, "Calles de la ciudad de noche".
procedimiento:
1. aumentar LoadWanVideoT5TextEncoder (o con el modelo CLIP nativo de ComfyUI).
2. aumentar WanVideoTextEncode introduzca el texto.
3. lechada WanVideoModelLoader responder cantando WanVideoSampler establezca el número de fotogramas (por ejemplo, 256) y la resolución (por ejemplo, 720p).
4. aumentar WanVideoDecode Descodificación de nodos.
5. gasto o desembolso VHS_VideoCombine El nodo emite vídeo.
6. Haga clic en "Generar", el tiempo de generación depende del hardware.
llamar la atención sobre algo: En el ejemplo oficial, el modelo 1.3B T2V genera 1025 fotogramas con 5 GB de RAM en 10 minutos (RTX 5090).

3. Vídeo a vídeo (V2V)

preliminarPrepara un vídeo corto (formato MP4).
procedimiento:
1. gasto o desembolso VHS_LoadVideo El nodo carga el vídeo.
2. aumentar WanVideoEncode Vídeo codificado en nodos.
3. lechada WanVideoSampler para ajustar los parámetros de mejora.
4. aumentar WanVideoDecode Descodificación de nodos.
5. gasto o desembolso VHS_VideoCombine El nodo emite los resultados.
6. Haga clic en "Generar" para completar la mejora.
ejemplo típico: Las pruebas oficiales de V2V con el modelo 14B T2V dan mejores resultados.

4. Generación de vídeos de formato largo

procedimiento:
1. existe WanVideoSampler El nodo establece el número de fotogramas (por ejemplo, 1025 fotogramas).
2. Establezca el tamaño de la ventana (por ejemplo, 81 fotogramas) y el valor de solapamiento (por ejemplo, 16) para garantizar un movimiento coherente.
3. Los demás pasos son los mismos que para T2V o I2V.
requisitos de hardware: Se recomiendan GPU con mucha memoria de vídeo (por ejemplo, 24 GB), y la velocidad de fotogramas puede reducirse en máquinas de gama baja.

Funciones destacadas

Compatibilidad con el núcleo Wan2.1: El plugin se basa en el modelo Wan2.1 y proporciona capacidades eficientes de generación de vídeo.
Compatible con los módulos nativos de ComfyUIComfyUI: El codificador de texto propio de ComfyUI y CLIP Vision pueden ser usados sin modelos adicionales.
Generación de vídeos largos: Compatibilidad con vídeos ultralargos con ajustes de ventana y superposición, y rendimiento estable a 1025 fps en las pruebas oficiales.
optimización del rendimientoSoporte para torch.compile, que mejora significativamente la velocidad de generación.

problemas comunes

Nodo no mostradoComprueba que la instalación de la dependencia está completa, o reinicia ComfyUI.
memoria de vídeo insuficienteReducir la resolución o la velocidad de fotogramas, oficialmente recomendada para ser ajustada según el hardware.
Error de trayectoria del modeloAsegúrese de que el modelo está colocado en la carpeta correcta, consulte las instrucciones oficiales.