Plug-in para ComfyUI para proporcionar capacidad de generación de vídeo basado en Wan 2.1
Últimos recursos sobre IAPublicado hace 6 meses Círculo de intercambio de inteligencia artificial 15.7K 00
Introducción general
ComfyUI-WanVideoWrapper es un plugin de código abierto creado por el desarrollador kijai, diseñado para ComfyUI diseño de la plataforma. Se basa en la plataforma de WanVideo Wan2.1 proporciona potentes funciones de generación y procesamiento de vídeo. Los usuarios pueden utilizarlo para la conversión de imagen a vídeo (I2V), texto a vídeo (T2V) y vídeo a vídeo (V2V). El plugin es adecuado para entusiastas de la IA, creadores de vídeo y usuarios que necesiten una herramienta eficaz. El proyecto está alojado en GitHub y en marzo de 2025 contaba con más de 1300 estrellas y una comunidad activa. Todavía está marcado como "Work in Progress" y se están mejorando sus características.

Lista de funciones
- Imagen a vídeo (I2V)Convierte imágenes fijas en vídeo animado con soporte para resoluciones y frecuencias de imagen personalizadas.
- Texto a vídeo (T2V): Genera vídeos basados en descripciones de texto con parámetros de generación ajustables.
- Vídeo a vídeo (V2V)Mejora o cambia el estilo de los vídeos existentes para que la acción fluya.
- Wan2.1 Soporte de modelos: Usando Wan2.1's Transformador y VAE, y también es compatible con los módulos de codificación nativos de ComfyUI.
- Generación de vídeos largos: Soporte para generar vídeos con más de 1000 fotogramas mediante ajustes de tamaño de ventana y solapamiento.
- optimización del rendimiento: Soporta torch.compile para mejorar la velocidad de generación.
Utilizar la ayuda
Proceso de instalación
Para usar ComfyUI-WanVideoWrapper, necesitas instalar ComfyUI y añadir el plugin primero. Abajo están los pasos detallados:
- Instalar ComfyUI
- Descarga el programa principal de ComfyUI desde GitHub (https://github.com/comfyanonymous/ComfyUI).
- Descomprimir localmente, por ejemplo
C:\ComfyUI
. - existe
ComfyUI_windows_portable
archivo en ejecuciónrun_nvidia_gpu.bat
Inicio (usuarios de Windows).
- Instalar el plugin WanVideoWrapper
- Ve al directorio raíz de ComfyUI en el
custom_nodes
Carpeta. - Clona el plugin usando el comando Git:
git clone https://github.com/kijai/ComfyUI-WanVideoWrapper.git
- Vaya al directorio de plugins:
cd ComfyUI-WanVideoWrapper
- Instale la dependencia:
python_embeded\python.exe -m pip install -r requirements.txt
- Si utiliza la versión portátil, el
ComfyUI_windows_portable
para ejecutar:python_embeded\python.exe -m pip install -r ComfyUI\custom_nodes\ComfyUI-WanVideoWrapper\requirements.txt
- Si utiliza la versión portátil, el
- Ve al directorio raíz de ComfyUI en el
- Descargar el modelo Wan2.1
- Visite el repositorio de modelos Hugging Face (https://huggingface.co/Kijai/WanVideo_comfy).
- Descargue los documentos necesarios:
- Codificador de texto en
ComfyUI/models/text_encoders
. - El modelo de Transformador se coloca en el
ComfyUI/models/diffusion_models
. - Colocación del modelo VAE
ComfyUI/models/vae
.
- Codificador de texto en
- El modelo original también puede ser sustituido por el propio codificador de texto de ComfyUI y CLIP Vision.
- Iniciar ComfyUI
- Una vez completada la instalación, reinicia ComfyUI y el nodo plugin se cargará automáticamente en la interfaz.
Funciones principales
1. De imagen a vídeo (I2V)
- preliminar: Asegúrese de que el modelo Wan2.1 y la VAE están cargados.
- procedimiento:
- Añadir la interfaz ComfyUI
WanVideoModelLoader
seleccione el modelo Wan2.1 I2V. - aumentar
WanVideoVAELoader
para cargar el modelo VAE. - gasto o desembolso
Load Image
para cargar una imagen. - aumentar
WanVideoSampler
establezca el número de fotogramas (por ejemplo, 81 fotogramas) y la resolución (por ejemplo, 512x512). - lechada
VHS_VideoCombine
establece la frecuencia de imagen (por ejemplo, 16 fps) y el formato de salida (por ejemplo, MP4). - Haga clic en "Generar" y el resultado se guardará en
ComfyUI/output
Carpeta.
- Añadir la interfaz ComfyUI
- tenga en cuenta: Las pruebas oficiales demuestran que 512x512x81 fotogramas ocupan unos 16 GB de memoria de vídeo, lo que puede reducirse bajando la resolución.
2. Texto a vídeo (T2V)
- preliminar:: Prepara descripciones de texto, por ejemplo, "Calles de la ciudad de noche".
- procedimiento:
- aumentar
LoadWanVideoT5TextEncoder
(o con el modelo CLIP nativo de ComfyUI). - aumentar
WanVideoTextEncode
introduzca el texto. - lechada
WanVideoModelLoader
responder cantandoWanVideoSampler
establezca el número de fotogramas (por ejemplo, 256) y la resolución (por ejemplo, 720p). - aumentar
WanVideoDecode
Descodificación de nodos. - gasto o desembolso
VHS_VideoCombine
El nodo emite vídeo. - Haga clic en "Generar", el tiempo de generación depende del hardware.
- aumentar
- llamar la atención sobre algo: En el ejemplo oficial, el modelo 1.3B T2V genera 1025 fotogramas con 5 GB de RAM en 10 minutos (RTX 5090).
3. Vídeo a vídeo (V2V)
- preliminarPrepara un vídeo corto (formato MP4).
- procedimiento:
- gasto o desembolso
VHS_LoadVideo
El nodo carga el vídeo. - aumentar
WanVideoEncode
Vídeo codificado en nodos. - lechada
WanVideoSampler
para ajustar los parámetros de mejora. - aumentar
WanVideoDecode
Descodificación de nodos. - gasto o desembolso
VHS_VideoCombine
El nodo emite los resultados. - Haga clic en "Generar" para completar la mejora.
- gasto o desembolso
- ejemplo típico: Las pruebas oficiales de V2V con el modelo 14B T2V dan mejores resultados.
4. Generación de vídeos de formato largo
- procedimiento:
- existe
WanVideoSampler
El nodo establece el número de fotogramas (por ejemplo, 1025 fotogramas). - Establezca el tamaño de la ventana (por ejemplo, 81 fotogramas) y el valor de solapamiento (por ejemplo, 16) para garantizar un movimiento coherente.
- Los demás pasos son los mismos que para T2V o I2V.
- existe
- requisitos de hardware: Se recomiendan GPU con mucha memoria de vídeo (por ejemplo, 24 GB), y la velocidad de fotogramas puede reducirse en máquinas de gama baja.
Funciones destacadas
- Compatibilidad con el núcleo Wan2.1: El plugin se basa en el modelo Wan2.1 y proporciona capacidades eficientes de generación de vídeo.
- Compatible con los módulos nativos de ComfyUIComfyUI: El codificador de texto propio de ComfyUI y CLIP Vision pueden ser usados sin modelos adicionales.
- Generación de vídeos largos: Compatibilidad con vídeos ultralargos con ajustes de ventana y superposición, y rendimiento estable a 1025 fps en las pruebas oficiales.
- optimización del rendimientoSoporte para torch.compile, que mejora significativamente la velocidad de generación.
problemas comunes
- Nodo no mostradoComprueba que la instalación de la dependencia está completa, o reinicia ComfyUI.
- memoria de vídeo insuficienteReducir la resolución o la velocidad de fotogramas, oficialmente recomendada para ser ajustada según el hardware.
- Error de trayectoria del modeloAsegúrese de que el modelo está colocado en la carpeta correcta, consulte las instrucciones oficiales.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Puestos relacionados
Sin comentarios...