Introdução geral
O ComfyUI-WanVideoWrapper é um plug-in de código aberto criado pelo desenvolvedor kijai, projetado para ComfyUI design da plataforma. Ele se baseia na plataforma Wan2.1 oferece funções avançadas de geração e processamento de vídeo. Os usuários podem usá-lo para conversão de imagem em vídeo (I2V), texto em vídeo (T2V) e vídeo em vídeo (V2V). O plug-in é adequado para entusiastas de IA, criadores de vídeo e usuários que precisam de uma ferramenta eficiente. O projeto está hospedado no GitHub e, desde março de 2025, recebeu mais de 1.300 estrelas e uma comunidade ativa. Ele ainda está marcado como "Work in Progress" e os recursos estão sendo aprimorados.
Lista de funções
- Imagem para vídeo (I2V)Converta imagens estáticas em vídeos em movimento com suporte para taxas de quadros e resoluções personalizadas.
- Texto para vídeo (T2V)Geração de vídeos com base em descrições de texto com parâmetros de geração ajustáveis.
- Vídeo para vídeo (V2V)Aprimore ou mude o estilo dos vídeos existentes para manter a ação fluindo.
- Suporte ao modelo Wan2.1Usando o Wan2.1's Transformador e VAE, e também é compatível com os módulos de codificação nativos da ComfyUI.
- Geração de vídeos longosSuporte para geração de vídeos com mais de 1.000 quadros por meio de configurações de tamanho de janela e sobreposição.
- otimização do desempenhoSuporte ao torch.compile para melhorar a velocidade de geração.
Usando a Ajuda
Processo de instalação
Para usar o ComfyUI-WanVideoWrapper, você precisa instalar o ComfyUI e adicionar o plug-in primeiro. Abaixo estão as etapas detalhadas:
- Instalar a ComfyUI
- Faça o download do programa principal do ComfyUI no GitHub (https://github.com/comfyanonymous/ComfyUI).
- Descompacte localmente, por exemplo.
C:\ComfyUI
. - existir
ComfyUI_windows_portable
arquivo em execuçãoexecutar_nvidia_gpu.bat
Iniciar (usuários do Windows).
- Instale o plug-in WanVideoWrapper
- Vá para o diretório raiz do ComfyUI no diretório
nós_personalizados
Pasta. - Clone o plug-in usando o comando Git:
git clone https://github.com/kijai/ComfyUI-WanVideoWrapper.git
- Vá para o diretório do plug-in:
cd ComfyUI-WanVideoWrapper
- Instale a dependência:
python_embedded\python.exe -m pip install -r requirements.txt
- Se estiver usando a versão portátil, o
ComfyUI_windows_portable
para executar:python_embedded\python.exe -m pip install -r ComfyUI\custom_nodes\ComfyUI-WanVideoWrapper\requirements.txt
- Se estiver usando a versão portátil, o
- Vá para o diretório raiz do ComfyUI no diretório
- Download do modelo Wan2.1
- Visite o repositório de modelos do Hugging Face (https://huggingface.co/Kijai/WanVideo_comfy).
- Faça o download dos documentos necessários:
- Codificador de texto em
ComfyUI/modelos/codificadores de texto
. - O modelo do transformador é colocado no
ComfyUI/modelos/diffusion_models
. - Colocação do modelo VAE
ComfyUI/modelos/vae
.
- Codificador de texto em
- O modelo original também pode ser substituído pelo próprio codificador de texto da ComfyUI e pelo CLIP Vision.
- Iniciar o ComfyUI
- Quando a instalação estiver concluída, reinicie o ComfyUI e o nó do plugin será carregado automaticamente na interface.
Funções principais
1. imagem para vídeo (I2V)
- preliminarVerifique se o modelo Wan2.1 e o VAE estão carregados.
- procedimento:
- Adição da interface ComfyUI
WanVideoModelLoader
selecione o modelo I2V Wan2.1. - aumentar
WanVideoVAELoader
para carregar o modelo VAE. - despesa ou gasto
Carregar imagem
para carregar uma imagem. - aumentar
WanVideoSampler
defina o número de quadros (por exemplo, 81 quadros) e a resolução (por exemplo, 512x512). - rejunte
VHS_VideoCombine
defina a taxa de quadros (por exemplo, 16 fps) e o formato de saída (por exemplo, MP4). - Clique em "Generate" (Gerar) e o resultado será salvo em
ComfyUI/saída
Pasta.
- Adição da interface ComfyUI
- tomar nota deTeste oficial: Os testes oficiais mostram que quadros de 512x512x81 ocupam cerca de 16 GB de memória de vídeo, o que pode ser reduzido com a diminuição da resolução.
2. texto para vídeo (T2V)
- preliminarDescrição: Prepare descrições de texto, por exemplo, "City streets at night" (Ruas da cidade à noite).
- procedimento:
- aumentar
LoadWanVideoT5TextEncoder
(ou com o modelo CLIP nativo do ComfyUI). - aumentar
WanVideoTextEncode
digite o texto. - rejunte
WanVideoModelLoader
responder cantandoWanVideoSampler
defina o número de quadros (por exemplo, 256) e a resolução (por exemplo, 720p). - aumentar
WanVideoDecode
Decodificação de nós. - despesa ou gasto
VHS_VideoCombine
O nó produz vídeo. - Clique em "Generate" (Gerar); o tempo de geração depende do hardware.
- aumentar
- chamar a atenção para algoNo exemplo oficial, o modelo T2V de 1,3 B gera 1.025 quadros com 5 GB de RAM em 10 minutos (RTX 5090).
3. vídeo para vídeo (V2V)
- preliminarPrepare um vídeo curto (formato MP4).
- procedimento:
- despesa ou gasto
VHS_LoadVideo
O nó carrega o vídeo. - aumentar
WanVideoEncode
Vídeo codificado por nó. - rejunte
WanVideoSampler
para ajustar os parâmetros de aprimoramento. - aumentar
WanVideoDecode
Decodificação de nós. - despesa ou gasto
VHS_VideoCombine
O nó gera os resultados. - Clique em "Generate" (Gerar) para concluir o aprimoramento.
- despesa ou gasto
- exemplo típico: O teste oficial do V2V com o modelo 14B T2V oferece melhores resultados.
4. geração de vídeos de formato longo
- procedimento:
- existir
WanVideoSampler
O nó define o número de quadros (por exemplo, 1025 quadros). - Defina o tamanho da janela (por exemplo, 81 quadros) e o valor de sobreposição (por exemplo, 16) para garantir um movimento consistente.
- As outras etapas são as mesmas do T2V ou do I2V.
- existir
- Requisitos de hardwareGPUs com alta memória de vídeo (por exemplo, 24 GB) são recomendadas, e as taxas de quadros podem ser reduzidas em máquinas de baixo custo.
Funções em destaque
- Suporte ao núcleo Wan2.1O plug-in é baseado no modelo Wan2.1 e oferece recursos eficientes de geração de vídeo.
- Compatível com os módulos nativos da ComfyUIO próprio codificador de texto da ComfyUI e o CLIP Vision podem ser usados sem modelos adicionais.
- Geração de vídeos longosSuporte para vídeos ultralongos com configurações de janela e sobreposição e desempenho estável a 1025 fps em testes oficiais.
- otimização do desempenhoSuporte para torch.compile, que melhora significativamente a velocidade de geração.
problemas comuns
- Nó não mostradoVerifique se a instalação da dependência foi concluída ou reinicie o ComfyUI.
- Memória de vídeo insuficienteReduzir a resolução ou a taxa de quadros, oficialmente recomendado para ser ajustado de acordo com o hardware.
- Erro de trajetória do modeloVerifique se o modelo está colocado na pasta correta; consulte as instruções oficiais.