Introdução geral
O Wan2.1 é um conjunto de ferramentas de geração de vídeo desenvolvido pela equipe da Wan-Video e de código aberto no GitHub, com foco em ampliar os limites da criação de vídeo por meio da tecnologia de inteligência artificial. Com base em uma arquitetura avançada de conversor de difusão, ele integra um exclusivo codificador automático de variação de tempo (Wan-VAE) que suporta texto para vídeo, imagem para vídeo etc. Os destaques do Wan2.1 são seu excelente desempenho e suporte para hardware de nível de consumidor, como o modelo T2V-1.3B que requer apenas 8,19 GB de memória de vídeo para ser executado e gera vídeos 480P de 5 segundos no RTX 4090. vídeo no RTX 4090. O projeto não apenas oferece recursos eficientes de geração de vídeo, mas também suporta codificação e decodificação 1080P sem limitação de duração, tornando-o amplamente aplicável a criadores de conteúdo, desenvolvedores e equipes de pesquisa acadêmica.
História relacionada:O modelo de geração de vídeo VBench está no topo das paradas... No topo das paradas - WanX 2.1 em breve será de código aberto!
Lista de funções
- Texto para vídeoGeração de conteúdo de vídeo dinâmico com base em descrições de texto de entrada, com suporte para entrada de texto em vários idiomas.
- Image-to-Video (Imagem para vídeo)Converta imagens estáticas em vídeos em movimento, mantendo as proporções originais e o movimento natural da imagem.
- Edição de vídeoModifique ou otimize vídeos existentes por meio da tecnologia de IA.
- Suporta saída de alta resoluçãoVídeo: 480P e 720P podem ser gerados, e alguns modelos suportam 1080P sem limite de duração.
- Tecnologia Wan-VAEComprimento temporal: oferece compressão temporal eficiente, suporta a geração de vídeos longos e retém informações temporais.
- Otimização de GPU para consumidores: é executado em hardware comum, diminuindo a barreira ao uso.
- suporte multitarefaInclui texto para imagem, vídeo para áudio e outras extensões.
- Geração de texto em chinês e inglêsGeração de textos claros em chinês e inglês nos vídeos.
Usando a Ajuda
O Wan2.1 é uma poderosa ferramenta de geração de vídeo de código aberto para usuários que desejam gerar rapidamente conteúdo de vídeo de alta qualidade. Abaixo está um guia detalhado de instalação e uso para ajudá-lo a começar rapidamente.
Processo de instalação
A instalação do Wan2.1 requer algumas habilidades técnicas, principalmente por meio do repositório do GitHub para obter o código e os pesos do modelo. Veja a seguir as etapas:
1. preparação ambiental
- sistema operacionalSuporte para Windows, Linux ou macOS.
- Requisitos de hardwareGPUs com pelo menos 8 GB de memória de vídeo (por exemplo, RTX 3060 Ti ou 4090), recomendamos as GPUs Nvidia.
- dependência de softwarePython 3.10+, Git, drivers gráficos e CUDA (se estiver usando uma GPU).
- Instalação do PythonFaça o download do Python 3.10 ou superior no site oficial e marque a caixa "Add Python to PATH" durante a instalação.
2. download de códigos e modelos
- Abra um terminal ou uma linha de comando e digite o seguinte comando para clonar o repositório:
git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1
- Instale as bibliotecas dependentes:
pip install -r requirements.txt
- Faça o download dos pesos do modelo do Hugging Face (T2V-1.3B como exemplo):
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-T2V-1.3B --local-dir . /Wan2.1-T2V-1.3B
- Modelos opcionais: T2V-14B (maior desempenho, requer mais memória de vídeo), I2V-480P/720P.
3. ambiente de configuração
- Se a memória de vídeo for baixa, ative os parâmetros de otimização (por exemplo
--offload_model True
responder cantando---t5_cpu
). - Certifique-se de que o driver da GPU e o CUDA estejam instalados corretamente usando o comando
nvidia-smi
Verificar.
4. verificação da instalação
Execute o seguinte comando para testar o ambiente:
python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir . /Wan2.1-T2V-1.3B --prompt "teste de geração de vídeo"
Se o arquivo de vídeo for gerado, a instalação foi bem-sucedida.
Função Fluxo de operação
Texto para vídeo
- Texto preparadoDescrição: Escreva prompts descritivos, por exemplo, "Um gato caminha graciosamente na grama enquanto a câmera o segue".
- Executar comando:
python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir . /Wan2.1-T2V-1.3B --prompt "Um gato fofo caminhando graciosamente em um campo verdejante"
- parametrização:
-tamanho
Resolução: Defina a resolução (por exemplo, 832)480 ou 1280720).--offload_model True
Otimização da memória de vídeo baixa.--sample_shift 8 --sample_guide_scale 6
:: Melhoria da qualidade da geração.
- exportaçõesVídeo: O vídeo gerado é salvo no diretório atual e tem aproximadamente 5 segundos de duração.
Image-to-Video (Imagem para vídeo)
- Preparação da imagem: Carregue uma imagem JPG/PNG (por exemplo
input.jpg
). - Executar comando:
python generate.py --task i2v-14B --size 1280*720 --ckpt_dir . /Wan2.1-I2V-14B-720P --image input.jpg --prompt "Estilo férias de verão na praia"
- no finalO modelo gera vídeo dinâmico com base na imagem, mantendo as proporções originais e o movimento natural.
Edição de vídeo
- Vídeo de entradaPrepare um arquivo de vídeo existente.
- Operações editoriaisUse uma ferramenta como o DiffSynth-Studio (o Wan 2.1 oferece suporte a extensões) para invocar o módulo relevante na linha de comando.
- comando de amostra (computação)Consulte a documentação do GitHub para obter parâmetros específicos e, no momento, há suporte para edição básica.
Saída de alta resolução
- Usando o modelo T2V-14B ou I2V-720P, defina o
-tamanho 1280*720
As placas de vídeo mais novas exigirão mais memória (cerca de 17 GB). - O Wan-VAE suporta 1080P sem limitação de duração, adequado para a geração de vídeos longos.
Gerar texto em chinês e inglês
- Inclua uma descrição textual no prompt, por exemplo, "Uma placa dizendo 'Welcome' em inglês e chinês".
- Execute o comando Text to Video e o modelo incorporará automaticamente um texto claro no vídeo.
Dicas e truques
- otimizar o desempenhoPara hardware de baixo custo, recomenda-se modelos de 1,3B e resolução de 480P; para hardware de alto custo, tente 14B e 720P.
- Sugestões de palavras-chaveMelhorar a qualidade da geração usando descrições detalhadas (por exemplo, ação, cena, iluminação).
- Suporte à comunidadeAjuda: Participe dos grupos de discussão do GitHub Issues ou do Discord para obter ajuda.
Com essas etapas, você pode usar facilmente o Wan2.1 para gerar conteúdo de vídeo de nível profissional para apresentações criativas e pesquisas acadêmicas.