Introdução geral
O VACE é um projeto de código-fonte aberto desenvolvido pelo Alitongyi Visual Intelligence Lab (ali-vilab), com foco na criação e edição de vídeos. É uma ferramenta completa que integra várias funções, como geração de vídeos com base em referências, edição de conteúdo de vídeo existente, modificações de localização e assim por diante. Lançado oficialmente em março de 2025, o objetivo do projeto é permitir que os usuários concluam tarefas complexas de processamento de vídeo com um único modelo. Projetado com flexibilidade e eficiência em mente, o VACE permite que os usuários combinem funções livremente, tornando-o adequado para criadores, desenvolvedores e até mesmo usuários comuns. Seu código está hospedado no GitHub, de modo que qualquer pessoa pode baixá-lo, estudá-lo ou aprimorá-lo gratuitamente. A equipe por trás dele conta com o forte suporte técnico da Ali e combina as mais recentes conquistas em inteligência artificial e processamento de vídeo para oferecer aos usuários uma plataforma de criação avançada e prática.
Lista de funções
- Vídeo de geração de referência (R2V)Geração de conteúdo de vídeo totalmente novo com base em um determinado clipe de referência (por exemplo, imagem ou clipe de vídeo).
- Edição de vídeo para vídeo (V2V)Modificar o estilo geral ou o conteúdo de um vídeo existente, como ajustar o tom da cor ou substituir o plano de fundo.
- Edição de vídeo com máscara (MV2V)Edição local: A edição local é suportada, permitindo que os usuários selecionem áreas específicas do vídeo para modificação com uma máscara.
- controle de movimentoAjuste da trajetória de movimento de objetos em um vídeo, como, por exemplo, fazer com que um personagem se mova para uma posição específica.
- Substituição do corpo principalSubstituir um assunto (como uma pessoa ou um objeto) em um vídeo por outra coisa.
- Expansão da telaExpandir o quadro de vídeo para gerar quadros além dos limites originais.
- Geração de animaçãoConverter imagens estáticas em efeitos de animação dinâmica.
Usando a Ajuda
O VACE é um projeto de código aberto, destinado principalmente a usuários com uma certa base técnica. Ele não tem uma interface gráfica pronta e precisa ser executado por meio de código. A seguir, um guia detalhado para ajudá-lo a começar rapidamente.
Processo de instalação
- Preparação do ambiente
- Certifique-se de ter o Python 3.9 ou superior instalado em seu computador. Você pode fazer isso na linha de comando digitando
python --versão
Verificar. - Instale a ferramenta Git para fazer download de código do GitHub, que está disponível em git-scm.com para usuários do Windows ou em git-scm.com para usuários do Mac.
brew install git
Instalação. - É necessário suporte para GPU NVIDIA e CUDA, pois o VACE depende da aceleração da GPU. Se você não tiver uma GPU, poderá tentar o modo CPU, mas o desempenho será prejudicado.
- Certifique-se de ter o Python 3.9 ou superior instalado em seu computador. Você pode fazer isso na linha de comando digitando
- Código de download
- Abra um terminal (CMD ou PowerShell para Windows, Terminal para Mac).
- Digite o seguinte comando para clonar o repositório VACE:
git clone https://github.com/ali-vilab/VACE.git
- Quando a clonagem estiver concluída, vá para a pasta do projeto:
cd VACE
- Instalação de dependências
- O VACE requer algum suporte à biblioteca Python. Execute o seguinte comando para instalá-lo:
pip install -r requirements.txt
- Se ocorrer um erro, verifique sua conexão de rede ou atualize seu pip (usando o
pip install --upgrade pip
). - Para usuários de GPU, certifique-se de instalar o PyTorch e a versão CUDA correspondente, por exemplo:
pip install torch torchvision --extra-index-url https://download.pytorch.org/whl/cu118
- O VACE requer algum suporte à biblioteca Python. Execute o seguinte comando para instalá-lo:
- Verificar a instalação
- Quando a instalação estiver concluída, execute um comando de teste simples para confirmar que o ambiente está OK:
python -c "import torch; print(torch.cuda.is_available())"
- Se o retorno
Verdadeiro
Se forFalso
Se você não tiver uma instalação do CUDA, talvez seja necessário verificar a instalação do CUDA.
- Quando a instalação estiver concluída, execute um comando de teste simples para confirmar que o ambiente está OK:
Como usar
A operação do VACE é feita principalmente por meio da linha de comando, onde o usuário precisa escrever arquivos de configuração e executar scripts Python. Abaixo está um fluxo detalhado das principais funções.
Função 1: Vídeo de geração de referência (R2V)
- mover
- Prepare material de referência, como uma imagem (JPG, PNG) ou um vídeo (formato MP4).
- Crie um arquivo de configuração, por exemplo
config_r2v.yaml
O conteúdo se refere aos exemplos no GitHub (geralmente na seçãoconfigurações
(pasta). O arquivo de configuração especifica o caminho de entrada e os parâmetros de saída, como resolução, taxa de quadros, etc. - Execute o comando no terminal:
python inference.py --cfg config_r2v.yaml
- O vídeo gerado é salvo na pasta de saída especificada (o padrão é
saída
(pasta).
- exemplo típico
- Insira uma imagem de um menino com uma descrição no arquivo de configuração: "Menino correndo para a direita sob a luz do sol". Quando executado, o VACE gera um vídeo do menino correndo.
Função 2: Edição de vídeo para vídeo (V2V)
- mover
- Preparar um vídeo que precisa ser editado, como
entrada.mp4
. - Editar arquivo de configuração
config_v2v.yaml
Se quiser alterar o plano de fundo para pastagem, defina o destino da edição, por exemplo, "Change the background to grassland" (Alterar o plano de fundo para pastagem). - Executar comando:
python inference.py --cfg config_v2v.yaml
- O vídeo editado será salvo automaticamente.
- Preparar um vídeo que precisa ser editado, como
- exemplo típico
- Insira um vídeo de uma rua da cidade, o arquivo de configuração diz "Replace background with forest" (Substituir fundo com floresta), o resultado é um personagem andando na floresta.
Função 3: Edição de vídeo com máscara (MV2V)
- mover
- Prepare o vídeo e o arquivo de máscara (a máscara é uma imagem em preto e branco, a área branca indica a parte de edição).
- No arquivo de configuração
config_mv2v.yaml
Especifique o caminho do vídeo e o caminho da máscara na seção "Mask" (Máscara) e defina o conteúdo da edição, como "Replace the mask area with a lion" (Substituir a área da máscara por um leão). - Executar comando:
python inference.py --cfg config_mv2v.yaml
- Visualize os resultados e a área mascarada será substituída.
- exemplo típico
- Entre no vídeo da cafeteria, selecione as xícaras sobre a mesa na máscara, substitua por "a kitten" (um gatinho) e o resultado é que o gato aparece sobre a mesa.
Função 4: Controle de movimento e substituição de objetos
- mover
- Prepare um vídeo e uma descrição da ação-alvo, por exemplo, "Faça o cavalo correr para a esquerda".
- Defina os parâmetros da ação ou substitua o corpo (por exemplo, "horse replaced by cow") no arquivo de configuração.
- Execute o comando para gerar um novo vídeo.
- exemplo típico
- Insira o vídeo de equitação, defina "Horse running to the right, replace with purple-haired rider" (Cavalo correndo para a direita, substitua por um cavaleiro de cabelo roxo) e o resultado será um cavaleiro de cabelo roxo correndo para a direita em um cavalo.
Precauções de manuseio
- Formato do arquivo de configuraçãoArquivos YAML: os arquivos YAML são rígidos, observe a indentação e a sintaxe.
- Requisitos de hardwareGPUs com pelo menos 12 GB de RAM são recomendadas; caso contrário, talvez seja necessário ajustar os parâmetros para reduzir o consumo de memória.
- Dicas de depuraçãoSe algo der errado, verifique os registros do terminal; os problemas comuns são erros de caminho ou dependências ausentes.
- Suporte à comunidadePerguntas: Você pode fazer perguntas na página de problemas do GitHub, e os desenvolvedores e a comunidade ajudarão a respondê-las.
Com essas etapas, você pode criar e editar vídeos facilmente com o VACE. Seu poder reside na flexibilidade, que permite a realização de uma ampla gama de ideias criativas, desde que você esteja familiarizado com a configuração.