VACE: modelo de código aberto para criação e edição de vídeo (não aberto)

Recursos mais recentes de IAPublicado há 6 meses Círculo de compartilhamento de IA

17.3K 00

Introdução geral

O VACE é um projeto de código-fonte aberto desenvolvido pelo Alitongyi Visual Intelligence Lab (ali-vilab), com foco na criação e edição de vídeos. É uma ferramenta completa que integra várias funções, como geração de vídeos com base em referências, edição de conteúdo de vídeo existente, modificações de localização e assim por diante. Lançado oficialmente em março de 2025, o objetivo do projeto é permitir que os usuários concluam tarefas complexas de processamento de vídeo com um único modelo. Projetado com flexibilidade e eficiência em mente, o VACE permite que os usuários combinem funções livremente, tornando-o adequado para criadores, desenvolvedores e até mesmo usuários comuns. Seu código está hospedado no GitHub, de modo que qualquer pessoa pode baixá-lo, estudá-lo ou aprimorá-lo gratuitamente. A equipe por trás dele conta com o forte suporte técnico da Ali e combina as mais recentes conquistas em inteligência artificial e processamento de vídeo para oferecer aos usuários uma plataforma de criação avançada e prática.

Lista de funções

Vídeo de geração de referência (R2V)Geração de conteúdo de vídeo totalmente novo com base em um determinado clipe de referência (por exemplo, imagem ou clipe de vídeo).
Edição de vídeo para vídeo (V2V)Modificar o estilo geral ou o conteúdo de um vídeo existente, como ajustar o tom da cor ou substituir o plano de fundo.
Edição de vídeo com máscara (MV2V)Edição local: A edição local é suportada, permitindo que os usuários selecionem áreas específicas do vídeo para modificação com uma máscara.
controle de movimentoAjuste da trajetória de movimento de objetos em um vídeo, como, por exemplo, fazer com que um personagem se mova para uma posição específica.
Substituição do corpo principalSubstituir um assunto (como uma pessoa ou um objeto) em um vídeo por outra coisa.
Expansão da telaExpandir o quadro de vídeo para gerar quadros além dos limites originais.
Geração de animaçãoConverter imagens estáticas em efeitos de animação dinâmica.

Usando a Ajuda

O VACE é um projeto de código aberto, destinado principalmente a usuários com uma certa base técnica. Ele não tem uma interface gráfica pronta e precisa ser executado por meio de código. A seguir, um guia detalhado para ajudá-lo a começar rapidamente.

Processo de instalação

Preparação do ambiente
- Certifique-se de ter o Python 3.9 ou superior instalado em seu computador. Você pode fazer isso na linha de comando digitando python --version Verificar.
- Instale a ferramenta Git para fazer download de código do GitHub, que está disponível em git-scm.com para usuários do Windows ou em git-scm.com para usuários do Mac. brew install git Instalação.
- É necessário suporte para GPU NVIDIA e CUDA, pois o VACE depende da aceleração da GPU. Se você não tiver uma GPU, poderá tentar o modo CPU, mas o desempenho será prejudicado.
Código de download
- Abra um terminal (CMD ou PowerShell para Windows, Terminal para Mac).
- Digite o seguinte comando para clonar o repositório VACE:
```
git clone https://github.com/ali-vilab/VACE.git
```
- Quando a clonagem estiver concluída, vá para a pasta do projeto:
```
cd VACE
```
Instalação de dependências
- O VACE requer algum suporte à biblioteca Python. Execute o seguinte comando para instalá-lo:
```
pip install -r requirements.txt
```
- Se ocorrer um erro, verifique sua conexão de rede ou atualize seu pip (usando o pip install --upgrade pip).
- Para usuários de GPU, certifique-se de instalar o PyTorch e a versão CUDA correspondente, por exemplo:
```
pip install torch torchvision --extra-index-url https://download.pytorch.org/whl/cu118
```
Verificar a instalação
- Quando a instalação estiver concluída, execute um comando de teste simples para confirmar que o ambiente está OK:
```
python -c "import torch; print(torch.cuda.is_available())"
```
- Se o retorno TrueSe for FalseSe você não tiver uma instalação do CUDA, talvez seja necessário verificar a instalação do CUDA.

Como usar

A operação do VACE é feita principalmente por meio da linha de comando, onde o usuário precisa escrever arquivos de configuração e executar scripts Python. Abaixo está um fluxo detalhado das principais funções.

Função 1: Vídeo de geração de referência (R2V)

mover
1. Prepare material de referência, como uma imagem (JPG, PNG) ou um vídeo (formato MP4).
2. Crie um arquivo de configuração, por exemplo config_r2v.yamlO conteúdo se refere aos exemplos no GitHub (geralmente na seção configs (pasta). O arquivo de configuração especifica o caminho de entrada e os parâmetros de saída, como resolução, taxa de quadros, etc.
3. Execute o comando no terminal:
```
python inference.py --cfg config_r2v.yaml
```
4. O vídeo gerado é salvo na pasta de saída especificada (o padrão é output (pasta).
exemplo típico
- Insira uma imagem de um menino com uma descrição no arquivo de configuração: "Menino correndo para a direita sob a luz do sol". Quando executado, o VACE gera um vídeo do menino correndo.

Função 2: Edição de vídeo para vídeo (V2V)

mover
1. Preparar um vídeo que precisa ser editado, como input.mp4.
2. Editar arquivo de configuração config_v2v.yamlSe quiser alterar o plano de fundo para pastagem, defina o destino da edição, por exemplo, "Change the background to grassland" (Alterar o plano de fundo para pastagem).
3. Executar comando:
```
python inference.py --cfg config_v2v.yaml
```
4. O vídeo editado será salvo automaticamente.
exemplo típico
- Insira um vídeo de uma rua da cidade, o arquivo de configuração diz "Replace background with forest" (Substituir fundo com floresta), o resultado é um personagem andando na floresta.

Função 3: Edição de vídeo com máscara (MV2V)

mover
1. Prepare o vídeo e o arquivo de máscara (a máscara é uma imagem em preto e branco, a área branca indica a parte de edição).
2. No arquivo de configuração config_mv2v.yaml Especifique o caminho do vídeo e o caminho da máscara na seção "Mask" (Máscara) e defina o conteúdo da edição, como "Replace the mask area with a lion" (Substituir a área da máscara por um leão).
3. Executar comando:
```
python inference.py --cfg config_mv2v.yaml
```
4. Visualize os resultados e a área mascarada será substituída.
exemplo típico
- Entre no vídeo da cafeteria, selecione as xícaras sobre a mesa na máscara, substitua por "a kitten" (um gatinho) e o resultado é que o gato aparece sobre a mesa.

Função 4: Controle de movimento e substituição de objetos

mover
1. Prepare um vídeo e uma descrição da ação-alvo, por exemplo, "Faça o cavalo correr para a esquerda".
2. Defina os parâmetros da ação ou substitua o corpo (por exemplo, "horse replaced by cow") no arquivo de configuração.
3. Execute o comando para gerar um novo vídeo.
exemplo típico
- Insira o vídeo de equitação, defina "Horse running to the right, replace with purple-haired rider" (Cavalo correndo para a direita, substitua por um cavaleiro de cabelo roxo) e o resultado será um cavaleiro de cabelo roxo correndo para a direita em um cavalo.

Precauções de manuseio

Formato do arquivo de configuraçãoArquivos YAML: os arquivos YAML são rígidos, observe a indentação e a sintaxe.
Requisitos de hardwareGPUs com pelo menos 12 GB de RAM são recomendadas; caso contrário, talvez seja necessário ajustar os parâmetros para reduzir o consumo de memória.
Dicas de depuraçãoSe algo der errado, verifique os registros do terminal; os problemas comuns são erros de caminho ou dependências ausentes.
Suporte à comunidadePerguntas: Você pode fazer perguntas na página de problemas do GitHub, e os desenvolvedores e a comunidade ajudarão a respondê-las.

Com essas etapas, você pode criar e editar vídeos facilmente com o VACE. Seu poder reside na flexibilidade, que permite a realização de uma ampla gama de ideias criativas, desde que você esteja familiarizado com a configuração.