Versão de manipulação visual baseada em Wav2Lip do Digital Man Integration Pack

Recursos mais recentes de IAAtualizado há 8 meses Círculo de compartilhamento de IA

Olá a todos, hoje estou compartilhando com vocês uma ferramenta de criação de pessoas digitais! Ela é fácil de usar e suporta processamento em lote. (Acredito que aprendemos algo sobre a tecnologia de pessoas digitais. Antes do grande incêndio, Guo Degang falava inglês, a beldade russa falava chinês etc., e isso é a personificação da tecnologia de pessoas digitais.

Na verdade, há muitos tipos de pessoas digitais, por exemplo, o que compartilhei é a forma de vídeo de pessoas digitais, e também há modelos de pessoas digitais em 3D feitos com o UnrealEngine, e todos eles são aplicados em diferentes lugares. Os interessados podem entender aqui, mas não há muito o que explicar.

O quê? Você não sabe o que é uma pessoa digital? （"Baidu)

Dito isso, o que foi compartilhado hoje está, na verdade, no original Wav2Lip O projeto se baseia na otimização e na implantação. Também encontrei muitos problemas, como cache, interface, problemas de eficiência de execução, etc., e fui orientado a fazer a otimização.

Requisitos de configuração

Windows (computador)

O N-card deve ser o N-card! A CPU não é compatível!

MAC

Em desenvolvimento, ainda estou resolvendo os problemas de mps! Estamos tentando há dias! Então, os usuários de MAC esperam um pouco mais?

Não pensem que sou lento, amigos, pois faço muitos testes e vejo se há algo que eu possa otimizar com cada pacote de integração depois que ele é concluído!

Atualizações

O que há de novo em relação ao original

1. interface webui adicionada.

2. suporte ao processamento em lote.

3. otimizou o problema do cache original.

4. problemas de eficiência de processamento otimizados.

Uso

pretender

Os arquivos de áudio e vídeo precisam ser preparados.

arquivo de áudio (computador)::

Recomenda-se que a duração do áudio seja a mesma do vídeo (por exemplo, se você tiver um vídeo de 10 segundos, recomenda-se que a duração do áudio seja de 10 segundos. Se a duração do áudio for maior do que a duração do vídeo, o vídeo será automaticamente retrocedido para estendê-lo).
Formato do arquivo de áudio: wav e mp3

arquivo de vídeo::

Todos os quadros de vídeo selecionados devem ter um rosto ou será relatado um erro. (Por exemplo, se seu vídeo tiver 10 segundos de duração no total e houver 2 segundos de quadros sem um rosto no meio, será relatado um erro)
Formato de vídeo mp4 codificado em H264 recomendado

Dica: esta versão oferece suporte a lotes. O lote suporta vários vídeos com vários áudios e vários vídeos com um único áudio.

Um exemplo:

Se você tiver 3 vídeos e 3 trechos de áudio, eles serão processados na ordem em que você escolher o vídeo 1 correspondente ao áudio 1 e o vídeo 2 correspondente ao áudio 2.
Se você tiver 3 vídeos e 1 áudio, ele será processado como se todos os vídeos que você carregou correspondessem a esse áudio. O vídeo 1 corresponde ao áudio 1, o vídeo 2 corresponde ao áudio 1 e o vídeo 3 corresponde ao áudio 3.

início do processamento

A maneira mais fácil:

Arraste e solte o vídeo e o áudio nas caixas de arquivo correspondentes, clique em Start Generation (Iniciar geração) e pronto!

Se você quiser se aprofundar no que cada parâmetro faz, continue lendo!

Detalhes do parâmetro

Qualidade de vídeo:

Rápido e ágil: modo de áudio Wav2Lip para tipo de porta.

Aprimorado: Áudio Wav2Lip para o modo de lábios + Lábios com máscara de difusão ao redor dos lábios para remover a borda ao redor dos lábios.

Aprimorado: Áudio Wav2Lip para o modo labial + máscara de plumagem + aprimoramento facial GFPGAN HD

Experimental:Otimização da eficiência de execução em um modelo aprimorado.

Recomendado por padrão se seu computador não estiver mal configurado.Aprimoradoresponder cantandoExperimental

Opções de resolução

resolução total

meia resolução

Atenção:

Em alguns casos, há problemas de incompatibilidade, por isso é recomendável que essa opção selecione a resolução completa

Opções de versão do Wav2Lip

Wav2Lip

Vantagens: sincronização mais precisa da boca, mantém a boca fechada quando não há som.

Desvantagens: às vezes, produz dentes ausentes (em alguns casos).

Wav2Lip_GAN

Prós: o efeito tem melhor aparência e mantém a expressão original do alto-falante.

Contras: Não é muito bom para mascarar a ação labial bruta, especialmente sem som.

Recomendação:

Experimente primeiro o Wav2Lip e, em seguida, mude para a versão Wav2Lip_GAN se você encontrar o efeito de uma grande lacuna no bocal.

Ativar suavização de rosto

Quando ativado, o wav2lip cortará o rosto em cada quadro independentemente.

Ideal para movimentos rápidos ou edição de vídeo.

Se o rosto estiver inclinado de forma estranha, isso pode causar convulsões.

Quando desativado, o wav2lip mesclará as posições dos rostos detectados entre 5 quadros.

Ideal para movimentos lentos, especialmente para faces que não são comumente anguladas.

Quando o rosto se move rapidamente pelo quadro, a boca pode ser deslocada e parecer horrível entre os cortes.

Acolchoamento (Preenchimento)::

Essa opção controla o número de pixels adicionados ou removidos do corte da face em cada direção.

Essa opção pode ajudar a remover linhas duras do queixo ou de outras bordas do rosto, mas um preenchimento muito grande ou muito pequeno pode alterar o tamanho ou a posição da boca. É prática comum adicionar 10 pixels à parte inferior e recomenda-se experimentar valores diferentes para encontrar o melhor resultado.

Máscara Seção de máscara

Tamanho da máscara

aumentará o tamanho da área coberta pela máscara.(Uma borda ao redor da face pode reduzir esse valor, por exemplo, 1,5)

Emplumação da máscara

Determina a quantidade de mesclagem entre o centro e as bordas da máscara.(Uma borda ao redor do rosto também pode aumentar esse valor)

Ativar o rastreamento da boca da máscara

Atualizará a posição da máscara de acordo com a posição da boca em cada quadro (mais lento)

Atenção:

Como os quadros são cortados no rosto, a posição da boca já é aproximada, e esse recurso só é ativado quando se percebe que a máscara do vídeo não parece seguir a boca.

Ativação da depuração de máscara

Ativá-lo fará com que o plano de fundo fique em escala de cinza e a máscara fique colorida; você pode ver a posição da máscara no quadro. (Depois que esse parâmetro for alterado para True, você poderá ver o efeito do parâmetro de forma mais intuitiva)

Aquisição de pacotes de integração

Quark: https://pan.quark.cn/s/382936a190e2

Baidu:https://pan.baidu.com/s/17FJpF-V3rxhlg89QunLIDw?pwd=9mnu

empurrar até o fim

Falando apenas de pessoas digitais, de fato, há muitas maneiras de conseguir isso, como heygen, Wav2lip, Geneface++ etc., essas ferramentas não são as mesmas, cada uma tem suas próprias vantagens e desvantagens.

Fornecerei mais uma ideia de produção para sua consideração: use o FaceFusion Primeiro, faça uma troca de faces no vídeo e, em seguida, use o GPT SOVITS A síntese de fala é realizada e, por fim, o projeto é usado para a produção demográfica digital.