Introdução geral
O SadTalker é uma ferramenta de código aberto que combina uma única foto de retrato com um arquivo de áudio para criar vídeos realistas de cabeças falantes para uma ampla variedade de cenários, como mensagens personalizadas, conteúdo educacional e muito mais. O uso revolucionário de tecnologias de modelagem 3D, como ExpNet e PoseVAE, é excelente na captura de expressões faciais sutis e movimentos da cabeça. Os usuários podem usar a tecnologia SadTalker para projetos pessoais e comerciais, como mensagens, ensino ou marketing.
Lista de funções
Sincronização de movimentos e expressões faciais usando áudio
- Converta fotos de retratos estáticos em vídeos em movimento
- Animação sincronizada de sincronização labial de arquivos de áudio
Oferece suporte ao modo de corpo inteiro e à função de aprimoramento da expressão
Fornece uma interface WebUI configurável
A tecnologia pode ser usada por meio da integração do Discord
Fornecer documentação detalhada de desenvolvimento e uso
Compatível com Windows, Linux/Unix e macOS
Usando a Ajuda
Instale o Anaconda, o Python e o git necessários
Siga a documentação para instalar o ambiente e fazer o download do modelo
Geração de animação usando WebUI nativa ou interface de linha de comando
Atenção:
- Escolha uma foto de retrato nítida e frontal para obter melhores resultados
- Use arquivos de áudio nítidos para garantir a sincronização labial precisa
Dependendo dos recursos disponíveis na Web, aqui estão as etapas básicas para usar o SadTalker:
- Preparação ambiental:
- Se você não tiver um ambiente Python, instale o Anaconda.
- Instale o NVIDIA cuda-toolkit para usar a aceleração de GPU em computadores com placas de vídeo NVIDIA. O processamento será mais lento se apenas a CPU for usada.
- Instalação de modelos e bibliotecas:
- Faça o download e instale os arquivos de modelo e biblioteca necessários. Esses arquivos geralmente precisam ser colocados em um diretório específico, como
. /checkpoints/
talvez. /gfpgan/weights/
.
- Faça o download e instale os arquivos de modelo e biblioteca necessários. Esses arquivos geralmente precisam ser colocados em um diretório específico, como
- Instalação da biblioteca de vídeos FFMPEG:
- Instale o FFMPEG, que é necessário para gerar vídeos.
- Instalação da biblioteca de conversão de voz TTS:
- Instale a biblioteca edge-tts para converter texto em fala.
- Usando a interface do usuário da Web:
- Ao clicar no botão
webui.bat
Inicie a interface de usuário da Web do SadTalker. - Na interface do usuário da Web, carregue a imagem na área especificada e defina os parâmetros ao converter a pessoa digital.
- Depois de gerar um vídeo humano digital, você pode visualizar os resultados na interface.
- Ao clicar no botão
- Uso da linha de comando:
- Se for necessário ter mais opções, o SadTalker pode ser usado por meio de scripts de linha de comando.
- Ao usar a linha de comando, você pode executar
task.sh
para gerar tarefas com facilidade.
- advertência:
- Ao usá-lo, certifique-se de que a imagem seja de boa qualidade para obter os melhores resultados.
- Se for encontrado um erro, como
libiomp5md.dll
Conflitos, tente encontrá-los noapp.py
Definição de variáveis de ambiente emKMP_DUPLICATE_LIB_OK=TRUE
para consertá-lo.
As etapas acima são baseadas em tutoriais na Web e na experiência do usuário, e a operação exata pode variar. Recomenda-se consultar a documentação oficial do SadTalker e os tutoriais da comunidade para obter as instruções mais atualizadas e detalhadas.