Introdução geral
A Sonic é uma plataforma inovadora que se concentra na percepção global de áudio, projetada para gerar animações de retratos vívidos impulsionadas pelo áudio. Desenvolvida por uma equipe de pesquisadores da Tencent e da Universidade de Zhejiang, a plataforma usa informações de áudio para controlar as expressões faciais e os movimentos da cabeça para gerar vídeos animados naturais e fluidos. As principais tecnologias da Sonic incluem aprendizado de áudio aprimorado pelo contexto, controladores desacoplados de movimento e módulos de fusão de mudança de posição com reconhecimento de tempo. Essas tecnologias permitem que o Sonic gere vídeos estáveis e realistas de formato longo com diferentes estilos de imagens e vários tipos de entradas de áudio.
O código e os pesos desse projeto serão liberados (já liberados) depois que ele passar pela revisão interna de código aberto.Instruções de instalação para usuários do Windows.
Lista de funções
- Aprendizado com áudio aprimorado pelo contextoExtração de conhecimento de áudio de segmentos de tempo longo: a extração de conhecimento de áudio de segmentos de tempo longo fornece informações a priori sobre expressões faciais e movimentos labiais.
- Controlador de desacoplamento de movimentoControle independente dos movimentos da cabeça e da expressão para uma animação mais natural.
- Fusão de deslocamento posicional com reconhecimento de tempoFusão de informações de áudio global para gerar um vídeo longo e estável.
- Geração versátil de vídeoSuporte a diferentes estilos de imagens e várias resoluções para geração de vídeo.
- Comparação com métodos de código aberto e fechadoSonic: demonstra os pontos fortes do Sonic em termos de expressão e movimento natural da cabeça.
Usando a Ajuda
Processo de instalação
A plataforma Sonic está atualmente passando por uma revisão interna de código aberto, e o código e os pesos serão carregados no GitHub assim que a revisão for concluída. Os usuários podem instalar e usar o Sonic seguindo estas etapas:
- Visite a página do GitHub do Sonic.
- Armazém de Clonagem:
git clone https://github.com/jixiaozhong/Sonic.git
- Instale a dependência:
pip install -r requirements.txt
- Baixe os pesos do modelo pré-treinado e coloque-os no diretório especificado.
Processo de uso
- Preparação para inserir dadosArquivo de vídeo: coleta imagens de vídeo e arquivos de áudio que precisam ser gerados para a animação.
- Executar o script geradoExecute o processo de geração usando os scripts fornecidos, por exemplo:
python generate.py --image input.jpg --audio input.wav
- Parâmetros de ajusteAjuste os parâmetros no script de geração conforme necessário para obter os melhores resultados.
- Exibir saídaVídeo: O vídeo gerado será salvo no diretório de saída especificado.
Operação detalhada da função
- Aprendizado com áudio aprimorado pelo contextoSonic: Ao aprender com longos segmentos de áudio, o Sonic é capaz de capturar mudanças sutis no áudio para produzir expressões faciais e movimentos labiais mais naturais.
- Controlador de desacoplamento de movimentoControle de movimento: O controlador lida com o movimento da cabeça e da expressão separadamente, tornando a animação gerada mais realista. Os usuários podem otimizar o efeito da animação ajustando os parâmetros do controlador.
- Fusão de deslocamento posicional com reconhecimento de tempoMódulo de áudio: Esse módulo garante que o vídeo gerado permaneça estável por um longo período de tempo, fundindo informações globais de áudio. O usuário pode controlar a suavidade e a estabilidade do vídeo ajustando os parâmetros da janela de tempo.
- Geração versátil de vídeoSonic suporta diferentes estilos de imagens (por exemplo, desenho animado, realista) e várias resoluções para geração de vídeo. Os usuários podem selecionar as entradas de imagem e áudio apropriadas de acordo com suas necessidades e gerar efeitos de vídeo que atendam às suas expectativas.