Aprendizagem pessoal com IA
e orientação prática

Sonic: Imagens de retrato com áudio geram vídeos de demonstração digital com expressões faciais vívidas

Introdução geral

A Sonic é uma plataforma inovadora que se concentra na percepção global de áudio, projetada para gerar animações de retratos vívidos impulsionadas pelo áudio. Desenvolvida por uma equipe de pesquisadores da Tencent e da Universidade de Zhejiang, a plataforma usa informações de áudio para controlar as expressões faciais e os movimentos da cabeça para gerar vídeos animados naturais e fluidos. As principais tecnologias da Sonic incluem aprendizado de áudio aprimorado pelo contexto, controladores desacoplados de movimento e módulos de fusão de mudança de posição com reconhecimento de tempo. Essas tecnologias permitem que o Sonic gere vídeos estáveis e realistas de formato longo com diferentes estilos de imagens e vários tipos de entradas de áudio.

O código e os pesos desse projeto serão liberados (já liberados) depois que ele passar pela revisão interna de código aberto.Instruções de instalação para usuários do Windows.

Sonic: uma nova solução de código aberto para humanos digitais, geração orientada por áudio de vídeos orais digitais animados com expressões faciais - 1

Demonstração: https://huggingface.co/spaces/xiaozhongji/Sonic

 


Sonic: uma nova solução de código aberto para humanos digitais, geração orientada por áudio de vídeos orais digitais animados com expressões faciais - 1

 

 

Lista de funções

  • Aprendizado com áudio aprimorado pelo contextoExtração de conhecimento de áudio de segmentos de tempo longo: a extração de conhecimento de áudio de segmentos de tempo longo fornece informações a priori sobre expressões faciais e movimentos labiais.
  • Controlador de desacoplamento de movimentoControle independente dos movimentos da cabeça e da expressão para uma animação mais natural.
  • Fusão de deslocamento posicional com reconhecimento de tempoFusão de informações de áudio global para gerar um vídeo longo e estável.
  • Geração versátil de vídeoSuporte a diferentes estilos de imagens e várias resoluções para geração de vídeo.
  • Comparação com métodos de código aberto e fechadoSonic: demonstra os pontos fortes do Sonic em termos de expressão e movimento natural da cabeça.

 

Usando a Ajuda

Processo de instalação

A plataforma Sonic está atualmente passando por uma revisão interna de código aberto, e o código e os pesos serão carregados no GitHub assim que a revisão for concluída. Os usuários podem instalar e usar o Sonic seguindo estas etapas:

  1. Visite a página do GitHub do Sonic.
  2. Armazém de Clonagem:git clone https://github.com/jixiaozhong/Sonic.git
  3. Instale a dependência:pip install -r requirements.txt
  4. Baixe os pesos do modelo pré-treinado e coloque-os no diretório especificado.

Processo de uso

  1. Preparação para inserir dadosArquivo de vídeo: coleta imagens de vídeo e arquivos de áudio que precisam ser gerados para a animação.
  2. Executar o script geradoExecute o processo de geração usando os scripts fornecidos, por exemplo:python generate.py --image input.jpg --audio input.wav
  3. Parâmetros de ajusteAjuste os parâmetros no script de geração conforme necessário para obter os melhores resultados.
  4. Exibir saídaVídeo: O vídeo gerado será salvo no diretório de saída especificado.

Operação detalhada da função

  • Aprendizado com áudio aprimorado pelo contextoSonic: Ao aprender com longos segmentos de áudio, o Sonic é capaz de capturar mudanças sutis no áudio para produzir expressões faciais e movimentos labiais mais naturais.
  • Controlador de desacoplamento de movimentoControle de movimento: O controlador lida com o movimento da cabeça e da expressão separadamente, tornando a animação gerada mais realista. Os usuários podem otimizar o efeito da animação ajustando os parâmetros do controlador.
  • Fusão de deslocamento posicional com reconhecimento de tempoMódulo de áudio: Esse módulo garante que o vídeo gerado permaneça estável por um longo período de tempo, fundindo informações globais de áudio. O usuário pode controlar a suavidade e a estabilidade do vídeo ajustando os parâmetros da janela de tempo.
  • Geração versátil de vídeoSonic suporta diferentes estilos de imagens (por exemplo, desenho animado, realista) e várias resoluções para geração de vídeo. Os usuários podem selecionar as entradas de imagem e áudio apropriadas de acordo com suas necessidades e gerar efeitos de vídeo que atendam às suas expectativas.
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Sonic: Imagens de retrato com áudio geram vídeos de demonstração digital com expressões faciais vívidas

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil