Sonic: Imagens de retratos com áudio geram vídeos pop-up digitais com expressões faciais vívidas

🚀 O DeepSeek está lento? Este site é gratuito! DeepSeek-R1 de sangue puroO sistema é suave e pode ser conectado em rede! Uso ilimitado!

Introdução geral

A Sonic é uma plataforma inovadora que se concentra na percepção global de áudio, projetada para gerar animações de retratos vívidos impulsionadas pelo áudio. Desenvolvida por uma equipe de pesquisadores da Tencent e da Universidade de Zhejiang, a plataforma usa informações de áudio para controlar as expressões faciais e os movimentos da cabeça para gerar vídeos animados naturais e fluidos. As principais tecnologias da Sonic incluem aprendizado de áudio aprimorado pelo contexto, controladores desacoplados de movimento e módulos de fusão de mudança de posição com reconhecimento de tempo. Essas tecnologias permitem que o Sonic gere vídeos estáveis e realistas de formato longo com diferentes estilos de imagens e vários tipos de entradas de áudio.

O código e os pesos desse projeto serão liberados (já liberados) depois que ele passar pela revisão interna de código aberto.Instruções de instalação para usuários do Windows.

Sonic: uma nova solução de código aberto para humanos digitais, geração orientada por áudio de vídeos orais digitais animados com expressões faciais - 1

Demonstração: https://huggingface.co/spaces/xiaozhongji/Sonic

Lista de funções

Aprendizado com áudio aprimorado pelo contextoExtração de conhecimento de áudio de segmentos de tempo longo: a extração de conhecimento de áudio de segmentos de tempo longo fornece informações a priori sobre expressões faciais e movimentos labiais.
Controlador de desacoplamento de movimentoControle independente dos movimentos da cabeça e da expressão para uma animação mais natural.
Fusão de deslocamento posicional com reconhecimento de tempoFusão de informações de áudio global para gerar um vídeo longo e estável.
Geração versátil de vídeoSuporte a diferentes estilos de imagens e várias resoluções para geração de vídeo.
Comparação com métodos de código aberto e fechadoSonic: demonstra os pontos fortes do Sonic em termos de expressão e movimento natural da cabeça.

Usando a Ajuda

Processo de instalação

A plataforma Sonic está atualmente passando por uma revisão interna de código aberto, e o código e os pesos serão carregados no GitHub assim que a revisão for concluída. Os usuários podem instalar e usar o Sonic seguindo estas etapas:

Visite a página do GitHub do Sonic.
Armazém de Clonagem:git clone https://github.com/jixiaozhong/Sonic.git
Instale a dependência:pip install -r requirements.txt
Baixe os pesos do modelo pré-treinado e coloque-os no diretório especificado.

Processo de uso

Preparação para inserir dadosArquivo de vídeo: coleta imagens de vídeo e arquivos de áudio que precisam ser gerados para a animação.
Executar o script geradoExecute o processo de geração usando os scripts fornecidos, por exemplo:python generate.py --image input.jpg --audio input.wav
Parâmetros de ajusteAjuste os parâmetros no script de geração conforme necessário para obter os melhores resultados.
Exibir saídaVídeo: O vídeo gerado será salvo no diretório de saída especificado.

Operação detalhada da função

Aprendizado com áudio aprimorado pelo contextoSonic: Ao aprender com longos segmentos de áudio, o Sonic é capaz de capturar mudanças sutis no áudio para produzir expressões faciais e movimentos labiais mais naturais.
Controlador de desacoplamento de movimentoControle de movimento: O controlador lida com o movimento da cabeça e da expressão separadamente, tornando a animação gerada mais realista. Os usuários podem otimizar o efeito da animação ajustando os parâmetros do controlador.
Fusão de deslocamento posicional com reconhecimento de tempoMódulo de áudio: Esse módulo garante que o vídeo gerado permaneça estável por um longo período de tempo, fundindo informações globais de áudio. O usuário pode controlar a suavidade e a estabilidade do vídeo ajustando os parâmetros da janela de tempo.
Geração versátil de vídeoSonic suporta diferentes estilos de imagens (por exemplo, desenho animado, realista) e várias resoluções para geração de vídeo. Os usuários podem selecionar as entradas de imagem e áudio apropriadas de acordo com suas necessidades e gerar efeitos de vídeo que atendam às suas expectativas.

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco

Sonic: Imagens de retrato com áudio geram vídeos de demonstração digital com expressões faciais vívidas

Introdução geral

Lista de funções

Usando a Ajuda

Processo de instalação

Processo de uso

Operação detalhada da função

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Gerador de imagens FLUX.1 (suporta entrada em chinês)

Novos lançamentos

Artigos populares

Hot Tags.

Chefe do Círculo de Compartilhamento de IA