Sonic: Las imágenes de retratos con audio generan vídeos de demostración digitales con expresiones faciales vivas

Introducción general

Sonic es una innovadora plataforma centrada en la percepción global del audio, diseñada para generar vívidas animaciones de retratos impulsadas por el audio. Desarrollada por un equipo de investigadores de Tencent y la Universidad de Zhejiang, la plataforma utiliza la información de audio para controlar las expresiones faciales y los movimientos de la cabeza con el fin de generar vídeos animados naturales y fluidos.Las tecnologías básicas de Sonic incluyen aprendizaje de audio mejorado por el contexto, controladores desacoplados del movimiento y módulos de fusión de cambio de posición conscientes del tiempo. Estas tecnologías permiten a Sonic generar vídeos largos estables y realistas con distintos estilos de imágenes y varios tipos de entradas de audio.

El código y los pesos de este proyecto se publicarán (ya se han publicado) una vez que pase la revisión interna de código abierto.Instrucciones de instalación para usuarios de Windows.

Sonic:音频驱动肖像图片生成面部表情生动的数字人口播视频

Demostración: https://huggingface.co/spaces/xiaozhongji/Sonic

 

Sonic:音频驱动肖像图片生成面部表情生动的数字人口播视频

 

 

Lista de funciones

  • Aprendizaje de audio mejorado por el contexto: La extracción de conocimientos de audio a partir de segmentos temporales largos proporciona información a priori sobre las expresiones faciales y los movimientos de los labios.
  • Controlador de desacoplamiento de movimientoControl independiente de los movimientos de la cabeza y la expresión para una animación más natural.
  • Fusión de desplazamientos posicionales en función del tiempo: Fusiona la información de audio global para generar vídeo largo y estable.
  • Generación de vídeo versátil: Soporte para diferentes estilos de imágenes y múltiples resoluciones para la generación de vídeo.
  • Comparación con métodos de código abierto y cerrado: Demuestra los puntos fuertes de Sonic en la expresión y el movimiento natural de la cabeza.

 

Utilizar la ayuda

Proceso de instalación

La plataforma Sonic está siendo sometida actualmente a una revisión interna de código abierto, y el código y los pesos se subirán a GitHub una vez finalizada la revisión. los usuarios pueden instalar y utilizar Sonic siguiendo estos pasos:

  1. Visite la página GitHub de Sonic.
  2. Almacén de clonación:git clone https://github.com/jixiaozhong/Sonic.git
  3. Instale la dependencia:pip install -r requirements.txt
  4. Descargue los pesos del modelo preentrenado y colóquelos en el directorio especificado.

Proceso de utilización

  1. Preparación de la introducción de datos: Recoge las imágenes de vídeo y los archivos de audio que deben generarse para la animación.
  2. Ejecutar el script generado: Ejecute el proceso de generación utilizando los scripts proporcionados, por ejemplo:python generate.py --image input.jpg --audio input.wav
  3. Parámetros de ajusteAjuste los parámetros del script de generación según sea necesario para obtener los mejores resultados.
  4. Ver salida: El vídeo generado se guardará en el directorio de salida especificado.

Funcionamiento detallado

  • Aprendizaje de audio mejorado por el contextoSonic: al aprender de segmentos largos de audio, Sonic es capaz de captar cambios sutiles en el audio para producir expresiones faciales y movimientos de los labios más naturales.
  • Controlador de desacoplamiento de movimientoEl controlador gestiona por separado el movimiento de la cabeza y el de la expresión, con lo que la animación generada es más realista. Los usuarios pueden optimizar el efecto de animación ajustando los parámetros del controlador.
  • Fusión de desplazamientos posicionales en función del tiempoEste módulo garantiza que el vídeo generado permanezca estable durante un largo periodo de tiempo mediante la fusión de la información global de audio. El usuario puede controlar la suavidad y estabilidad del vídeo ajustando los parámetros de la ventana temporal.
  • Generación de vídeo versátil: Sonic admite diferentes estilos de imágenes (por ejemplo, de dibujos animados, realistas) y múltiples resoluciones para la generación de vídeo. Los usuarios pueden seleccionar las entradas de imagen y audio adecuadas según sus necesidades y generar efectos de vídeo que satisfagan sus expectativas.

 

Instalador Sonic One-Click

Baidu: https://pan.baidu.com/share/init?surl=iCR4l4ClSRZswm1E2K_NNA&pwd=8520

© declaración de copyright
AiPPT

Puestos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...