Sonic: Las imágenes de retratos con audio generan vídeos de demostración digitales con expresiones faciales vivas

Últimos recursos sobre IAActualizado hace 1 año Círculo de intercambio de inteligencia artificial

71.5K 00

Introducción general

Sonic es una innovadora plataforma centrada en la percepción global del audio, diseñada para generar vívidas animaciones de retratos impulsadas por el audio. Desarrollada por un equipo de investigadores de Tencent y la Universidad de Zhejiang, la plataforma utiliza la información de audio para controlar las expresiones faciales y los movimientos de la cabeza con el fin de generar vídeos animados naturales y fluidos.Las tecnologías básicas de Sonic incluyen aprendizaje de audio mejorado por el contexto, controladores desacoplados del movimiento y módulos de fusión de cambio de posición conscientes del tiempo. Estas tecnologías permiten a Sonic generar vídeos largos estables y realistas con distintos estilos de imágenes y varios tipos de entradas de audio.

El código y los pesos de este proyecto se publicarán (ya se han publicado) una vez que pase la revisión interna de código abierto.Instrucciones de instalación para usuarios de Windows.

Demostración: https://huggingface.co/spaces/xiaozhongji/Sonic

Lista de funciones

Aprendizaje de audio mejorado por el contexto: La extracción de conocimientos de audio a partir de segmentos temporales largos proporciona información a priori sobre las expresiones faciales y los movimientos de los labios.
Controlador de desacoplamiento de movimientoControl independiente de los movimientos de la cabeza y la expresión para una animación más natural.
Fusión de desplazamientos posicionales en función del tiempo: Fusiona la información de audio global para generar vídeo largo y estable.
Generación de vídeo versátil: Soporte para diferentes estilos de imágenes y múltiples resoluciones para la generación de vídeo.
Comparación con métodos de código abierto y cerrado: Demuestra los puntos fuertes de Sonic en la expresión y el movimiento natural de la cabeza.

Utilizar la ayuda

Proceso de instalación

La plataforma Sonic está siendo sometida actualmente a una revisión interna de código abierto, y el código y los pesos se subirán a GitHub una vez finalizada la revisión. los usuarios pueden instalar y utilizar Sonic siguiendo estos pasos:

Visite la página GitHub de Sonic.
Almacén de clonación:git clone https://github.com/jixiaozhong/Sonic.git
Instale la dependencia:pip install -r requirements.txt
Descargue los pesos del modelo preentrenado y colóquelos en el directorio especificado.

Proceso de utilización

Preparación de la introducción de datos: Recoge las imágenes de vídeo y los archivos de audio que deben generarse para la animación.
Ejecutar el script generado: Ejecute el proceso de generación utilizando los scripts proporcionados, por ejemplo:python generate.py --image input.jpg --audio input.wav
Parámetros de ajusteAjuste los parámetros del script de generación según sea necesario para obtener los mejores resultados.
Ver salida: El vídeo generado se guardará en el directorio de salida especificado.

Funcionamiento detallado

Aprendizaje de audio mejorado por el contextoSonic: al aprender de segmentos largos de audio, Sonic es capaz de captar cambios sutiles en el audio para producir expresiones faciales y movimientos de los labios más naturales.
Controlador de desacoplamiento de movimientoEl controlador gestiona por separado el movimiento de la cabeza y el de la expresión, con lo que la animación generada es más realista. Los usuarios pueden optimizar el efecto de animación ajustando los parámetros del controlador.
Fusión de desplazamientos posicionales en función del tiempoEste módulo garantiza que el vídeo generado permanezca estable durante un largo periodo de tiempo mediante la fusión de la información global de audio. El usuario puede controlar la suavidad y estabilidad del vídeo ajustando los parámetros de la ventana temporal.
Generación de vídeo versátil: Sonic admite diferentes estilos de imágenes (por ejemplo, de dibujos animados, realistas) y múltiples resoluciones para la generación de vídeo. Los usuarios pueden seleccionar las entradas de imagen y audio adecuadas según sus necesidades y generar efectos de vídeo que satisfagan sus expectativas.

Instalador Sonic One-Click

Baidu: https://pan.baidu.com/share/init?surl=iCR4l4ClSRZswm1E2K_NNA&pwd=8520

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

Puestos relacionados

vdspeak: generación de locuciones multilingües para vídeos de YouTube

Últimos recursos sobre IA # AI Traducción

Hace 1 año

055.2K

UnifoLM-WMA-0 - Arquitectura de acción del modelo mundial de código abierto de Ushu Technology

Últimos recursos sobre IA

hace 7mos

046.7K

BabelDOC: los documentos PDF se traducirán a herramientas bilingües de código abierto

Últimos recursos sobre IA # AI Java Proyecto de código abierto # AI Traducción

hace 10mos

0109K

Prompt Jailbreak Manual: A Guide to Designing Prompt Words That Break AI Limitations (en inglés)

Últimos recursos sobre IA # PROMPTS Ayudas # prompt jailbreak

Hace 1 año

090.7K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

Sonic: Las imágenes de retratos con audio generan vídeos de demostración digitales con expresiones faciales vivas

Introducción general

Lista de funciones