LiteAvatar: retratos 2D con audio de personas digitales interactivas en tiempo real, que funcionan a 30 fps en la CPU.
Últimos recursos sobre IAPublicado hace 6 meses Círculo de intercambio de inteligencia artificial 13.9K 00
Introducción general
LiteAvatar es una herramienta de código abierto desarrollada por el equipo HumanAIGC (parte de Ali) que se centra en generar animaciones faciales a partir de avatares 2D con audio en tiempo real. Funciona a 30 fotogramas por segundo (fps) sólo con la CPU, lo que la hace especialmente adecuada para escenarios de bajo consumo, como los chats de vídeo 2D en tiempo real o las aplicaciones de avatares en dispositivos móviles.LiteAvatar combina el reconocimiento de voz (ASR) y la predicción de la boca para generar expresiones faciales y movimientos de la boca sincronizados en función de las características de audio entrantes, con efectos de animación suaves y naturales. El proyecto está alojado en GitHub, donde los desarrolladores pueden acceder gratuitamente al código completo y la documentación y desarrollarlo según sus necesidades. Ya sea para entretenimiento, educación o alojamiento virtual, esta herramienta demuestra la combinación perfecta de ligereza y alto rendimiento.
Despliegue de la versión interactiva en tiempo real de LiteAvatar: https://github.com/HumanAIGC-Engineering/OpenAvatarChat

Lista de funciones
- Generación de animaciones basadas en audio: Genera expresiones faciales y animaciones bucales de avatares en tiempo real mediante la introducción de audio.
- Funcionamiento ligeroLa animación fluida a 30 fps puede lograrse confiando sólo en la CPU, sin necesidad de soporte de GPU.
- Predicción de la sincronización bucalEl modelo ASR se utiliza para extraer características de audio y generar movimientos de la boca que coincidan con el contenido del habla.
- Compatibilidad con dispositivos móvilesEl modelo optimizado se adapta a dispositivos de bajo consumo y es adecuado para teléfonos móviles o tabletas.
- Soporte de código abiertoSe proporciona el código fuente completo, lo que permite a los usuarios personalizar la funcionalidad o integrarla en otros proyectos.
- Capacidad de procesamiento en tiempo real: El procesamiento de baja latencia de las entradas de audio garantiza que la animación esté muy sincronizada con el sonido.
Utilizar la ayuda
LiteAvatar es un proyecto de código abierto basado en GitHub que requiere que los usuarios tengan una cierta base técnica para instalarlo y utilizarlo. A continuación encontrarás una guía detallada de instalación y uso que te ayudará a empezar a utilizar rápidamente esta herramienta de avatares 2D con audio.
Proceso de instalación
- Preparación medioambiental
- Asegúrate de que tienes Python 3.8 o superior instalado en tu ordenador. Esto se puede hacer con el comando
python --version
Comprueba la versión. - Instalar Git, que se utiliza para descargar código de GitHub; los usuarios de Windows pueden descargar Git desde el sitio web oficial, y los usuarios de Linux o macOS pueden instalarlo a través de un gestor de paquetes (p. ej.
sudo apt install git
). - Prepare un terminal que admita la línea de comandos (por ejemplo, CMD, PowerShell para Windows o Terminal para Linux/macOS).
- Asegúrate de que tienes Python 3.8 o superior instalado en tu ordenador. Esto se puede hacer con el comando
- Descargar el proyecto LiteAvatar
- Abra un terminal e introduzca el siguiente comando para clonar el repositorio de código:
git clone https://github.com/HumanAIGC/lite-avatar.git
- Una vez finalizada la clonación, vaya al directorio del proyecto:
cd lite-avatar
- Abra un terminal e introduzca el siguiente comando para clonar el repositorio de código:
- Instalación de dependencias
- El proyecto requiere algunas dependencias de la biblioteca Python. Ejecute el siguiente comando para instalar las dependencias:
pip install -r requirements.txt
- en caso de que
requirements.txt
No hay dependencias específicas enumeradas en la documentación, puede consultar la documentación del proyecto, las dependencias comunes pueden incluirnumpy
ytorch
(versión CPU),modelscope
etc. Ejemplo de instalación manual:pip install numpy torch modelscope
- El proyecto requiere algunas dependencias de la biblioteca Python. Ejecute el siguiente comando para instalar las dependencias:
- Verificar la instalación
- Una vez completada la instalación, ejecute un comando de prueba simple (el comando exacto se basa en el README del proyecto, por ejemplo:
python demo.py
- Si no se informa de ningún error, el entorno se ha configurado correctamente.
- Una vez completada la instalación, ejecute un comando de prueba simple (el comando exacto se basa en el README del proyecto, por ejemplo:
Utilización
La función principal de LiteAvatar es generar animaciones a partir de avatares con audio. Aquí están los pasos detallados:
Preparación de archivos de audio
- formato de audio: Admite formatos habituales como
.wav
tal vez.mp3
. Se recomienda utilizar audio mono claro con una frecuencia de muestreo de unos 16 kHz para obtener los mejores resultados. - Fuente de audioPuede ser tu voz grabada o el audio extraído de un vídeo. Herramienta recomendada: Audacity (software gratuito de edición de audio).
Ejecución de animaciones en tiempo real
- procedimiento de activación
- En el directorio del proyecto, ejecute el script principal (suponiendo que el script
main.py
(El nombre específico del archivo se basa en el README):python main.py --audio_path your_audio_file.wav
- Descripción de los parámetros:
--audio_path
Especifica la ruta del archivo de audio.--output
: Parámetro opcional para especificar la ruta donde guardar el vídeo animado generado, por defecto puede mostrarse directamente.
- En el directorio del proyecto, ejecute el script principal (suponiendo que el script
- Pruebas de entrada en tiempo real
- Si se admite la entrada de micrófono, pruebe el modo en tiempo real (debe comprobar si README proporciona esta función). Ejemplo de comando:
python main.py --live
- El programa escucha la entrada del micrófono y genera animaciones en tiempo real.
- Si se admite la entrada de micrófono, pruebe el modo en tiempo real (debe comprobar si README proporciona esta función). Ejemplo de comando:
Ver resultados
- Salida de animaciónDespués de ejecutarlo, el programa muestra una animación del avatar en la pantalla o genera un archivo de vídeo (como un
output.mp4
). - Parámetros de ajuste: Si la animación no es satisfactoria, puedes consultar la documentación para ajustar los parámetros del modelo, como la frecuencia de imagen o la sensibilidad de la boca (según la implementación del código).
Función destacada Operación
Generación de animaciones basadas en audio
- mover::
- Prepara el archivo de audio, por ejemplo
test.wav
. - Ejecutar comando:
python main.py --audio_path test.wav --output result.mp4
- El programa llama al modelo ASR de ModelScope para extraer características de audio y, a continuación, genera la animación mediante el modelo de predicción de la boca.
- Prepara el archivo de audio, por ejemplo
- efectoLas bocas y expresiones de los avatares cambian en respuesta al audio, por ejemplo, sus bocas se abren cuando dicen "hola" y cantan con un mayor sentido del ritmo.
Despliegue de dispositivos móviles
- requisitos previosLos modelos deben exportarse a un formato ligero (por ejemplo, ONNX) e integrarse en dispositivos móviles.
- plataforma::
- Convertir el modelo localmente (scripts específicos que se añadirán a la documentación del proyecto, en el ejemplo se supone que el programa
export.py
):python export.py --model lite_avatar_model.pth --output lite_avatar.onnx
- comandante en jefe (militar)
.onnx
Los archivos se despliegan en móviles y se ejecutan utilizando marcos compatibles con ONNX, como NCNN.
- Convertir el modelo localmente (scripts específicos que se añadirán a la documentación del proyecto, en el ejemplo se supone que el programa
- al final: Animación en tiempo real de bajo consumo en teléfonos móviles, adecuada para aplicaciones de videochat.
advertencia
- optimización del rendimiento: Si tienes lag, puedes reducir la velocidad de fotogramas (por ejemplo, de 30fps a 15fps) modificando el archivo de configuración o los parámetros de la línea de comandos.
- ajustar los componentes durante las pruebasSi obtiene un error, compruebe si las versiones de sus dependencias coinciden o consulte la página de problemas de GitHub para obtener ayuda de la comunidad.
- escalabilidadSi quieres añadir nuevas funcionalidades (por ejemplo, control de emoji), puedes hacer un fork del proyecto y modificar el código, el equipo de HumanAIGC da la bienvenida a los colaboradores para que envíen Pull Requests.
Con estos pasos, puedes instalar y utilizar LiteAvatar fácilmente para experimentar el proceso de generación de animaciones de avatares basadas en audio. Esta herramienta proporciona una solución eficaz y cómoda tanto para pruebas de desarrollo como para aplicaciones en el mundo real.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...