LiteAvatar: retratos 2D con audio de personas digitales interactivas en tiempo real, que funcionan a 30 fps en la CPU.

Introducción general

LiteAvatar es una herramienta de código abierto desarrollada por el equipo HumanAIGC (parte de Ali) que se centra en generar animaciones faciales a partir de avatares 2D con audio en tiempo real. Funciona a 30 fotogramas por segundo (fps) sólo con la CPU, lo que la hace especialmente adecuada para escenarios de bajo consumo, como los chats de vídeo 2D en tiempo real o las aplicaciones de avatares en dispositivos móviles.LiteAvatar combina el reconocimiento de voz (ASR) y la predicción de la boca para generar expresiones faciales y movimientos de la boca sincronizados en función de las características de audio entrantes, con efectos de animación suaves y naturales. El proyecto está alojado en GitHub, donde los desarrolladores pueden acceder gratuitamente al código completo y la documentación y desarrollarlo según sus necesidades. Ya sea para entretenimiento, educación o alojamiento virtual, esta herramienta demuestra la combinación perfecta de ligereza y alto rendimiento.

Despliegue de la versión interactiva en tiempo real de LiteAvatar: https://github.com/HumanAIGC-Engineering/OpenAvatarChat

LiteAvatar:音频驱动2D人像的实时互动数字人,CPU运行30fps

 

Lista de funciones

  • Generación de animaciones basadas en audio: Genera expresiones faciales y animaciones bucales de avatares en tiempo real mediante la introducción de audio.
  • Funcionamiento ligeroLa animación fluida a 30 fps puede lograrse confiando sólo en la CPU, sin necesidad de soporte de GPU.
  • Predicción de la sincronización bucalEl modelo ASR se utiliza para extraer características de audio y generar movimientos de la boca que coincidan con el contenido del habla.
  • Compatibilidad con dispositivos móvilesEl modelo optimizado se adapta a dispositivos de bajo consumo y es adecuado para teléfonos móviles o tabletas.
  • Soporte de código abiertoSe proporciona el código fuente completo, lo que permite a los usuarios personalizar la funcionalidad o integrarla en otros proyectos.
  • Capacidad de procesamiento en tiempo real: El procesamiento de baja latencia de las entradas de audio garantiza que la animación esté muy sincronizada con el sonido.

 

Utilizar la ayuda

LiteAvatar es un proyecto de código abierto basado en GitHub que requiere que los usuarios tengan una cierta base técnica para instalarlo y utilizarlo. A continuación encontrarás una guía detallada de instalación y uso que te ayudará a empezar a utilizar rápidamente esta herramienta de avatares 2D con audio.

Proceso de instalación

  1. Preparación medioambiental
    • Asegúrate de que tienes Python 3.8 o superior instalado en tu ordenador. Esto se puede hacer con el comando python --version Comprueba la versión.
    • Instalar Git, que se utiliza para descargar código de GitHub; los usuarios de Windows pueden descargar Git desde el sitio web oficial, y los usuarios de Linux o macOS pueden instalarlo a través de un gestor de paquetes (p. ej. sudo apt install git).
    • Prepare un terminal que admita la línea de comandos (por ejemplo, CMD, PowerShell para Windows o Terminal para Linux/macOS).
  2. Descargar el proyecto LiteAvatar
    • Abra un terminal e introduzca el siguiente comando para clonar el repositorio de código:
      git clone https://github.com/HumanAIGC/lite-avatar.git
      
    • Una vez finalizada la clonación, vaya al directorio del proyecto:
      cd lite-avatar
      
  3. Instalación de dependencias
    • El proyecto requiere algunas dependencias de la biblioteca Python. Ejecute el siguiente comando para instalar las dependencias:
      pip install -r requirements.txt
      
    • en caso de que requirements.txt No hay dependencias específicas enumeradas en la documentación, puede consultar la documentación del proyecto, las dependencias comunes pueden incluir numpyytorch(versión CPU),modelscope etc. Ejemplo de instalación manual:
      pip install numpy torch modelscope
      
  4. Verificar la instalación
    • Una vez completada la instalación, ejecute un comando de prueba simple (el comando exacto se basa en el README del proyecto, por ejemplo:
      python demo.py
      
    • Si no se informa de ningún error, el entorno se ha configurado correctamente.

Utilización

La función principal de LiteAvatar es generar animaciones a partir de avatares con audio. Aquí están los pasos detallados:

Preparación de archivos de audio

  • formato de audio: Admite formatos habituales como .wav tal vez .mp3. Se recomienda utilizar audio mono claro con una frecuencia de muestreo de unos 16 kHz para obtener los mejores resultados.
  • Fuente de audioPuede ser tu voz grabada o el audio extraído de un vídeo. Herramienta recomendada: Audacity (software gratuito de edición de audio).

Ejecución de animaciones en tiempo real

  1. procedimiento de activación
    • En el directorio del proyecto, ejecute el script principal (suponiendo que el script main.py(El nombre específico del archivo se basa en el README):
      python main.py --audio_path your_audio_file.wav
      
    • Descripción de los parámetros:
      • --audio_pathEspecifica la ruta del archivo de audio.
      • --output: Parámetro opcional para especificar la ruta donde guardar el vídeo animado generado, por defecto puede mostrarse directamente.
  2. Pruebas de entrada en tiempo real
    • Si se admite la entrada de micrófono, pruebe el modo en tiempo real (debe comprobar si README proporciona esta función). Ejemplo de comando:
      python main.py --live
      
    • El programa escucha la entrada del micrófono y genera animaciones en tiempo real.

Ver resultados

  • Salida de animaciónDespués de ejecutarlo, el programa muestra una animación del avatar en la pantalla o genera un archivo de vídeo (como un output.mp4).
  • Parámetros de ajuste: Si la animación no es satisfactoria, puedes consultar la documentación para ajustar los parámetros del modelo, como la frecuencia de imagen o la sensibilidad de la boca (según la implementación del código).

Función destacada Operación

Generación de animaciones basadas en audio

  • mover::
    1. Prepara el archivo de audio, por ejemplo test.wav.
    2. Ejecutar comando:
      python main.py --audio_path test.wav --output result.mp4
      
    3. El programa llama al modelo ASR de ModelScope para extraer características de audio y, a continuación, genera la animación mediante el modelo de predicción de la boca.
  • efectoLas bocas y expresiones de los avatares cambian en respuesta al audio, por ejemplo, sus bocas se abren cuando dicen "hola" y cantan con un mayor sentido del ritmo.

Despliegue de dispositivos móviles

  • requisitos previosLos modelos deben exportarse a un formato ligero (por ejemplo, ONNX) e integrarse en dispositivos móviles.
  • plataforma::
    1. Convertir el modelo localmente (scripts específicos que se añadirán a la documentación del proyecto, en el ejemplo se supone que el programa export.py):
      python export.py --model lite_avatar_model.pth --output lite_avatar.onnx
      
    2. comandante en jefe (militar) .onnx Los archivos se despliegan en móviles y se ejecutan utilizando marcos compatibles con ONNX, como NCNN.
  • al final: Animación en tiempo real de bajo consumo en teléfonos móviles, adecuada para aplicaciones de videochat.

advertencia

  • optimización del rendimiento: Si tienes lag, puedes reducir la velocidad de fotogramas (por ejemplo, de 30fps a 15fps) modificando el archivo de configuración o los parámetros de la línea de comandos.
  • ajustar los componentes durante las pruebasSi obtiene un error, compruebe si las versiones de sus dependencias coinciden o consulte la página de problemas de GitHub para obtener ayuda de la comunidad.
  • escalabilidadSi quieres añadir nuevas funcionalidades (por ejemplo, control de emoji), puedes hacer un fork del proyecto y modificar el código, el equipo de HumanAIGC da la bienvenida a los colaboradores para que envíen Pull Requests.

Con estos pasos, puedes instalar y utilizar LiteAvatar fácilmente para experimentar el proceso de generación de animaciones de avatares basadas en audio. Esta herramienta proporciona una solución eficaz y cómoda tanto para pruebas de desarrollo como para aplicaciones en el mundo real.

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...