Hallo2: generación basada en audio de vídeos de retratos sincronizados con los labios y las expresiones (instalación con un solo clic para Windows)

Introducción general

Hallo2 es un proyecto de código abierto desarrollado conjuntamente por la Universidad de Fudan y Baidu para generar animaciones de retratos de alta resolución mediante la generación basada en audio. El proyecto utiliza redes generativas adversariales (GAN) avanzadas y técnicas de alineación temporal para lograr una resolución de 4K y hasta una hora de generación de vídeo.

Se lanzó Hallo3, que permite condicionar el audio introduciendo un mecanismo de atención cruzada que capta eficazmente la compleja relación entre las señales de audio y las expresiones faciales, logrando una notable sincronización labial.

Tenga en cuenta que:Hallo3 tiene los siguientes requisitos simples para los datos de entrada para la inferencia:

  • Imagen de referencia: La imagen de referencia debe tener una relación de aspecto de 1:1 o 3:2.
  • Audio del controlador: El audio del controlador debe estar en formato WAV.
  • Idioma del audio: el audio debe estar en inglés, ya que el conjunto de datos de entrenamiento del modelo sólo contiene este idioma.
  • Claridad del audio: asegúrese de que las voces son claras en el audio; la música de fondo es aceptable.
Hallo2:音频驱动生成口型/表情同步的肖像视频(Windows一键安装)

 

Lista de funciones

  • Generación de animaciones basadas en audio: Genera la animación de retrato correspondiente introduciendo un archivo de audio.
  • Soporte de alta resolución: Admite la generación de vídeos con resolución 4K para garantizar una calidad de imagen nítida.
  • Generación de vídeos largos: Puede generar contenidos de vídeo de hasta 1 hora de duración.
  • Mejora de las alertas de texto: Control de las expresiones y acciones de retrato generadas mediante etiquetas de texto semánticas.
  • código abiertoCódigo fuente completo y modelos preentrenados para facilitar el desarrollo secundario.
  • Soporte multiplataformaCompatible con múltiples plataformas, como Windows, Linux, etc.

 

Utilizar la ayuda

Proceso de instalación

  1. requisitos del sistema::
    • Sistema operativo: Ubuntu 20.04/22.04
    • GPU: tarjeta gráfica compatible con CUDA 11.8 (por ejemplo, A100)
  2. Creación de un entorno virtual::
    conda create -n hallo python=3.10
    conda activate hallo
    
  3. Instalación de dependencias::
    pip install torch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 --index-url https://download.pytorch.org/whl/cu118
    pip install -r requirements.txt
    sudo apt-get install ffmpeg
    
  4. Descargar modelo preentrenado::
    git lfs install
    git clone https://huggingface.co/fudan-generative-ai/hallo2 pretrained_models
    

Proceso de utilización

  1. Preparación de la introducción de datos::
    • Descargue y prepare el modelo preentrenado necesario.
    • Prepare la imagen de origen y los archivos de audio del controlador.
  2. Ejecución de scripts de inferencia::
    python scripts/inference.py --source_image path/to/image --driving_audio path/to/audio
    
  3. Ver resultados generados::
    • El archivo de vídeo generado se guardará en el directorio de salida especificado y podrá visualizarse con cualquier reproductor de vídeo.

Pasos detallados

  1. Descargar código::
    git clone https://github.com/fudan-generative-vision/hallo2
    cd hallo2
    
  2. Crear y activar un entorno virtual::
    conda create -n hallo python=3.10
    conda activate hallo
    
  3. Instalar los paquetes Python necesarios::
    pip install torch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 --index-url https://download.pytorch.org/whl/cu118
    pip install -r requirements.txt
    
  4. Instalar ffmpeg::
    sudo apt-get install ffmpeg
    
  5. Descargar modelo preentrenado::
    git lfs install
    git clone https://huggingface.co/fudan-generative-ai/hallo2 pretrained_models
    
  6. Ejecución de scripts de inferencia::
    python scripts/inference.py --source_image path/to/image --driving_audio path/to/audio
    
  7. Ver resultados generados::
    • El archivo de vídeo generado se guardará en el directorio de salida especificado y podrá visualizarse con cualquier reproductor de vídeo.

 

Hallo2: Instalador de Windows con un solo clic

https://pan.quark.cn/s/aa9fc15a786f
Código del extracto: 51XY

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...