Hallo2: generación basada en audio de vídeos de retratos sincronizados con los labios y las expresiones (instalación con un solo clic para Windows)
Últimos recursos sobre IAActualizado hace 7 meses Círculo de intercambio de inteligencia artificial 2.1K 00
Introducción general
Hallo2 es un proyecto de código abierto desarrollado conjuntamente por la Universidad de Fudan y Baidu para generar animaciones de retratos de alta resolución mediante la generación basada en audio. El proyecto utiliza redes generativas adversariales (GAN) avanzadas y técnicas de alineación temporal para lograr una resolución de 4K y hasta una hora de generación de vídeo.
Se lanzó Hallo3, que permite condicionar el audio introduciendo un mecanismo de atención cruzada que capta eficazmente la compleja relación entre las señales de audio y las expresiones faciales, logrando una notable sincronización labial.
Tenga en cuenta que:Hallo3 tiene los siguientes requisitos simples para los datos de entrada para la inferencia:
Imagen de referencia: La imagen de referencia debe tener una relación de aspecto de 1:1 o 3:2. Audio del controlador: El audio del controlador debe estar en formato WAV. Idioma del audio: el audio debe estar en inglés, ya que el conjunto de datos de entrenamiento del modelo sólo contiene este idioma. Claridad del audio: asegúrese de que las voces son claras en el audio; la música de fondo es aceptable.

Lista de funciones
- Generación de animaciones basadas en audio: Genera la animación de retrato correspondiente introduciendo un archivo de audio.
- Soporte de alta resolución: Admite la generación de vídeos con resolución 4K para garantizar una calidad de imagen nítida.
- Generación de vídeos largos: Puede generar contenidos de vídeo de hasta 1 hora de duración.
- Mejora de las alertas de texto: Control de las expresiones y acciones de retrato generadas mediante etiquetas de texto semánticas.
- código abiertoCódigo fuente completo y modelos preentrenados para facilitar el desarrollo secundario.
- Soporte multiplataformaCompatible con múltiples plataformas, como Windows, Linux, etc.
Utilizar la ayuda
Proceso de instalación
- requisitos del sistema::
- Sistema operativo: Ubuntu 20.04/22.04
- GPU: tarjeta gráfica compatible con CUDA 11.8 (por ejemplo, A100)
- Creación de un entorno virtual::
conda create -n hallo python=3.10 conda activate hallo
- Instalación de dependencias::
pip install torch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 --index-url https://download.pytorch.org/whl/cu118 pip install -r requirements.txt sudo apt-get install ffmpeg
- Descargar modelo preentrenado::
git lfs install git clone https://huggingface.co/fudan-generative-ai/hallo2 pretrained_models
Proceso de utilización
- Preparación de la introducción de datos::
- Descargue y prepare el modelo preentrenado necesario.
- Prepare la imagen de origen y los archivos de audio del controlador.
- Ejecución de scripts de inferencia::
python scripts/inference.py --source_image path/to/image --driving_audio path/to/audio
- Ver resultados generados::
- El archivo de vídeo generado se guardará en el directorio de salida especificado y podrá visualizarse con cualquier reproductor de vídeo.
Pasos detallados
- Descargar código::
git clone https://github.com/fudan-generative-vision/hallo2 cd hallo2
- Crear y activar un entorno virtual::
conda create -n hallo python=3.10 conda activate hallo
- Instalar los paquetes Python necesarios::
pip install torch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 --index-url https://download.pytorch.org/whl/cu118 pip install -r requirements.txt
- Instalar ffmpeg::
sudo apt-get install ffmpeg
- Descargar modelo preentrenado::
git lfs install git clone https://huggingface.co/fudan-generative-ai/hallo2 pretrained_models
- Ejecución de scripts de inferencia::
python scripts/inference.py --source_image path/to/image --driving_audio path/to/audio
- Ver resultados generados::
- El archivo de vídeo generado se guardará en el directorio de salida especificado y podrá visualizarse con cualquier reproductor de vídeo.
Hallo2: Instalador de Windows con un solo clic
https://pan.quark.cn/s/aa9fc15a786f
Código del extracto: 51XY
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...