EchoMimic: retratos sonoros para generar vídeos parlantes (instalador acelerado de EchoMimicV2)

Últimos recursos sobre IAActualizado hace 12 meses Círculo de intercambio de inteligencia artificial

41.8K 00

Introducción general

EchoMimic es un proyecto de código abierto cuyo objetivo es generar animaciones de retratos realistas basadas en audio. Desarrollado por la división Terminal Technologies de Ant Group, el proyecto utiliza condiciones de puntos marcadores editables para generar vídeos de retratos dinámicos combinando audio y puntos marcadores faciales.EchoMimic se ha comparado exhaustivamente en múltiples conjuntos de datos públicos y propios, demostrando su rendimiento superior en evaluaciones cuantitativas y cualitativas.

La versión EchoMimicV2 optimiza la velocidad de inferencia, añade acciones gestuales, recomendado.

EchoMimic：音频驱动人像照片生成说话视频（EchoMimicV2加速版安装包）

Dirección demo: https://www.modelscope.cn/studios/BadToBest/BadToBest V2: https://huggingface.co/spaces/fffiloni/echomimic-v2

Lista de funciones

Animación del controlador de audio: Genera animaciones de retratos realistas con entrada de audio.
Animación dirigida por puntos de marcador: Genera animaciones de retratos estables utilizando puntos de marcador faciales.
Controlador de audio + marcador: Combina audio y marcadores faciales seleccionados para generar animaciones de retratos más naturales.
Soporte multilingüe: Admite entrada de audio en chino, inglés y otros idiomas.
Razonamiento eficienteLos modelos y procesos optimizados mejoran notablemente la velocidad de inferencia.

Utilizar la ayuda

Proceso de instalación

Descargar código::

git clone https://github.com/BadToBest/EchoMimic
cd EchoMimic

Configuración del entorno Python::
- Se recomienda utilizar conda para crear un entorno virtual:
```
conda create -n echomimic python=3.8
conda activate echomimic
```
- Instale los paquetes de dependencia:
```
pip install -r requirements.txt
```
Descargar y descomprimir ffmpeg-static::
- Descargue ffmpeg-static y descomprímalo, luego configure la variable de entorno:
```
export FFMPEG_PATH=/path/to/ffmpeg-4.4-amd64-static
```
Descargar las pesas de preentrenamiento::
- Descargue los pesos del modelo preentrenado adecuados según la descripción del proyecto.

Proceso de utilización

Ejecutar la Interfaz Web::
- Inicie la interfaz web:
```
python webgui.py
```
- Visite el servidor local para ver la interfaz y cargar archivos de audio para la generación de animaciones.

razonamiento en línea de comandos::

Utilice los siguientes comandos para generar animaciones de retratos basadas en audio:
```
python infer_audio2vid.py --audio_path /path/to/audio --output_path /path/to/output
```

Razonamiento en conjunción con señales:

python infer_audio2vid_pose.py --audio_path /path/to/audio --landmark_path /path/to/landmark --output_path /path/to/output

Optimización de modelos::
- El uso del modelo y el pipeline optimizados puede mejorar significativamente la velocidad de inferencia, por ejemplo, de 7 min/240 fps a 50 seg/240 fps en GPUs V100.

advertencia

Asegúrese de que la versión de Python y la versión de CUDA utilizadas son coherentes con los requisitos del proyecto.
Si encuentra problemas durante su uso, puede consultar el archivo README del proyecto o enviar una incidencia a GitHub para obtener ayuda.

Instalador de Windows con un solo clic

Enlace: https://pan.quark.cn/s/cc973b142d41
Código del extracto: 5T57

Descarga acelerada de EchoMimicV2

Quark: https://pan.quark.cn/s/12acd147a758

Baidu: https://pan.baidu.com/s/1z8tiuGtN29luQ7Cg2zHJ8Q?pwd=9e8x

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

k8m: una herramienta de consola de IA ligera para simplificar la gestión de clústeres Kubernetes

Últimos recursos sobre IA # AI Java Proyecto de código abierto

hace 1 año

043.5K

autoMate: una herramienta nativa que combina IA y RPA para automatizar tareas informáticas

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Inteligencia de automatización de escritorio

hace 10 meses

038.6K

Tangent：交互式AI对话画布工具，创建多个对话分支，支持合并、对比和删除分支

Tangent: herramienta interactiva que permite crear múltiples ramas de diálogo y fusionarlas, compararlas y eliminarlas.

Últimos recursos sobre IA # AI Aplicación de chat localizada

hace 1 año

040.7K

Doc2XAPITranslate：文档全文翻译：快速将英文PDF/MD论文翻译为中文文档

Doc2XAPITranslate: traducción de documentos a texto completo: traduce rápidamente documentos PDF/MD ingleses a documentos chinos.

Últimos recursos sobre IA # AI Java Proyecto de código abierto # AI Traducción

hace 11 meses

037.2K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

EchoMimic: retratos sonoros para generar vídeos parlantes (instalador acelerado de EchoMimicV2)

Introducción general

Lista de funciones