Versión de manipulación visual basada en Wav2Lip del paquete de integración Digital Man.

Últimos recursos sobre IAActualizado hace 1 año Círculo de intercambio de inteligencia artificial

48.4K 00

Hola a todos, ¡hoy comparto con vosotros una herramienta de creación de personas digitales! Es fácil de usar y soporta el procesamiento por lotes. (Paquete de integración al final del artículo para tomar su propia) Creo que hemos aprendido algo acerca de la tecnología de las personas digitales, antes de que el gran incendio Guo Degang hablar Inglés, belleza rusa hablar chino, etc son la encarnación de la tecnología de las personas digitales.

En realidad hay muchos tipos de personas digitales, por ejemplo, el que he compartido es la forma de vídeo de las personas digitales, entonces también hay personas digitales modelo 3D hecho con UnrealEngine, y todos ellos se aplican en diferentes lugares. Interesado en puede ir a entender, aquí, pero no demasiado para explicar.

¿Qué? ¿No sabes lo que es una persona digital? （"Baidu)

Dicho esto, el que compartimos hoy está en realidad en el original Wav2Lip El proyecto se basa en la optimización, y el despliegue hacia abajo También he encontrado un montón de problemas, como el almacenamiento en caché, interfaz, problemas de eficiencia de ejecución, y así sucesivamente, y la optimización dirigida.

Requisitos de configuración

Windows (ordenador)

¡N-card debe ser N-card! La CPU no es compatible.

MAC

En desarrollo, ¡todavía estoy resolviendo los problemas de los mps! Llevamos días intentándolo. Así que los MAC'ers esperar un poco más?

No creáis que soy lento, amigos, hago muchas pruebas y compruebo si hay algo que pueda optimizar con cada paquete de integración una vez terminado.

Actualizaciones

Novedades con respecto al original

1. Añadida interfaz webui.

2. Admite el procesamiento por lotes.

3. Optimización del problema de caché original.

4. Cuestiones de eficacia de procesamiento optimizadas.

Utilización

intente

Hay que preparar archivos de audio y vídeo.

archivo de audio (ordenador)::

Se recomienda que la duración del audio sea la misma que la del vídeo (por ejemplo, si se trata de un vídeo de 10 segundos, se recomienda que la duración del audio sea de 10 segundos. Si la duración del audio es superior a la del vídeo, el vídeo se reproducirá automáticamente en bucle hacia atrás para prolongarlo).
Formato de archivo de audio: wav y mp3

archivo de vídeo::

Los fotogramas de vídeo que selecciones deben tener todos una cara o se informará de un error. (Por ejemplo, si su vídeo dura 10 segundos en total y hay 2 segundos en el medio sin una cara en el fotograma, se informará de un error).
Formato de vídeo mp4 codificado en H264 recomendado

Sugerencia: Esta versión admite lotes. Por lotes admite varios vídeos con varios audios, varios vídeos con un solo audio.

Un ejemplo:

Tienes 3 vídeos y 3 piezas de audio, entonces se procesará en el orden que elijas el vídeo 1 correspondiente al audio 1 y el vídeo 2 correspondiente al audio 2.
Tienes 3 vídeos y 1 audio, entonces se procesará como si todos los vídeos que subiste correspondieran a este audio. El vídeo 1 corresponde al audio 1, el vídeo 2 corresponde al audio 1 y el vídeo 3 corresponde al audio 3.

inicio de la transformación

La forma más fácil:

Arrastra y suelta el vídeo y el audio en los cuadros de archivo correspondientes, haz clic en Iniciar generación y ¡listo!

Si quieres profundizar en lo que hace cada parámetro, ¡sigue leyendo!

Detalles de los parámetros

Calidad de vídeo:

Rápido y veloz: Wav2Lip audio a modo de puerto.

Mejorado: Audio Wav2Lip a modo labio + Labios con máscara feathering alrededor de los labios para eliminar el borde alrededor de los labios.

Mejorado: Wav2Lip Audio to Lip Mode + Mask Feathering + GFPGAN HD Face Enhancement

Experimental:Optimización de la eficiencia de ejecución en un modelo mejorado.

Recomendado por defecto si su máquina no está demasiado mal configurada.Mejoradoresponder cantandoExperimental

Opciones de resolución

resolución completa

media resolución

Atención:

Probado abajo media resolución será en algunos casos hay problemas incompatibles, se recomienda que esta opción para seleccionar la resolución completa

Opciones de versión de Wav2Lip

Wav2Lip

Ventajas: sincronización bucal más precisa, mantiene la boca cerrada cuando no hay sonido.

Inconvenientes: a veces produce la falta de dientes (en algunos casos).

Wav2Lip_GAN

Pros: el efecto se ve mejor y conserva la expresión original del orador.

Contras: No es muy bueno a la hora de encubrir la acción bruta de los labios, especialmente sin sonido.

Recomendación:

Pruebe primero con Wav2Lip, luego cambie a la versión Wav2Lip_GAN si encuentra el efecto de un gran hueco en la boquilla.

Activar el suavizado facial

Cuando está activado, wav2lip recortará la cara en cada fotograma de forma independiente.

Ideal para movimientos rápidos o edición en vídeo.

Si la cara tiene un ángulo extraño, puede provocar convulsiones.

Si se desactiva, wav2lip mezclará las posiciones de las caras detectadas entre 5 fotogramas.

Ideal para movimientos lentos, especialmente para caras que no suelen estar en ángulo.

Cuando la cara se mueve rápidamente por el encuadre, la boca puede quedar desplazada y tener un aspecto horrible entre los cortes.

Acolchado (Relleno)::

Esta opción controla el número de píxeles añadidos o eliminados del recorte de la cara en cada dirección.

Esta opción puede ayudar a eliminar las líneas duras de la barbilla u otros bordes de la cara, pero un relleno excesivo o insuficiente puede cambiar el tamaño o la posición de la boca. Es práctica habitual añadir 10 píxeles al fondo y se recomienda experimentar con distintos valores para encontrar el mejor resultado.

Máscara Sección de máscaras

Tamaño de la máscara

aumentará el tamaño del área cubierta por la máscara.(Un borde alrededor de la cara puede reducir este valor, por ejemplo, 1,5)

Emplumado de máscaras

Determina la cantidad de mezcla entre el centro y los bordes de la máscara.(Un borde alrededor de la cara también puede aumentar este valor)

Activar el seguimiento bucal de la máscara

Actualizará la posición de la máscara a la posición de la boca en cada fotograma (más lento)

Atención:

Dado que los fotogramas se recortan a la cara, la posición de la boca ya está aproximada, y esta función sólo se activa cuando se observa que la máscara del vídeo no parece seguir la boca.

Activación de la depuración de máscaras

Al activarlo, el fondo aparecerá en escala de grises y la máscara se coloreará, y podrá ver la posición de la máscara en el cuadro. (Después de cambiar este parámetro a Verdadero, podrá ver el efecto del parámetro de forma más intuitiva).

Adquisición de paquetes de integración

Quark: https://pan.quark.cn/s/382936a190e2

Baidu:https://pan.baidu.com/s/17FJpF-V3rxhlg89QunLIDw?pwd=9mnu

empujar hasta el final

Hablando de la gente digital solo, de hecho, hay muchas maneras de lograr, como heygen, Wav2lip, Geneface ++, etc, estas herramientas fuera del efecto no son los mismos, cada uno tiene sus propias ventajas y desventajas.

Voy a ofrecer otra idea de producción para su consideración: utilizar el FaceFusion Primero realiza un intercambio de caras en el vídeo y luego utiliza GPT SoVITS Se realiza la síntesis del habla y, por último, el proyecto se utiliza para la producción demográfica digital.