¿Su persona digital exclusiva? El PK definitivo de seis soluciones de persona digital de código abierto: ¡una comparación de resultados de un vistazo!

Recientemente, en el círculo de AI, la tecnología humana digital es realmente un lío caliente, una variedad de "código abierto el más fuerte" programa humano digital sin fin, deslumbrante. Aunque el autor también ha compartido una serie de paquetes de integración humana digital, pero en la cara de tantas opciones, es inevitable que la gente se confunde, no sé cuál es el más adecuado para ellos.

Presentado previamente para los lectores:12 personas digitales gratuitas desplegadas localmente¡Como el llamado "difícil elegir" es un problema común de la gente contemporánea, con el fin de resolver los problemas de todo el mundo, esta vez un soplo de seis personas digitales a inventario!

El autor realizará un inventario exhaustivo de los recursos previamente compartidos relacionados con las personas digitales, comparándolos en detalle Efectos de la realización, requisitos de configuración, tiempo de generación y otra información clave para que todos puedan de un vistazo Comprenda el estado actual de la tecnología humana digital de código abierto para poder elegir el "humano digital" más adecuado para usted.

 

Personas digitales: el "bombón" de la inteligencia artificial

Cuando se trata de la tecnología más puntera en IA en estos momentos, las personas digitales están sin duda en la lista.

Con AI Painting Publisher Estabilidad AI A diferencia de las frecuentes noticias de cierres y la situación de "involución" de los grandes fabricantes de modelos nacionales y extranjeros atrapados en una guerra de precios, los digitales en el campo de la IA han demostrado un valor empresarial real y un potencial de beneficios.

Como ejemplo, a mediados de abril de este año, la persona digital del fundador de Jingdong, Liu Qiangdong, "Caixin Dongge", se presentó en la emisión en directo de Jingdong, y su grado de realismo es asombroso, no sólo la velocidad del habla y el acento son muy similares a los de una persona real, sino que incluso sus movimientos habituales son casi exactamente iguales.

"Donggao" se frota los dedos de vez en cuando durante su discurso, y cuando enfatiza un punto, hace un gesto más amplio y asiente con la cabeza de forma natural. Muchos espectadores dicen que apenas se nota que es una persona digital.

El debut de este espectáculo digital humano en directo en menos de una hora, el número de espectadores superó los 20 millones, el volumen de negocio acumulado de todo el directo es de más de 1,5 millones de euros. 50 millones Renminbi (RMB)

El gran éxito del espectáculo de debut ha impulsado directamente a Jingdong a lanzar la actividad "President Digital Man Live" durante la promoción 618 de este año. Gree, Hisense, LG, Mingchuangyoupin, Jelia, Corvus, vivo, Samsung y muchos otros conocidos ejecutivos de empresas se han transformado en personas digitales, bajando personalmente en directo con los productos.

Jingdong datos oficiales muestran que, hasta ahora, Jingdong discurso rinoceronte personas digitales han acumulado los servicios de más de 5000 marcas, impulsado por el importe total de las transacciones de mercancías (GMV) Más de 10.000 millones de dólares RMB.

El enorme potencial comercial de las personas digitales ha atraído la atención de cada vez más gente. Aunque el coste de realizar una persona digital superrealista como "Donggao" todavía no es elevado, con el rápido desarrollo de la tecnología de IA, la comunidad de código abierto ha surgido con cada vez más proyectos de personas digitales multifuncionales y potentes, lo que reduce enormemente el umbral técnico.

A continuación, permítanme ofrecerles un inventario detallado de esos excelentes proyectos de código abierto para personas digitales.

 

¿Cuál es la mejor tecnología humana digital de código abierto? Una dura evaluación de seis proyectos

La tecnología humana digital, un concepto que antes sólo existía en las películas de ciencia ficción, está llegando poco a poco a la vida real. Con el rápido avance de la tecnología de inteligencia artificial, el campo de las personas digitales de código abierto también se ha vuelto muy competitivo, y las principales instituciones de investigación y empresas tecnológicas lanzan sus propias soluciones de código abierto.

A continuación, realizaré una revisión detallada de seis proyectos representativos de personas digitales de código abierto y Por orden de desarrollo tecnológico Se ofrece una introducción para facilitar una comprensión intuitiva de la evolución de la tecnología humana digital.

1. Wav2lip: representante de la primera generación de tecnología humana digital

Wav2Lip Algorithm es un algoritmo de generación de animaciones faciales basadas en el habla basado en el aprendizaje profundo, que es un esquema más utilizado en la tecnología humana digital temprana. La idea central es asignar la información de la señal del habla a los parámetros de animación facial para generar animación facial sincronizada con el habla.

  • Generación de casosLa siguiente figura muestra el Wav2Lip Efecto humano digital generado. Se puede observar que los movimientos faciales de los personajes de la imagen son rígidos, centrándose principalmente en los movimientos mecánicos de los labios, y la madurez general de la persona digital es relativamente baja.
你的专属数字人?六大开源数字人方案终极PK:效果对比一目了然!
  • Requisitos de configuraciónWav2Lip: Wav2Lip tiene pocos requisitos de hardware, ya que sólo necesita una GPU con 4 GB de RAM para ejecutarse. Se tarda entre 5 y 15 minutos en generar un vídeo humano digital de 1 minuto de duración.

2. SadTalker: un programa avanzado para movimientos faciales más naturales

SadTalker es un proyecto de código abierto de la Universidad Jiaotong de Xi'an, que genera coeficientes de movimiento 3D aprendiendo del audio y los combina con un nuevo renderizador facial 3D para generar movimientos de la cabeza, consiguiendo el efecto de generar un vídeo humano digital de alta calidad utilizando sólo una foto y un fragmento de audio.

  • Generación de casosLa siguiente figura muestra el SadTalker Efectos humanos digitales generados. En comparación con Wav2Lip, SadTalker ha mejorado la naturalidad de los movimientos faciales, la cabeza ya no es completamente estática, sino que se han añadido algunos ligeros movimientos. Sin embargo, una mirada más atenta revela que todavía hay algunos desajustes en los bordes de la figura. Así que ahí está. SadTalker mejorada para generar personas digitales utilizando vídeo de retratos
你的专属数字人?六大开源数字人方案终极PK:效果对比一目了然!
  • Requisitos de configuración: Como SadTalker genera personas digitales mejoradas, los requisitos de hardware han aumentado en consecuencia. Se recomienda utilizar una GPU con 6 GB de RAM para garantizar un funcionamiento fluido. Si utiliza una GPU con menos de 6GB de RAM o una CPU, la velocidad de generación será más lenta. Se necesitan unos 10-20 minutos de tiempo de procesamiento para generar un vídeo humano digital de aproximadamente 1 minuto.

3. MuseTalk: de Tencent, la sincronización labial es más precisa

MuseTalk MuseTalk es un proyecto de humano digital lanzado por Tencent, centrado en la generación de humanos digitales sincronizados con los labios en tiempo real mediante audio. La tecnología principal de MuseTalk reside en la capacidad de ajustar automáticamente la imagen facial del personaje digital basándose en la señal de audio, lo que garantiza que la forma de los labios sea muy coherente con el contenido de audio, logrando así un efecto de sincronización labial más natural.

  • Generación de casosLa figura siguiente muestra el efecto de la persona digital generada por MuseTalk. Como puede ver, MuseTalk ha mejorado respecto a SadTalker, los movimientos de la cabeza y la cara son más naturales y se ha paliado la desalineación de los bordes. Sin embargo, aún se puede mejorar la finura de la animación de los labios.
你的专属数字人?六大开源数字人方案终极PK:效果对比一目了然!
  • Requisitos de configuraciónMuseTalk: Los requisitos de hardware de MuseTalk son similares a los de SadTalker, y se recomienda una GPU con 6 GB de memoria de vídeo para una mejor experiencia de ejecución. Se tarda entre 10 y 20 minutos en generar un vídeo de 1 minuto de una persona digital.

4. Hallo: Baidu & Fudan & ETH Zurich & Nanjing University producción conjunta, ¡el efecto es asombroso!

Hola Hallo, un proyecto de humano digital desarrollado por Baidu en colaboración con la Universidad de Fudan, la ETH de Zúrich y la Universidad de Nanjing, ha logrado avances significativos en el campo de la generación de animaciones de retratos basadas en audio. La tecnología analiza en profundidad las entradas de voz para sincronizar los movimientos faciales, incluidos los labios, las expresiones y las posturas de la cabeza, dando como resultado un impresionante efecto humano digital.

  • Generación de casosLa siguiente figura muestra el Hola El efecto del humano digital generado. Las figuras generadas por Hallo suponen un salto cualitativo respecto a las soluciones anteriores en cuanto a claridad, riqueza de movimientos de la cabeza y sutileza de las expresiones faciales.
你的专属数字人?六大开源数字人方案终极PK:效果对比一目了然!
  • Requisitos de configuraciónHallo: Aunque Hallo tiene unos efectos extraordinarios, también requiere un mayor nivel de rendimiento del hardware. Según mi análisis, se recomienda utilizar una GPU con más de 10 GB de memoria de vídeo para ejecutarlo sin problemas. Se necesitan entre 30 y 40 minutos de tiempo de procesamiento para generar un vídeo de 1 minuto de una persona digital.

5.LivePortrait: Racer de código abierto, costura sin costuras de varios caracteres

LivePortrait es un llamativo proyecto de persona digital de código abierto de Racer. Su singularidad radica en que no solo puede controlar con precisión la dirección de la mirada del personaje y la apertura y cierre de los labios, sino también lograr múltiples retratos de personas cosidos a la perfección.

  • Generación de casosLa siguiente figura muestra el LivePortrait Efecto de personas digitales generadas. Como puede ver, LivePortrait maneja escenas de varias personas con transiciones muy suaves y naturales entre los personajes, sin bordes abruptos ni marcas de empalme.
你的专属数字人?六大开源数字人方案终极PK:效果对比一目了然!
  • Requisitos de configuraciónComparado con Hallo, LivePortrait tiene un menor requerimiento de hardware a la vez que garantiza excelentes resultados de generación. Según mi evaluación, una GPU con 8 GB de RAM puede ejecutarlo sin problemas, y una GPU con 6 GB de RAM apenas puede hacerlo. Tarda unos 10-20 minutos en generar un vídeo humano digital de 1 minuto.

6. EchoMimic: doble accionamiento de audio y vídeo, más realista y natural

La tecnología humana digital tradicional se basa en el audio o en el punto clave facial, cada uno con sus propias ventajas e inconvenientes. Mientras que EchoMimic En su lugar, combina inteligentemente estos dos métodos de conducción para lograr una generación de retratos dinámicos más realista y natural mediante el entrenamiento dual de puntos clave de audio y faciales.
你的专属数字人?六大开源数字人方案终极PK:效果对比一目了然!

  • Generación de casosLa siguiente figura muestra el efecto de un humano digital generado por EchoMimic. Como puede ver, las expresiones faciales y los movimientos corporales del humano digital generado por EchoMimic son tan naturales y suaves que casi resulta difícil distinguir al real del falso.
你的专属数字人?六大开源数字人方案终极PK:效果对比一目了然!
  • Requisitos de configuraciónLos resultados de generación de EchoMimic han mejorado notablemente sin ningún aumento significativo de los requisitos de hardware, ya que una GPU con 8 GB de RAM funciona sin problemas. Sin embargo, el tiempo de generación aumenta ligeramente, y se necesitan unos 15-30 minutos de tiempo de procesamiento para generar un vídeo de 1 minuto de una persona digital.

 

Resumen y perspectivas

La velocidad de desarrollo de la tecnología humana digital es asombrosa, rompiendo constantemente los límites de la imaginación de la gente. Con el fin de mostrar de forma más intuitiva el efecto de las diversas tecnologías humanas digitales de código abierto para mejorar, el autor ha creado un cuadro comparativo del progreso tecnológico:

你的专属数字人?六大开源数字人方案终极PK:效果对比一目了然!

A medida que la tecnología de IA sigue avanzando, tenemos razones para creer que en el futuro surgirán más y más potentes proyectos de personas digitales de IA de código abierto. Si sientes curiosidad por la tecnología humana digital y estás deseando experimentar los asombrosos efectos de los humanos digitales, ahora es el mejor momento para hacerlo. Presenciemos juntos el floreciente desarrollo y las infinitas posibilidades de la tecnología humana digital.

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...