ChatAnyone: una herramienta para generar vídeos de retratos humanos digitales de medio cuerpo a partir de fotos

Últimos recursos sobre IAPublicado hace 12 meses Círculo de intercambio de inteligencia artificial

60.4K 00

Introducción general

ChatAnyone es un proyecto innovador desarrollado por el equipo HumanAIGC. Utiliza tecnología de inteligencia artificial para generar un vídeo de retrato humano digital con movimientos de la parte superior del cuerpo a partir de una sola foto y una entrada de audio. Basándose en un modelo jerárquico de difusión del movimiento, el proyecto genera movimientos de cabeza, gestos y expresiones adecuados para presentar avatares o animar personas digitales.ChatAnyone se caracteriza por una generación eficiente, que admite una resolución de 512×768 y una salida de vídeo de 30 fotogramas por segundo. El proyecto muestra actualmente detalles técnicos en GitHub, pero aún no es totalmente de código abierto, lo que ha atraído la atención de muchos usuarios interesados en la tecnología de generación de humanos digitales.

Lista de funciones

Generación de fotos y vídeosGeneración de vídeos humanos digitales con movimientos de la parte superior del cuerpo a partir de una sola foto y una entrada de audio.
control de movimiento: Soporte para generar movimientos naturales de la cabeza, gestos y expresiones.
sincronización de audio: Los movimientos de los labios se adaptan al audio para aumentar el realismo.
Alto rendimiento: Admite una resolución de 512×768 a 30 fotogramas por segundo en la GPU 4090.
Escaparate tecnológicoComparte los resultados a través de una página de GitHub para que los usuarios aprendan y exploren.

Utilizar la ayuda

ChatAnyone es actualmente un proyecto de demostración tecnológica y no es totalmente de código abierto, por lo que no puede descargarse ni instalarse directamente. El siguiente contenido se basa en información oficial y describe en detalle su funcionalidad y lógica de funcionamiento para ayudar a los usuarios a entender el proyecto y esperar un posible uso abierto en el futuro.

Funciones principales

1. Generar vídeos a partir de fotos

lógica de funcionamientoEl usuario proporciona una foto de retrato y un fragmento de audio (por ejemplo, una grabación hablando o cantando), y el sistema genera un vídeo de la persona digital con movimientos de la parte superior del cuerpo. El vídeo incluye movimientos como giros de cabeza y gestos.
efectoResolución de vídeo de salida de hasta 512 x 768 con una frecuencia de imagen de 30 fotogramas por segundo. El movimiento humano digital se adapta al tempo de audio, lo que resulta adecuado para mostrar imágenes virtuales.
Utilización: La funcionalidad se conoce actualmente a través de vídeos de demostración o documentación oficiales, y es posible que se abra una versión beta en el futuro.

2. Control de movimientos

lógica de funcionamientoEl sistema genera movimientos naturales de la parte superior del cuerpo basados en el audio, incluida la dinámica de la cabeza y las manos. Los usuarios pueden conocer la amplitud de movimiento a través de ejemplos.
efectoLa persona digital generada puede presentar diferentes estilos de movimiento, como asentimientos y cambios de gesto, para potenciar la expresividad.
Utilización: Esta función está en fase de demostración, y los usuarios pueden ver cómo funciona a través de la página de GitHub.

3. Sincronización de audio

lógica de funcionamientoEl sistema genera movimientos labiales que se adaptan al ritmo del sonido.
efecto: Los labios están muy sincronizados con el audio para presentadores virtuales o presentaciones animadas.
UtilizaciónActualmente se experimenta a través de un vídeo de muestra oficial, pero es posible que en el futuro se admitan pruebas por parte de los usuarios.

Cómo obtener más información

Visite la página oficialIr a https://github.com/HumanAIGC/chat-anyoneVea la descripción del proyecto y el vídeo de presentación.
Siga las actualizacionesEl proyecto aún no es de código abierto, pero es posible que el equipo publique código o herramientas en el futuro. Se recomienda consultar el repositorio de GitHub con regularidad.
Contactar con el equipoPara más información, deje un mensaje en GitHub o busque la información de contacto oficial.

advertencia

ChatAnyone es actualmente un proyecto de demostración tecnológica y no puede utilizarse directamente.
La generación requiere hardware de alto rendimiento (por ejemplo, GPUs 4090), algo difícil de experimentar localmente para el usuario medio.
Es posible que en el futuro el proyecto sea de código abierto y en ese momento se disponga de una guía más detallada.

escenario de aplicación

Presentación de imágenes virtuales
Los usuarios pueden generar vídeos de personas digitales con fotos para mostrar imágenes virtuales personalizadas.
Producción de contenidos de animación
Los creadores pueden utilizar el vídeo generado de una persona digital de media figura para crear cortometrajes o contenidos de presentación.
Estudios técnicos
Gracias a este proyecto, los investigadores pueden aprender técnicas de generación humana digital basada en audio.

CONTROL DE CALIDAD

¿Puede ChatAnyone chatear en tiempo real?
Actualmente no. Se centra en generar vídeos a partir de fotos y audio, no es una herramienta de chat en directo.
¿Qué tipos de fotos se admiten?
La presentación oficial se basa en fotografías de retratos, y los requisitos específicos pueden consultarse en futuros documentos.
¿Está el vídeo disponible comercialmente?
Actualmente no existe una licencia explícita, habrá que esperar al código abierto para ver el acuerdo.

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

Higress: Ofrecer una solución de puerta de enlace de IA eficiente para simplificar la gestión de microservicios y mejorar la seguridad

Últimos recursos sobre IA # AI Java Proyecto de código abierto

hace 1 año

054.8K

OpenAutoGLM - Modelo de agente de IA de código abierto para teléfonos móviles de Smart Spectrum AI

Últimos recursos sobre IA

hace 4 meses

030.1K

ReadPo: sindicación automatizada de contenidos y reescritura de artículos, creación gráfica basada en temas con un solo clic.

Últimos recursos sobre IA # AI Escritura

hace 1 año

047.8K

Gemini 2.5 Flash Image - 谷歌推出的最强图像生成与编辑模型

Gemini 2.5 Flash Image - El modelo de generación y edición de imágenes más potente de Google

Últimos recursos sobre IA

hace 7 meses

042.6K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

ChatAnyone: una herramienta para generar vídeos de retratos humanos digitales de medio cuerpo a partir de fotos

Introducción general

Lista de funciones