JoyHallo - El modelo humano digital con IA de código abierto de Jingdong

Últimos recursos sobre IAPublicado hace 10 meses Círculo de intercambio de inteligencia artificial

45.1K 00

¿Qué es JoyHallo?

JoyHallo es un modelo humano digital de IA de código abierto de Jingdong, diseñado para mandarín, que soporta la conversión de audio en vídeos de habla realista.JoyHallo incorpora características de audio basadas en el modelo wav2vec2 con una estructura semidesacoplada para mejorar la precisión de la predicción del movimiento de los labios y soportar la generación de vídeos en inglés.El conjunto de datos de entrenamiento de JoyHallo cubre vídeos en mandarín de múltiples edades y estilos. JoyHallo tiene un amplio abanico de aplicaciones en los campos del anclaje virtual, la educación en línea, la atención al cliente y la producción de anuncios, lo que puede proporcionar una experiencia de servicio eficiente, vívida y personalizada y promover el desarrollo inteligente de las industrias relacionadas.

Características principales de JoyHallo

Generación de vídeo con audio: Basándose en la señal de audio entrante, genera automáticamente un vídeo parlante que coincide con ella.
Capacidad generativa interlingüística: Además de especializarse en la generación de vídeos en mandarín, JoyHallo tiene la capacidad de generar vídeos en inglés.
Sincronización labialEl modelo sincroniza con precisión los movimientos de los labios en audio y vídeo.
Generación de expresiones facialesGenerar expresiones faciales adecuadas en función de la emoción y el tono de voz del audio.

Dirección web oficial de JoyHallo

Página web del proyecto::https://jdh-algo.github.io/JoyHallo/
Repositorio GitHub::https://github.com/jdh-algo/JoyHallo
Biblioteca de modelos HuggingFace::https://huggingface.co/jdh-algo/JoyHallo-v1
Documento técnico arXiv::https://arxiv.org/pdf/2409.13268

Cómo utilizar JoyHallo

Preparación medioambiental::
- requisitos de hardwareSe recomienda utilizar ordenadores con GPU de alto rendimiento, como las tarjetas gráficas de la serie NVIDIA (por ejemplo, serie RTX 30 o superior), para acelerar el proceso de inferencia del modelo.
- entorno de softwareAsegúrese de que Python está instalado en su sistema (se recomienda la versión 3.8 o superior). Instale PyTorch basándose en el siguiente comando (elija el comando de instalación adecuado según la versión de CUDA):

pip install torch torchvision torchaudio

Instalación de dependencias::
- Clonación del repositorio GitHub de JoyHallo::

git clone https://github.com/jdh-algo/JoyHallo.git
cd JoyHallo

- Instalar las dependencias del proyecto::

pip install -r requirements.txt

Preparación de datosDatos de JoyHallo: Si utiliza sus propios datos para el entrenamiento o el ajuste fino, necesita preparar los datos de acuerdo con el formato de datos de JoyHallo.El conjunto de datos de JoyHallo normalmente contiene archivos de audio y los correspondientes archivos de vídeo. Los archivos de audio deben estar en formato wav y los de vídeo en formato mp4. Si sólo está utilizando el modelo pre-entrenado para la inferencia, omita este paso directamente.
Carga e inferencia del modelo::
- Carga de modelos preentrenadosLos modelos pre-entrenados de JoyHallo se cargan basados en la librería de modelos Hugging Face.

from transformers import AutoModelForAudioToVideo, AutoProcessor

model_name = "jdh-algo/JoyHallo-v1"
processor = AutoProcessor.from_pretrained(model_name)
model = AutoModelForAudioToVideo.from_pretrained(model_name)

- Preprocesamiento de audio: convierte los archivos de audio al formato requerido por el modelo.::

from datasets import load_dataset

dataset = load_dataset("audiofolder", data_dir="path/to/your/audio/files")
inputs = processor(dataset[0]["audio"], return_tensors="pt")

- Generar vídeo: Razonamiento con modelos para generar vídeos:

outputs = model(**inputs)
video = processor.postprocess_video(outputs)
video.save("output_video.mp4")

Puntos fuertes de JoyHallo

Optimización del mandarínJoyHallo está diseñado para mandarín y puede reproducir con precisión los movimientos de los labios para simular con exactitud los complejos sonidos vocálicos y rítmicos del mandarín, como "zh", "ch", "sh zh", "ch", "sh", etc. Permite generar ricas expresiones faciales basadas en las emociones y entonaciones del audio, lo que hace que el vídeo resulte más contagioso.
competencia interlingüísticaJoyHallo es capaz de generar vídeos en inglés además de en mandarín, y admite escenarios de aplicación multilingüe como el servicio de atención al cliente para empresas multinacionales, la educación internacional, etc., con una amplia aplicabilidad.
Estructuras eficientesEl modelo semidesacoplado permite separar los procesos de incrustación de características de audio y de generación de vídeo, lo que mejora significativamente la velocidad de inferencia, que es 14,31 TP3T más rápida que el modelo tradicional totalmente acoplado.
Escenarios de aplicación enriquecidosJoyHallo es aplicable a una amplia gama de industrias y escenarios, incluyendo presentador virtual (emisión de noticias, previsión meteorológica, comentario de eventos deportivos), educación en línea (aprendizaje de idiomas, cursos en línea), atención al cliente (representante virtual de atención al cliente) y otros escenarios.
recurso de código abiertoProporcionar un conjunto de datos de código abierto (jdh-Hallo dataset) que contenga conjuntos de datos de vídeo en mandarín de múltiples edades y estilos de habla, que cubran conversaciones cotidianas y temas médicos profesionales. El proyecto proporciona métodos detallados de entrenamiento de modelos y código para facilitar la personalización y optimización por parte de los desarrolladores.

Para quién es JoyHallo

creador de contenidosLos productores de vídeo y los expertos en redes sociales generan rápidamente contenidos de vídeo personalizados y de alta calidad, ahorrando tiempo y costes y aumentando el atractivo de los contenidos.
educadorGenerar imágenes virtuales de profesores para plataformas de educación en línea, escuelas e instituciones de formación, con el fin de enriquecer los recursos didácticos y proporcionar una experiencia de enseñanza vívida.
Empresas y marcasLos departamentos de atención al cliente de las empresas generan representantes virtuales de atención al cliente para mejorar la satisfacción del servicio; los equipos de marketing crean vídeos publicitarios personalizados para aumentar el atractivo de la publicidad.
Profesionales de la industria del entretenimiento: Las productoras de cine y televisión y las empresas de desarrollo de videojuegos generan animaciones faciales de personajes para mejorar la eficacia de la producción, reducir los costes de producción y aumentar la inmersión y el realismo de la obra.
Investigadores y desarrolladores: Los investigadores en inteligencia artificial y los desarrolladores de software llevan a cabo actividades de investigación y desarrollo para promover el avance tecnológico y ampliar los escenarios de aplicación.

Últimos recursos sobre IA

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

Unscreen: elimina automáticamente el fondo del vídeo, fácil de crear un vídeo sin fondo

Últimos recursos sobre IA # Teclado AI para cambiar fondos

hace 1 año

061.8K

OpenAI Realtime API Next.js：构建实时语音对话AI应用的Next.js模板

OpenAI Realtime API Next.js: una plantilla Next.js para crear aplicaciones de IA con diálogo de voz en tiempo real

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Producto interactivo multimodal en tiempo real

hace 1 año

050.3K

Pngtree: descarga gratuita de imágenes de fondo transparentes y material de diseño

Últimos recursos sobre IA # Teclado AI para cambiar fondos

hace 12 meses

077.2K

Ichigo (llama3-s): asistente de voz local en tiempo real, versión de código abierto de Siri.

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Producto interactivo multimodal en tiempo real

hace 1 año

061.4K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

JoyHallo - El modelo humano digital con IA de código abierto de Jingdong

¿Qué es JoyHallo?

Características principales de JoyHallo

Dirección web oficial de JoyHallo

Cómo utilizar JoyHallo

Puntos fuertes de JoyHallo

Para quién es JoyHallo

Silicon Language AI Knowledge Entrepreneurship Platform - Plataforma tecnológica humana digital de inteligencia artificial lanzada por Silicon Intelligence

Shangtang Ruyi: Shangtang Technology lanza una plataforma de producción de vídeo humano digital con IA

Artículos relacionados

Unscreen: elimina automáticamente el fondo del vídeo, fácil de crear un vídeo sin fondo

OpenAI Realtime API Next.js: una plantilla Next.js para crear aplicaciones de IA con diálogo de voz en tiempo real

Pngtree: descarga gratuita de imágenes de fondo transparentes y material de diseño

Ichigo (llama3-s): asistente de voz local en tiempo real, versión de código abierto de Siri.

Sin comentarios

Últimas colecciones

Últimos artículos

JoyHallo - El modelo humano digital con IA de código abierto de Jingdong

¿Qué es JoyHallo?

Características principales de JoyHallo

Dirección web oficial de JoyHallo

Cómo utilizar JoyHallo

Puntos fuertes de JoyHallo

Para quién es JoyHallo

Silicon Language AI Knowledge Entrepreneurship Platform - Plataforma tecnológica humana digital de inteligencia artificial lanzada por Silicon Intelligence

Shangtang Ruyi: Shangtang Technology lanza una plataforma de producción de vídeo humano digital con IA

Artículos relacionados

Unscreen: elimina automáticamente el fondo del vídeo, fácil de crear un vídeo sin fondo

OpenAI Realtime API Next.js: una plantilla Next.js para crear aplicaciones de IA con diálogo de voz en tiempo real

Pngtree: descarga gratuita de imágenes de fondo transparentes y material de diseño

Ichigo (llama3-s): asistente de voz local en tiempo real, versión de código abierto de Siri.

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos