JoyHallo - El modelo humano digital con IA de código abierto de Jingdong
Últimos recursos sobre IAPublicado hace 2 meses Círculo de intercambio de inteligencia artificial 1.3K 00
¿Qué es JoyHallo?
JoyHallo es un modelo humano digital de IA de código abierto de Jingdong, diseñado para mandarín, que soporta la conversión de audio en vídeos de habla realista.JoyHallo incorpora características de audio basadas en el modelo wav2vec2 con una estructura semidesacoplada para mejorar la precisión de la predicción del movimiento de los labios y soportar la generación de vídeos en inglés.El conjunto de datos de entrenamiento de JoyHallo cubre vídeos en mandarín de múltiples edades y estilos. JoyHallo tiene un amplio abanico de aplicaciones en los campos del anclaje virtual, la educación en línea, la atención al cliente y la producción de anuncios, lo que puede proporcionar una experiencia de servicio eficiente, vívida y personalizada y promover el desarrollo inteligente de las industrias relacionadas.

Características principales de JoyHallo
- Generación de vídeo con audio: Basándose en la señal de audio entrante, genera automáticamente un vídeo parlante que coincide con ella.
- Capacidad generativa interlingüística: Además de especializarse en la generación de vídeos en mandarín, JoyHallo tiene la capacidad de generar vídeos en inglés.
- Sincronización labialEl modelo sincroniza con precisión los movimientos de los labios en audio y vídeo.
- Generación de expresiones facialesGenerar expresiones faciales adecuadas en función de la emoción y el tono de voz del audio.
Dirección web oficial de JoyHallo
- Página web del proyecto::https://jdh-algo.github.io/JoyHallo/
- Repositorio GitHub::https://github.com/jdh-algo/JoyHallo
- Biblioteca de modelos HuggingFace::https://huggingface.co/jdh-algo/JoyHallo-v1
- Documento técnico arXiv::https://arxiv.org/pdf/2409.13268
Cómo utilizar JoyHallo
- Preparación medioambiental::
- requisitos de hardwareSe recomienda utilizar ordenadores con GPU de alto rendimiento, como las tarjetas gráficas de la serie NVIDIA (por ejemplo, serie RTX 30 o superior), para acelerar el proceso de inferencia del modelo.
- entorno de softwareAsegúrese de que Python está instalado en su sistema (se recomienda la versión 3.8 o superior). Instale PyTorch basándose en el siguiente comando (elija el comando de instalación adecuado según la versión de CUDA):
pip install torch torchvision torchaudio
- Instalación de dependencias::
- Clonación del repositorio GitHub de JoyHallo::
git clone https://github.com/jdh-algo/JoyHallo.git
cd JoyHallo
- Instalar las dependencias del proyecto::
pip install -r requirements.txt
- Preparación de datosDatos de JoyHallo: Si utiliza sus propios datos para el entrenamiento o el ajuste fino, necesita preparar los datos de acuerdo con el formato de datos de JoyHallo.El conjunto de datos de JoyHallo normalmente contiene archivos de audio y los correspondientes archivos de vídeo. Los archivos de audio deben estar en formato wav y los de vídeo en formato mp4. Si sólo está utilizando el modelo pre-entrenado para la inferencia, omita este paso directamente.
- Carga e inferencia del modelo::
- Carga de modelos preentrenadosLos modelos pre-entrenados de JoyHallo se cargan basados en la librería de modelos Hugging Face.
from transformers import AutoModelForAudioToVideo, AutoProcessor
model_name = "jdh-algo/JoyHallo-v1"
processor = AutoProcessor.from_pretrained(model_name)
model = AutoModelForAudioToVideo.from_pretrained(model_name)
- Preprocesamiento de audio: convierte los archivos de audio al formato requerido por el modelo.::
from datasets import load_dataset
dataset = load_dataset("audiofolder", data_dir="path/to/your/audio/files")
inputs = processor(dataset[0]["audio"], return_tensors="pt")
- Generar vídeo: Razonamiento con modelos para generar vídeos:
outputs = model(**inputs)
video = processor.postprocess_video(outputs)
video.save("output_video.mp4")
Puntos fuertes de JoyHallo
- Optimización del mandarínJoyHallo está diseñado para mandarín y puede reproducir con precisión los movimientos de los labios para simular con exactitud los complejos sonidos vocálicos y rítmicos del mandarín, como "zh", "ch", "sh zh", "ch", "sh", etc. Permite generar ricas expresiones faciales basadas en las emociones y entonaciones del audio, lo que hace que el vídeo resulte más contagioso.
- competencia interlingüísticaJoyHallo es capaz de generar vídeos en inglés además de en mandarín, y admite escenarios de aplicación multilingüe como el servicio de atención al cliente para empresas multinacionales, la educación internacional, etc., con una amplia aplicabilidad.
- Estructuras eficientesEl modelo semidesacoplado permite separar los procesos de incrustación de características de audio y de generación de vídeo, lo que mejora significativamente la velocidad de inferencia, que es 14,31 TP3T más rápida que el modelo tradicional totalmente acoplado.
- Escenarios de aplicación enriquecidosJoyHallo es aplicable a una amplia gama de industrias y escenarios, incluyendo presentador virtual (emisión de noticias, previsión meteorológica, comentario de eventos deportivos), educación en línea (aprendizaje de idiomas, cursos en línea), atención al cliente (representante virtual de atención al cliente) y otros escenarios.
- recurso de código abiertoProporcionar un conjunto de datos de código abierto (jdh-Hallo dataset) que contenga conjuntos de datos de vídeo en mandarín de múltiples edades y estilos de habla, que cubran conversaciones cotidianas y temas médicos profesionales. El proyecto proporciona métodos detallados de entrenamiento de modelos y código para facilitar la personalización y optimización por parte de los desarrolladores.
Para quién es JoyHallo
- creador de contenidosLos productores de vídeo y los expertos en redes sociales generan rápidamente contenidos de vídeo personalizados y de alta calidad, ahorrando tiempo y costes y aumentando el atractivo de los contenidos.
- educadorGenerar imágenes virtuales de profesores para plataformas de educación en línea, escuelas e instituciones de formación, con el fin de enriquecer los recursos didácticos y proporcionar una experiencia de enseñanza vívida.
- Empresas y marcasLos departamentos de atención al cliente de las empresas generan representantes virtuales de atención al cliente para mejorar la satisfacción del servicio; los equipos de marketing crean vídeos publicitarios personalizados para aumentar el atractivo de la publicidad.
- Profesionales de la industria del entretenimiento: Las productoras de cine y televisión y las empresas de desarrollo de videojuegos generan animaciones faciales de personajes para mejorar la eficacia de la producción, reducir los costes de producción y aumentar la inmersión y el realismo de la obra.
- Investigadores y desarrolladores: Los investigadores en inteligencia artificial y los desarrolladores de software llevan a cabo actividades de investigación y desarrollo para promover el avance tecnológico y ampliar los escenarios de aplicación.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...