JoyHallo - Le modèle humain numérique IA open source de Kyodo
Qu'est-ce que JoyHallo ?
JoyHallo est un modèle humain numérique d'IA open source de Jingdong, conçu pour le mandarin, qui prend en charge la conversion de l'audio en vidéos parlées réalistes. JoyHallo intègre des caractéristiques audio basées sur le modèle wav2vec2 avec une structure semi-découplée pour améliorer la précision de la prédiction du mouvement des lèvres et prendre en charge la génération de vidéos en anglais. JoyHallo a un large éventail d'applications dans les domaines de l'ancrage virtuel, de l'éducation en ligne, du service à la clientèle et de la production publicitaire, qui peuvent fournir une expérience de service efficace, vivante et personnalisée et promouvoir le développement intelligent des industries connexes.

Principales caractéristiques de JoyHallo
- Génération de vidéos pilotées par l'audio: Sur la base du signal audio entrant, génère automatiquement une vidéo parlante qui lui correspond.
- Capacité générative inter-languesJoyHallo est spécialisé dans la génération de vidéos en mandarin, mais il est également possible de générer des vidéos en anglais.
- Synchronisation des lèvresLe modèle synchronise avec précision les mouvements des lèvres dans l'audio et la vidéo.
- Génération d'expressions facialesLes expressions faciales : Générer des expressions faciales appropriées en fonction de l'émotion et du ton de la voix dans l'audio.
Adresse du site officiel de JoyHallo
- Site web du projet: :https://jdh-algo.github.io/JoyHallo/
- Dépôt GitHub: :https://github.com/jdh-algo/JoyHallo
- Bibliothèque de modèles HuggingFace: :https://huggingface.co/jdh-algo/JoyHallo-v1
- Document technique arXiv: :https://arxiv.org/pdf/2409.13268
Comment utiliser JoyHallo
- Préparation de l'environnement: :
- exigences en matière de matérielIl est recommandé d'utiliser des ordinateurs dotés de GPU performants, tels que les cartes graphiques de la série NVIDIA (par exemple, la série RTX 30 ou supérieure), afin d'accélérer le processus d'inférence du modèle.
- environnement logicielInstallation de PyTorch : Assurez-vous que Python est installé sur votre système (version 3.8 ou supérieure recommandée). Installez PyTorch à l'aide de la commande suivante (choisissez la commande d'installation appropriée en fonction de la version CUDA) :
pip install torch torchvision torchaudio
- Installation des dépendances: :
- Clonage du dépôt GitHub de JoyHallo: :
git clone https://github.com/jdh-algo/JoyHallo.git
cd JoyHallo
- Installer les dépendances du projet: :
pip install -r requirements.txt
- Préparation des donnéesSi vous utilisez vos propres données pour l'entraînement ou la mise au point, vous devez les préparer conformément au format de données de JoyHallo, qui contient généralement des fichiers audio et les fichiers vidéo correspondants. Les fichiers audio doivent être au format wav et les fichiers vidéo au format mp4. Si vous n'utilisez que le modèle pré-entraîné pour l'inférence, passez directement à cette étape.
- Chargement du modèle et inférence: :
- Chargement de modèles pré-entraînésLes modèles pré-entraînés de JoyHallo sont chargés sur la base de la bibliothèque de modèles Hugging Face.
from transformers import AutoModelForAudioToVideo, AutoProcessor
model_name = "jdh-algo/JoyHallo-v1"
processor = AutoProcessor.from_pretrained(model_name)
model = AutoModelForAudioToVideo.from_pretrained(model_name)
- Prétraitement audio : conversion des fichiers audio au format requis par le modèle.: :
from datasets import load_dataset
dataset = load_dataset("audiofolder", data_dir="path/to/your/audio/files")
inputs = processor(dataset[0]["audio"], return_tensors="pt")
- Générer une vidéo: Raisonner avec des modèles pour générer des vidéos :
outputs = model(**inputs)
video = processor.postprocess_video(outputs)
video.save("output_video.mp4")
Les points forts de JoyHallo
- Optimisation du mandarinJoyHallo : JoyHallo est conçu pour le mandarin et peut reproduire avec précision les mouvements des lèvres afin de simuler les consonnes et les rimes complexes du mandarin, telles que "zh", "ch", "sh", etc. zh", "ch", "sh", etc. Il permet de générer de riches expressions faciales basées sur les émotions et les intonations de l'audio, ce qui rend la vidéo plus attrayante.
- la compétence interlinguistiqueJoyHallo est capable de générer des vidéos en anglais en plus du mandarin, et prend en charge des scénarios d'application multilingues tels que le service clientèle des entreprises multinationales, l'éducation internationale, etc.
- Des structures efficacesLa vitesse d'inférence s'en trouve considérablement améliorée, puisqu'elle est de 14,31 TP3T plus rapide que celle du modèle traditionnel entièrement couplé.
- Scénarios d'application richesJoyHallo est applicable à un large éventail d'industries et de scénarios, y compris les présentateurs virtuels (diffusion de nouvelles, prévisions météorologiques, commentaires d'événements sportifs), l'éducation en ligne (apprentissage des langues, cours en ligne), le service à la clientèle (représentant virtuel du service à la clientèle) et d'autres scénarios.
- ressource open sourceLe projet : Fournir un ensemble de données open source (jdh-Hallo dataset) contenant des ensembles de données vidéo en mandarin d'âges et de styles d'expression variés, couvrant des conversations quotidiennes et des sujets médicaux professionnels. Le projet fournit des méthodes détaillées de formation de modèles et du code pour faciliter la personnalisation et l'optimisation par les développeurs.
À qui s'adresse JoyHallo
- créateur de contenuLes producteurs de vidéos et les experts des médias sociaux génèrent rapidement un contenu vidéo personnalisé de haute qualité, ce qui leur permet de gagner du temps et de l'argent tout en augmentant l'attrait de leur contenu.
- éducateur: Générer des images d'enseignants virtuels pour les plateformes d'enseignement en ligne, les écoles et les établissements de formation afin d'enrichir les ressources pédagogiques et d'offrir une expérience d'enseignement vivante.
- Entreprises et marquesLes services clientèle des entreprises créent des représentants virtuels pour améliorer la satisfaction du service ; les équipes de marketing créent des vidéos publicitaires personnalisées pour améliorer l'attrait de la publicité.
- Praticiens de l'industrie du divertissementLes sociétés de production cinématographique et télévisuelle et les sociétés de développement de jeux vidéo génèrent des animations faciales de personnages afin d'améliorer l'efficacité de la production, de réduire les coûts de production et de renforcer l'immersion et le réalisme de l'œuvre.
- Chercheurs et développeursLes chercheurs en intelligence artificielle et les développeurs de logiciels mènent des activités de recherche et de développement afin de promouvoir les progrès technologiques et d'élargir les scénarios d'application.
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...