JoyHallo - Le modèle humain numérique IA open source de Kyodo

Dernières ressources sur l'IAPosté il y a 3 mois Cercle de partage de l'IA

Qu'est-ce que JoyHallo ?

JoyHallo est un modèle humain numérique d'IA open source de Jingdong, conçu pour le mandarin, qui prend en charge la conversion de l'audio en vidéos parlées réalistes. JoyHallo intègre des caractéristiques audio basées sur le modèle wav2vec2 avec une structure semi-découplée pour améliorer la précision de la prédiction du mouvement des lèvres et prendre en charge la génération de vidéos en anglais. JoyHallo a un large éventail d'applications dans les domaines de l'ancrage virtuel, de l'éducation en ligne, du service à la clientèle et de la production publicitaire, qui peuvent fournir une expérience de service efficace, vivante et personnalisée et promouvoir le développement intelligent des industries connexes.

Principales caractéristiques de JoyHallo

Génération de vidéos pilotées par l'audio: Sur la base du signal audio entrant, génère automatiquement une vidéo parlante qui lui correspond.
Capacité générative inter-languesJoyHallo est spécialisé dans la génération de vidéos en mandarin, mais il est également possible de générer des vidéos en anglais.
Synchronisation des lèvresLe modèle synchronise avec précision les mouvements des lèvres dans l'audio et la vidéo.
Génération d'expressions facialesLes expressions faciales : Générer des expressions faciales appropriées en fonction de l'émotion et du ton de la voix dans l'audio.

Adresse du site officiel de JoyHallo

Site web du projet: :https://jdh-algo.github.io/JoyHallo/
Dépôt GitHub: :https://github.com/jdh-algo/JoyHallo
Bibliothèque de modèles HuggingFace: :https://huggingface.co/jdh-algo/JoyHallo-v1
Document technique arXiv: :https://arxiv.org/pdf/2409.13268

Comment utiliser JoyHallo

Préparation de l'environnement: :
- exigences en matière de matérielIl est recommandé d'utiliser des ordinateurs dotés de GPU performants, tels que les cartes graphiques de la série NVIDIA (par exemple, la série RTX 30 ou supérieure), afin d'accélérer le processus d'inférence du modèle.
- environnement logicielInstallation de PyTorch : Assurez-vous que Python est installé sur votre système (version 3.8 ou supérieure recommandée). Installez PyTorch à l'aide de la commande suivante (choisissez la commande d'installation appropriée en fonction de la version CUDA) :

pip install torch torchvision torchaudio

Installation des dépendances: :
- Clonage du dépôt GitHub de JoyHallo: :

git clone https://github.com/jdh-algo/JoyHallo.git
cd JoyHallo

- Installer les dépendances du projet: :

pip install -r requirements.txt

Préparation des donnéesSi vous utilisez vos propres données pour l'entraînement ou la mise au point, vous devez les préparer conformément au format de données de JoyHallo, qui contient généralement des fichiers audio et les fichiers vidéo correspondants. Les fichiers audio doivent être au format wav et les fichiers vidéo au format mp4. Si vous n'utilisez que le modèle pré-entraîné pour l'inférence, passez directement à cette étape.
Chargement du modèle et inférence: :
- Chargement de modèles pré-entraînésLes modèles pré-entraînés de JoyHallo sont chargés sur la base de la bibliothèque de modèles Hugging Face.

from transformers import AutoModelForAudioToVideo, AutoProcessor

model_name = "jdh-algo/JoyHallo-v1"
processor = AutoProcessor.from_pretrained(model_name)
model = AutoModelForAudioToVideo.from_pretrained(model_name)

- Prétraitement audio : conversion des fichiers audio au format requis par le modèle.: :

from datasets import load_dataset

dataset = load_dataset("audiofolder", data_dir="path/to/your/audio/files")
inputs = processor(dataset[0]["audio"], return_tensors="pt")

- Générer une vidéo: Raisonner avec des modèles pour générer des vidéos :

outputs = model(**inputs)
video = processor.postprocess_video(outputs)
video.save("output_video.mp4")

Les points forts de JoyHallo

Optimisation du mandarinJoyHallo : JoyHallo est conçu pour le mandarin et peut reproduire avec précision les mouvements des lèvres afin de simuler les consonnes et les rimes complexes du mandarin, telles que "zh", "ch", "sh", etc. zh", "ch", "sh", etc. Il permet de générer de riches expressions faciales basées sur les émotions et les intonations de l'audio, ce qui rend la vidéo plus attrayante.
la compétence interlinguistiqueJoyHallo est capable de générer des vidéos en anglais en plus du mandarin, et prend en charge des scénarios d'application multilingues tels que le service clientèle des entreprises multinationales, l'éducation internationale, etc.
Des structures efficacesLa vitesse d'inférence s'en trouve considérablement améliorée, puisqu'elle est de 14,31 TP3T plus rapide que celle du modèle traditionnel entièrement couplé.
Scénarios d'application richesJoyHallo est applicable à un large éventail d'industries et de scénarios, y compris les présentateurs virtuels (diffusion de nouvelles, prévisions météorologiques, commentaires d'événements sportifs), l'éducation en ligne (apprentissage des langues, cours en ligne), le service à la clientèle (représentant virtuel du service à la clientèle) et d'autres scénarios.
ressource open sourceLe projet : Fournir un ensemble de données open source (jdh-Hallo dataset) contenant des ensembles de données vidéo en mandarin d'âges et de styles d'expression variés, couvrant des conversations quotidiennes et des sujets médicaux professionnels. Le projet fournit des méthodes détaillées de formation de modèles et du code pour faciliter la personnalisation et l'optimisation par les développeurs.

À qui s'adresse JoyHallo

créateur de contenuLes producteurs de vidéos et les experts des médias sociaux génèrent rapidement un contenu vidéo personnalisé de haute qualité, ce qui leur permet de gagner du temps et de l'argent tout en augmentant l'attrait de leur contenu.
éducateur: Générer des images d'enseignants virtuels pour les plateformes d'enseignement en ligne, les écoles et les établissements de formation afin d'enrichir les ressources pédagogiques et d'offrir une expérience d'enseignement vivante.
Entreprises et marquesLes services clientèle des entreprises créent des représentants virtuels pour améliorer la satisfaction du service ; les équipes de marketing créent des vidéos publicitaires personnalisées pour améliorer l'attrait de la publicité.
Praticiens de l'industrie du divertissementLes sociétés de production cinématographique et télévisuelle et les sociétés de développement de jeux vidéo génèrent des animations faciales de personnages afin d'améliorer l'efficacité de la production, de réduire les coûts de production et de renforcer l'immersion et le réalisme de l'œuvre.
Chercheurs et développeursLes chercheurs en intelligence artificielle et les développeurs de logiciels mènent des activités de recherche et de développement afin de promouvoir les progrès technologiques et d'élargir les scénarios d'application.

Dernières ressources sur l'IA

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

Residence Designer - Plateforme de conception de décoration intérieure par l'IA lancée conjointement par Residence Home et Ali

Dernières ressources sur l'IA

Il y a 3 mois

010.2K

Circumference Travel - application de planification de voyage par IA qui génère automatiquement des itinéraires personnalisés.

Dernières ressources sur l'IA

Il y a 2 mois

011.5K

Claude Engineer: 利用Claude模型自主生成和管理AI工具的智能体对话助手

Claude Engineer : un assistant de dialogue corporel intelligent qui génère et gère de manière autonome des outils d'IA en utilisant le modèle Claude.

Dernières ressources sur l'IA # AI Java Open Source Projecct # AI Localised Chat Application # Application de l'organisme intelligent

Il y a 6 mois

013.3K

Orbit : le plugin du navigateur Mozilla qui résume les courriels, les documents, les articles et les vidéos et y répond.

Dernières ressources sur l'IA # Assistant AI du navigateur

il y a 5 mois

012.2K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

JoyHallo - Le modèle humain numérique IA open source de Kyodo

Qu'est-ce que JoyHallo ?

Principales caractéristiques de JoyHallo

Adresse du site officiel de JoyHallo

Comment utiliser JoyHallo

Les points forts de JoyHallo

À qui s'adresse JoyHallo

Silicon Language AI Knowledge Entrepreneurship Platform - Plate-forme de technologie humaine numérique d'IA lancée par Silicon Intelligence

Shangtang Ruyi - plateforme de production vidéo humaine numérique AI lancée par Shangtang Technology

Articles connexes

Residence Designer - Plateforme de conception de décoration intérieure par l'IA lancée conjointement par Residence Home et Ali

Circumference Travel - application de planification de voyage par IA qui génère automatiquement des itinéraires personnalisés.

Claude Engineer : un assistant de dialogue corporel intelligent qui génère et gère de manière autonome des outils d'IA en utilisant le modèle Claude.

Orbit : le plugin du navigateur Mozilla qui résume les courriels, les documents, les articles et les vidéos et y répond.

Pas de commentaires

Dernières collections

Derniers articles

JoyHallo - Le modèle humain numérique IA open source de Kyodo

Qu'est-ce que JoyHallo ?

Principales caractéristiques de JoyHallo

Adresse du site officiel de JoyHallo

Comment utiliser JoyHallo

Les points forts de JoyHallo

À qui s'adresse JoyHallo

Silicon Language AI Knowledge Entrepreneurship Platform - Plate-forme de technologie humaine numérique d'IA lancée par Silicon Intelligence

Shangtang Ruyi - plateforme de production vidéo humaine numérique AI lancée par Shangtang Technology

Articles connexes

Residence Designer - Plateforme de conception de décoration intérieure par l'IA lancée conjointement par Residence Home et Ali

Circumference Travel - application de planification de voyage par IA qui génère automatiquement des itinéraires personnalisés.

Claude Engineer : un assistant de dialogue corporel intelligent qui génère et gère de manière autonome des outils d'IA en utilisant le modèle Claude.

Orbit : le plugin du navigateur Mozilla qui résume les courriels, les documents, les articles et les vidéos et y répond.

Pas de commentaires

Outils d'IA sélectionnés

Dernières collections

Derniers articles