Sonic : Des images de portraits audio génèrent des vidéos de démonstration numériques avec des expressions faciales vivantes.

Dernières ressources sur l'IAMise à jour il y a 6 mois Cercle de partage de l'IA

22.6K 00

Introduction générale

Sonic est une plateforme innovante axée sur la perception globale de l'audio, conçue pour générer des portraits animés en fonction de l'audio. Développée par une équipe de chercheurs de Tencent et de l'université de Zhejiang, la plateforme utilise les informations audio pour contrôler les expressions faciales et les mouvements de tête afin de générer des vidéos animées naturelles et fluides.Les technologies de base de Sonic comprennent l'apprentissage audio contextuel, les contrôleurs découplés du mouvement et les modules de fusion des changements de position en fonction du temps. Ces technologies permettent à Sonic de générer des vidéos stables et réalistes avec différents styles d'images et différents types d'entrées audio.

Le code et les poids de ce projet seront publiés (déjà publiés) une fois qu'il aura passé l'examen interne de l'open source.Instructions d'installation pour les utilisateurs de Windows.

Démonstration : https://huggingface.co/spaces/xiaozhongji/Sonic

Liste des fonctions

Apprentissage audio contextuel: L'extraction de connaissances audio à partir de longs segments temporels fournit des informations a priori sur les expressions faciales et les mouvements des lèvres.
Contrôleur de découplage de mouvementContrôle indépendant des mouvements de la tête et de l'expression pour une animation plus naturelle.
Fusion de positions en fonction du tempsLa vidéo : fusionner les informations audio globales pour générer des vidéos longues et stables.
Génération de vidéos polyvalentesLes nouvelles fonctionnalités sont les suivantes : prise en charge de différents styles d'images et de résolutions multiples pour la génération de vidéos.
Comparaison avec les méthodes à source ouverte et ferméeLe chien a une bonne expression et un mouvement naturel de la tête, ce qui démontre les points forts de Sonic.

Utiliser l'aide

Processus d'installation

La plateforme Sonic fait actuellement l'objet d'un examen interne de code source ouvert, et le code et les poids seront téléchargés sur GitHub une fois l'examen terminé. Les utilisateurs peuvent installer et utiliser Sonic en suivant les étapes suivantes :

Visitez la page GitHub de Sonic.
Entrepôt de clonage :git clone https://github.com/jixiaozhong/Sonic.git
Installer la dépendance :pip install -r requirements.txt
Télécharger les poids du modèle pré-entraîné et les placer dans le répertoire spécifié.

Processus d'utilisation

Préparation de la saisie des données: collecte les images vidéo et les fichiers audio qui doivent être générés pour l'animation.
Exécuter le script généréLe processus de génération est exécuté à l'aide des scripts fournis, par exemple :python generate.py --image input.jpg --audio input.wav
Paramètres de réglageLes paramètres du script de génération peuvent être ajustés en fonction des besoins pour obtenir les meilleurs résultats.
Voir la sortieLa vidéo générée sera enregistrée dans le répertoire de sortie spécifié.

Fonctionnement détaillé

Apprentissage audio contextuelEn apprenant à partir de longs segments audio, Sonic est capable de capturer les changements subtils dans l'audio pour produire des expressions faciales et des mouvements de lèvres plus naturels.
Contrôleur de découplage de mouvementLe contrôleur gère séparément les mouvements de la tête et de l'expression, ce qui rend l'animation générée plus réaliste. Les utilisateurs peuvent optimiser l'effet d'animation en ajustant les paramètres du contrôleur.
Fusion de positions en fonction du tempsCe module garantit la stabilité de la vidéo générée sur une longue période en fusionnant les informations audio globales. L'utilisateur peut contrôler la fluidité et la stabilité de la vidéo en ajustant les paramètres de la fenêtre temporelle.
Génération de vidéos polyvalentesSonic prend en charge différents styles d'images (dessin animé, réaliste, etc.) et plusieurs résolutions pour la génération de vidéos. Les utilisateurs peuvent sélectionner les images et les entrées audio appropriées en fonction de leurs besoins et générer des effets vidéo qui répondent à leurs attentes.