UltraLight Digital Human : humain numérique ultra-léger open source fonctionnant en temps réel avec un paquet d'installation en un clic.

Introduction générale

Ultralight Digital Human est un projet open source visant à développer un modèle humain numérique ultra-léger pouvant fonctionner en temps réel sur des appareils mobiles. Le projet permet un fonctionnement fluide sur les appareils mobiles en optimisant les algorithmes et les structures des modèles pour une variété de scénarios tels que les applications sociales, les jeux et la réalité virtuelle. Les utilisateurs peuvent facilement former et déployer leurs propres modèles humains numériques pour profiter d'expériences personnalisées et immersives.

En ce qui concerne le fait qu'il fonctionne bien sur mobile, il suffit de réduire un peu le nombre de canaux de ce modèle actuel et d'utiliser wenet pour les fonctions audio et tout ira bien.

UltraLight Digital Human:开源端侧实时运行的超轻量级数字人,附一键安装包

 

Liste des fonctions

  • fonctionnement en temps réelLes modèles peuvent fonctionner en temps réel sur les appareils mobiles et sont réactifs.
  • Conception légèreLa structure de modèle optimisée pour les appareils mobiles à ressources limitées.
  • projet open sourceLe code et le modèle sont entièrement libres et peuvent être librement modifiés et utilisés par les utilisateurs.
  • application multi-scénariosLes applications sociales, les jeux, la réalité virtuelle et bien d'autres encore.
  • Extraction de caractéristiques audioIl prend en charge les schémas d'extraction des caractéristiques audio de wenet et hubert.
  • réseau synchroneSynchronisation labiale améliorée grâce à la technologie syncnet.
  • Tutoriel détailléLes utilisateurs ont accès à une formation détaillée et à des tutoriels d'utilisation pour les aider à démarrer rapidement.

 

Utiliser l'aide

Processus d'installation

  1. Préparation de l'environnement: :
    • Installez Python 3.10 et plus.
    • Installer PyTorch 1.13.1 et les autres dépendances :
      conda create -n dh python=3.10
      conda activate dh
      conda install pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-cuda=11.7 -c pytorch -c nvidia
      conda install mkl=2024.0
      pip install opencv-python transformers numpy==1.23.5 soundfile librosa onnxruntime
      
  2. Télécharger les fichiers modèles: :
    • Téléchargez le fichier wenet encoder.onnx à partir du lien suivant et placez-le dans le répertoire data_utils/ Catalogue : lien de téléchargement

Processus d'utilisation

  1. Préparer la vidéo: :
    • Préparez une vidéo de 3 à 5 minutes, en veillant à ce que chaque image présente une exposition complète du visage et que le son soit clair et sans bruit.
    • Placez la vidéo dans un nouveau dossier.
  2. Extraction des caractéristiques audio: :
    • Utilisez les commandes suivantes pour extraire les caractéristiques audio :
      cd data_utils
      python process.py YOUR_VIDEO_PATH --asr hubert
      
  3. Modèles de formation: :
    • Entraînez le modèle syncnet pour obtenir de meilleurs résultats :
      cd ..
      python syncnet.py --save_dir ./syncnet_ckpt/ --dataset_dir ./data_dir/ --asr hubert
      
    • Former le modèle humain numérique en utilisant le point de contrôle de la perte la plus faible :
      python train.py --dataset_dir ./data_dir/ --save_dir ./checkpoint/ --asr hubert --use_syncnet --syncnet_checkpoint syncnet_ckpt
      
  4. déduction: :
    • Extraction de caractéristiques audio de test :
      python extract_test_audio.py YOUR_TEST_AUDIO_PATH --asr hubert
      
    • Raisonnement en cours d'exécution :
      python inference.py --dataset ./data_dir/ --audio_feat ./your_test_audio_hu.npy --save_path ./output.mp4 --checkpoint ./checkpoint/best_model.pth
      

mise en garde

  • Veillez à ce que la fréquence d'images vidéo corresponde au schéma d'extraction des caractéristiques audio choisi : 20 images par seconde pour wenet et 25 images par seconde pour hubert.
  • Au cours du processus de formation et d'inférence, la valeur de perte du modèle est régulièrement contrôlée et le point de contrôle optimal est sélectionné pour la formation.

 

Pack d'intégration Monkey One Click

https://pan.baidu.com/s/19DcRlR0kJVg4bLb7snUrBQ?pwd=tct1

Pour votre commodité, j'ai consolidé et encapsulé le processus ci-dessus (Inclut les poids des modèles et les cas de test) :

UltraLight Digital Human:开源端侧实时运行的超轻量级数字人,附一键安装包

 

Il suffit de s'amuser :

étape 0 : installer les dépendances :

conda create -n udh python=3.10
conda activate udh
pip install -r requirements.txt

étape 1 : préparation des données :

python data_prepare.py

ÉTAPE 2 : Formation par le modèle :

python train.py

ÉTAPE 3 : Modélisation du raisonnement :

python inference.py

© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...