UltraLight Digital Human : humain numérique ultra-léger open source fonctionnant en temps réel avec un paquet d'installation en un clic.

Dernières ressources sur l'IAMise à jour il y a 8 mois Cercle de partage de l'IA

19.4K 00

Introduction générale

Ultralight Digital Human est un projet open source visant à développer un modèle humain numérique ultra-léger pouvant fonctionner en temps réel sur des appareils mobiles. Le projet permet un fonctionnement fluide sur les appareils mobiles en optimisant les algorithmes et les structures des modèles pour une variété de scénarios tels que les applications sociales, les jeux et la réalité virtuelle. Les utilisateurs peuvent facilement former et déployer leurs propres modèles humains numériques pour profiter d'expériences personnalisées et immersives.

En ce qui concerne le fait qu'il fonctionne bien sur mobile, il suffit de réduire un peu le nombre de canaux de ce modèle actuel et d'utiliser wenet pour les fonctions audio et tout ira bien.

UltraLight Digital Human：开源端侧实时运行的超轻量级数字人，附一键安装包

Liste des fonctions

fonctionnement en temps réelLes modèles peuvent fonctionner en temps réel sur les appareils mobiles et sont réactifs.
Conception légèreLa structure de modèle optimisée pour les appareils mobiles à ressources limitées.
projet open sourceLe code et le modèle sont entièrement libres et peuvent être librement modifiés et utilisés par les utilisateurs.
application multi-scénariosLes applications sociales, les jeux, la réalité virtuelle et bien d'autres encore.
Extraction de caractéristiques audioIl prend en charge les schémas d'extraction des caractéristiques audio de wenet et hubert.
réseau synchroneSynchronisation labiale améliorée grâce à la technologie syncnet.
Tutoriel détailléLes utilisateurs ont accès à une formation détaillée et à des tutoriels d'utilisation pour les aider à démarrer rapidement.

Utiliser l'aide

Processus d'installation

Préparation de l'environnement: :

Installez Python 3.10 et plus.

Installer PyTorch 1.13.1 et les autres dépendances :

conda create -n dh python=3.10
conda activate dh
conda install pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-cuda=11.7 -c pytorch -c nvidia
conda install mkl=2024.0
pip install opencv-python transformers numpy==1.23.5 soundfile librosa onnxruntime

Télécharger les fichiers modèles: :
- Téléchargez le fichier wenet encoder.onnx à partir du lien suivant et placez-le dans le répertoire data_utils/ Catalogue : lien de téléchargement

Processus d'utilisation

Préparer la vidéo: :
- Préparez une vidéo de 3 à 5 minutes, en veillant à ce que chaque image présente une exposition complète du visage et que le son soit clair et sans bruit.
- Placez la vidéo dans un nouveau dossier.
Extraction des caractéristiques audio: :
- Utilisez les commandes suivantes pour extraire les caractéristiques audio :
```
cd data_utils
python process.py YOUR_VIDEO_PATH --asr hubert
```

Modèles de formation: :

Entraînez le modèle syncnet pour obtenir de meilleurs résultats :

cd ..
python syncnet.py --save_dir ./syncnet_ckpt/ --dataset_dir ./data_dir/ --asr hubert

Former le modèle humain numérique en utilisant le point de contrôle de la perte la plus faible :

python train.py --dataset_dir ./data_dir/ --save_dir ./checkpoint/ --asr hubert --use_syncnet --syncnet_checkpoint syncnet_ckpt

déduction: :

Extraction de caractéristiques audio de test :

python extract_test_audio.py YOUR_TEST_AUDIO_PATH --asr hubert

Raisonnement en cours d'exécution :

python inference.py --dataset ./data_dir/ --audio_feat ./your_test_audio_hu.npy --save_path ./output.mp4 --checkpoint ./checkpoint/best_model.pth

mise en garde

Veillez à ce que la fréquence d'images vidéo corresponde au schéma d'extraction des caractéristiques audio choisi : 20 images par seconde pour wenet et 25 images par seconde pour hubert.
Au cours du processus de formation et d'inférence, la valeur de perte du modèle est régulièrement contrôlée et le point de contrôle optimal est sélectionné pour la formation.

Pack d'intégration Monkey One Click

https://pan.baidu.com/s/19DcRlR0kJVg4bLb7snUrBQ?pwd=tct1

Pour votre commodité, j'ai consolidé et encapsulé le processus ci-dessus (Inclut les poids des modèles et les cas de test) :

Il suffit de s'amuser :

étape 0 : installer les dépendances :

conda create -n udh python=3.10
conda activate udh
pip install -r requirements.txt

étape 1 : préparation des données :

python data_prepare.py

ÉTAPE 2 : Formation par le modèle :

python train.py

ÉTAPE 3 : Modélisation du raisonnement :

python inference.py

Dernières ressources sur l'IA # AI Digital Man

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

CrushOn.AI : plateforme d'IA pour un chat NSFW illimité avec des personnages virtuels

Dernières ressources sur l'IA # Jeu de rôle AI

Il y a 7 mois

031.3K

Chat Duo : Plugin de navigateur pour des dialogues simultanés avec plusieurs grands modèles de pages officielles dans des pages Web

Dernières ressources sur l'IA # AI Localised Chat Application

Il y a 7 mois

018.8K

Fragments：类似于 Anthropic 的 Claude Artifacts、Vercel v0 或 GPT Engineer 等应用程序的开源版本

Fragments : versions libres d'applications telles que Claude Artifacts d'Anthropic, Vercel v0 ou GPT Engineer.

Dernières ressources sur l'IA # AI Java Open Source Projecct # Programmation AI

Il y a 10 mois

017.3K

PromptWizard : un cadre open source pour l'optimisation des projets de messages-guides afin d'améliorer la performance des tâches

Dernières ressources sur l'IA # AI Java Open Source Projecct

Il y a 9 mois

017.9K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

UltraLight Digital Human : humain numérique ultra-léger open source fonctionnant en temps réel avec un paquet d'installation en un clic.

Introduction générale

Liste des fonctions

Utiliser l'aide

Processus d'installation

Processus d'utilisation

mise en garde

Pack d'intégration Monkey One Click

Relume : les descriptions textuelles permettent à l'IA de construire des sitemaps et des prototypes de fil de fer

c-pic v1.0 : images sélectionnées sur le site C outil de référence de mots rapides, recherche localisée images sélectionnées sur le site C

Articles connexes

CrushOn.AI : plateforme d'IA pour un chat NSFW illimité avec des personnages virtuels

Chat Duo : Plugin de navigateur pour des dialogues simultanés avec plusieurs grands modèles de pages officielles dans des pages Web

Fragments : versions libres d'applications telles que Claude Artifacts d'Anthropic, Vercel v0 ou GPT Engineer.

PromptWizard : un cadre open source pour l'optimisation des projets de messages-guides afin d'améliorer la performance des tâches

Pas de commentaires

Dernières collections

Derniers articles

UltraLight Digital Human : humain numérique ultra-léger open source fonctionnant en temps réel avec un paquet d'installation en un clic.

Introduction générale

Liste des fonctions

Utiliser l'aide

Processus d'installation

Processus d'utilisation

mise en garde

Pack d'intégration Monkey One Click

Relume : les descriptions textuelles permettent à l'IA de construire des sitemaps et des prototypes de fil de fer

c-pic v1.0 : images sélectionnées sur le site C outil de référence de mots rapides, recherche localisée images sélectionnées sur le site C

Articles connexes

CrushOn.AI : plateforme d'IA pour un chat NSFW illimité avec des personnages virtuels

Chat Duo : Plugin de navigateur pour des dialogues simultanés avec plusieurs grands modèles de pages officielles dans des pages Web

Fragments : versions libres d'applications telles que Claude Artifacts d'Anthropic, Vercel v0 ou GPT Engineer.

PromptWizard : un cadre open source pour l'optimisation des projets de messages-guides afin d'améliorer la performance des tâches

Pas de commentaires

Outils d'IA sélectionnés

Dernières collections

Derniers articles