HeyGem : le produit open source Heygen Digital Human Pincushion de Silicon Intelligence

Dernières ressources sur l'IAMise à jour il y a 3 mois Cercle de partage de l'IA

33.6K 00

Introduction générale

HeyGem est un outil de composition vidéo entièrement hors ligne pour Windows, développé par l'équipe GuijiAI et disponible sur GitHub. Il utilise des algorithmes d'IA avancés pour cloner avec précision l'apparence et la voix d'un utilisateur afin de créer des avatars réalistes, et permet la création de vidéos personnalisées pilotées par le texte ou la voix. L'outil n'a pas besoin d'être connecté à l'internet, toutes les opérations sont effectuées localement pour garantir la confidentialité et la sécurité de l'utilisateur. HeyGem prend en charge le script multilingue (y compris l'anglais, le japonais, le coréen, le chinois et huit autres langues), l'interface simple et intuitive, adaptée aux utilisateurs sans connaissances techniques pour démarrer rapidement, et fournit une API ouverte, ce qui est pratique pour les développeurs d'étendre la fonctionnalité. Il y a quelques mois, Silicon Intelligence a ouvert la version mobile de la personne numérique. DUIX : Des personnes numériques intelligentes pour une interaction en temps réel, permettant un déploiement multiplateforme en un seul clic.

Adresse officielle de téléchargement de HeyGem : https://heygem.ai/

Liste des fonctions

Clonage précis de l'apparence et de la voixLa technologie AI capture les traits du visage et les détails vocaux pour générer des avatars et des voix de haute fidélité, avec possibilité d'ajustement des paramètres.
Image virtuelle pilotée par le texteUne fois le texte saisi, l'outil génère automatiquement un discours naturel et pilote l'avatar grâce à la synchronisation des lèvres et aux mouvements d'expression.
Production vidéo basée sur la voixLa vidéo dynamique : générer des vidéos dynamiques en contrôlant le ton et le rythme de l'avatar par le biais de la voix de l'utilisateur.
Fonctionnement entièrement hors ligneLes données sont traitées localement pour des raisons de confidentialité et de sécurité.
Prise en charge multilingueLes scripts en huit langues sont pris en charge : anglais, japonais, coréen, chinois, français, allemand, arabe et espagnol.
Composition vidéo efficaceL'optimisation intelligente de la synchronisation audio et vidéo garantit une correspondance naturelle entre la forme des lèvres et la voix.
Interface API Open Source: fournit des API pour la formation de modèles et la composition de vidéos, avec des fonctions personnalisables pour les développeurs.

Utiliser l'aide

Processus d'installation

La procédure d'installation suivante suit strictement les instructions officielles, en conservant le texte original et les adresses des images :

Conditions préalables

Doit avoir le disque DLe système d'information de l'entreprise : Principalement pour le stockage d'images numériques et de données relatives à des projets
- Espace libre requis : plus de 30 Go
Disque CFichiers d'images de service : Utilisés pour stocker les fichiers d'images de service
- Espace libre requis : plus de 100 Go
- Si vous disposez de moins de 100 Go d'espace libre, vous pouvez, après avoir installé Docker, sélectionner un dossier sur un disque disposant de plus de 100 Go d'espace libre à l'emplacement indiqué ci-dessous :
exigences du système: :
- Prend actuellement en charge Windows 10 19042.1526 ou une version ultérieure.
Configurations recommandées: :
- CPU : Intel Core i5-13400F de 13ème génération
- Mémoire : 32GB
- Carte graphique : RTX-4070
Assurez-vous que vous disposez d'une carte graphique NVIDIA et que les pilotes sont correctement installés.
- Lien de téléchargement du pilote NVIDIA : https://www.nvidia.cn/drivers/lookup/

Installation de Windows Docker

Utilisation des commandes wsl --list --verbose Vérifiez que le WSL est installé. La figure suivante montre qu'il est installé et qu'il n'est pas nécessaire de le réinstaller :
- Commandes d'installation du WSL :wsl --install
- Peut échouer en raison de problèmes de réseau, veuillez essayer plusieurs fois.
- La configuration et la mémorisation d'un nouveau nom d'utilisateur et d'un nouveau mot de passe sont nécessaires au cours de la procédure d'installation.
utiliser wsl --update Mise à jour WSL :
Téléchargez Docker pour Windows et choisissez un programme d'installation adapté à l'architecture de votre processeur.
Cet écran indique que l'installation a réussi :
Exécuter Docker :
Accepte le protocole et saute la connexion lors de la première exécution :

Installation du serveur

Installez les éléments suivants en utilisant Docker et docker-compose :

docker-compose.yml Le fichier est situé dans le répertoire /deploy Catalogue.
existent /deploy pour exécuter le programme docker-compose up -d.
Attendez patiemment (environ une demi-heure, en fonction de la vitesse de l'Internet), le téléchargement consommera environ 70GB de trafic, veuillez vous assurer que vous utilisez le WiFi.
Le succès est indiqué lorsque trois services sont visibles dans Docker :

Client

Script de construction npm run build:winAprès l'exécution, il se trouvera dans le dist Génération de catalogues HeyGem-1.0.0-setup.exe.
double clic HeyGem-1.0.0-setup.exe Effectuer l'installation.

Dépendances

Nodejs 18
Image Docker :
- docker pull guiji2025/fun-asr:1.0.1
- docker pull guiji2025/fish-speech-ziming:1.0.39
- docker pull guiji2025/heygem.ai:0.0.7_sdk_slim

Principales fonctions

1. clonage de l'apparence et de la voix

Préparer le matériel
- Enregistrez une voix claire (10 à 30 secondes au format WAV) et placez-la dans le champ de saisie. D:\heygem_data\voice\data.
- Prenez une photo haute résolution de la face avant et placez-la dans l'espace réservé à cet effet. D:\heygem_data\face2face(Les chemins d'accès se trouvent dans le docker-compose.yml (ajusté en).
Exécution de la fonction de clonage
- Lancez le client, ouvrez l'interface et sélectionnez "Model Training".
- Appeler l'API http://127.0.0.1:18180/v1/preprocess_and_trandes paramètres d'entrée tels que
```
{
"format": ".wav",
"reference_audio": "D:/heygem_data/voice/data/sample.wav",
"lang": "zh"
}
```
- Obtenir les résultats renvoyés (par exemple, le chemin audio et le texte) et les enregistrer pour une utilisation ultérieure.

2. les images virtuelles pilotées par le texte

texte d'entrée

Sélectionnez "Audio Synthesis" dans l'interface client et appelez l'API. http://127.0.0.1:18180/v1/invokedes paramètres d'entrée tels que

{
"speaker": "unique-uuid",
"text": "欢迎体验 HeyGem.ai",
"format": "wav",
"topP": 0.7,
"max_new_tokens": 1024,
"chunk_length": 100,
"repetition_penalty": 1.2,
"temperature": 0.7,
"need_asr": false,
"streaming": false,
"is_fixed_seed": 0,
"is_norm": 0,
"reference_audio": "返回的音频路径",
"reference_text": "返回的文本"
}

Générer une vidéo
- Utilisation de l'interface de synthèse http://127.0.0.1:8383/easy/submitdes paramètres d'entrée tels que
```
{
"audio_url": "生成的音频路径",
"video_url": "D:/heygem_data/face2face/sample.mp4",
"code": "unique-uuid",
"chaofen": 0,
"watermark_switch": 0,
"pn": 1
}
```
- S'informer de l'état d'avancement des travaux :http://127.0.0.1:8383/easy/query?code=unique-uuid.
Enregistrer les résultats
- Une fois terminé, le fichier vidéo est enregistré localement dans le chemin d'accès spécifié.

3. production vidéo basée sur la voix

enregistrer la voix
- Enregistrez votre voix dans le client, ou téléchargez des fichiers WAV directement dans l'application. D:\heygem_data\voice\data.
Générer une vidéo
- Appelez les API de composition audio et vidéo ci-dessus pour générer une vidéo d'avatar avec des actions.
Prévisualisation et ajustement
- L'effet est prévisualisé par le client et peut être régénéré après ajustement des paramètres.

Conseils et astuces

besoins en matériauxLes photographies doivent être éclairées de manière homogène et la parole doit être exempte de bruit.
Prise en charge multilingue: défini dans les paramètres de l'API lang est le code de la langue correspondante (par exemple "zh" pour le chinois).
Soutien aux développeurs: Référence src/main/service Sous le code, personnalisez la fonctionnalité.

mise en garde

Le système doit répondre aux exigences d'espace de 100 Go pour le lecteur C et de 30 Go pour le lecteur D.
Assurez-vous que le WSL est activé avant d'installer Docker.
70 Go de trafic sont nécessaires pour télécharger l'image. Une connexion WiFi stable est recommandée.