VideoChat : personne numérique interactive vocale en temps réel avec clonage d'images et de tonalités personnalisées, prenant en charge des solutions vocales de bout en bout et des solutions en cascade.

Dernières ressources sur l'IAPosté il y a 10 mois Cercle de partage de l'IA

19.1K 00

Introduction générale

VideoChat est un projet d'interaction vocale en temps réel avec un humain numérique basé sur une technologie open-source, prenant en charge des schémas vocaux de bout en bout (GLM-4-Voice - THG) et des schémas en cascade (ASR-LLM-TTS-THG). Le projet permet aux utilisateurs de personnaliser l'image et le timbre de l'humain numérique, et prend en charge le clonage du timbre et la synchronisation labiale, la sortie vidéo en continu, et une latence du premier paquet aussi faible que 3 secondes. Les utilisateurs peuvent découvrir ses fonctionnalités grâce à des démonstrations en ligne, ou le déployer et l'utiliser localement grâce à une documentation technique détaillée.

VideoChat：自定义形象和音色克隆的实时语音交互数字人，支持端到端语音方案和级联方案

Adresse de démonstration : https://www.modelscope.cn/studios/AI-ModelScope/video_chat

Liste des fonctions

Interaction vocale en temps réel : prise en charge des solutions vocales de bout en bout et des solutions en cascade
Image et son personnalisés : les utilisateurs peuvent personnaliser l'apparence et le son de la personne numérique en fonction de leurs besoins.
Clonage de la voix : permet de cloner la voix de l'utilisateur afin d'offrir une expérience vocale personnalisée.
Faible latence : la latence des premiers paquets n'est que de 3 secondes, ce qui garantit une interaction fluide.
Projet open source : basé sur la technologie open source, les utilisateurs peuvent librement modifier et étendre la fonction.

Utiliser l'aide

Processus d'installation

Configuration de l'environnement
- Système d'exploitation : Ubuntu 22.04
- Version de Python : 3.10
- Version CUDA : 12.2
- Version de Torch : 2.1.2

projet de clonage

git lfs install
git clone https://github.com/Henry-23/VideoChat.git
cd video_chat

Création d'un environnement virtuel et installation des dépendances

conda create -n metahuman python=3.10
conda activate metahuman
pip install -r requirements.txt
pip install --upgrade gradio

Télécharger le fichier de poids
- Il est recommandé d'utiliser CreateSpace pour le téléchargement, et d'installer git lfs pour suivre les fichiers de poids.
```
git clone https://www.modelscope.cn/studios/AI-ModelScope/video_chat.git
```
Démarrage des services
```
python app.py
```

Processus d'utilisation

Configuration de la clé API: :
- Si les performances de la machine locale sont limitées, vous pouvez utiliser l'API Qwen et l'API CosyVoice fournies par la plateforme de services de grands modèles d'Aliyun, Hundred Refine, sur le réseau de l'entreprise.app.pyConfigurez la clé API dans le champ
inférence locale: :
- Si vous n'utilisez pas la clé API, vous pouvez l'utiliser dans le champsrc/llm.pyrépondre en chantantsrc/tts.pyConfigurer la méthode d'inférence locale afin de supprimer le code d'appel d'API inutile.
Démarrage des services: :
- être en mouvementpython app.pyDémarrer le service.
Personnalisation de la personnalité numérique: :
- existent/data/video/Catalogue pour ajouter une vidéo enregistrée de l'image humaine numérique.
- modifications/src/thg.pydans la liste des avatars de la classe Muse_Talk, en ajoutant le nom de l'image et bbox_shift.
- existentapp.pyAprès avoir ajouté le nom de la persona numérique au nom de l'avatar dans Gradio, redémarrez le service et attendez que l'initialisation soit terminée.

Procédure d'utilisation détaillée

Image et ton personnalisés: en /data/video/ pour ajouter une vidéo enregistrée de l'image numérique de l'homme à l'annuaire. src/thg.py modification Muse_Talk classe avatar_listajoutez le nom de l'image et bbox_shift Paramètres.
clonage de la parole: en app.py Configuration moyenne CosyVoice API ou en utilisant Edge_TTS Effectuer un raisonnement local.
Solutions vocales de bout en bout: Utilisation GLM-4-Voice afin de permettre une génération et une reconnaissance efficaces de la parole.

Visitez l'adresse du service déployé localement et accédez à l'interface Gradio.
Sélectionnez ou téléchargez une vidéo personnalisée de la personnalité numérique.
Configurer la fonction de clone vocal pour télécharger l'échantillon de voix d'un utilisateur.
Lancez une interaction vocale en temps réel et découvrez des capacités de dialogue à faible latence.

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

Oasis AI Minecraft：首个AI生成的Minecraft游戏，实时生成的我的世界游戏

Oasis AI Minecraft : le premier jeu Minecraft généré par l'IA, un jeu My World généré en temps réel !

Dernières ressources sur l'IA # Jeu de rôle AI

Il y a 11 mois

017.3K

ROMA - Cadre méta-agent à source ouverte pour la décomposition automatique de tâches complexes pour le traitement parallèle

Dernières ressources sur l'IA

il y a 3 jours

04.5K

Helix : un assistant de programmation pour la génération intelligente de codes de qualité production

Dernières ressources sur l'IA # Programmation AI

il y a 5 mois

017.1K

Komo : recherche rapide d'informations pour générer des réponses structurées, explorer davantage de résultats de recherche

Dernières ressources sur l'IA # AI outil de recherche

Il y a 10 mois

020.4K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

VideoChat : personne numérique interactive vocale en temps réel avec clonage d'images et de tonalités personnalisées, prenant en charge des solutions vocales de bout en bout et des solutions en cascade.

Introduction générale

Liste des fonctions