MockingBird : clonage vocal rapide et formation de modèles, synthèse vocale basée sur xtts v2
Introduction générale
MockingBird est un projet open source qui vise à réaliser un clonage vocal et une synthèse vocale rapides grâce à la technologie de l'IA. Les utilisateurs n'ont qu'à fournir des échantillons de voix de 5 secondes pour générer n'importe quel contenu vocal. MockingBird utilise le cadre PyTorch et fournit des outils faciles à utiliser ainsi que des instructions d'installation détaillées pour les développeurs et les chercheurs.


Liste des fonctions
- Clonage de la parole : générer un contenu vocal arbitraire à partir d'échantillons de voix de 5 secondes
- Synthèse vocale : saisie d'un texte pour générer la parole correspondante
- Prise en charge multilingue : prise en charge du mandarin et de plusieurs ensembles de données chinoises
- Fonctionnement multiplateforme : compatible avec les systèmes Windows et Linux
- Traitement en temps réel : permet de générer de la parole en temps réel
- Code source ouvert : le code est ouvert pour faciliter le développement secondaire et la recherche.
Utiliser l'aide
Processus d'installation
- Préparation de l'environnement: :
- Installez Python 3.7 ou une version ultérieure.
- Installez PyTorch (version 1.9.0 recommandée).
- Installer ffmpeg.
- Télécharger le projet: :
- Ouvrez l'adresse du projet MockingBird, cliquez sur le bouton vert "Code" et sélectionnez "Download ZIP" pour télécharger le fichier du projet.
- Ou utilisez la commande git pour le télécharger :
git clone https://github.com/babysor/MockingBird.git
- Installation des dépendances: :
- Allez dans le répertoire du projet et exécutez
pip install -r requirements.txt
Installez les paquets Python nécessaires. - Si nécessaire, vous pouvez utiliser conda pour créer un environnement virtuel et installer les dépendances :
conda env create -n env_name -f env.yml
puis activer l'environnement :conda activate env_name
.
- Allez dans le répertoire du projet et exécutez
- modèle de transcription phonétique
Afin de réduire la taille du fichier principal, qui ne contient pas le modèle son à son, si vous avez besoin de le télécharger séparément, cliquez sur le lien suivantModèle de téléchargement (3G)
Processus d'utilisation
- Boîte à outils d'exécution: :
- être en mouvement
demo_toolbox.py
pour ouvrir l'écran Boîte à outils. - Sélectionnez le fichier d'échantillon vocal dans la boîte à outils, entrez le contenu du texte et cliquez sur le bouton Générer pour générer le fichier vocal correspondant.
- être en mouvement
- Modèles de formation: :
- Si vous avez besoin d'entraîner votre propre modèle, vous pouvez suivre le tutoriel d'entraînement dans le projet.
- Téléchargez et préparez l'ensemble de données d'entraînement, exécutez
train.py
Commencer la formation. - Fichier d'aide en chinois pour les modèles de formation
- appel à distance: :
- MockingBird fournit une fonction de serveur web, qui vous permet d'utiliser les résultats vocaux générés par invocation à distance.
- Configurer et démarrer le serveur web à appeler à l'aide de l'interface API.
problèmes courants
- échec de l'installationLes conditions d'installation de PyTorch : Assurez-vous que votre version de Python répond aux conditions requises, et faites attention à la compatibilité des versions lors de l'installation de PyTorch.
- qualité de la voixLa qualité des échantillons de parole et la richesse de l'ensemble de données d'entraînement affectent l'efficacité de la parole générée, et il est recommandé d'utiliser des échantillons de parole de haute qualité et des ensembles de données diversifiés pour l'entraînement.
Téléchargement pré-packagé pour Windows (3.7G/avec modélisation texte-son)
Lien de téléchargement Baidu.com
Téléchargez/écrivez le paquet de mise à jour directement dans le répertoire app.exe.
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...