IndexTTS : Outil de synthèse vocale avec prise en charge du mixage chinois-anglais

Dernières ressources sur l'IAPosté il y a 6 mois Cercle de partage de l'IA

28.9K 00

Introduction générale

IndexTTS est un outil de synthèse vocale open source hébergé sur GitHub et développé par l'équipe index-tts. Il est basé sur les technologies XTTS et Tortoise et fournit une synthèse vocale efficace et de haute qualité en améliorant la conception des modules. Il est basé sur les technologies XTTS et Tortoise, et fournit une synthèse vocale efficace et de haute qualité en améliorant la conception des modules. indexTTS a été entraîné avec des dizaines de milliers d'heures de données, et supporte à la fois le chinois et l'anglais, et est particulièrement performant dans les scénarios chinois. Il corrige les erreurs de prononciation grâce au pinyin et contrôle les pauses dans la parole. L'équipe a optimisé la qualité du son, la stabilité de l'entraînement et la similarité des timbres, et prétend surpasser les systèmes TTS populaires tels que XTTS et CosyVoice2. Pour découvrir l'ensemble des fonctionnalités, vous pouvez contacter l'adresse électronique officielle pour plus d'informations.

Liste des fonctions

Prend en charge la saisie du pinyin chinois et corrige les erreurs de prononciation des caractères polyphoniques.
Contrôle de la position de la pause vocale par la ponctuation.
Améliorez la qualité audio avec BigVGAN2.
Intégration du codeur conditionnel Conformer pour améliorer la stabilité de l'apprentissage et la similarité du timbre.
Prise en charge de la synthèse vocale à zéro échantillon, qui peut être générée sans pré-entraînement d'un discours spécifique.
Traite les textes mixtes chinois et anglais.

Utiliser l'aide

Comment installer

IndexTTS est actuellement un projet open source sur GitHub, mais aucun installateur direct ou service en ligne n'est officiellement disponible. Pour l'utiliser, vous devez créer votre propre environnement. Voici les étapes de l'installation :

Préparation de l'environnement
- Assurez-vous que votre ordinateur dispose de Python 3.8 ou d'une version ultérieure.
- Installer Git pour télécharger le code.
- La prise en charge du GPU (par exemple, une carte graphique NVIDIA) est nécessaire pour accélérer le traitement, et l'installation de CUDA est recommandée.
Télécharger le code
Saisissez-le dans un terminal ou une ligne de commande :

git clone https://github.com/index-tts/index-tts.git

Cette opération permet de télécharger localement le code IndexTTS.

Installation des dépendances

Allez dans le dossier du projet :
```
cd index-tts
```
Installer les bibliothèques nécessaires. Étant donné qu'aucune bibliothèque officielle spécifique n'a été installée, il est nécessaire d'installer les bibliothèques nécessaires. <code>requirements.txt</code> il est recommandé d'installer les dépendances TTS courantes telles que PyTorch, NumPy et Torchaudio. vous pouvez essayer :
```
pip install torch torchaudio numpy
```
S'il existe une dépendance spécifique, vous devez vous référer à la déclaration d'importation dans le code pour l'installer manuellement.

Obtenir des modèles pré-entraînés

Le modèle de pré-entraînement IndexTTS n'est pas directement open source. Vous devez nous contacter par email <code>xuanwu@bilibili.com</code> Obtenir le fichier modèle.
Après avoir reçu le modèle, placez les fichiers dans le répertoire du projet (vous devez vous référer à la réponse officielle pour connaître le chemin exact).

Projets en cours

Si le modèle est en place, exécutez le script principal (le nom du fichier peut être <code>main.py</code> (ou un nom similaire, il faut vérifier le code pour confirmer) :
```
python main.py
```
Si des paramètres sont requis (par exemple, un texte d'entrée ou des fichiers de configuration), vous devez adapter la commande en fonction de la documentation officielle.

Comment utiliser les principales fonctionnalités

Après l'installation, la fonction principale d'IndexTTS est de générer de la parole. Voici comment l'utiliser :

Générer un discours

texte d'entrée
Trouvez la section de saisie de texte dans le code (qui peut être un paramètre de script ou une entrée d'interface). Par exemple :

python main.py --text "你好，这是测试文本。"

Le texte saisi peut être en chinois, en anglais ou mixte.

Correction du pinyin Prononciation

Si vous rencontrez des problèmes avec les caractères polyphoniques, entrez directement le pinyin. Par exemple :

python main.py --text "xing2 hang2"  # 纠正为“银行”而不是“星航”

Le système génère la prononciation correcte sur la base du pinyin.

Arrêts de contrôle

Lorsque des signes de ponctuation sont ajoutés au texte, IndexTTS les reconnaît automatiquement et adapte les pauses. Exemple :

python main.py --text "你好，世界。这是一个测试。"

"," et "." permettent à la voix de faire des pauses naturelles, imitant ainsi le rythme de la parole réelle.

sortie audio

Le discours généré est généralement sauvegardé sous forme de fichier WAV. Vérifiez le répertoire du projet après l'avoir exécuté, il peut y avoir quelque chose comme <code>output.wav</code> du document.
Vous pouvez ouvrir le fichier avec le lecteur ou spécifier le chemin de sortie dans le code :

python main.py --text "测试" --output "my_audio.wav"

Fonctions vedettes Procédure d'utilisation

Synthèse vocale à échantillonnage zéro

IndexTTS prend en charge la synthèse à zéro échantillon et peut imiter des sons non formés.
Comment faire : fournir un fichier audio de référence (le format est généralement WAV). En supposant que le code le supporte :

python main.py --text "hello" --ref_audio "reference.wav"

Le système analyse le timbre de l'audio de référence pour générer un son similaire.

Sortie audio de haute qualité

IndexTTS est optimisé pour la qualité du son avec BigVGAN2. Aucun réglage supplémentaire n'est nécessaire, et le son produit est beaucoup plus clair que celui d'un TTS normal, à condition que les modèles soient chargés correctement.
Assurez-vous que votre matériel supporte l'accélération GPU, sinon le traitement sera ralenti.

mise en garde

Si l'exécution signale une erreur, vérifiez que PyTorch est compatible avec votre GPU.
La documentation officielle peut être incomplète, il est donc recommandé de vérifier <code>README.md</code> ou des commentaires de code.
Pour un réglage plus approfondi des paramètres, vous pouvez étudier la configuration de Conformer et BigVGAN2 (des connaissances en programmation et en principes TTS sont nécessaires).

scénario d'application

Aides pédagogiques
Les enseignants peuvent utiliser IndexTTS pour convertir les textes en paroles afin d'aider les élèves à s'exercer à l'écoute. La fonction de correction du pinyin permet également d'enseigner la prononciation correcte.
création de contenu
Les présentateurs ou les propriétaires d'UP peuvent l'utiliser pour générer des voix off, en particulier pour les contenus vidéo qui nécessitent un mélange de chinois et d'anglais.
Développement d'un assistant vocal
Les développeurs peuvent utiliser IndexTTS pour créer un service client intelligent qui imite une vraie voix humaine et offre une expérience de dialogue naturel.
l'apprentissage des langues
Les élèves peuvent l'utiliser pour s'entraîner à la prononciation en transcrivant des mots ou des phrases à l'oral, en les écoutant et en les imitant encore et encore.

QA

Quelles sont les langues prises en charge par IndexTTS ?
Il prend principalement en charge le chinois et l'anglais et peut traiter des textes mixtes. La prise en charge d'autres langues est inconnue et doit être testée.
Comment obtenir toutes les fonctionnalités ?
Contact postal requis <code>xuanwu@bilibili.com</code>Vous y trouverez des modèles pré-entraînés et des descriptions détaillées.
De quelle puissance d'ordinateur ai-je besoin pour le faire fonctionner ?
Un GPU (par exemple une carte graphique NVIDIA) est recommandé. Un CPU peut également fonctionner, mais il est lent. Au moins 8 Go de mémoire vive.
Est-il gratuit ?
Le code est open source et gratuit, mais l'utilisation commerciale peut être limitée, vous devez consulter le site officiel.