IMS Toucan : outil de synthèse vocale multilingue rapide et contrôlable (plus de 7000 langues prises en charge)

Dernières ressources sur l'IAMise à jour il y a 7 mois Cercle de partage de l'IA

Introduction générale

IMS Toucan est une boîte à outils de synthèse vocale de pointe développée par l'Institut de traitement des langues naturelles (IMS) de l'Université de Stuttgart, en Allemagne. IMS Toucan est conçu pour fournir des solutions de synthèse vocale efficaces pour la recherche, l'enseignement et les applications du monde réel. La boîte à outils permet aux utilisateurs de former, d'utiliser et d'enseigner les techniques de synthèse de la parole les plus modernes. IMS Toucan fournit un ensemble riche de modules fonctionnels et une interface de contrôle flexible qui permet aux utilisateurs de générer des sorties vocales de haute qualité à la demande.

Démonstration : https://huggingface.co/spaces/Flux9665/MassivelyMultilingualTTS

Liste des fonctions

Prise en charge multilingueLa synthèse vocale est prise en charge dans plus de 7000 langues.
Synthèse rapideLa vitesse de génération de la parole efficace pour les applications en temps réel.
contrôlableL'utilisateur a un contrôle précis sur la hauteur, le rythme et le timbre de la voix.
faible puissance de calculIl ne nécessite pas de ressources informatiques importantes pour fonctionner et convient à un large éventail d'environnements matériels.
Présentation interactiveLa fonction de synthèse vocale : Une démo en ligne est fournie afin que les utilisateurs puissent expérimenter directement la fonction de synthèse vocale.
source ouverteLe système de gestion de l'information : Une base de code source ouverte complète pour un développement secondaire et une personnalisation aisés.
Modèle de pré-entraînementLe logiciel de synthèse vocale : il fournit des modèles de synthèse vocale pré-entraînés que les utilisateurs peuvent utiliser directement ou ajuster plus finement.

Utiliser l'aide

Processus d'installation

exigence fondamentalePython version 3.10 est recommandé. Assurez-vous d'installer les dépendances suivantes : libsndfile1, espeak-ng, ffmpeg, libasound-dev, libportaudio2, libsqlite3-dev.
entrepôt de clonesCloner le référentiel Toucan de l'IMS sur une machine locale (les GPU compatibles CUDA sont recommandés pour l'entraînement des modèles ; aucun GPU n'est nécessaire pour l'inférence).

   git clone https://github.com/DigitalPhonetics/IMS-Toucan.git
cd IMS-Toucan

Créer un environnement virtuelCréation et activation d'un environnement virtuel pour l'installation des dépendances de base.

   python -m venv <path_to_env>
source <path_to_env>/bin/activate
pip install --no-cache-dir -r requirements.txt

Exécuter le script de démonstrationUne fois l'installation terminée, vous pouvez exécuter le script suivant à des fins de démonstration.

   python run_advanced_GUI_demo.py

Fonction Opération Déroulement

synthèse vocaleLa voix est générée par l'interface interactive : entrez le texte dans l'interface interactive, sélectionnez la langue et les paramètres de la voix, puis cliquez sur le bouton Générer pour générer la voix.
commande vocaleLes utilisateurs peuvent ajuster précisément la hauteur et le rythme de la parole générée en faisant glisser les curseurs de hauteur et de durée.
remplacement de la paroleL'utilisateur peut passer à un modèle vocal différent tout en conservant les mêmes paramètres vocaux.
formation au modèleLes utilisateurs peuvent entraîner de nouveaux modèles vocaux en utilisant leurs propres ensembles de données. Veuillez vous référer aux scripts d'entraînement dans le référentiel et à la documentation pour les instructions.

Fonctions vedettes

Prise en charge multilingueIMS Toucan prend en charge plus de 7 000 langues, ce qui permet aux utilisateurs de sélectionner différentes langues pour la synthèse vocale en fonction de leurs besoins.
Synthèse efficaceIMS Toucan peut générer rapidement une parole de haute qualité, même dans des environnements à faibles ressources informatiques.
Contrôle flexibleL'utilisateur peut contrôler précisément les paramètres de la voix par le biais de l'interface interactive afin de générer une sortie vocale qui réponde aux exigences.