Spark-TTS : un outil de synthèse vocale pour générer une parole naturelle

Dernières ressources sur l'IAMise à jour il y a 6 mois Cercle de partage de l'IA

13.1K 00

Introduction générale

Spark-TTS est un outil de synthèse vocale open source développé par l'équipe de SparkAudio et hébergé sur GitHub, conçu pour aider les utilisateurs à convertir efficacement un texte en une parole naturelle et fluide. Il est basé sur des techniques avancées d'apprentissage profond, prend en charge plusieurs langues et styles de voix, et convient aux développeurs, aux chercheurs ou aux créateurs de contenu. En mettant l'accent sur la facilité d'utilisation et la qualité de la sortie vocale, le projet fournit des modèles pré-entraînés et des options d'entraînement personnalisées qui permettent aux utilisateurs d'ajuster les caractéristiques vocales en fonction de leurs besoins. Bien qu'il n'y ait pas de documentation officielle détaillée, le code et le soutien de la communauté dans le dépôt GitHub permettent aux utilisateurs de démarrer et d'explorer rapidement ses fonctionnalités. La nature open source de Spark-TTS en fait une ressource utile dans le domaine de la synthèse vocale, en particulier pour les scénarios où une solution vocale personnalisée est nécessaire.

Interface de génération de discours Spark-TTS

Interface de clonage vocal Spark-TTS

Liste des fonctions

Conversion texte-paroleLes logiciels d'aide à la décision : convertissent rapidement le texte saisi en parole naturelle, en prenant en charge plusieurs langues.
Soutien au modèle pré-entraînéLes modèles standard sont fournis afin que les utilisateurs puissent générer de la parole sans avoir à s'entraîner à partir de zéro.
Formation personnalisée à la paroleLes utilisateurs peuvent entraîner des modèles à l'aide de leurs propres ensembles de données, en ajustant le style de la voix ou l'intonation.
Plusieurs styles de voixPrise en charge de la sortie vocale de différents genres, vitesses et hauteurs de voix.
accès libreLes utilisateurs sont libres de télécharger, de modifier et d'optimiser le code pour répondre à leurs besoins individuels.
Compatibilité multiplateformeIl est basé sur un environnement de programmation à usage général et peut fonctionner sur une large gamme de systèmes d'exploitation.

Utiliser l'aide

Spark-TTS, en tant que projet open source sur GitHub, n'a pas d'installateur autonome ou d'interface graphique, et est principalement destiné aux utilisateurs ayant des bases en programmation. Ce qui suit est un guide détaillé pour vous aider à démarrer à partir de zéro et à tirer pleinement parti de ses fonctionnalités.

Processus d'installation

Comme Spark-TTS est un dépôt de code basé sur GitHub, vous devez l'utiliser en clonant le dépôt et en configurant votre environnement. Voici les étapes à suivre :

Préparation de l'environnement
- Assurez-vous que Python est installé sur votre ordinateur (version 3.8 ou supérieure recommandée).
- Installez Git pour télécharger du code depuis GitHub. Vous pouvez le télécharger et l'installer à partir du site web de Git.
- (Facultatif) Installation des outils de l'environnement virtuel, tels que le logiciel virtualenvpour isoler les dépendances du projet.
entrepôt de clones
- Ouvrez un terminal (CMD ou PowerShell pour Windows, Terminal pour Mac/Linux).
- Entrez la commande suivante pour cloner le dépôt Spark-TTS localement :
```
git clone https://github.com/SparkAudio/Spark-TTS.git
```
- Une fois le clonage terminé, allez dans le répertoire du projet :
```
cd Spark-TTS
```
Installation des dépendances
- Spark-TTS s'appuie généralement sur des frameworks d'apprentissage profond (tels que PyTorch ou TensorFlow) et des bibliothèques de traitement audio. Consultez le dépôt pour requirements.txt (le cas échéant), exécutez la commande suivante pour installer la dépendance :
```
pip install -r requirements.txt
```
- Si ce n'est pas le cas requirements.txtLes dépendances communes peuvent inclure
```
pip install torch torchaudio numpy
```
- En fonction de votre matériel (CPU ou GPU), assurez-vous d'installer la version correspondante de PyTorch, voir le site officiel de PyTorch.
Vérifier l'installation
- Une fois dans le répertoire du projet, exécutez un script de test simple (s'il est fourni par le référentiel). Exemple :
```
python test.py
```
- Si aucune erreur n'est signalée, l'environnement est configuré avec succès.

Principales fonctions

La fonction principale de Spark-TTS est de convertir le texte en parole, la procédure d'opération spécifique est décrite ci-dessous :

1. génération de discours à l'aide de modèles pré-entraînés

Texte préparéCréer un fichier texte simple (par ex. input.txt), écrivez le texte à convertir, par exemple "Hello, this is a test voice".
Exécution de scripts: En supposant que le référentiel fournisse un generate.py (le nom de fichier exact dépend du référentiel actuel), entrez-le dans le terminal :
```
python generate.py --input input.txt --output output.wav
```

Description des paramètres: :
- --input: Spécifie le chemin d'accès au fichier texte d'entrée.
- --outputSpécifiez le chemin d'enregistrement du fichier vocal généré (par ex. output.wav).
- Si le script le permet, ajouter --model sélectionne le modèle pré-entraîné, ou --voice pour régler le style sonore.
en fin de compteAprès l'avoir exécuté, vous trouverez le message suivant généré output.wav ouvrez-le avec un lecteur audio pour entendre l'effet.

2. la formation de modèles personnalisés

Préparation du jeu de donnéesVous devez fournir le texte et les données audio correspondantes. Le format des données est généralement le suivant .txt Documentation (texte) et .wav (audio), il est recommandé de se référer au référentiel pour le fichier README.md ou un dossier d'exemple.
Paramètres de configuration: Modifier le fichier de configuration (éventuellement config.json ou un fichier similaire), définissez les paramètres d'apprentissage, tels que le taux d'apprentissage, la taille du lot, etc. S'il n'y a pas de fichier de configuration, modifiez les paramètres directement dans le script.
formation d'amorçageLes services de formation : Exécutez un script de formation, par exemple :
```
python train.py --data_path ./dataset --output_model my_model
```
processus de formationLa formation peut prendre des heures, voire des jours, en fonction de la quantité de données et des performances du matériel. Une fois l'entraînement terminé, vous obtiendrez un nouveau fichier de modèle (par ex. my_model.pth).
Utilisation du nouveau modèle: Transmet les chemins du modèle entraîné au script de génération :
```
python generate.py --input input.txt --model my_model.pth --output custom_output.wav
```

3. l'adaptation du style vocal

Si Spark-TTS supporte la sortie multi-style (vous devez vérifier le code ou la documentation pour confirmer), vous pouvez ajuster le taux de parole, la hauteur, etc. via les paramètres. Exemple :
```
python generate.py --input input.txt --speed 1.2 --pitch 0.8 --output styled_output.wav
```
Description des paramètres: :
- --speedVitesse d'élocution : 1,0 est normal, plus de 1,0 est plus rapide, moins de 1,0 est plus lent.
- --pitchPlus la valeur est élevée, plus la hauteur est élevée et vice versa.
Vérification de l'efficacitéLe résultat : Audition après génération et ajustement progressif des paramètres jusqu'à ce que vous soyez satisfait.

Exemple de processus opérationnel

Supposons que vous souhaitiez convertir un texte chinois en langage féminin :

établir test.txtIl a écrit : "C'est une belle journée, allons nous promener dans le parc".

Exécuter la commande :

python generate.py --input test.txt --voice female --output park.wav

sonde park.wavLe discours doit être naturel et sans heurt.
Si vous n'êtes pas satisfait, essayez d'ajuster les paramètres ou de former un nouveau modèle.

mise en garde

référence de la documentationVue prioritaire de l'entrepôt dans la zone d'influence de la Commission européenne. README.mdLes instructions d'installation et d'utilisation peuvent être plus spécifiques à l'intérieur.
exigences en matière de matérielGénération et formation : la génération et la formation peuvent nécessiter une accélération GPU ; si aucun GPU n'est disponible, elles peuvent être exécutées sur un CPU, mais à une vitesse plus lente.
Soutien communautaireSi vous rencontrez des problèmes, posez des questions sur la page GitHub Issues ou recherchez des solutions dans des projets TTS similaires tels que Coqui TTS.

Avec les étapes ci-dessus, vous pouvez facilement commencer à utiliser Spark-TTS, qu'il s'agisse de générer de la parole ou de personnaliser des modèles exclusifs.