Text2Voice : une interface graphique de synthèse vocale basée sur des API de flux au silicium

Dernières ressources sur l'IAMise à jour il y a 5 mois Cercle de partage de l'IA

17.4K 00

Introduction générale

Text2Voice est un outil open source qui fournit une fonctionnalité de synthèse vocale basée sur une API de mobilité en silicium, avec une interface utilisateur graphique (GUI) propre comme sa meilleure caractéristique. Il a été créé par le développeur Sheldon Lee sur GitHub pour permettre aux utilisateurs de transformer facilement du texte en parole par le biais d'une interface. Le projet est développé en Python et combine le cadre PyQt6 pour créer une interface intuitive. À la base, le projet utilise une API pour transformer le texte en son audible en temps réel, avec la prise en charge de plusieurs langues telles que le chinois et l'anglais, ainsi que la possibilité de sélectionner différentes tonalités. Le code est ouvert, tout le monde peut le télécharger, l'exécuter ou le modifier, ce qui convient aux personnes qui souhaitent générer rapidement de la parole ou aux développeurs. Le projet a une version stable, des fonctionnalités pratiques, vous pouvez commencer après l'installation.

Liste des fonctions

Convertissez du texte chinois, anglais et d'autres textes multilingues en texte vocal par le biais d'une interface graphique.
Offre un large choix de tonalités vocales.
Prise en charge du contrôle de la lecture audio en temps réel, y compris la lecture, la pause et l'arrêt.
Affiche une fenêtre d'opération graphique simple et belle.
Gestion automatique des fichiers audio générés.
Prise en charge de la segmentation des textes longs en discours.

Utiliser l'aide

Text2Voice repose sur Python et l'API Silicon Flow, et vous devez installer l'environnement et configurer la clé avant de l'utiliser. Voici les étapes détaillées pour vous aider à démarrer rapidement.

Processus d'installation

Préparation de l'environnement du système
Assurez-vous que votre ordinateur répond aux exigences : Windows, macOS ou Linux, 2 Go ou plus de mémoire vive et une connexion internet stable.
- Installation de Python : Accès https://www.python.org/Si vous souhaitez installer Python, téléchargez la version 3.8 ou supérieure, et cochez la case "Add Python to PATH" lors de l'installation.
- Installation de Git : Visite https://git-scm.com/téléchargez et installez.
Télécharger le code du projet
Ouvrez un terminal (CMD pour Windows, Terminal pour Mac/Linux) et exécutez-le :

git clone https://github.com/axdlee/text2voice.git

Allez ensuite dans le répertoire du projet :

cd text2voice

Mise en place d'un environnement virtuel (recommandé)
Créer et activer des environnements virtuels pour éviter les conflits de dépendance :

python -m venv venv

Fenêtres.
```
venv\Scripts\activate
```
Mac/Linux.
```
source venv/bin/activate
```

Installation des dépendances
Les dépendances du projet sont répertoriées dans le fichier requirements.txt dans la section "Installation", exécutez la commande suivante pour l'installer :

pip install -r requirements.txt

Cela installera les bibliothèques nécessaires telles que PyQt6, Requests, Pygame, etc.

Configuration des clés API
Dans le répertoire racine du projet, créez le fichier .env avec le contenu suivant :

SILICON_API_KEY=你的API密钥

La clé API doit être obtenue sur le site web de Silicon Mobility, remplie et sauvegardée.

programme de course
Saisissez-le dans le terminal :

python main.py

Lorsque le programme démarre, une interface graphique apparaît.

Comment utiliser les principales fonctionnalités

Lancement de l'interface graphique
être en mouvement python main.py Vous verrez ensuite apparaître une fenêtre avec une zone de saisie de texte et des boutons de contrôle.
Définition de la clé API
Cliquez sur le bouton "Paramètres" de l'interface, et entrez .env Clé API Silicon Mobility dans le fichier pour enregistrer les paramètres.
texte d'entrée
Tapez ou collez le texte que vous souhaitez convertir en parole dans la zone de texte, par exemple "Bonjour, ceci est un test".
Sélection d'une tonalité
Choisissez un ton de voix dans le menu déroulant, par exemple homme ou femme (les options exactes sont déterminées par l'API).
convertir en parole
Cliquez sur le bouton "Convertir en parole" et le programme traitera le texte via l'API Silicon Mobility pour générer le son.
Écouter l'audio
Une fois la conversion terminée, utilisez le bouton "Play" de l'interface pour écouter l'audio, qui peut être contrôlé par "Pause" ou "Stop".

Fonctions vedettes Procédure d'utilisation

Conversion de la segmentation des textes longs à l'aide d'une interface graphique
Si le texte dépasse 5000 mots, le programme le traitera automatiquement par segments. Saisissez le texte complet directement dans l'interface, cliquez sur "Convertir en voix", le programme générera un son segment par segment. Vous pouvez utiliser le bouton de lecture pour écouter chaque segment.
Gestion des fichiers audio
L'audio généré est temporairement stocké dans le temp . Ces fichiers sont automatiquement effacés à la sortie du programme. Ces fichiers sont automatiquement supprimés lorsque vous quittez le programme. Si vous souhaitez les conserver, vous pouvez les déplacer manuellement avant de quitter le programme.
Contrôle de la lecture en temps réel
L'audio converti prend en charge le fonctionnement en temps réel. Cliquez sur "Play" pour commencer à écouter, et sur "Pause" ou "Stop" à tout moment, toutes les opérations sont effectuées dans l'interface graphique.

mise en garde

Le réseau doit être stable car la fonctionnalité repose sur l'API de mobilité basée sur le silicium.
Il est recommandé qu'une seule conversion ne dépasse pas 5000 caractères afin d'éviter les erreurs de l'API.
Les clés d'API doivent être tenues secrètes et ne pas être communiquées au public.
Si l'interface ne répond pas, vérifiez que la clé, le réseau et les dépendances sont corrects.

Grâce à ces étapes, vous pouvez convertir du texte en parole en utilisant l'interface graphique de Text2Voice. Les développeurs peuvent également modifier le code pour ajuster l'interface ou les fonctionnalités.

scénario d'application

Aides pédagogiques
Convertit le texte en parole avec une interface graphique pour faciliter l'écoute et l'apprentissage.
création de contenu
Générez de la parole pour des vidéos ou des podcasts en toute simplicité et sans perdre de temps.
Aide à l'accessibilité
Aider les personnes malvoyantes à accéder à l'information en convertissant le texte en parole par le biais d'une interface.

QA

Quelles sont les langues prises en charge ?
Plusieurs langues sont prises en charge, notamment le chinois et l'anglais, selon l'API de Silicon Mobility.
Pourquoi l'interface ne répond-elle pas ?
Il peut s'agir d'une erreur de clé API, d'un problème de réseau ou d'une dépendance qui n'a pas été installée correctement. Vérifiez et réessayez.
Où sont stockés les fichiers audio ?
Stocké temporairement dans temp qui est automatiquement nettoyé après la fermeture du programme.