MLX-Audio : Outil de synthèse vocale basé sur le framework MLX d'Apple

Dernières ressources sur l'IAPosté il y a 7 mois Cercle de partage de l'IA

23.9K 00

Introduction générale

MLX-Audio est un outil open source développé sur le framework MLX d'Apple, qui se concentre sur les capacités de synthèse vocale (TTS) et de synthèse de la parole (STS). Il exploite la puissance de calcul du silicium d'Apple, comme les puces de la série M, pour fournir des solutions de synthèse vocale efficaces et rapides. Qu'il s'agisse de convertir un texte en une parole naturelle et fluide ou de générer un nouveau son à partir d'une parole existante, MLX-Audio peut tout faire. Développé par Blaizzy (Prince Canuma), un utilisateur de GitHub, l'outil vise à fournir aux développeurs, aux chercheurs et aux utilisateurs individuels une option de génération de parole haute performance fonctionnant sur macOS. En tant que projet open source, les utilisateurs sont libres de télécharger, de modifier et de contribuer au code, ce qui le rend idéal pour les scénarios d'application qui nécessitent un traitement localisé de la parole.

Liste des fonctions

Synthèse vocale (TTS)La technologie de l'information : transforme rapidement le texte saisi en parole naturelle, en prenant en charge un large éventail de choix de modèles.
De la parole à la parole (STS)Générer un nouveau contenu audio sur la base d'échantillons de discours existants.
Raisonnement efficaceOptimisé pour Apple Silicon, il permet une génération rapide de la parole.
Prise en charge de plusieurs modèlesLa synthèse vocale : elle prend en charge une variété de modèles de synthèse vocale pré-entraînés afin de répondre à des besoins différents.
Personnalisation de l'Open SourceLes utilisateurs peuvent adapter les fonctionnalités ou optimiser le modèle en fonction de leurs besoins.
opération localeLes opérations peuvent être effectuées sur des appareils personnels afin de protéger la vie privée.

Utiliser l'aide

Processus d'installation

MLX-Audio est un outil basé sur Python avec un processus d'installation simple qui s'appuie sur le code des dépôts GitHub et quelques bibliothèques Python nécessaires. Voici les étapes détaillées de l'installation :

Assurer la préparation à l'environnement
- Configuration requise : macOS (recommandé pour les appareils équipés de puces de la série M, tels que M1, M2, etc.)
- Installez Python 3.8 ou une version ultérieure (Homebrew est recommandé) :brew install python).
- Installer Git (pour le clonage des dépôts) :brew install git.
Clone MLX-Audio Warehouse
Ouvrez un terminal et entrez la commande suivante pour télécharger le code source :
```
git clone https://github.com/Blaizzy/mlx-audio.git
```

Une fois le téléchargement terminé, allez dans le répertoire du projet :

cd mlx-audio

Installation des dépendances
Les projets fournissent généralement une requirements.txt qui répertorie les bibliothèques Python requises. Exécutez la commande suivante pour les installer :
```
pip install -r requirements.txt
```
Si vous n'avez pas ce fichier, référez-vous au README officiel, les dépendances communes peuvent inclure mlx(le cadre d'apprentissage automatique d'Apple) et des bibliothèques de traitement audio telles que numpy peut-être soundfile.
Vérifier l'installation
Une fois l'installation terminée, exécutez une simple commande de test pour vérifier que l'environnement est correctement configuré :
```
python -m mlx_audio.tts.generate --text "Hello, world"
```
En cas de succès, vous entendrez le discours généré, ou un fichier audio sera généré dans le répertoire actuel.

Comment utiliser MLX-Audio

MLX-Audio propose deux façons d'utiliser l'interface de ligne de commande (CLI) et le script Python. Voici une description détaillée du déroulement des principales fonctions.

Synthèse vocale (TTS)

C'est la fonction principale de MLX-Audio pour convertir le texte en parole.

procédure: :
1. Texte préparéDécidez du texte que vous souhaitez convertir, par exemple "Hello, welcome to the MLX-Audio experience" (Bonjour, bienvenue dans l'expérience MLX-Audio).
2. Exécuter la commande: Tapez-la dans le terminal :
```
python -m mlx_audio.tts.generate --text "你好，欢迎体验 MLX-Audio" --output "welcome.wav"
```
  - --text: Spécifie le texte d'entrée.
  - --output: Spécifiez le nom du fichier audio de sortie (optionnel, par défaut le fichier sera généré dans le répertoire courant).
3. Résultats de l'inspectionAprès l'exécution de la commande, le fichier audio généré (par ex. welcome.wav) sera enregistré dans le répertoire actuel et ouvert avec le lecteur pour entendre la voix.
Options avancées: :
- Spécifier le modèle : si plusieurs modèles sont pris en charge, ils peuvent être spécifiés à l'aide de l'option --model Sélection des paramètres, par exemple :
```
python -m mlx_audio.tts.generate --text "Hello" --model "model_name"
```
- Réglage de la vitesse ou de la hauteur de la parole : selon le README ou la description du code, des paramètres supplémentaires peuvent être pris en charge (par ex. --speed peut-être --pitch), en fonction de la réalisation.

De la parole à la parole (STS)

Cette fonction permet aux utilisateurs de générer de nouveaux contenus vocaux à partir d'enregistrements audio existants.

procédure: :
1. Préparation de l'entrée audioPour ce faire, vous devez disposer d'un fichier audio au format WAV (par ex. input.wav), qui peut être enregistré sur un téléphone portable ou obtenu à partir d'autres sources.
2. Exécuter la commande: Entrez la commande suivante :
```
python -m mlx_audio.sts.generate --input "input.wav" --output "output.wav"
```
  - --input: Spécifie le chemin d'accès au fichier audio d'entrée.
  - --output: Spécifie le chemin d'accès au fichier de sortie.
3. Résultats de l'inspectionLe nouveau fichier audio généré est enregistré en tant que output.wavvous pouvez vérifier l'effet avec le lecteur.
mise en garde: :
- La qualité de l'audio d'entrée influe sur la sortie et il est recommandé d'utiliser un enregistrement clair.
- Si vous devez personnaliser le contenu généré, des paramètres supplémentaires peuvent être nécessaires, reportez-vous à la documentation du projet.

Développement sur mesure

MLX-Audio étant un projet open source, les utilisateurs peuvent modifier le code pour obtenir davantage de fonctions.

déplacer: :
1. Ouvrez le dossier du projet et utilisez un éditeur de texte (par exemple VS Code) pour afficher le fichier mlx_audio Fichiers Python dans le répertoire.
2. Modifier le code si nécessaire, par exemple en ajoutant un nouveau modèle vocal ou en ajustant la logique de génération.
3. Sauvegardez et exécutez le test :
```
python your_script.py
```

Détails du déroulement des opérations fonctionnelles

Génération rapide de discours

prendreVous souhaitez tester rapidement l'effet de l'outil.
flux de travail: :
1. Ouvrez un terminal et allez à mlx-audio Catalogue.
2. Entrez une commande TTS simple :
```
python -m mlx_audio.tts.generate --text "测试语音生成"
```
3. Attendez quelques secondes (en fonction de la longueur du texte et des performances de l'appareil) et le fichier audio sera généré automatiquement.
en fin de compte: génère un fichier audio nommé par défaut (par ex. output.wav), il suffit de le jouer directement.

Traitement des textes longs

prendreArticle : Besoin de convertir un article en discours.
flux de travail: :
1. Enregistrez le texte dans un fichier (par exemple text.txt), le contenu peut être composé de plusieurs paragraphes.
2. Utilisez la commande pour lire le fichier :
```
python -m mlx_audio.tts.generate --file "text.txt" --output "article.wav"
```
  - --file: Spécifier le chemin du fichier texte (s'assurer que le projet supporte ce paramètre, sinon, utiliser un script Python pour lire le fichier et l'appeler).
3. Vérifier les données générées article.wavIl s'agit de veiller à ce que la voix soit naturelle et fluide.

Génération de lots

prendreLes textes : Nécessité de générer de la parole pour plusieurs textes.

flux de travail: :

Écrire un simple script Python (par exemple batch_generate.py) :

from mlx_audio.tts import generate
texts = ["文本1", "文本2", "文本3"]
for i, text in enumerate(texts):
generate(text=text, output=f"output_{i}.wav")

Exécutez le script :
```
python batch_generate.py
```
Vérifier si plusieurs fichiers audio ont été générés.

pointe

l'optimisation des performancesLorsque l'application est exécutée sur des dispositifs en silicium de la série M, assurez-vous qu'aucune autre tâche à forte charge n'occupe les ressources afin d'obtenir une vitesse optimale.
Problèmes de débogageSi vous rencontrez une erreur (par exemple, une dépendance manquante), vérifiez la sortie du terminal et suivez les instructions pour installer la bibliothèque manquante.
Soutien communautaireSi la fonctionnalité n'est pas claire, soumettez un problème sur GitHub ou consultez la discussion existante.

Grâce à ces étapes, les utilisateurs peuvent facilement démarrer avec MLX-Audio, qu'ils génèrent de la parole simple ou qu'ils développent des applications complexes.