MLX-Audio: ein Text-to-Speech-Werkzeug, das auf dem MLX-Framework von Apple basiert

Neueste AI-RessourcenGeschrieben vor 7 Monaten AI-Austauschkreis

24.5K 00

Allgemeine Einführung

MLX-Audio ist ein Open-Source-Tool, das auf dem MLX-Framework von Apple entwickelt wurde und sich auf Text-to-Speech- (TTS) und Speech-to-Speech- (STS) Fähigkeiten konzentriert. Es nutzt die Rechenleistung von Apple Silicon, wie die Chips der M-Serie, um effiziente und schnelle Sprachsyntheselösungen anzubieten. Ob es darum geht, Text in natürliche, flüssige Sprache umzuwandeln oder neue Audiodaten auf der Grundlage vorhandener Sprache zu erzeugen, MLX-Audio kann alles. Das vom GitHub-Nutzer Blaizzy (Prince Canuma) entwickelte Tool zielt darauf ab, Entwicklern, Forschern und Einzelanwendern eine leistungsstarke Option zur Spracherzeugung unter macOS zu bieten. Da es sich um ein Open-Source-Projekt handelt, können die Nutzer den Code frei herunterladen, verändern und beisteuern, was es ideal für Anwendungsszenarien macht, die eine lokalisierte Sprachverarbeitung erfordern.

Funktionsliste

Text-to-Speech (TTS)Schnelles Umwandeln von Eingabetext in natürliche Sprache, mit Unterstützung einer Vielzahl von Modellwahlen.
Sprache zu Sprache (STS)Generierung neuer Audioinhalte auf der Grundlage vorhandener Sprachproben.
Effizientes ReasoningOptimiert für Apple Silicon, bietet schnelle Spracherzeugungsleistung.
Unterstützung mehrerer ModelleUnterstützt eine Vielzahl von vortrainierten Sprachsynthesemodellen, um unterschiedlichen Anforderungen gerecht zu werden.
Open-Source-AnpassungDer vollständige Quellcode wird zur Verfügung gestellt, und die Benutzer können die Funktionalität anpassen oder das Modell nach ihren Bedürfnissen optimieren.
lokaler BetriebKeine Abhängigkeit von der Cloud, alle Vorgänge können auf persönlichen Geräten durchgeführt werden, um die Privatsphäre zu schützen.

Hilfe verwenden

Einbauverfahren

MLX-Audio ist ein Python-basiertes Tool mit einem unkomplizierten Installationsprozess, der auf Code aus den GitHub-Repositories und einigen notwendigen Python-Bibliotheken basiert. Hier sind die detaillierten Installationsschritte:

Bereitschaft für die Umwelt sicherstellen
- Systemanforderungen: macOS (empfohlen für Geräte mit Chips der M-Serie, wie M1, M2 usw.).
- Installieren Sie Python 3.8 oder höher (Homebrew wird empfohlen):brew install python).
- Installieren Sie Git (zum Klonen von Repositories):brew install git.
MLX-Audio Warehouse klonen
Öffnen Sie ein Terminal und geben Sie den folgenden Befehl ein, um den Quellcode herunterzuladen:
```
git clone https://github.com/Blaizzy/mlx-audio.git
```

Sobald der Download abgeschlossen ist, wechseln Sie in das Projektverzeichnis:

cd mlx-audio

Installation von Abhängigkeiten
Projekte bieten in der Regel eine requirements.txt die die erforderlichen Python-Bibliotheken auflistet. Führen Sie den folgenden Befehl aus, um sie zu installieren:
```
pip install -r requirements.txt
```
Wenn Sie diese Datei nicht haben, schauen Sie in der offiziellen README nach, häufige Abhängigkeiten können sein mlx(Apples Framework für maschinelles Lernen) und Audioverarbeitungsbibliotheken wie numpy vielleicht soundfile.
Überprüfen der Installation
Sobald die Installation abgeschlossen ist, führen Sie einen einfachen Testbefehl aus, um zu prüfen, ob die Umgebung korrekt konfiguriert ist:
```
python -m mlx_audio.tts.generate --text "Hello, world"
```
Bei Erfolg hören Sie die erzeugte Sprache, oder es wird eine Audiodatei im aktuellen Verzeichnis erzeugt.

Wie man MLX-Audio verwendet

MLX-Audio bietet zwei Möglichkeiten zur Verwendung der Befehlszeilenschnittstelle (CLI) und des Python-Skripts. Im Folgenden wird der Ablauf der Hauptfunktionen detailliert beschrieben.

Text-to-Speech (TTS)

Dies ist die Kernfunktion von MLX-Audio zur Umwandlung von Text in Sprache.

Verfahren::
1. Vorbereiteter TextEntscheiden Sie, welchen Text Sie konvertieren möchten, z.B. "Hallo, willkommen bei MLX-Audio".
2. Befehl ausführen: Geben Sie es in das Terminal ein:
```
python -m mlx_audio.tts.generate --text "你好，欢迎体验 MLX-Audio" --output "welcome.wav"
```
  - --text: Gibt den Eingabetext an.
  - --outputName der Ausgabedatei: Geben Sie den Namen der Ausgabedatei an (optional, standardmäßig wird die Datei im aktuellen Verzeichnis erzeugt).
3. Ergebnisse der InspektionNach Ausführung des Befehls wird die erzeugte Audiodatei (z.B. welcome.wav) wird im aktuellen Verzeichnis gespeichert und mit dem Player geöffnet, um die Stimme zu hören.
Erweiterte Optionen::
- Geben Sie das Modell an: Wenn mehrere Modelle unterstützt werden, können sie über die Option --model Zum Beispiel die Parameterauswahl:
```
python -m mlx_audio.tts.generate --text "Hello" --model "model_name"
```
- Anpassen der Geschwindigkeit oder der Tonhöhe der Sprache: Je nach README oder Codebeschreibung können zusätzliche Parameter unterstützt werden (z.B. --speed vielleicht --pitch), je nach Ausführung.

Sprache zu Sprache (STS)

Mit dieser Funktion können Benutzer neue Sprachinhalte auf der Grundlage vorhandener Audiodaten erstellen.

Verfahren::
1. Vorbereiten des EingangssignalsVergewissern Sie sich, dass Sie eine Audiodatei im WAV-Format haben (z. B. input.wav), die mit einem Mobiltelefon aufgezeichnet oder aus anderen Quellen bezogen werden können.
2. Befehl ausführen: Geben Sie den folgenden Befehl ein:
```
python -m mlx_audio.sts.generate --input "input.wav" --output "output.wav"
```
  - --input: Gibt den Pfad der Eingabe-Audiodatei an.
  - --output: Gibt den Pfad der Ausgabedatei an.
3. Ergebnisse der InspektionDer neu erzeugte Ton wird gespeichert als output.wavkönnen Sie die Wirkung mit dem Player überprüfen.
caveat::
- Die Qualität des Eingangstons wirkt sich auf die Ausgabe aus, daher wird eine klare Aufnahme empfohlen.
- Wenn Sie den generierten Inhalt anpassen müssen, sind möglicherweise zusätzliche Parameter erforderlich. Lesen Sie dazu die Projektdokumentation.

Kundenspezifische Entwicklung

Da es sich bei MLX-Audio um ein Open-Source-Projekt handelt, können die Benutzer den Code ändern, um weitere Funktionen zu erhalten.

umziehen::
1. Öffnen Sie den Projektordner und verwenden Sie einen Texteditor (z. B. VS Code), um die mlx_audio Python-Dateien in diesem Verzeichnis.
2. Ändern Sie den Code nach Bedarf, z. B. um neue Sprachmodelle zu unterstützen oder die Generierungslogik anzupassen.
3. Speichern Sie und führen Sie den Test aus:
```
python your_script.py
```

Einzelheiten des Funktionsablaufs

Schnelle Spracherzeugung

Nehmen SieSie wollen die Wirkung des Werkzeugs schnell testen.
Arbeitsabläufe::
1. Öffnen Sie ein Terminal und gehen Sie zu mlx-audio Katalog.
2. Geben Sie einen einfachen TTS-Befehl ein:
```
python -m mlx_audio.tts.generate --text "测试语音生成"
```
3. Warten Sie einige Sekunden (abhängig von der Länge des Textes und der Leistung des Geräts) und die Audiodatei wird automatisch erstellt.
am EndeErzeugen einer standardmäßig benannten Audiodatei (z.B. output.wav), spielen Sie es einfach direkt ab.

Umgang mit langem Text

Nehmen SieMuss einen Artikel in Sprache umwandeln.
Arbeitsabläufe::
1. Speichern Sie den Text als Datei (z. B. text.txt), kann der Inhalt aus mehreren Absätzen bestehen.
2. Verwenden Sie den Befehl, um die Datei zu lesen:
```
python -m mlx_audio.tts.generate --file "text.txt" --output "article.wav"
```
  - --filePfad der Textdatei angeben (vergewissern Sie sich, dass das Projekt diesen Parameter unterstützt; wenn nicht, verwenden Sie ein Python-Skript, um die Datei zu lesen und aufzurufen).
3. Prüfen Sie die generierten article.wavDamit wird sichergestellt, dass die Stimme natürlich und fließend ist.

Stapelverarbeitung

Nehmen SieNotwendigkeit, Sprache für mehrere Texte zu erzeugen.

Arbeitsabläufe::

Schreiben Sie ein einfaches Python-Skript (z. B. batch_generate.py):

from mlx_audio.tts import generate
texts = ["文本1", "文本2", "文本3"]
for i, text in enumerate(texts):
generate(text=text, output=f"output_{i}.wav")

Führen Sie das Skript aus:
```
python batch_generate.py
```
Prüfen Sie, ob mehrere Audiodateien erzeugt wurden.

Tipp

LeistungsoptimierungWenn Sie auf Siliziumgeräten der M-Serie arbeiten, stellen Sie sicher, dass keine anderen ressourcenintensiven Aufgaben ausgeführt werden, um eine optimale Geschwindigkeit zu erreichen.
Debugging-ProblemeWenn Sie auf einen Fehler stoßen (z.B. eine fehlende Abhängigkeit), überprüfen Sie die Terminalausgabe und folgen Sie den Aufforderungen, die fehlende Bibliothek zu installieren.
Unterstützung der GemeinschaftWenn die Funktionalität nicht klar ist, reichen Sie einen Issue auf GitHub ein oder lesen Sie die bestehende Diskussion.

Mit diesen Schritten können die Benutzer leicht mit MLX-Audio beginnen, egal ob sie einfache Sprache erzeugen oder komplexe Anwendungen entwickeln.