Allgemeine Einführung
MockingBird ist ein Open-Source-Projekt, das darauf abzielt, durch KI-Technologie schnelles Sprachklonen und Text-to-Speech zu erreichen. Die Benutzer müssen nur 5 Sekunden Sprachproben zur Verfügung stellen, um beliebige Sprachinhalte zu erzeugen. Das Projekt unterstützt eine Vielzahl chinesischer Datensätze und funktioniert sowohl auf Windows- als auch auf Linux-Systemen. MockingBird verwendet das PyTorch-Framework und bietet Entwicklern und Forschern einfach zu bedienende Tools und detaillierte Installationsanweisungen.
Funktionsliste
- Speech Cloning: Generieren Sie beliebige Sprachinhalte aus 5-Sekunden-Sprachproben
- Text-to-Speech: Eingabe von Text zur Erzeugung entsprechender Sprache
- Mehrsprachige Unterstützung: unterstützt Mandarin und mehrere chinesische Datensätze
- Plattformübergreifender Betrieb: kompatibel mit Windows- und Linux-Systemen
- Echtzeit-Verarbeitung: bietet Spracherzeugung in Echtzeit
- Offener Quellcode: Der Code ist offen, um sekundäre Entwicklung und Forschung zu erleichtern.
Hilfe verwenden
Einbauverfahren
- Vorbereitung der Umwelt::
- Installieren Sie Python 3.7 oder höher.
- Installieren Sie PyTorch (Version 1.9.0 empfohlen).
- Installieren Sie ffmpeg.
- Projekt herunterladen::
- Öffnen Sie die MockingBird-Projektadresse, klicken Sie auf die grüne Schaltfläche "Code" und wählen Sie "Download ZIP", um die Projektdatei herunterzuladen.
- Oder verwenden Sie den git-Befehl, um es herunterzuladen:
git clone https://github.com/babysor/MockingBird.git
- Installation von Abhängigkeiten::
- Wechseln Sie in das Projektverzeichnis und führen Sie
pip install -r requirements.txt
Installieren Sie die erforderlichen Python-Pakete. - Bei Bedarf können Sie conda verwenden, um eine virtuelle Umgebung zu erstellen und Abhängigkeiten zu installieren:
conda env create -n env_name -f env.yml
und aktivieren Sie dann die Umgebung:conda activate env_name
.
- Wechseln Sie in das Projektverzeichnis und führen Sie
- Modell der phonetischen Transkription
Um die Größe der Hauptdatei zu reduzieren, enthält die Datei nicht das Tonmodell, wenn Sie es separat herunterladen möchten, klicken Sie aufModell herunterladen (3G)
Verwendungsprozess
- Laufzeit-Toolbox::
- in Bewegung sein
demo_toolbox.py
um den Bildschirm Toolbox zu öffnen. - Wählen Sie die Sprachmusterdatei in der Toolbox aus, geben Sie den Textinhalt ein und klicken Sie auf die Schaltfläche Generieren, um die entsprechende Sprachdatei zu erzeugen.
- in Bewegung sein
- Ausbildungsmodelle::
- Wenn Sie Ihr eigenes Modell trainieren müssen, können Sie das Trainingstutorial im Projekt befolgen.
- Laden Sie den Trainingsdatensatz herunter, bereiten Sie ihn vor und führen Sie
train.py
Beginn der Ausbildung. - Chinesische Hilfedatei für Trainingsmodelle
- Fernabruf::
- MockingBird bietet eine Webserver-Funktion, die es Ihnen ermöglicht, die generierten Sprachergebnisse durch Fernaufrufe zu nutzen.
- Konfigurieren und starten Sie den Webserver, der über die API-Schnittstelle aufgerufen werden soll.
allgemeine Probleme
- InstallationsfehlerVergewissern Sie sich, dass Ihre Python-Version den Anforderungen entspricht, und achten Sie bei der Installation von PyTorch auf die Versionskompatibilität.
- SprachqualitätDie Qualität der Sprachproben und der Umfang des Trainingsdatensatzes wirken sich auf die Effektivität der generierten Sprache aus, und es wird empfohlen, qualitativ hochwertige Sprachproben und vielfältige Datensätze für das Training zu verwenden.