Allgemeine Einführung
MockingBird ist ein Open-Source-Projekt, das darauf abzielt, durch KI-Technologie schnelles Klonen von Sprache und Text-to-Speech zu ermöglichen. Die Benutzer müssen nur 5 Sekunden Sprachproben zur Verfügung stellen, um beliebige Sprachinhalte zu erzeugen. Das Projekt unterstützt eine Vielzahl chinesischer Datensätze und funktioniert sowohl auf Windows- als auch auf Linux-Systemen.MockingBird verwendet das PyTorch-Framework und bietet einfach zu verwendende Tools und detaillierte Installationsanweisungen für Entwickler und Forscher.
Funktionsliste
- Speech Cloning: Generieren Sie beliebige Sprachinhalte aus 5-Sekunden-Sprachproben
- Text-to-Speech: Eingabe von Text zur Erzeugung entsprechender Sprache
- Mehrsprachige Unterstützung: unterstützt Mandarin und mehrere chinesische Datensätze
- Plattformübergreifender Betrieb: kompatibel mit Windows- und Linux-Systemen
- Echtzeit-Verarbeitung: bietet Spracherzeugung in Echtzeit
- Offener Quellcode: Der Code ist offen, um sekundäre Entwicklung und Forschung zu erleichtern.
Hilfe verwenden
Ablauf der Installation
- Vorbereitung der Umwelt::
- Installieren Sie Python 3.7 oder höher.
- Installieren Sie PyTorch (Version 1.9.0 empfohlen).
- Installieren Sie ffmpeg.
- Projekt herunterladen::
- Öffnen Sie die MockingBird-Projektadresse, klicken Sie auf die grüne Schaltfläche "Code" und wählen Sie "Download ZIP", um die Projektdatei herunterzuladen.
- Oder verwenden Sie den git-Befehl, um es herunterzuladen:
git clone https://github.com/babysor/MockingBird.git
- Installation von Abhängigkeiten::
- Wechseln Sie in das Projektverzeichnis und führen Sie
pip install -r anforderungen.txt
Installieren Sie die erforderlichen Python-Pakete. - Bei Bedarf können Sie conda verwenden, um eine virtuelle Umgebung zu erstellen und Abhängigkeiten zu installieren:
conda env create -n env_name -f env.yml
und aktivieren Sie dann die Umgebung:conda activate env_name
.
- Wechseln Sie in das Projektverzeichnis und führen Sie
- Modell der phonetischen Transkription
Um die Größe der Hauptdatei zu reduzieren, enthält die Datei nicht das Tonmodell, wenn Sie es separat herunterladen möchten, klicken Sie aufModell herunterladen (3G)
Verwendung Prozess
- Laufzeit-Toolbox::
- in Bewegung sein
demo_toolbox.py
um den Bildschirm Toolbox zu öffnen. - Wählen Sie die Sprachmusterdatei in der Toolbox aus, geben Sie den Textinhalt ein und klicken Sie auf die Schaltfläche Generieren, um die entsprechende Sprachdatei zu erzeugen.
- in Bewegung sein
- Ausbildungsmodelle::
- Wenn Sie Ihr eigenes Modell trainieren müssen, können Sie das Trainingstutorial im Projekt befolgen.
- Laden Sie den Trainingsdatensatz herunter, bereiten Sie ihn vor und führen Sie
train.py
Beginn der Ausbildung. - Chinesische Hilfedatei für Trainingsmodelle
- Fernabruf::
- MockingBird stellt eine Webserver-Funktion zur Verfügung, die es Ihnen ermöglicht, die generierten Sprachergebnisse per Fernaufruf zu nutzen.
- Konfigurieren und starten Sie den Webserver, der über die API-Schnittstelle aufgerufen werden soll.
allgemeine Probleme
- InstallationsfehlerVergewissern Sie sich, dass Ihre Python-Version den Anforderungen entspricht, und achten Sie bei der Installation von PyTorch auf die Versionskompatibilität.
- SprachqualitätDie Qualität der Sprachproben und der Umfang des Trainingsdatensatzes beeinflussen die Effektivität der generierten Sprache, und es wird empfohlen, qualitativ hochwertige Sprachproben und vielfältige Datensätze für das Training zu verwenden.