MockingBird: Schnelles Klonen von Stimmen und Modelltraining, Text-to-Speech basierend auf xtts v2

Neueste AI-RessourcenAktualisiert vor 9 Monaten AI-Austauschkreis

13.3K 00

Allgemeine Einführung

MockingBird ist ein Open-Source-Projekt, das darauf abzielt, durch KI-Technologie schnelles Sprachklonen und Text-to-Speech zu erreichen. Die Benutzer müssen nur 5 Sekunden Sprachproben zur Verfügung stellen, um beliebige Sprachinhalte zu erzeugen. Das Projekt unterstützt eine Vielzahl chinesischer Datensätze und funktioniert sowohl auf Windows- als auch auf Linux-Systemen. MockingBird verwendet das PyTorch-Framework und bietet Entwicklern und Forschern einfach zu bedienende Tools und detaillierte Installationsanweisungen.

MockingBird：快速克隆声音与模型训练，基于 xtts v2 实现的文本转语音

Funktionsliste

Speech Cloning: Generieren Sie beliebige Sprachinhalte aus 5-Sekunden-Sprachproben
Text-to-Speech: Eingabe von Text zur Erzeugung entsprechender Sprache
Mehrsprachige Unterstützung: unterstützt Mandarin und mehrere chinesische Datensätze
Plattformübergreifender Betrieb: kompatibel mit Windows- und Linux-Systemen
Echtzeit-Verarbeitung: bietet Spracherzeugung in Echtzeit
Offener Quellcode: Der Code ist offen, um sekundäre Entwicklung und Forschung zu erleichtern.

Hilfe verwenden

Einbauverfahren

Vorbereitung der Umwelt::
- Installieren Sie Python 3.7 oder höher.
- Installieren Sie PyTorch (Version 1.9.0 empfohlen).
- Installieren Sie ffmpeg.
Projekt herunterladen::
- Öffnen Sie die MockingBird-Projektadresse, klicken Sie auf die grüne Schaltfläche "Code" und wählen Sie "Download ZIP", um die Projektdatei herunterzuladen.
- Oder verwenden Sie den git-Befehl, um es herunterzuladen:git clone https://github.com/babysor/MockingBird.git
Installation von Abhängigkeiten::
- Wechseln Sie in das Projektverzeichnis und führen Sie pip install -r requirements.txt Installieren Sie die erforderlichen Python-Pakete.
- Bei Bedarf können Sie conda verwenden, um eine virtuelle Umgebung zu erstellen und Abhängigkeiten zu installieren:conda env create -n env_name -f env.ymlund aktivieren Sie dann die Umgebung:conda activate env_name.
Modell der phonetischen Transkription

Um die Größe der Hauptdatei zu reduzieren, enthält die Datei nicht das Tonmodell, wenn Sie es separat herunterladen möchten, klicken Sie aufModell herunterladen (3G)

Verwendungsprozess

Laufzeit-Toolbox::
- in Bewegung sein demo_toolbox.pyum den Bildschirm Toolbox zu öffnen.
- Wählen Sie die Sprachmusterdatei in der Toolbox aus, geben Sie den Textinhalt ein und klicken Sie auf die Schaltfläche Generieren, um die entsprechende Sprachdatei zu erzeugen.
Ausbildungsmodelle::
- Wenn Sie Ihr eigenes Modell trainieren müssen, können Sie das Trainingstutorial im Projekt befolgen.
- Laden Sie den Trainingsdatensatz herunter, bereiten Sie ihn vor und führen Sie train.py Beginn der Ausbildung.
- Chinesische Hilfedatei für Trainingsmodelle
Fernabruf::
- MockingBird bietet eine Webserver-Funktion, die es Ihnen ermöglicht, die generierten Sprachergebnisse durch Fernaufrufe zu nutzen.
- Konfigurieren und starten Sie den Webserver, der über die API-Schnittstelle aufgerufen werden soll.

allgemeine Probleme

InstallationsfehlerVergewissern Sie sich, dass Ihre Python-Version den Anforderungen entspricht, und achten Sie bei der Installation von PyTorch auf die Versionskompatibilität.
SprachqualitätDie Qualität der Sprachproben und der Umfang des Trainingsdatensatzes wirken sich auf die Effektivität der generierten Sprache aus, und es wird empfohlen, qualitativ hochwertige Sprachproben und vielfältige Datensätze für das Training zu verwenden.