AI Personal Learning
und praktische Anleitung
讯飞绘镜

MockingBird: Schnelles Klonen von Stimmen und Modelltraining, Text-to-Speech basierend auf xtts v2

Allgemeine Einführung

MockingBird ist ein Open-Source-Projekt, das darauf abzielt, durch KI-Technologie schnelles Sprachklonen und Text-to-Speech zu erreichen. Die Benutzer müssen nur 5 Sekunden Sprachproben zur Verfügung stellen, um beliebige Sprachinhalte zu erzeugen. Das Projekt unterstützt eine Vielzahl chinesischer Datensätze und funktioniert sowohl auf Windows- als auch auf Linux-Systemen. MockingBird verwendet das PyTorch-Framework und bietet Entwicklern und Forschern einfach zu bedienende Tools und detaillierte Installationsanweisungen.

MockingBird:快速克隆声音,基于xtts_v2实现的文本转语音-1


 

MockingBird:快速克隆声音与模型训练,基于 xtts v2 实现的文本转语音-1

 

Funktionsliste

  • Speech Cloning: Generieren Sie beliebige Sprachinhalte aus 5-Sekunden-Sprachproben
  • Text-to-Speech: Eingabe von Text zur Erzeugung entsprechender Sprache
  • Mehrsprachige Unterstützung: unterstützt Mandarin und mehrere chinesische Datensätze
  • Plattformübergreifender Betrieb: kompatibel mit Windows- und Linux-Systemen
  • Echtzeit-Verarbeitung: bietet Spracherzeugung in Echtzeit
  • Offener Quellcode: Der Code ist offen, um sekundäre Entwicklung und Forschung zu erleichtern.

 

Hilfe verwenden

Einbauverfahren

  1. Vorbereitung der Umwelt::
    • Installieren Sie Python 3.7 oder höher.
    • Installieren Sie PyTorch (Version 1.9.0 empfohlen).
    • Installieren Sie ffmpeg.
  2. Projekt herunterladen::
    • Öffnen Sie die MockingBird-Projektadresse, klicken Sie auf die grüne Schaltfläche "Code" und wählen Sie "Download ZIP", um die Projektdatei herunterzuladen.
    • Oder verwenden Sie den git-Befehl, um es herunterzuladen:git clone https://github.com/babysor/MockingBird.git
  3. Installation von Abhängigkeiten::
    • Wechseln Sie in das Projektverzeichnis und führen Sie pip install -r requirements.txt Installieren Sie die erforderlichen Python-Pakete.
    • Bei Bedarf können Sie conda verwenden, um eine virtuelle Umgebung zu erstellen und Abhängigkeiten zu installieren:conda env create -n env_name -f env.ymlund aktivieren Sie dann die Umgebung:conda activate env_name.
  4. Modell der phonetischen Transkription

Um die Größe der Hauptdatei zu reduzieren, enthält die Datei nicht das Tonmodell, wenn Sie es separat herunterladen möchten, klicken Sie aufModell herunterladen (3G)

 

Verwendungsprozess

  1. Laufzeit-Toolbox::
    • in Bewegung sein demo_toolbox.pyum den Bildschirm Toolbox zu öffnen.
    • Wählen Sie die Sprachmusterdatei in der Toolbox aus, geben Sie den Textinhalt ein und klicken Sie auf die Schaltfläche Generieren, um die entsprechende Sprachdatei zu erzeugen.
  2. Ausbildungsmodelle::
    • Wenn Sie Ihr eigenes Modell trainieren müssen, können Sie das Trainingstutorial im Projekt befolgen.
    • Laden Sie den Trainingsdatensatz herunter, bereiten Sie ihn vor und führen Sie train.py Beginn der Ausbildung.
    • Chinesische Hilfedatei für Trainingsmodelle
  3. Fernabruf::
    • MockingBird bietet eine Webserver-Funktion, die es Ihnen ermöglicht, die generierten Sprachergebnisse durch Fernaufrufe zu nutzen.
    • Konfigurieren und starten Sie den Webserver, der über die API-Schnittstelle aufgerufen werden soll.

allgemeine Probleme

  • InstallationsfehlerVergewissern Sie sich, dass Ihre Python-Version den Anforderungen entspricht, und achten Sie bei der Installation von PyTorch auf die Versionskompatibilität.
  • SprachqualitätDie Qualität der Sprachproben und der Umfang des Trainingsdatensatzes wirken sich auf die Effektivität der generierten Sprache aus, und es wird empfohlen, qualitativ hochwertige Sprachproben und vielfältige Datensätze für das Training zu verwenden.

 

Vorgefertigter Windows-Download (3,7G/mit Text-Ton-Modellierung)

首席AI分享圈Dieser Inhalt wurde vom Autor versteckt, bitte geben Sie den Verifizierungscode ein, um den Inhalt zu sehen
Captcha:
Bitte achten Sie auf diese Website WeChat öffentliche Nummer, Antwort "CAPTCHA, eine Art von Challenge-Response-Test (Computertechnik)", um den Verifizierungscode zu erhalten. Suchen Sie in WeChat nach "Leiter des AI-Austauschkreises"oder"Looks-AI" oder WeChat Scannen der rechten Seite des QR-Codes kann die Aufmerksamkeit auf diese Website WeChat öffentliche Zahl zu zahlen.

Darf nicht ohne Genehmigung vervielfältigt werden:Leiter des AI-Austauschkreises " MockingBird: Schnelles Klonen von Stimmen und Modelltraining, Text-to-Speech basierend auf xtts v2
de_DEDeutsch