Allgemeine Einführung
GPT-SoVITS ist ein Open-Source-Sprachumwandlungs- und -synthesewerkzeug, das das GPT-Modell und die SoVITS-Sprachumwandlungstechnologie kombiniert. Das Tool unterstützt die sofortige Text-zu-Sprache-Konvertierung mit null und wenigen Samples sowie die Migration von Sprachstilen in nur 5 Sekunden Audio-Samples. Zu den Merkmalen gehören sprachübergreifende Unterstützung, integrierte Spurtrennung und andere nützliche Funktionen, die es auch Anfängern leicht machen, personalisierte Sprachmodelle zu erstellen. Die Software ist in Englisch, Japanisch und Chinesisch verfügbar und hilft in Kombination mit dem WebUI-Toolset bei allen Aufgaben von der Datenvorverarbeitung bis zum Modelltraining. Egal, ob Sie ein KI-Neuling oder ein Profi sind, hier können Sie den Charme der Sprachtechnologie erleben.
Funktionsliste
- Zero Sample TTS: Geben Sie ein 5-Sekunden-Sprachbeispiel ein, um die Text-zu-Sprache-Umwandlung sofort zu erleben.
- Sampleless TTS: Feinabstimmung des Modells mit nur 1 Minute Trainingsdaten zur Verbesserung der Klangähnlichkeit und des Realismus.
- Sprachübergreifende Unterstützung: Derzeit werden Inferenzen für andere Sprachen als die Trainingsmenge unterstützt, darunter Englisch, Japanisch, Koreanisch, Kantonesisch und Mandarin.
- WebUI-Tools: Integrierte Sprachbegleitertrennung, automatische Segmentierung der Trainingsmenge, chinesische ASR und Textannotation zur Unterstützung von Anfängern bei der Erstellung von Trainingsdaten und GPT/SoVITS-Modellen.
Hilfe verwenden
Ablauf der Installation
Windows-Benutzer
- Laden Sie das Integrationspaket herunter.
- Doppelklick
go-webui.bat
Starten Sie die GPT-SoVITS-WebUI. - Folgen Sie den Anweisungen der Schnittstelle.
Linux-Anwender
- Erstellen Sie eine virtuelle Umgebung:
conda create -n GPTSoVits python=3.9
- Aktivieren Sie die virtuelle Umgebung:
conda aktivieren GPTSoVits
- Installieren Sie die Abhängigkeit:
bash install.sh
macOS-Benutzer
- Installieren Sie das Xcode-Befehlszeilentool:
xcode-auswahl --install
- FFmpeg installieren:
brew install ffmpeg
- Erstellen Sie eine virtuelle Umgebung und installieren Sie die Abhängigkeiten:
conda create -n GPTSoVits python=3.9 conda aktivieren GPTSoVits pip install -r anforderungen.txt
Verwendung Prozess
- Vorbereitung der DatenVorbereitung einer Sprachprobe von mindestens 5 Sekunden, die auf die WebUI-Oberfläche hochgeladen werden soll.
- ModellschulungWählen Sie den Null- oder Wenig-Proben-Modus und laden Sie die entsprechenden Trainingsdaten hoch.
- phonetische TranskriptionGeben Sie den Textinhalt ein, wählen Sie das Zielsprachmuster aus und klicken Sie auf die Schaltfläche Konvertieren.
- Export von ErgebnissenNachdem die Konvertierung abgeschlossen ist, können Sie die resultierende Audiodatei herunterladen.
Funktionen
- Nullprobe TTSHochladen eines 5-Sekunden-Sprachbeispiels in der WebUI-Oberfläche, Eingabe des Textinhalts und Klicken auf die Schaltfläche Konvertieren, um die entsprechende Sprachdatei zu erzeugen.
- Probe ohne TTSUpload von mindestens 1 Minute Trainingsdaten zur Feinabstimmung des Modells, um die Ähnlichkeit und den Realismus der generierten Sprache zu verbessern.
- sprachenübergreifende UnterstützungWählen Sie Textinhalte in verschiedenen Sprachen zur Eingabe aus, und das System führt automatisch eine Sprachkonvertierung und Spracherzeugung durch.
- WebUI-WerkzeugeVereinfachung der Datenverarbeitung und des Modelltrainings durch integrierte Funktionen wie die Trennung von Sprachbegleitung, automatische Segmentierung der Trainingsmenge, chinesische ASR und Textkommentierung.