Allgemeine Einführung
Easy-Voice-Toolkit ist ein vielseitiges, auf dem Open Source Speech Project basierendes Toolkit, das eine breite Palette von automatisierten Audiowerkzeugen für die Spracherkennung, Sprachtranskription, Sprachkonvertierung, Datensatzerstellung und Modelltraining bietet. Benutzer können diese Werkzeuge je nach Bedarf selektiv einsetzen oder sie nacheinander verwenden, um rohe Audiodateien schrittweise in ideale Sprachmodelle zu konvertieren. Das Toolkit unterstützt die lokale Bereitstellung, und die Benutzer können ein leichtes Installationspaket oder ein portables Paket zur Verwendung herunterladen.
Funktionsliste
- Audioverarbeitung
- Spracherkennung
- Sprachtranskription
- Erstellung von Datensätzen (SRT-Konvertierung und WAV-Splitting)
- Modellschulung
- Sprachsynthese
Hilfe verwenden
Installationsprozess:
- Lightweight Installer herunterladenKleine Pakete, die zwar Installationsanweisungen, aber nicht die notwendigen Umgebungsabhängigkeiten und Modelle enthalten.
- Download gebrauchsfertige TragetascheGroßes Paket mit allen Umgebungsabhängigkeiten und mehreren Modellvorgaben, herunterladen und zur Verwendung entpacken.
Lokale Bereitstellung - Benutzerinstallation:
- Laden Sie das leichtgewichtige Installationsprogramm oder das gebrauchsfertige portable Paket herunter.
- Entpacken Sie die heruntergeladene Datei.
- in Bewegung sein
.exe
Datei oder deren Verknüpfung.
Lokale Bereitstellung - Setup-Umgebung für Entwickler:
- Stellen Sie sicher, dass Python 3.8 oder höher installiert ist.
- Klonen des Projektlagers:
git klonen. https://github.com/Spr-Aachen/Easy-Voice-Toolkit.git
- Wechseln Sie in das Projektverzeichnis:
cd Easy-Voice-Toolkit
- Abhängigkeiten installieren:
pip install -r anforderungen.txt
- Installieren Sie die GUI-Abhängigkeiten:
pip install pyside6 QEasyWidgets pywin32==300 psutil pynvml darkdetect PyGithub
- Führen Sie das Programm aus:
python Ausführen.py
Funktionaler Betriebsablauf:
- AudioverarbeitungImportieren Sie die Audiodatei, wählen Sie die gewünschten Bearbeitungswerkzeuge (z. B. Rauschunterdrückung, Bearbeitung usw.), wenden Sie die Bearbeitung an und speichern Sie das Ergebnis.
- SpracherkennungImportieren Sie die Audiodatei, wählen Sie das Spracherkennungsmodell, führen Sie die Erkennung durch und exportieren Sie die Textergebnisse.
- SprachtranskriptionImportieren Sie die Audiodatei, wählen Sie das Transkriptionswerkzeug, führen Sie die Transkription durch und exportieren Sie die Untertiteldatei (z. B. SRT).
- Produktion des DatensatzesImportieren Sie Audiodateien, wählen Sie das Tool zur Erstellung von Datensätzen und führen Sie die SRT-Konvertierung oder das WAV-Splitting durch, um einen Trainingsdatensatz zu erstellen.
- ModellschulungImportieren Sie den Trainingsdatensatz, wählen Sie das Modelltrainingstool, konfigurieren Sie die Trainingsparameter, führen Sie das Training durch und speichern Sie das Modell.
- phonetische TranskriptionImportieren Sie Audiodateien, wählen Sie das Werkzeug zur Sprachkonvertierung, konfigurieren Sie die Konvertierungsparameter, führen Sie die Konvertierung durch und speichern Sie das Ergebnis.
caveat
- Derzeit unterstützt die Benutzeroberfläche nur Windows-Systeme.
- Bitte stellen Sie während des Downloads und der Nutzung eine stabile Internetverbindung sicher.
- Wenn Sie auf Probleme stoßen, lesen Sie bitte die Anleitungen und FAQs im Projekt-Repository.