Easy Voice Toolkit: AI Voice Toolkit für den lokalen Einsatz

Neueste AI-RessourcenAktualisiert vor 1 Jahr AI-Austauschkreis

Allgemeine Einführung

Easy-Voice-Toolkit ist ein vielseitiges, auf dem Open Source Speech Project basierendes Toolkit, das eine breite Palette von automatisierten Audiowerkzeugen für die Spracherkennung, Sprachtranskription, Sprachkonvertierung, Datensatzerstellung und Modelltraining bietet. Benutzer können diese Werkzeuge je nach Bedarf selektiv einsetzen oder sie nacheinander verwenden, um rohe Audiodateien schrittweise in ideale Sprachmodelle zu konvertieren. Das Toolkit unterstützt die lokale Bereitstellung, und die Benutzer können ein leichtes Installationspaket oder ein portables Paket zur Verwendung herunterladen.

Funktionsliste

Audioverarbeitung

Spracherkennung

Sprachtranskription

Erstellung von Datensätzen (SRT-Konvertierung und WAV-Splitting)

Modellschulung

Sprachsynthese

Hilfe verwenden

Installationsprozess:

Lightweight Installer herunterladenKleine Pakete, die zwar Installationsanweisungen, aber nicht die notwendigen Umgebungsabhängigkeiten und Modelle enthalten.
Download gebrauchsfertige TragetascheGroßes Paket mit allen Umgebungsabhängigkeiten und mehreren Modellvorgaben, herunterladen und zur Verwendung entpacken.

Lokale Bereitstellung - Benutzerinstallation:

Laden Sie das leichtgewichtige Installationsprogramm oder das gebrauchsfertige portable Paket herunter.
Entpacken Sie die heruntergeladene Datei.
in Bewegung sein .exe Datei oder deren Verknüpfung.

Lokale Bereitstellung - Setup-Umgebung für Entwickler:

Stellen Sie sicher, dass Python 3.8 oder höher installiert ist.

Klonen des Projektlagers:

git clone https://github.com/Spr-Aachen/Easy-Voice-Toolkit.git

Wechseln Sie in das Projektverzeichnis:
```
cd Easy-Voice-Toolkit
```
Abhängigkeiten installieren:
```
pip install -r requirements.txt
```

Installieren Sie die GUI-Abhängigkeiten:

pip install pyside6 QEasyWidgets pywin32==300 psutil pynvml darkdetect PyGithub

Führen Sie das Programm aus:
```
python Run.py
```

Funktionaler Betriebsablauf:

AudioverarbeitungImportieren Sie die Audiodatei, wählen Sie die gewünschten Bearbeitungswerkzeuge (z. B. Rauschunterdrückung, Bearbeitung usw.), wenden Sie die Bearbeitung an und speichern Sie das Ergebnis.
SpracherkennungImportieren Sie die Audiodatei, wählen Sie das Spracherkennungsmodell, führen Sie die Erkennung durch und exportieren Sie die Textergebnisse.
SprachtranskriptionImportieren Sie die Audiodatei, wählen Sie das Transkriptionswerkzeug, führen Sie die Transkription durch und exportieren Sie die Untertiteldatei (z. B. SRT).
Produktion des DatensatzesImportieren Sie Audiodateien, wählen Sie das Tool zur Erstellung von Datensätzen und führen Sie die SRT-Konvertierung oder das WAV-Splitting durch, um einen Trainingsdatensatz zu erstellen.
ModellschulungImportieren Sie den Trainingsdatensatz, wählen Sie das Modelltrainingstool, konfigurieren Sie die Trainingsparameter, führen Sie das Training durch und speichern Sie das Modell.
phonetische TranskriptionImportieren Sie Audiodateien, wählen Sie das Werkzeug zur Sprachkonvertierung, konfigurieren Sie die Konvertierungsparameter, führen Sie die Konvertierung durch und speichern Sie das Ergebnis.

caveat

Derzeit unterstützt die Benutzeroberfläche nur Windows-Systeme.
Bitte stellen Sie während des Downloads und der Nutzung eine stabile Internetverbindung sicher.
Wenn Sie auf Probleme stoßen, lesen Sie bitte die Anleitungen und FAQs im Projekt-Repository.