Dieser Artikel wurde am 2025-01-18 13:42 aktualisiert, ein Teil des Inhalts ist zeitkritisch, falls er ungültig ist, bitte eine Nachricht hinterlassen!
Allgemeine Einführung
RealtimeSTT ist eine effiziente Echtzeit-Bibliothek für die Sprache-zu-Text-Transkription mit geringer Latenzzeit, fortschrittlicher Erkennung von Sprachaktivität und Aktivierung von Aufwachwörtern. Sie wurde von Kolja Beigel entwickelt, um Anwendungen zu unterstützen, die eine schnelle und genaue Sprache-zu-Text-Transkription erfordern. Ob es sich um einen Sprachassistenten oder eine Anwendung handelt, die eine genaue Sprachtranskription erfordert, RealtimeSTT bietet eine hervorragende Leistung und Benutzerfreundlichkeit.
Funktionsliste
- Sprache in Text in Echtzeit: Transkribieren Sie Sprache in Text in Echtzeit für eine Vielzahl von Anwendungsszenarien.
- Sprachaktivitätserkennung: Erkennt automatisch, wenn ein Benutzer zu sprechen beginnt und aufhört, und verbessert so die Transkriptionsgenauigkeit.
- Wake-up-Wort-Aktivierung: Unterstützung der Wake-up-Wort-Funktion, Benutzer können das System durch bestimmte Wörter aktivieren.
- Niedrige Latenz: Sorgen Sie für eine niedrige Latenz beim Sprache-zu-Text-Prozess, um die Benutzerfreundlichkeit zu verbessern.
- Multiplattform-Unterstützung: Kompatibel mit mehreren Betriebssystemen und Plattformen für eine einfache Integration.
- Offener Quellcode: Bereitstellung eines vollständigen offenen Quellcodes für Entwickler zur Durchführung von Sekundärentwicklungen und Anpassungen.
Hilfe verwenden
Ablauf der Installation
- Klonen des Projektlagers:
git clone https://github.com/KoljaB/RealtimeSTT.git
- Rufen Sie den Projektkatalog auf:
cd RealtimeSTT
- Installieren Sie die Abhängigkeit:
pip install -r anforderungen.txt
- (Optional) Installieren Sie die GPU-Unterstützung:
pip install -r anforderungen-gpu.txt
Verwendung
Starten Sie den Server
- Starten Sie den Sprache-zu-Text-Server:
stt-server
- Warten Sie nach dem Start des Servers auf die Aufforderung "Jetzt sprechen".
Client-Nutzung
- Starten Sie den Client und stellen Sie eine Verbindung mit dem Server her:
stt
- Sobald der Client gestartet ist, beginnen Sie zu sprechen und das System wird die Sprache in Echtzeit in Text umwandeln.
Hauptfunktionen
Umwandlung von Sprache in Text in Echtzeit
- importieren (Daten)
AudioToTextRecorder
Klasse:
from RealtimeSTT import AudioToTextRecorder
- Definiert Funktionen, die Text verarbeiten:
def process_text(text).
print(text)
- Startet die Aufnahme und verarbeitet den Text:
if __name__ == '__main__'.
print("Warten Sie, bis es heißt 'sprechen jetzt'")
Aufnahmegerät = AudioToTextRecorder()
while True.
recorder.text(process_text)
Erkennung von Sprachaktivität
- Das System erkennt automatisch, wenn der Benutzer zu sprechen beginnt und aufhört, ohne dass eine zusätzliche Konfiguration erforderlich ist.
Aktivierung des Weckrufs
- Konfigurieren Sie die Weckwortfunktion. Benutzer können das System mit bestimmten Wörtern aktivieren; die spezifische Konfiguration entnehmen Sie bitte der Projektdokumentation.
Ausführliches Betriebsbeispiel
Tippen Sie alles, was gesagt wird
- importieren (Daten)
AudioToTextRecorder
im Gesang antwortenpyautogui
::
von RealtimeSTT import AudioToTextRecorder
importieren pyautogui
- Definiert Funktionen, die Text verarbeiten:
def process_text(text):
pyautogui.typewrite(text + " ")
- Startet die Aufnahme und verarbeitet den Text:
if __name__ == '__main__'.
print("Warten Sie, bis es heißt 'Jetzt sprechen'")
Rekorder = AudioToTextRekorder()
while True: recorder.text(process_text): print("Warte, bis er 'jetzt sprechen' sagt")
recorder.text(process_text)