AI Personal Learning
und praktische Anleitung
CyberKnife-Zeichenspiegel

RealtimeSTT: Echtzeit-Sprache-zu-Text-Tool für Streaming-Spracherkennung mit niedriger Latenzzeit auf der Grundlage von Whisper

Allgemeine Einführung

RealtimeSTT ist eine effiziente Echtzeit-Bibliothek für die Sprache-zu-Text-Transkription mit geringer Latenzzeit, fortschrittlicher Erkennung von Sprachaktivität und Aktivierung von Aufwachwörtern. Sie wurde von Kolja Beigel entwickelt, um Anwendungen zu unterstützen, die eine schnelle und genaue Sprache-zu-Text-Transkription erfordern. Ob es sich um einen Sprachassistenten oder eine Anwendung handelt, die eine genaue Sprachtranskription erfordert, RealtimeSTT bietet eine hervorragende Leistung und Benutzerfreundlichkeit.

RealtimeSTT: Echtzeit-Sprache-zu-Text-Tool, Spracherkennung mit niedriger Latenzzeit-1


 

Funktionsliste

  • Sprache in Text in Echtzeit: Transkribieren Sie Sprache in Text in Echtzeit für eine Vielzahl von Anwendungsszenarien.
  • Sprachaktivitätserkennung: Erkennt automatisch, wenn ein Benutzer zu sprechen beginnt und aufhört, und verbessert so die Transkriptionsgenauigkeit.
  • Wake-up-Wort-Aktivierung: Unterstützung der Wake-up-Wort-Funktion, Benutzer können das System durch bestimmte Wörter aktivieren.
  • Niedrige Latenz: Sorgen Sie für eine niedrige Latenz beim Sprache-zu-Text-Prozess, um die Benutzerfreundlichkeit zu erhöhen.
  • Multiplattform-Unterstützung: Kompatibel mit mehreren Betriebssystemen und Plattformen für eine einfache Integration.
  • Offener Quellcode: Bereitstellung eines vollständigen offenen Quellcodes für Entwickler zur Durchführung von Sekundärentwicklungen und Anpassungen.

 

Hilfe verwenden

Einbauverfahren

  1. Klonen des Projektlagers:
   git clone https://github.com/KoljaB/RealtimeSTT.git
  1. Rufen Sie den Projektkatalog auf:
   cd RealtimeSTT
  1. Installieren Sie die Abhängigkeit:
   pip install -r requirements.txt
  1. (Optional) Installieren Sie die GPU-Unterstützung:
   pip install -r requirements-gpu.txt

Verwendung

Starten Sie den Server

  1. Starten Sie den Sprache-zu-Text-Server:
   stt-server
  1. Warten Sie nach dem Start des Servers auf die Aufforderung "Jetzt sprechen".

Client-Nutzung

  1. Starten Sie den Client und stellen Sie eine Verbindung mit dem Server her:
   stt
  1. Sobald der Client gestartet ist, beginnen Sie zu sprechen und das System wird die Sprache in Echtzeit in Text umwandeln.

Hauptfunktionen

Umwandlung von Sprache in Text in Echtzeit

  1. importieren (Daten) AudioToTextRecorder Klasse:
   from RealtimeSTT import AudioToTextRecorder
  1. Definiert Funktionen, die Text verarbeiten:
   def process_text(text):
print(text)
  1. Startet die Aufnahme und verarbeitet den Text:
   if __name__ == '__main__':
print("Wait until it says 'speak now'")
recorder = AudioToTextRecorder()
while True:
recorder.text(process_text)

Erkennung von Sprachaktivität

  1. Das System erkennt automatisch, wenn der Benutzer zu sprechen beginnt und aufhört, ohne dass eine zusätzliche Konfiguration erforderlich ist.

Aktivierung des Weckrufs

  1. Konfigurieren Sie die Weckwortfunktion. Benutzer können das System mit bestimmten Wörtern aktivieren; die spezifische Konfiguration entnehmen Sie bitte der Projektdokumentation.

Ausführliches Betriebsbeispiel

Tippen Sie alles, was gesagt wird

  1. importieren (Daten) AudioToTextRecorder im Gesang antworten pyautogui::
   from RealtimeSTT import AudioToTextRecorder
import pyautogui
  1. Definiert Funktionen, die Text verarbeiten:
   def process_text(text):
pyautogui.typewrite(text + " ")
  1. Startet die Aufnahme und verarbeitet den Text:
   if __name__ == '__main__':
print("Wait until it says 'speak now'")
recorder = AudioToTextRecorder()
while True:
recorder.text(process_text)
Darf nicht ohne Genehmigung vervielfältigt werden:Leiter des AI-Austauschkreises " RealtimeSTT: Echtzeit-Sprache-zu-Text-Tool für Streaming-Spracherkennung mit niedriger Latenzzeit auf der Grundlage von Whisper
de_DEDeutsch