AI Personal Learning
und praktische Anleitung

RealtimeSTT: Echtzeit-Sprache-zu-Text-Tool für Streaming-Spracherkennung mit niedriger Latenzzeit auf der Grundlage von Whisper

Dieser Artikel wurde am 2025-01-18 13:42 aktualisiert, ein Teil des Inhalts ist zeitkritisch, falls er ungültig ist, bitte eine Nachricht hinterlassen!

Allgemeine Einführung

RealtimeSTT ist eine effiziente Echtzeit-Bibliothek für die Sprache-zu-Text-Transkription mit geringer Latenzzeit, fortschrittlicher Erkennung von Sprachaktivität und Aktivierung von Aufwachwörtern. Sie wurde von Kolja Beigel entwickelt, um Anwendungen zu unterstützen, die eine schnelle und genaue Sprache-zu-Text-Transkription erfordern. Ob es sich um einen Sprachassistenten oder eine Anwendung handelt, die eine genaue Sprachtranskription erfordert, RealtimeSTT bietet eine hervorragende Leistung und Benutzerfreundlichkeit.

RealtimeSTT: Echtzeit-Sprache-zu-Text-Tool, Spracherkennung mit niedriger Latenzzeit-1


 

Funktionsliste

  • Sprache in Text in Echtzeit: Transkribieren Sie Sprache in Text in Echtzeit für eine Vielzahl von Anwendungsszenarien.
  • Sprachaktivitätserkennung: Erkennt automatisch, wenn ein Benutzer zu sprechen beginnt und aufhört, und verbessert so die Transkriptionsgenauigkeit.
  • Wake-up-Wort-Aktivierung: Unterstützung der Wake-up-Wort-Funktion, Benutzer können das System durch bestimmte Wörter aktivieren.
  • Niedrige Latenz: Sorgen Sie für eine niedrige Latenz beim Sprache-zu-Text-Prozess, um die Benutzerfreundlichkeit zu verbessern.
  • Multiplattform-Unterstützung: Kompatibel mit mehreren Betriebssystemen und Plattformen für eine einfache Integration.
  • Offener Quellcode: Bereitstellung eines vollständigen offenen Quellcodes für Entwickler zur Durchführung von Sekundärentwicklungen und Anpassungen.

 

Hilfe verwenden

Ablauf der Installation

  1. Klonen des Projektlagers:
   git clone https://github.com/KoljaB/RealtimeSTT.git
  1. Rufen Sie den Projektkatalog auf:
   cd RealtimeSTT
  1. Installieren Sie die Abhängigkeit:
   pip install -r anforderungen.txt
  1. (Optional) Installieren Sie die GPU-Unterstützung:
   pip install -r anforderungen-gpu.txt

Verwendung

Starten Sie den Server

  1. Starten Sie den Sprache-zu-Text-Server:
   stt-server
  1. Warten Sie nach dem Start des Servers auf die Aufforderung "Jetzt sprechen".

Client-Nutzung

  1. Starten Sie den Client und stellen Sie eine Verbindung mit dem Server her:
   stt
  1. Sobald der Client gestartet ist, beginnen Sie zu sprechen und das System wird die Sprache in Echtzeit in Text umwandeln.

Hauptfunktionen

Umwandlung von Sprache in Text in Echtzeit

  1. importieren (Daten) AudioToTextRecorder Klasse:
   from RealtimeSTT import AudioToTextRecorder
  1. Definiert Funktionen, die Text verarbeiten:
   def process_text(text).
print(text)
  1. Startet die Aufnahme und verarbeitet den Text:
   if __name__ == '__main__'.
print("Warten Sie, bis es heißt 'sprechen jetzt'")
Aufnahmegerät = AudioToTextRecorder()
while True.
recorder.text(process_text)

Erkennung von Sprachaktivität

  1. Das System erkennt automatisch, wenn der Benutzer zu sprechen beginnt und aufhört, ohne dass eine zusätzliche Konfiguration erforderlich ist.

Aktivierung des Weckrufs

  1. Konfigurieren Sie die Weckwortfunktion. Benutzer können das System mit bestimmten Wörtern aktivieren; die spezifische Konfiguration entnehmen Sie bitte der Projektdokumentation.

Ausführliches Betriebsbeispiel

Tippen Sie alles, was gesagt wird

  1. importieren (Daten) AudioToTextRecorder im Gesang antworten pyautogui::
   von RealtimeSTT import AudioToTextRecorder
importieren pyautogui
  1. Definiert Funktionen, die Text verarbeiten:
   def process_text(text):
pyautogui.typewrite(text + " ")
  1. Startet die Aufnahme und verarbeitet den Text:
   if __name__ == '__main__'.
print("Warten Sie, bis es heißt 'Jetzt sprechen'")
Rekorder = AudioToTextRekorder()
while True: recorder.text(process_text): print("Warte, bis er 'jetzt sprechen' sagt")
recorder.text(process_text)
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " RealtimeSTT: Echtzeit-Sprache-zu-Text-Tool für Streaming-Spracherkennung mit niedriger Latenzzeit auf der Grundlage von Whisper

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)