RealtimeSTT: Echtzeit-Sprache-zu-Text-Tool für Streaming-Spracherkennung mit niedriger Latenzzeit auf der Grundlage von Whisper

AI-NachrichtenAktualisiert vor 8 Monaten AI-Austauschkreis

22.2K 00

Allgemeine Einführung

RealtimeSTT ist eine effiziente Echtzeit-Bibliothek für die Sprache-zu-Text-Transkription mit geringer Latenzzeit, fortschrittlicher Erkennung von Sprachaktivität und Aktivierung von Aufwachwörtern. Sie wurde von Kolja Beigel entwickelt, um Anwendungen zu unterstützen, die eine schnelle und genaue Sprache-zu-Text-Transkription erfordern. Ob es sich um einen Sprachassistenten oder eine Anwendung handelt, die eine genaue Sprachtranskription erfordert, RealtimeSTT bietet eine hervorragende Leistung und Benutzerfreundlichkeit.

RealtimeSTT：实时语音转文字工具，基于Whisper实现低延迟流式语音识别

Funktionsliste

Sprache in Text in Echtzeit: Transkribieren Sie Sprache in Text in Echtzeit für eine Vielzahl von Anwendungsszenarien.
Sprachaktivitätserkennung: Erkennt automatisch, wenn ein Benutzer zu sprechen beginnt und aufhört, und verbessert so die Transkriptionsgenauigkeit.
Wake-up-Wort-Aktivierung: Unterstützung der Wake-up-Wort-Funktion, Benutzer können das System durch bestimmte Wörter aktivieren.
Niedrige Latenz: Sorgen Sie für eine niedrige Latenz beim Sprache-zu-Text-Prozess, um die Benutzerfreundlichkeit zu erhöhen.
Multiplattform-Unterstützung: Kompatibel mit mehreren Betriebssystemen und Plattformen für eine einfache Integration.
Offener Quellcode: Bereitstellung eines vollständigen offenen Quellcodes für Entwickler zur Durchführung von Sekundärentwicklungen und Anpassungen.

Hilfe verwenden

Einbauverfahren

Klonen des Projektlagers:

   git clone https://github.com/KoljaB/RealtimeSTT.git

Rufen Sie den Projektkatalog auf:

   cd RealtimeSTT

Installieren Sie die Abhängigkeit:

   pip install -r requirements.txt

(Optional) Installieren Sie die GPU-Unterstützung:

   pip install -r requirements-gpu.txt

Verwendung

Starten Sie den Server

Starten Sie den Sprache-zu-Text-Server:

   stt-server

Warten Sie nach dem Start des Servers auf die Aufforderung "Jetzt sprechen".

Client-Nutzung

Starten Sie den Client und stellen Sie eine Verbindung mit dem Server her:

stt

Sobald der Client gestartet ist, beginnen Sie zu sprechen und das System wird die Sprache in Echtzeit in Text umwandeln.

Hauptfunktionen

Umwandlung von Sprache in Text in Echtzeit

importieren (Daten) AudioToTextRecorder Klasse:

   from RealtimeSTT import AudioToTextRecorder

Definiert Funktionen, die Text verarbeiten:

   def process_text(text):
print(text)

Startet die Aufnahme und verarbeitet den Text:

   if __name__ == '__main__':
print("Wait until it says 'speak now'")
recorder = AudioToTextRecorder()
while True:
recorder.text(process_text)

Erkennung von Sprachaktivität

Das System erkennt automatisch, wenn der Benutzer zu sprechen beginnt und aufhört, ohne dass eine zusätzliche Konfiguration erforderlich ist.

Aktivierung des Weckrufs

Konfigurieren Sie die Weckwortfunktion. Benutzer können das System mit bestimmten Wörtern aktivieren; die spezifische Konfiguration entnehmen Sie bitte der Projektdokumentation.

Ausführliches Betriebsbeispiel

Tippen Sie alles, was gesagt wird

importieren (Daten) AudioToTextRecorder im Gesang antworten pyautogui::

   from RealtimeSTT import AudioToTextRecorder
import pyautogui

Definiert Funktionen, die Text verarbeiten:

   def process_text(text):
pyautogui.typewrite(text + " ")

Startet die Aufnahme und verarbeitet den Text:

   if __name__ == '__main__':
print("Wait until it says 'speak now'")
recorder = AudioToTextRecorder()
while True:
recorder.text(process_text)

Artikel Copyright AI-Austauschkreis Alle, bitte nicht ohne Erlaubnis vervielfältigen.

Qwen2.5-Max auf Basis der MoE-Architektur übertrifft DeepSeek V3 vollständig

AI-Nachrichten

vor 8 Monaten

021.1K

AutoDev: Automatisierte Codegenerierung und Debugging-Tool mit Mehrsprachenunterstützung

Neueste AI-Ressourcen # AI Java Open Source Projekt # AI-Programmierung

vor 7 Monaten

019.1K

Go-with-the-Flow：控制视频中物体的运动轨迹，视频中增减任何运动物体

Go-with-the-Flow: Steuert die Bewegung von Objekten im Video, wobei alle sich bewegenden Objekte im Video addiert oder subtrahiert werden.

Neueste AI-Ressourcen # AI Java Open Source Projekt # AI Audio-/Video-Editor

vor 8 Monaten

018.2K

MockingBird：快速克隆声音与模型训练，基于 xtts v2 实现的文本转语音

MockingBird: Schnelles Klonen von Stimmen und Modelltraining, Text-to-Speech basierend auf xtts v2

Neueste AI-Ressourcen # AI Java Open Source Projekt # AI-Stimmenklonen

vor 9 Monaten

020.6K

Keine Kommentare

Sie müssen eingeloggt sein, um an den Kommentaren teilnehmen zu können!

Jetzt anmelden

Keine Kommentare...

RealtimeSTT: Echtzeit-Sprache-zu-Text-Tool für Streaming-Spracherkennung mit niedriger Latenzzeit auf der Grundlage von Whisper

Allgemeine Einführung

Funktionsliste

Hilfe verwenden

Einbauverfahren

Verwendung

Starten Sie den Server

Client-Nutzung

Hauptfunktionen

Umwandlung von Sprache in Text in Echtzeit

Erkennung von Sprachaktivität

Aktivierung des Weckrufs

Ausführliches Betriebsbeispiel

Tippen Sie alles, was gesagt wird

Der neueste 10.000 Wörter umfassende Artikel von Claude CEO ist rationaler und praktischer als Sam Altman!

Die kühne Vorhersage des Microsoft-CEO: "KI-Agent wird alle SaaS ersetzen"

Ähnliche Artikel

Qwen2.5-Max auf Basis der MoE-Architektur übertrifft DeepSeek V3 vollständig

AutoDev: Automatisierte Codegenerierung und Debugging-Tool mit Mehrsprachenunterstützung

Go-with-the-Flow: Steuert die Bewegung von Objekten im Video, wobei alle sich bewegenden Objekte im Video addiert oder subtrahiert werden.

MockingBird: Schnelles Klonen von Stimmen und Modelltraining, Text-to-Speech basierend auf xtts v2

Keine Kommentare

Neueste Kollektionen

Neueste Artikel

RealtimeSTT: Echtzeit-Sprache-zu-Text-Tool für Streaming-Spracherkennung mit niedriger Latenzzeit auf der Grundlage von Whisper

Allgemeine Einführung

Funktionsliste

Hilfe verwenden

Einbauverfahren

Verwendung

Starten Sie den Server

Client-Nutzung

Hauptfunktionen

Umwandlung von Sprache in Text in Echtzeit

Erkennung von Sprachaktivität

Aktivierung des Weckrufs

Ausführliches Betriebsbeispiel

Tippen Sie alles, was gesagt wird

Der neueste 10.000 Wörter umfassende Artikel von Claude CEO ist rationaler und praktischer als Sam Altman!

Die kühne Vorhersage des Microsoft-CEO: "KI-Agent wird alle SaaS ersetzen"

Ähnliche Artikel

Qwen2.5-Max auf Basis der MoE-Architektur übertrifft DeepSeek V3 vollständig

AutoDev: Automatisierte Codegenerierung und Debugging-Tool mit Mehrsprachenunterstützung

Go-with-the-Flow: Steuert die Bewegung von Objekten im Video, wobei alle sich bewegenden Objekte im Video addiert oder subtrahiert werden.

MockingBird: Schnelles Klonen von Stimmen und Modelltraining, Text-to-Speech basierend auf xtts v2

Keine Kommentare

Ausgewählte AI-Tools

Neueste Kollektionen

Neueste Artikel