RealtimeSTT : outil de conversion de la parole en texte en temps réel pour la reconnaissance vocale en continu à faible latence basé sur Whisper
Introduction générale
RealtimeSTT est une bibliothèque de transcription de la parole vers le texte en temps réel, efficace et à faible latence, avec une détection avancée de l'activité vocale et l'activation des mots de réveil. Elle a été développée par Kolja Beigel pour soutenir les applications qui nécessitent une transcription rapide et précise de la parole vers le texte. Qu'il s'agisse d'un assistant vocal ou d'une application nécessitant une transcription vocale précise, RealtimeSTT offre d'excellentes performances et une grande facilité d'utilisation.

Liste des fonctions
- Transcription de la parole en texte en temps réel : transcription de la parole en texte en temps réel pour toute une série de scénarios d'application.
- Détection de l'activité vocale : détecte automatiquement quand un utilisateur commence et arrête de parler, améliorant ainsi la précision de la transcription.
- Activation par mot de réveil : la fonction de mot de réveil permet aux utilisateurs d'activer le système à l'aide de mots spécifiques.
- Faible latence : garantir une faible latence dans le processus de conversion de la parole en texte afin d'améliorer l'expérience de l'utilisateur.
- Prise en charge multiplateforme : compatible avec plusieurs systèmes d'exploitation et plateformes pour une intégration aisée.
- Code source ouvert : fournir un code source ouvert complet pour que les développeurs puissent effectuer des développements secondaires et des personnalisations.
Utiliser l'aide
Processus d'installation
- Clonage de l'entrepôt de projets :
git clone https://github.com/KoljaB/RealtimeSTT.git
- Accédez au catalogue de projets :
cd RealtimeSTT
- Installer la dépendance :
pip install -r requirements.txt
- (Facultatif) Installer la prise en charge du GPU :
pip install -r requirements-gpu.txt
Utilisation
Démarrer le serveur
- Démarrer le serveur de synthèse vocale :
stt-server
- Après le démarrage du serveur, attendez l'invite "speak now".
Utilisation par le client
- Démarrer le client et se connecter au serveur :
stt
- Une fois le client lancé, commencez à parler et le système transcrira la parole en texte en temps réel.
Principales fonctions
conversion de la parole en texte en temps réel
- importation (données)
AudioToTextRecorder
Classe :
from RealtimeSTT import AudioToTextRecorder
- Définit les fonctions qui traitent le texte :
def process_text(text):
print(text)
- Lance l'enregistrement et traite le texte :
if __name__ == '__main__':
print("Wait until it says 'speak now'")
recorder = AudioToTextRecorder()
while True:
recorder.text(process_text)
Détection de l'activité vocale
- Le système détecte automatiquement quand l'utilisateur commence et arrête de parler, sans configuration supplémentaire.
activation de l'appel de réveil
- Configurer la fonction de mot de réveil, les utilisateurs peuvent activer le système par des mots spécifiques, veuillez vous référer à la documentation du projet pour la configuration spécifique.
Exemple de fonctionnement détaillé
Tapez tout ce qui est dit
- importation (données)
AudioToTextRecorder
répondre en chantantpyautogui
: :
from RealtimeSTT import AudioToTextRecorder
import pyautogui
- Définit les fonctions qui traitent le texte :
def process_text(text):
pyautogui.typewrite(text + " ")
- Lance l'enregistrement et traite le texte :
if __name__ == '__main__':
print("Wait until it says 'speak now'")
recorder = AudioToTextRecorder()
while True:
recorder.text(process_text)
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...