RealtimeSTT : outil de conversion de la parole en texte en temps réel pour la reconnaissance vocale en continu à faible latence basé sur Whisper

Nouvelles de l'IAMise à jour il y a 8 mois Cercle de partage de l'IA
12.7K 00

Introduction générale

RealtimeSTT est une bibliothèque de transcription de la parole vers le texte en temps réel, efficace et à faible latence, avec une détection avancée de l'activité vocale et l'activation des mots de réveil. Elle a été développée par Kolja Beigel pour soutenir les applications qui nécessitent une transcription rapide et précise de la parole vers le texte. Qu'il s'agisse d'un assistant vocal ou d'une application nécessitant une transcription vocale précise, RealtimeSTT offre d'excellentes performances et une grande facilité d'utilisation.

RealtimeSTT:实时语音转文字工具,基于Whisper实现低延迟流式语音识别

 

Liste des fonctions

  • Transcription de la parole en texte en temps réel : transcription de la parole en texte en temps réel pour toute une série de scénarios d'application.
  • Détection de l'activité vocale : détecte automatiquement quand un utilisateur commence et arrête de parler, améliorant ainsi la précision de la transcription.
  • Activation par mot de réveil : la fonction de mot de réveil permet aux utilisateurs d'activer le système à l'aide de mots spécifiques.
  • Faible latence : garantir une faible latence dans le processus de conversion de la parole en texte afin d'améliorer l'expérience de l'utilisateur.
  • Prise en charge multiplateforme : compatible avec plusieurs systèmes d'exploitation et plateformes pour une intégration aisée.
  • Code source ouvert : fournir un code source ouvert complet pour que les développeurs puissent effectuer des développements secondaires et des personnalisations.

 

Utiliser l'aide

Processus d'installation

  1. Clonage de l'entrepôt de projets :
   git clone https://github.com/KoljaB/RealtimeSTT.git
  1. Accédez au catalogue de projets :
   cd RealtimeSTT
  1. Installer la dépendance :
   pip install -r requirements.txt
  1. (Facultatif) Installer la prise en charge du GPU :
   pip install -r requirements-gpu.txt

Utilisation

Démarrer le serveur

  1. Démarrer le serveur de synthèse vocale :
   stt-server
  1. Après le démarrage du serveur, attendez l'invite "speak now".

Utilisation par le client

  1. Démarrer le client et se connecter au serveur :
   stt
  1. Une fois le client lancé, commencez à parler et le système transcrira la parole en texte en temps réel.

Principales fonctions

conversion de la parole en texte en temps réel

  1. importation (données) AudioToTextRecorder Classe :
   from RealtimeSTT import AudioToTextRecorder
  1. Définit les fonctions qui traitent le texte :
   def process_text(text):
print(text)
  1. Lance l'enregistrement et traite le texte :
   if __name__ == '__main__':
print("Wait until it says 'speak now'")
recorder = AudioToTextRecorder()
while True:
recorder.text(process_text)

Détection de l'activité vocale

  1. Le système détecte automatiquement quand l'utilisateur commence et arrête de parler, sans configuration supplémentaire.

activation de l'appel de réveil

  1. Configurer la fonction de mot de réveil, les utilisateurs peuvent activer le système par des mots spécifiques, veuillez vous référer à la documentation du projet pour la configuration spécifique.

Exemple de fonctionnement détaillé

Tapez tout ce qui est dit

  1. importation (données) AudioToTextRecorder répondre en chantant pyautogui: :
   from RealtimeSTT import AudioToTextRecorder
import pyautogui
  1. Définit les fonctions qui traitent le texte :
   def process_text(text):
pyautogui.typewrite(text + " ")
  1. Lance l'enregistrement et traite le texte :
   if __name__ == '__main__':
print("Wait until it says 'speak now'")
recorder = AudioToTextRecorder()
while True:
recorder.text(process_text)
© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...