RealtimeSTT : outil de conversion de la parole en texte en temps réel pour la reconnaissance vocale en continu à faible latence basé sur Whisper

Nouvelles de l'IAMise à jour il y a 8 mois Cercle de partage de l'IA

12.7K 00

Introduction générale

RealtimeSTT est une bibliothèque de transcription de la parole vers le texte en temps réel, efficace et à faible latence, avec une détection avancée de l'activité vocale et l'activation des mots de réveil. Elle a été développée par Kolja Beigel pour soutenir les applications qui nécessitent une transcription rapide et précise de la parole vers le texte. Qu'il s'agisse d'un assistant vocal ou d'une application nécessitant une transcription vocale précise, RealtimeSTT offre d'excellentes performances et une grande facilité d'utilisation.

RealtimeSTT：实时语音转文字工具，基于Whisper实现低延迟流式语音识别

Liste des fonctions

Transcription de la parole en texte en temps réel : transcription de la parole en texte en temps réel pour toute une série de scénarios d'application.
Détection de l'activité vocale : détecte automatiquement quand un utilisateur commence et arrête de parler, améliorant ainsi la précision de la transcription.
Activation par mot de réveil : la fonction de mot de réveil permet aux utilisateurs d'activer le système à l'aide de mots spécifiques.
Faible latence : garantir une faible latence dans le processus de conversion de la parole en texte afin d'améliorer l'expérience de l'utilisateur.
Prise en charge multiplateforme : compatible avec plusieurs systèmes d'exploitation et plateformes pour une intégration aisée.
Code source ouvert : fournir un code source ouvert complet pour que les développeurs puissent effectuer des développements secondaires et des personnalisations.

Utiliser l'aide

Processus d'installation

Clonage de l'entrepôt de projets :

   git clone https://github.com/KoljaB/RealtimeSTT.git

Accédez au catalogue de projets :

   cd RealtimeSTT

Installer la dépendance :

   pip install -r requirements.txt

(Facultatif) Installer la prise en charge du GPU :

   pip install -r requirements-gpu.txt

Utilisation

Démarrer le serveur

Démarrer le serveur de synthèse vocale :

   stt-server

Après le démarrage du serveur, attendez l'invite "speak now".

Utilisation par le client

Démarrer le client et se connecter au serveur :

stt

Une fois le client lancé, commencez à parler et le système transcrira la parole en texte en temps réel.

Principales fonctions

conversion de la parole en texte en temps réel

importation (données) AudioToTextRecorder Classe :

   from RealtimeSTT import AudioToTextRecorder

Définit les fonctions qui traitent le texte :

   def process_text(text):
print(text)

Lance l'enregistrement et traite le texte :

   if __name__ == '__main__':
print("Wait until it says 'speak now'")
recorder = AudioToTextRecorder()
while True:
recorder.text(process_text)

Détection de l'activité vocale

Le système détecte automatiquement quand l'utilisateur commence et arrête de parler, sans configuration supplémentaire.

activation de l'appel de réveil

Configurer la fonction de mot de réveil, les utilisateurs peuvent activer le système par des mots spécifiques, veuillez vous référer à la documentation du projet pour la configuration spécifique.

Exemple de fonctionnement détaillé

Tapez tout ce qui est dit

importation (données) AudioToTextRecorder répondre en chantant pyautogui: :

   from RealtimeSTT import AudioToTextRecorder
import pyautogui

Définit les fonctions qui traitent le texte :

   def process_text(text):
pyautogui.typewrite(text + " ")

Lance l'enregistrement et traite le texte :

   if __name__ == '__main__':
print("Wait until it says 'speak now'")
recorder = AudioToTextRecorder()
while True:
recorder.text(process_text)

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

ell : Cadre d'ingénierie des mots repères fonctionnels légers

Dernières ressources sur l'IA # AI Java Open Source Projecct # PROMPTS Aides

Il y a 7 mois

012.8K

FastAPI DocGPT : système de traitement de documents PDF et de questions-réponses basé sur FastAPI

Dernières ressources sur l'IA # AI Java Open Source Projecct # Outil de résumé de texte AI et d'audio/vidéo

Il y a 10 mois

011.7K

dsRAG : un moteur de recherche pour les données non structurées et les requêtes complexes

Dernières ressources sur l'IA # AI Java Open Source Projecct # Recherche de connaissances et cadre RAG

Il y a 6 mois

010.9K

DreamTalk : générez des vidéos parlantes expressives avec une seule image d'avatar !

Dernières ressources sur l'IA # AI Java Open Source Projecct # AI Digital Man # Synchronisation des ports

Il y a 9 mois

013.1K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

RealtimeSTT : outil de conversion de la parole en texte en temps réel pour la reconnaissance vocale en continu à faible latence basé sur Whisper

Introduction générale

Liste des fonctions

Utiliser l'aide

Processus d'installation

Utilisation

Démarrer le serveur

Utilisation par le client

Principales fonctions

conversion de la parole en texte en temps réel

Détection de l'activité vocale

activation de l'appel de réveil

Exemple de fonctionnement détaillé

Tapez tout ce qui est dit

Le dernier article de 10 000 mots du PDG de Claude est plus rationnel et pratique que Sam Altman !

La prédiction audacieuse du PDG de Microsoft : "L'agent IA remplacera tous les SaaS".

Articles connexes

ell : Cadre d'ingénierie des mots repères fonctionnels légers

FastAPI DocGPT : système de traitement de documents PDF et de questions-réponses basé sur FastAPI

dsRAG : un moteur de recherche pour les données non structurées et les requêtes complexes

DreamTalk : générez des vidéos parlantes expressives avec une seule image d'avatar !

Pas de commentaires

Dernières collections

Derniers articles

RealtimeSTT : outil de conversion de la parole en texte en temps réel pour la reconnaissance vocale en continu à faible latence basé sur Whisper

Introduction générale

Liste des fonctions

Utiliser l'aide

Processus d'installation

Utilisation

Démarrer le serveur

Utilisation par le client

Principales fonctions

conversion de la parole en texte en temps réel

Détection de l'activité vocale

activation de l'appel de réveil

Exemple de fonctionnement détaillé

Tapez tout ce qui est dit

Le dernier article de 10 000 mots du PDG de Claude est plus rationnel et pratique que Sam Altman !

La prédiction audacieuse du PDG de Microsoft : "L'agent IA remplacera tous les SaaS".

Articles connexes

ell : Cadre d'ingénierie des mots repères fonctionnels légers

FastAPI DocGPT : système de traitement de documents PDF et de questions-réponses basé sur FastAPI

dsRAG : un moteur de recherche pour les données non structurées et les requêtes complexes

DreamTalk : générez des vidéos parlantes expressives avec une seule image d'avatar !

Pas de commentaires

Outils d'IA sélectionnés

Dernières collections

Derniers articles