Whisper Input : un service gratuit et rapide de transcription de la voix au texte utilisant Groq

Introduction générale

Chuchotement Input est un outil de transcription vocale open source qui permet aux utilisateurs de commencer l'enregistrement de la parole en appuyant sur le bouton Option et de terminer l'enregistrement en levant le bouton. L'outil appelle Groq Le modèle Whisper Large V3 Turbo effectue la traduction vocale et fournit un retour d'information rapide en 1 à 2 secondes. SiliconFlow Modèle hébergé FunAudioLLM/SenseVoiceSmall qui permet une reconnaissance plus rapide et une plus grande précision. Il convient particulièrement aux utilisateurs qui ont besoin d'une saisie vocale efficace, y compris les malvoyants.

Whisper Input:利用Groq免费且高速的语音转录文本服务

 

Liste des fonctions

  • Enregistrement vocal et traductionL'enregistrement peut être lancé en appuyant sur la touche Option, ou en levant la touche pour mettre fin à l'enregistrement, et appeler automatiquement le modèle pour la traduction.
  • Prise en charge multilingueTranscription de la parole en plusieurs langues : Prise en charge de la transcription de la parole en plusieurs langues.
  • Retour d'information rapideLa plupart des entrées vocales peuvent être renvoyées dans un délai de 1 à 2 secondes.
  • Utilisation gratuiteLes services d'aide à l'utilisation sont fournis gratuitement par Groq et SiliconFlow.
  • Aide à la ponctuationLa ponctuation est ajoutée automatiquement pour améliorer la lisibilité du texte traduit.
  • Aide à l'accessibilité: Un client macOS simple est en cours de développement pour les utilisateurs malvoyants.

 

Utiliser l'aide

Processus d'installation

  1. conditions préalablesPour ce faire, vous devez disposer d'un environnement Python local, au minimum de la version 3.10.
  2. projet de clonage: :
   git clone https://github.com/ErlichLiu/Whisper-Input.git
  1. Créer un environnement virtuel: :
   python -m venv venv
  1. Activer l'environnement virtuel: :
    • macOS/Linux. bash
      source venv/bin/activate
    • Fenêtres. bash
      .\venv\Scripts\activate
  2. Installation des dépendances: :
   pip install pip-tools
pip-compile requirements.in
pip install -r requirements.txt

modèle de configuration

Groq Whisper Large V3 modèle

  1. Ouvrir un compte Groq: :Page d'inscription à Groq
  2. Obtenir la clé de l'API: :Clé d'API Groq
  3. Configuration des variables d'environnement: :
   cp .env.example .env

Collez la CLÉ d'API dans le champ .env Documentation :

   SERVICE_PLATFORM=groq
GROQ_API_KEY=你的API_KEY

SiliconFlow FunAudioLLM/SenseVoicePetits modèles

  1. S'inscrire à un compte SiliconFlow: :Page d'inscription à SiliconFlow
  2. Obtenir la clé de l'API: :Clé API SiliconFlow
  3. Configuration des variables d'environnement: :
   cp .env.example .env

Collez la CLÉ d'API dans le champ .env Documentation :

   SERVICE_PLATFORM=siliconflow
SILICONFLOW_API_KEY=你的API_KEY

programme de course

  1. procédure de déclenchement: :
   python main.py
  1. UtilisationLe programme effectue automatiquement la traduction vocale et affiche le résultat.

mise en garde

  • opération de fondLe programme doit tourner en permanence en arrière-plan, il est donc recommandé de l'exécuter dans un terminal ou un onglet de terminal qui n'est pas fermé très souvent.
  • Aide à l'accessibilitéLes utilisateurs malvoyants pourront à l'avenir bénéficier d'un client macOS.

Description en une phrase (brève)

Whisper Input est un outil de conversion vocale efficace qui prend en charge la saisie vocale multilingue et convertit rapidement et précisément la parole en texte pour les utilisateurs qui ont besoin d'une saisie vocale efficace.

© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...