Whisper Input : un service gratuit et rapide de transcription de la voix au texte utilisant Groq
Introduction générale
Chuchotement Input est un outil de transcription vocale open source qui permet aux utilisateurs de commencer l'enregistrement de la parole en appuyant sur le bouton Option et de terminer l'enregistrement en levant le bouton. L'outil appelle Groq Le modèle Whisper Large V3 Turbo effectue la traduction vocale et fournit un retour d'information rapide en 1 à 2 secondes. SiliconFlow Modèle hébergé FunAudioLLM/SenseVoiceSmall qui permet une reconnaissance plus rapide et une plus grande précision. Il convient particulièrement aux utilisateurs qui ont besoin d'une saisie vocale efficace, y compris les malvoyants.

Liste des fonctions
- Enregistrement vocal et traductionL'enregistrement peut être lancé en appuyant sur la touche Option, ou en levant la touche pour mettre fin à l'enregistrement, et appeler automatiquement le modèle pour la traduction.
- Prise en charge multilingueTranscription de la parole en plusieurs langues : Prise en charge de la transcription de la parole en plusieurs langues.
- Retour d'information rapideLa plupart des entrées vocales peuvent être renvoyées dans un délai de 1 à 2 secondes.
- Utilisation gratuiteLes services d'aide à l'utilisation sont fournis gratuitement par Groq et SiliconFlow.
- Aide à la ponctuationLa ponctuation est ajoutée automatiquement pour améliorer la lisibilité du texte traduit.
- Aide à l'accessibilité: Un client macOS simple est en cours de développement pour les utilisateurs malvoyants.
Utiliser l'aide
Processus d'installation
- conditions préalablesPour ce faire, vous devez disposer d'un environnement Python local, au minimum de la version 3.10.
- projet de clonage: :
git clone https://github.com/ErlichLiu/Whisper-Input.git
- Créer un environnement virtuel: :
python -m venv venv
- Activer l'environnement virtuel: :
- macOS/Linux.
bash
source venv/bin/activate - Fenêtres.
bash
.\venv\Scripts\activate
- macOS/Linux.
- Installation des dépendances: :
pip install pip-tools
pip-compile requirements.in
pip install -r requirements.txt
modèle de configuration
Groq Whisper Large V3 modèle
- Ouvrir un compte Groq: :Page d'inscription à Groq
- Obtenir la clé de l'API: :Clé d'API Groq
- Configuration des variables d'environnement: :
cp .env.example .env
Collez la CLÉ d'API dans le champ .env
Documentation :
SERVICE_PLATFORM=groq
GROQ_API_KEY=你的API_KEY
SiliconFlow FunAudioLLM/SenseVoicePetits modèles
- S'inscrire à un compte SiliconFlow: :Page d'inscription à SiliconFlow
- Obtenir la clé de l'API: :Clé API SiliconFlow
- Configuration des variables d'environnement: :
cp .env.example .env
Collez la CLÉ d'API dans le champ .env
Documentation :
SERVICE_PLATFORM=siliconflow
SILICONFLOW_API_KEY=你的API_KEY
programme de course
- procédure de déclenchement: :
python main.py
- UtilisationLe programme effectue automatiquement la traduction vocale et affiche le résultat.
mise en garde
- opération de fondLe programme doit tourner en permanence en arrière-plan, il est donc recommandé de l'exécuter dans un terminal ou un onglet de terminal qui n'est pas fermé très souvent.
- Aide à l'accessibilitéLes utilisateurs malvoyants pourront à l'avenir bénéficier d'un client macOS.
Description en une phrase (brève)
Whisper Input est un outil de conversion vocale efficace qui prend en charge la saisie vocale multilingue et convertit rapidement et précisément la parole en texte pour les utilisateurs qui ont besoin d'une saisie vocale efficace.
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...