Allgemeine Einführung
Flüstern Input ist ein Open-Source-Tool für die Sprachtranskription, mit dem Benutzer die Sprachaufnahme durch Drücken der Optionstaste starten und durch Anheben der Taste beenden können. Das Tool ruft Groq Das Modell Whisper Large V3 Turbo führt eine Sprachübersetzung durch und liefert ein schnelles Feedback in 1-2 Sekunden.Whisper Input unterstützt auch die Sprachübersetzung durch die SiliconFlow Gehostetes FunAudioLLM/SenseVoiceSmall-Modell, das eine schnellere Erkennung und höhere Genauigkeit bietet. Es eignet sich besonders für Benutzer, die eine effiziente Spracheingabe benötigen, einschließlich sehbehinderter Menschen.
Funktionsliste
- Sprachaufnahme und ÜbersetzungDrücken Sie die Optionstaste, um die Aufnahme zu starten, heben Sie die Taste an, um die Aufnahme zu beenden, und rufen Sie das Modell automatisch zur Übersetzung an.
- Mehrsprachige UnterstützungUnterstützt die Transkription von Sprache in mehreren Sprachen.
- Schnelles FeedbackDie meisten Spracheingaben können innerhalb von 1-2 Sekunden zurückgegeben werden.
- Kostenlose NutzungUnterstützt die kostenlose Nutzung, die von Groq und SiliconFlow kostenlos angeboten wird.
- Unterstützung der ZeichensetzungInterpunktion: Interpunktion wird automatisch hinzugefügt, um die Lesbarkeit des übersetzten Textes zu verbessern.
- Unterstützung der BarrierefreiheitEin einfacher macOS-Client wird für sehbehinderte Benutzer entwickelt.
Hilfe verwenden
Ablauf der Installation
- VorbedingungenVergewissern Sie sich, dass Sie über eine lokale Python-Umgebung verfügen, die mindestens der Version 3.10 entspricht.
- Klonprojekt::
git clone https://github.com/ErlichLiu/Whisper-Input.git
- Erstellen einer virtuellen Umgebung::
python -m venv venv
- Aktivieren Sie die virtuelle Umgebung::
- macOS/Linux.
bash
Quelle venv/bin/activate
- Fenster.
bash
. \venv\Scripts\aktivieren
- macOS/Linux.
- Installation von Abhängigkeiten::
pip install pip-tools
pip-kompilieren anforderungen.in
pip install -r anforderungen.txt
Konfigurationsmodell
Modell Groq Whisper Large V3
- Anmelden für ein Groq-Konto::Groq Registrierungsseite
- API-Schlüssel abrufen::Groq API-Schlüssel
- Umgebungsvariablen konfigurieren::
cp .env.example .env
Fügen Sie den API KEY in das Feld .env
Dokumentation:
SERVICE_PLATFORM=groq
GROQ_API_KEY=Ihr API_KEY
SiliconFlow FunAudioLLM/SenseVoiceSmall Modelle
- Registrieren Sie sich für ein SiliconFlow-Konto::SiliconFlow Registrierungsseite
- API-Schlüssel abrufen::SiliconFlow API-Schlüssel
- Umgebungsvariablen konfigurieren::
cp .env.example .env
Fügen Sie den API KEY in das Feld .env
Dokumentation:
SERVICE_PLATFORM=siliconflow
SILICONFLOW_API_KEY=Ihr API_KEY
laufendes Programm
- Auslöseverfahren::
python main.py
- VerwendungDrücken Sie die Optionstaste, um die Sprachaufnahme zu starten, heben Sie die Taste an, um die Aufnahme zu beenden. Das Programm führt automatisch eine Sprachübersetzung durch und gibt das Ergebnis zurück.
caveat
- HintergrundbetriebDas Programm muss ständig im Hintergrund laufen, daher empfiehlt es sich, es in einem Terminal oder einer Terminal-Registerkarte laufen zu lassen, die nicht sehr oft geschlossen wird.
- Unterstützung der BarrierefreiheitIn Zukunft wird ein macOS-Client für sehbehinderte Nutzer zur Verfügung gestellt.
Ein Satz Beschreibung (kurz)
Whisper Input ist ein effizientes Sprachkonvertierungstool, das mehrsprachige Spracheingaben unterstützt und Sprache schnell und präzise in Text umwandelt.