Whisper Input: ein kostenloser und schneller Sprach-zu-Text-Transkriptionsdienst mit Groq

Neueste AI-RessourcenGeschrieben vor 7 Monaten AI-Austauschkreis

22.1K 00

Allgemeine Einführung

Flüstern Input ist ein Open-Source-Sprachtranskriptionstool, mit dem Benutzer die Sprachaufnahme durch Drücken der Optionstaste starten und durch Anheben der Taste beenden können. Das Tool ruft Groq Das Modell Whisper Large V3 Turbo führt eine Sprachübersetzung durch und liefert ein schnelles Feedback in 1-2 Sekunden.Whisper Input unterstützt auch die Sprachübersetzung durch die SiliconFlow Gehostetes FunAudioLLM/SenseVoiceSmall-Modell, das eine schnellere Erkennung und höhere Genauigkeit bietet. Es eignet sich besonders für Benutzer, die eine effiziente Spracheingabe benötigen, einschließlich sehbehinderter Menschen.

Funktionsliste

Sprachaufnahme und ÜbersetzungDrücken Sie die Optionstaste, um die Aufnahme zu starten, heben Sie die Taste an, um die Aufnahme zu beenden, und rufen Sie das Modell automatisch zur Übersetzung an.
Unterstützung mehrerer SprachenUnterstützt die Transkription von Sprache in mehreren Sprachen.
Schnelles FeedbackDie meisten Spracheingaben können innerhalb von 1-2 Sekunden zurückgegeben werden.
Kostenlose NutzungUnterstützt die kostenlose Nutzung, die von Groq und SiliconFlow kostenlos angeboten wird.
Unterstützung der ZeichensetzungInterpunktion: Interpunktion wird automatisch hinzugefügt, um die Lesbarkeit des übersetzten Textes zu verbessern.
Unterstützung der BarrierefreiheitEin einfacher macOS-Client wird für sehbehinderte Benutzer entwickelt.

Hilfe verwenden

Einbauverfahren

VorbedingungenVergewissern Sie sich, dass Sie über eine lokale Python-Umgebung verfügen, die mindestens der Version 3.10 entspricht.
Klonprojekt::

   git clone https://github.com/ErlichLiu/Whisper-Input.git

Erstellen einer virtuellen Umgebung::

   python -m venv venv

Aktivieren Sie die virtuelle Umgebung::
- macOS/Linux. bash source venv/bin/activate
- Fenster. bash .\venv\Scripts\activate
Installation von Abhängigkeiten::

   pip install pip-tools
pip-compile requirements.in
pip install -r requirements.txt

Konfigurationsmodell

Modell Groq Whisper Large V3

Anmelden für ein Groq-Konto::Groq Registrierungsseite
API-Schlüssel abrufen::Groq API-Schlüssel
Umgebungsvariablen konfigurieren::

   cp .env.example .env

Fügen Sie den API KEY in das Feld .env Dokumentation:

   SERVICE_PLATFORM=groq
GROQ_API_KEY=你的API_KEY

SiliconFlow FunAudioLLM/SenseVoiceSmall Modelle

Registrieren Sie sich für ein SiliconFlow-Konto::SiliconFlow Registrierungsseite
API-Schlüssel abrufen::SiliconFlow API-Schlüssel
Umgebungsvariablen konfigurieren::

   cp .env.example .env

Fügen Sie den API KEY in das Feld .env Dokumentation:

   SERVICE_PLATFORM=siliconflow
SILICONFLOW_API_KEY=你的API_KEY

laufendes Programm

Auslöseverfahren::

   python main.py

VerwendungDrücken Sie die Optionstaste, um die Sprachaufnahme zu starten, heben Sie die Taste an, um die Aufnahme zu beenden. Das Programm führt automatisch eine Sprachübersetzung durch und gibt das Ergebnis zurück.

caveat

HintergrundbetriebDas Programm muss ständig im Hintergrund laufen, daher empfiehlt es sich, es in einem Terminal oder einer Terminal-Registerkarte laufen zu lassen, die nicht sehr oft geschlossen wird.
Unterstützung der BarrierefreiheitIn Zukunft wird ein macOS-Client für sehbehinderte Nutzer zur Verfügung gestellt.

Ein Satz Beschreibung (kurz)

Whisper Input ist ein effizientes Sprachkonvertierungstool, das mehrsprachige Spracheingaben unterstützt und Sprache schnell und präzise in Text umwandelt.