Whisper Input: un servicio gratuito y rápido de transcripción de voz a texto mediante Groq

Últimos recursos sobre IAPublicado hace 1 año Círculo de intercambio de inteligencia artificial

71.1K 00

Introducción general

Susurro Input es una herramienta de transcripción de voz de código abierto que permite a los usuarios empezar a grabar voz pulsando el botón Opción y finalizar la grabación levantando el botón. La herramienta llama a Groq El modelo Whisper Large V3 Turbo realiza la traducción de voz y proporciona una respuesta rápida en 1-2 segundos.Whisper Input también admite la traducción de voz por el SiliconFlow Modelo FunAudioLLM/SenseVoiceSmall alojado que proporciona un reconocimiento más rápido y una mayor precisión. Es especialmente adecuado para usuarios que requieren una entrada de voz eficiente, incluidas las personas con discapacidad visual.

Lista de funciones

Grabación de voz y traducción: Pulse el botón Opción para iniciar la grabación, levante el botón para finalizar la grabación y llame automáticamente al modelo para su traducción.
Soporte multilingüe: Admite la transcripción de voz en varios idiomas.
Respuesta rápida: La mayoría de las entradas de voz pueden devolverse en 1-2 segundos.
Uso gratuito: Soporta el uso gratuito proporcionado por Groq y SiliconFlow sin coste alguno.
Soporte de puntuaciónLa puntuación se añade automáticamente para mejorar la legibilidad del texto traducido.
Apoyo a la accesibilidad: Se está desarrollando un sencillo cliente macOS para usuarios con discapacidad visual.

Utilizar la ayuda

Proceso de instalación

condiciones previasAsegúrese de que dispone de un entorno Python local, no inferior a la versión 3.10.
proyecto de clonación::

   git clone https://github.com/ErlichLiu/Whisper-Input.git

Creación de un entorno virtual::

   python -m venv venv

Activar el entorno virtual::
- macOS/Linux. bash source venv/bin/activate
- Ventanas. bash .\venv\Scripts\activate
Instalación de dependencias::

   pip install pip-tools
pip-compile requirements.in
pip install -r requirements.txt

modelo de configuración

Modelo Groq Whisper Large V3

Regístrese para obtener una cuenta Groq::Página de registro de Groq
Obtener CLAVE API::CLAVE API Groq
Configuración de variables de entorno::

   cp .env.example .env

Pegue la CLAVE API en el campo .env Documentación:

   SERVICE_PLATFORM=groq
GROQ_API_KEY=你的API_KEY

SiliconFlow FunAudioLLM/SenseVoiceModelos pequeños

Regístrese para obtener una cuenta SiliconFlow::Página de registro de SiliconFlow
Obtener CLAVE API::CLAVE API SiliconFlow
Configuración de variables de entorno::

   cp .env.example .env

Pegue la CLAVE API en el campo .env Documentación:

   SERVICE_PLATFORM=siliconflow
SILICONFLOW_API_KEY=你的API_KEY

programa de carrera

procedimiento de activación::

   python main.py

UtilizaciónPulse el botón Opción para iniciar la grabación de voz, levante el botón para finalizar la grabación, el programa realizará automáticamente la traducción de voz y le informará del resultado.

advertencia

operación de fondo: El programa debe ejecutarse en segundo plano todo el tiempo, por lo que se recomienda ejecutarlo en un terminal o pestaña de terminal que no se cierre muy a menudo.
Apoyo a la accesibilidad: En el futuro, se pondrá a disposición de los usuarios con discapacidad visual un cliente para macOS.

Descripción en una frase (breve)

Whisper Input es una eficaz herramienta de conversión de voz que admite la entrada de voz en varios idiomas y convierte la voz en texto de forma rápida y precisa para los usuarios que necesitan una entrada de voz eficaz.