Whisper Input: un servicio gratuito y rápido de transcripción de voz a texto mediante Groq
Últimos recursos sobre IAPublicado hace 6 meses Círculo de intercambio de inteligencia artificial 1.5K 00
Introducción general
Susurro Input es una herramienta de transcripción de voz de código abierto que permite a los usuarios empezar a grabar voz pulsando el botón Opción y finalizar la grabación levantando el botón. La herramienta llama a Groq El modelo Whisper Large V3 Turbo realiza la traducción de voz y proporciona una respuesta rápida en 1-2 segundos.Whisper Input también admite la traducción de voz por el SiliconFlow Modelo FunAudioLLM/SenseVoiceSmall alojado que proporciona un reconocimiento más rápido y una mayor precisión. Es especialmente adecuado para usuarios que requieren una entrada de voz eficiente, incluidas las personas con discapacidad visual.

Lista de funciones
- Grabación de voz y traducción: Pulse el botón Opción para iniciar la grabación, levante el botón para finalizar la grabación y llame automáticamente al modelo para su traducción.
- Soporte multilingüe: Admite la transcripción de voz en varios idiomas.
- Respuesta rápida: La mayoría de las entradas de voz pueden devolverse en 1-2 segundos.
- Uso gratuito: Soporta el uso gratuito proporcionado por Groq y SiliconFlow sin coste alguno.
- Soporte de puntuaciónLa puntuación se añade automáticamente para mejorar la legibilidad del texto traducido.
- Apoyo a la accesibilidad: Se está desarrollando un sencillo cliente macOS para usuarios con discapacidad visual.
Utilizar la ayuda
Proceso de instalación
- condiciones previasAsegúrese de que dispone de un entorno Python local, no inferior a la versión 3.10.
- proyecto de clonación::
git clone https://github.com/ErlichLiu/Whisper-Input.git
- Creación de un entorno virtual::
python -m venv venv
- Activar el entorno virtual::
- macOS/Linux.
bash
source venv/bin/activate - Ventanas.
bash
.\venv\Scripts\activate
- macOS/Linux.
- Instalación de dependencias::
pip install pip-tools
pip-compile requirements.in
pip install -r requirements.txt
modelo de configuración
Modelo Groq Whisper Large V3
- Regístrese para obtener una cuenta Groq::Página de registro de Groq
- Obtener CLAVE API::CLAVE API Groq
- Configuración de variables de entorno::
cp .env.example .env
Pegue la CLAVE API en el campo .env
Documentación:
SERVICE_PLATFORM=groq
GROQ_API_KEY=你的API_KEY
SiliconFlow FunAudioLLM/SenseVoiceModelos pequeños
- Regístrese para obtener una cuenta SiliconFlow::Página de registro de SiliconFlow
- Obtener CLAVE API::CLAVE API SiliconFlow
- Configuración de variables de entorno::
cp .env.example .env
Pegue la CLAVE API en el campo .env
Documentación:
SERVICE_PLATFORM=siliconflow
SILICONFLOW_API_KEY=你的API_KEY
programa de carrera
- procedimiento de activación::
python main.py
- UtilizaciónPulse el botón Opción para iniciar la grabación de voz, levante el botón para finalizar la grabación, el programa realizará automáticamente la traducción de voz y le informará del resultado.
advertencia
- operación de fondo: El programa debe ejecutarse en segundo plano todo el tiempo, por lo que se recomienda ejecutarlo en un terminal o pestaña de terminal que no se cierre muy a menudo.
- Apoyo a la accesibilidad: En el futuro, se pondrá a disposición de los usuarios con discapacidad visual un cliente para macOS.
Descripción en una frase (breve)
Whisper Input es una eficaz herramienta de conversión de voz que admite la entrada de voz en varios idiomas y convierte la voz en texto de forma rápida y precisa para los usuarios que necesitan una entrada de voz eficaz.
© declaración de copyright
El artículo está protegido por derechos de autor y no debe reproducirse sin autorización.
Artículos relacionados
Sin comentarios...