Whisper Input: un servicio gratuito y rápido de transcripción de voz a texto mediante Groq

Introducción general

Susurro Input es una herramienta de transcripción de voz de código abierto que permite a los usuarios empezar a grabar voz pulsando el botón Opción y finalizar la grabación levantando el botón. La herramienta llama a Groq El modelo Whisper Large V3 Turbo realiza la traducción de voz y proporciona una respuesta rápida en 1-2 segundos.Whisper Input también admite la traducción de voz por el SiliconFlow Modelo FunAudioLLM/SenseVoiceSmall alojado que proporciona un reconocimiento más rápido y una mayor precisión. Es especialmente adecuado para usuarios que requieren una entrada de voz eficiente, incluidas las personas con discapacidad visual.

Whisper Input:利用Groq免费且高速的语音转录文本服务

 

Lista de funciones

  • Grabación de voz y traducción: Pulse el botón Opción para iniciar la grabación, levante el botón para finalizar la grabación y llame automáticamente al modelo para su traducción.
  • Soporte multilingüe: Admite la transcripción de voz en varios idiomas.
  • Respuesta rápida: La mayoría de las entradas de voz pueden devolverse en 1-2 segundos.
  • Uso gratuito: Soporta el uso gratuito proporcionado por Groq y SiliconFlow sin coste alguno.
  • Soporte de puntuaciónLa puntuación se añade automáticamente para mejorar la legibilidad del texto traducido.
  • Apoyo a la accesibilidad: Se está desarrollando un sencillo cliente macOS para usuarios con discapacidad visual.

 

Utilizar la ayuda

Proceso de instalación

  1. condiciones previasAsegúrese de que dispone de un entorno Python local, no inferior a la versión 3.10.
  2. proyecto de clonación::
   git clone https://github.com/ErlichLiu/Whisper-Input.git
  1. Creación de un entorno virtual::
   python -m venv venv
  1. Activar el entorno virtual::
    • macOS/Linux. bash
      source venv/bin/activate
    • Ventanas. bash
      .\venv\Scripts\activate
  2. Instalación de dependencias::
   pip install pip-tools
pip-compile requirements.in
pip install -r requirements.txt

modelo de configuración

Modelo Groq Whisper Large V3

  1. Regístrese para obtener una cuenta Groq::Página de registro de Groq
  2. Obtener CLAVE API::CLAVE API Groq
  3. Configuración de variables de entorno::
   cp .env.example .env

Pegue la CLAVE API en el campo .env Documentación:

   SERVICE_PLATFORM=groq
GROQ_API_KEY=你的API_KEY

SiliconFlow FunAudioLLM/SenseVoiceModelos pequeños

  1. Regístrese para obtener una cuenta SiliconFlow::Página de registro de SiliconFlow
  2. Obtener CLAVE API::CLAVE API SiliconFlow
  3. Configuración de variables de entorno::
   cp .env.example .env

Pegue la CLAVE API en el campo .env Documentación:

   SERVICE_PLATFORM=siliconflow
SILICONFLOW_API_KEY=你的API_KEY

programa de carrera

  1. procedimiento de activación::
   python main.py
  1. UtilizaciónPulse el botón Opción para iniciar la grabación de voz, levante el botón para finalizar la grabación, el programa realizará automáticamente la traducción de voz y le informará del resultado.

advertencia

  • operación de fondo: El programa debe ejecutarse en segundo plano todo el tiempo, por lo que se recomienda ejecutarlo en un terminal o pestaña de terminal que no se cierre muy a menudo.
  • Apoyo a la accesibilidad: En el futuro, se pondrá a disposición de los usuarios con discapacidad visual un cliente para macOS.

Descripción en una frase (breve)

Whisper Input es una eficaz herramienta de conversión de voz que admite la entrada de voz en varios idiomas y convierte la voz en texto de forma rápida y precisa para los usuarios que necesitan una entrada de voz eficaz.

© declaración de copyright
AiPPT

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...