Introdução geral
Sussurro O Input é uma ferramenta de transcrição de fala de código aberto que permite que os usuários comecem a gravar a fala pressionando o botão Option e terminem a gravação levantando o botão. A ferramenta chama Groq O modelo Whisper Large V3 Turbo realiza a tradução de fala e fornece feedback rápido em 1 a 2 segundos. SiliconFlow Modelo hospedado do FunAudioLLM/SenseVoiceSmall que oferece reconhecimento mais rápido e maior precisão. É particularmente adequado para usuários que precisam de uma entrada de voz eficiente, incluindo deficientes visuais.
Lista de funções
- Gravação e tradução de vozPressione o botão Option para iniciar a gravação, levante o botão para encerrar a gravação e chame automaticamente o modelo para tradução.
- Suporte a vários idiomasSuporte à transcrição de fala em vários idiomas.
- Feedback rápidoA maioria das entradas de voz pode ser retornada em 1-2 segundos.
- Uso gratuitoSuporte ao uso gratuito fornecido pelo Groq e pelo SiliconFlow sem nenhum custo.
- Suporte à pontuaçãoPontuação: A pontuação é adicionada automaticamente para melhorar a legibilidade do texto traduzido.
- Suporte à acessibilidade: Um cliente simples do macOS está sendo desenvolvido para usuários com deficiência visual.
Usando a Ajuda
Processo de instalação
- pré-condiçõesVerifique se você tem um ambiente Python local, não inferior à versão 3.10.
- projeto de clonagem::
git clone https://github.com/ErlichLiu/Whisper-Input.git
- Criação de um ambiente virtual::
python -m venv venv
- Ativar o ambiente virtual::
- macOS/Linux.
bash
fonte venv/bin/activate
- Windows.
bash
. \venv\Scripts\activate
- macOS/Linux.
- Instalação de dependências::
pip install pip-tools
pip-compile requirements.in
pip install -r requirements.txt
modelo de configuração
Modelo Groq Whisper Large V3
- Registre-se em uma conta Groq::Página de registro do Groq
- Obter a chave da API::Chave da API do Groq
- Configuração de variáveis de ambiente::
cp .env.example .env
Cole a API KEY no campo .env
Documentação:
PLATAFORMA_DO_SERVIÇO=groq
GROQ_API_KEY=sua API_KEY
Modelos pequenos do SiliconFlow FunAudioLLM/SenseVoiceSmall
- Registre uma conta no SiliconFlow::Página de registro do SiliconFlow
- Obter a chave da API::Chave da API do SiliconFlow
- Configuração de variáveis de ambiente::
cp .env.example .env
Cole a API KEY no campo .env
Documentação:
SERVICE_PLATFORM=siliconflow
SILICONFLOW_API_KEY=sua API_KEY
programa de corrida
- procedimento de acionamento::
python main.py
- UsoPressione o botão Option para iniciar a gravação de voz, levante o botão para encerrar a gravação, o programa executará automaticamente a tradução de voz e informará o resultado.
advertência
- operação em segundo planoO programa precisa ser executado em segundo plano o tempo todo, portanto, é recomendável executá-lo em um terminal ou em uma guia de terminal que não seja fechada com frequência.
- Suporte à acessibilidade: No futuro, um cliente macOS será disponibilizado para usuários com deficiência visual.
Descrição de uma frase (breve)
O Whisper Input é uma ferramenta eficiente de conversão de voz que suporta a entrada de voz em vários idiomas e converte a fala em texto com rapidez e precisão para usuários que precisam de uma entrada de voz eficiente.