Whisper Input: um serviço de transcrição de voz para texto gratuito e de alta velocidade que usa o Groq

Recursos mais recentes de IAPublicado há 7 meses Círculo de compartilhamento de IA

13.4K 00

Introdução geral

Sussurro O Input é uma ferramenta de transcrição de fala de código aberto que permite que os usuários comecem a gravar a fala pressionando o botão Option e terminem a gravação levantando o botão. A ferramenta chama Groq O modelo Whisper Large V3 Turbo realiza a tradução de fala e fornece feedback rápido em 1 a 2 segundos. SiliconFlow Modelo hospedado do FunAudioLLM/SenseVoiceSmall que oferece reconhecimento mais rápido e maior precisão. É particularmente adequado para usuários que precisam de uma entrada de voz eficiente, incluindo deficientes visuais.

Lista de funções

Gravação e tradução de vozPressione o botão Option para iniciar a gravação, levante o botão para encerrar a gravação e chame automaticamente o modelo para tradução.
Suporte a vários idiomasSuporte à transcrição de fala em vários idiomas.
Feedback rápidoA maioria das entradas de voz pode ser retornada em 1-2 segundos.
Uso gratuitoSuporte ao uso gratuito fornecido pelo Groq e pelo SiliconFlow sem nenhum custo.
Suporte à pontuaçãoPontuação: A pontuação é adicionada automaticamente para melhorar a legibilidade do texto traduzido.
Suporte à acessibilidade: Um cliente simples do macOS está sendo desenvolvido para usuários com deficiência visual.

Usando a Ajuda

Processo de instalação

pré-condiçõesVerifique se você tem um ambiente Python local, não inferior à versão 3.10.
projeto de clonagem::

   git clone https://github.com/ErlichLiu/Whisper-Input.git

Criação de um ambiente virtual::

   python -m venv venv

Ativar o ambiente virtual::
- macOS/Linux. bash source venv/bin/activate
- Windows. bash .\venv\Scripts\activate
Instalação de dependências::

   pip install pip-tools
pip-compile requirements.in
pip install -r requirements.txt

modelo de configuração

Modelo Groq Whisper Large V3

Registre-se em uma conta Groq::Página de registro do Groq
Obter a chave da API::Chave da API do Groq
Configuração de variáveis de ambiente::

   cp .env.example .env

Cole a API KEY no campo .env Documentação:

   SERVICE_PLATFORM=groq
GROQ_API_KEY=你的API_KEY

Modelos pequenos do SiliconFlow FunAudioLLM/SenseVoiceSmall

Registre uma conta no SiliconFlow::Página de registro do SiliconFlow
Obter a chave da API::Chave da API do SiliconFlow
Configuração de variáveis de ambiente::

   cp .env.example .env

Cole a API KEY no campo .env Documentação:

   SERVICE_PLATFORM=siliconflow
SILICONFLOW_API_KEY=你的API_KEY

programa de corrida

procedimento de acionamento::

   python main.py

UsoPressione o botão Option para iniciar a gravação de voz, levante o botão para encerrar a gravação, o programa executará automaticamente a tradução de voz e informará o resultado.

advertência

operação em segundo planoO programa precisa ser executado em segundo plano o tempo todo, portanto, é recomendável executá-lo em um terminal ou em uma guia de terminal que não seja fechada com frequência.
Suporte à acessibilidade: No futuro, um cliente macOS será disponibilizado para usuários com deficiência visual.

Descrição de uma frase (breve)

O Whisper Input é uma ferramenta eficiente de conversão de voz que suporta a entrada de voz em vários idiomas e converte a fala em texto com rapidez e precisão para usuários que precisam de uma entrada de voz eficiente.

Direitos autorais do artigo Círculo de compartilhamento de IA A todos, favor não reproduzir sem permissão.

OpenAI Edge TTS: API gratuita de conversão de texto em fala usando o Edge TTS, compatível com os formatos OpenAI

Recursos mais recentes de IA # Projeto de código aberto AI Java # Conversão de texto em fala com IA

8 meses atrás

015.2K

WPS Master mind: criação inteligente, geração de documentos e ferramenta de análise de dados, assistente de escritório inteligente e abrangente

Recursos mais recentes de IA # AI Writing Ferramenta de busca # AI # Ferramenta de resumo de texto e áudio/vídeo com IA

8 meses atrás

013.1K

ControlFlow: uma estrutura Python para criar fluxos de trabalho de corpo de inteligência de IA controlados e transparentes

Recursos mais recentes de IA # Projeto de código aberto AI Java Estrutura de desenvolvimento do corpo inteligente #

9 meses atrás

011.4K

EchoMimicV3 - Um modelo de geração de animação humana digital multimodal de código aberto

Recursos mais recentes de IA

6 dias atrás

07.9K

Sem comentários

Você precisa estar conectado para participar dos comentários!

Faça login agora

Nenhum comentário...

Whisper Input: um serviço de transcrição de voz para texto gratuito e de alta velocidade que usa o Groq

Introdução geral

Lista de funções

Usando a Ajuda

Processo de instalação

modelo de configuração

Modelo Groq Whisper Large V3

Modelos pequenos do SiliconFlow FunAudioLLM/SenseVoiceSmall

programa de corrida

advertência

Descrição de uma frase (breve)

Azure TTS Importer: Integrando serviços de síntese de fala ao software de leitura

Quadratic: formulários de análise de dados on-line que integram diálogo de IA e execução de código

Artigos relacionados

OpenAI Edge TTS: API gratuita de conversão de texto em fala usando o Edge TTS, compatível com os formatos OpenAI

WPS Master mind: criação inteligente, geração de documentos e ferramenta de análise de dados, assistente de escritório inteligente e abrangente

ControlFlow: uma estrutura Python para criar fluxos de trabalho de corpo de inteligência de IA controlados e transparentes

EchoMimicV3 - Um modelo de geração de animação humana digital multimodal de código aberto

Sem comentários

Últimas coleções

Artigos mais recentes

Whisper Input: um serviço de transcrição de voz para texto gratuito e de alta velocidade que usa o Groq

Introdução geral

Lista de funções

Usando a Ajuda

Processo de instalação

modelo de configuração

Modelo Groq Whisper Large V3

Modelos pequenos do SiliconFlow FunAudioLLM/SenseVoiceSmall

programa de corrida

advertência

Descrição de uma frase (breve)

Azure TTS Importer: Integrando serviços de síntese de fala ao software de leitura

Quadratic: formulários de análise de dados on-line que integram diálogo de IA e execução de código

Artigos relacionados

OpenAI Edge TTS: API gratuita de conversão de texto em fala usando o Edge TTS, compatível com os formatos OpenAI

WPS Master mind: criação inteligente, geração de documentos e ferramenta de análise de dados, assistente de escritório inteligente e abrangente

ControlFlow: uma estrutura Python para criar fluxos de trabalho de corpo de inteligência de IA controlados e transparentes

EchoMimicV3 - Um modelo de geração de animação humana digital multimodal de código aberto

Sem comentários

Ferramentas de IA selecionadas

Últimas coleções

Artigos mais recentes