Este artigo foi atualizado em 2025-01-18 13:42, parte do conteúdo é sensível ao tempo, se for inválido, por favor, deixe uma mensagem!
Introdução geral
O RealtimeSTT é uma biblioteca de conversão de fala em texto eficiente, de baixa latência e em tempo real, com detecção avançada de atividade de fala e ativação de palavras. Ela foi desenvolvida por Kolja Beigel para dar suporte a aplicativos que exigem transcrição de fala para texto rápida e precisa. Seja um assistente de voz ou um aplicativo que exija a transcrição precisa da fala, o RealtimeSTT oferece excelente desempenho e facilidade de uso.
Lista de funções
- Conversão de fala em texto em tempo real: transcreva a fala em texto em tempo real para uma variedade de cenários de aplicativos.
- Detecção de atividade de fala: detecta automaticamente quando um usuário começa e para de falar, melhorando a precisão da transcrição.
- Ativação por palavra de despertar: suporta a função de palavra de despertar, os usuários podem ativar o sistema por meio de palavras específicas.
- Baixa latência: garanta baixa latência no processo de conversão de fala em texto para melhorar a experiência do usuário.
- Suporte multiplataforma: compatível com vários sistemas operacionais e plataformas para facilitar a integração.
- Código-fonte aberto: forneça código-fonte aberto completo para que os desenvolvedores realizem o desenvolvimento secundário e a personalização.
Usando a Ajuda
Processo de instalação
- Clonagem do Project Warehouse:
git clone https://github.com/KoljaB/RealtimeSTT.git
- Vá para o catálogo de projetos:
cd RealtimeSTT
- Instale a dependência:
pip install -r requirements.txt
- (Opcional) Instale o suporte à GPU:
pip install -r requirements-gpu.txt
Uso
Iniciar o servidor
- Inicie o servidor de fala para texto:
servidor stt
- Depois que o servidor for iniciado, aguarde o prompt "speak now" (fale agora).
Uso do cliente
- Inicie o cliente e conecte-se ao servidor:
stt
- Quando o cliente for iniciado, comece a falar e o sistema transcreverá a fala para texto em tempo real.
Funções principais
conversão de fala para texto em tempo real
- importação (dados)
Gravador de áudio para texto
Classe:
from RealtimeSTT import AudioToTextRecorder
- Define funções que processam texto:
def process_text(text).
print(text)
- Inicia a gravação e processa o texto:
se __name__ == '__main__'.
print("Espere até que ele diga 'falar now'")
registrador = AudioToTextRecorder()
while True.
recorder.text(process_text)
Detecção de atividade de voz
- O sistema detecta automaticamente quando o usuário começa e para de falar, sem necessidade de configuração adicional.
ativação da chamada de despertar
- Configure a função de palavra de ativação, os usuários podem ativar o sistema por meio de palavras específicas; consulte a documentação do projeto para obter a configuração específica.
Exemplo de operação detalhada
Digite tudo o que for dito
- importação (dados)
Gravador de áudio para texto
responder cantandopyautogui
::
from RealtimeSTT import AudioToTextRecorder
importar pyautogui
- Define funções que processam texto:
def process_text(text):
pyautogui.typewrite(text + " ")
- Inicia a gravação e processa o texto:
se __name__ == '__main__'.
print("Wait until it says 'speak now'")
gravador = AudioToTextRecorder()
while True: recorder.text(process_text): print("Wait until it says 'speak now'")
recorder.text(process_text)