CapsWriter-Offline: ferramenta de entrada de fala e transcrição de legendas para PC

Recursos mais recentes de IAPublicado há 7 meses Círculo de compartilhamento de IA

18.9K 00

Introdução geral

O CapsWriter-Offline é uma ferramenta de transcrição de legendas e entrada de voz para PC, hospedada no GitHub e criada pelo desenvolvedor HaujetZhao. Ele é executado totalmente off-line e não requer conexão com a Internet para transcrição de fala para texto e de arquivos de áudio/vídeo para legendas, além de oferecer suporte a tempo de gravação ilimitado, entrada mista de chinês e inglês e reconhecimento de alta precisão. O software é fácil e eficiente de operar, bastando pressionar o atalho do teclado (CapsLock por padrão) para gravar e soltá-lo para inserir automaticamente o resultado do reconhecimento. Além disso, ele pode arrastar arquivos de áudio e vídeo para o cliente para gerar legendas SRT, o que é adequado para usuários que precisam transcrever rapidamente. O CapsWriter-Offline é de código aberto e gratuito para Windows, MacOS e Linux, e é um dos favoritos entre aqueles que precisam de entrada eficiente e produção de legendas.

Lista de funções

entrada de fala para textoTecla de atalho: pressione a tecla de atalho para gravar e solte-a para converter automaticamente a voz em entrada de texto, com suporte para conteúdo misto em chinês e inglês.
Horas ilimitadas de transcriçãoTranscrição precisa de conteúdo de fala muito longo por meio de técnicas de reconhecimento de segmentação e eliminação de duplicação.
Transcrição de áudio e vídeo com legendasSuporte a arrastar arquivos de áudio e vídeo para o cliente para gerar automaticamente legendas no formato SRT.
substituição de palavras quentesO sistema de reconhecimento de palavras: chinês, inglês e palavras quentes baseadas em regras podem ser personalizadas para melhorar a precisão do reconhecimento de palavras específicas.
Função de diárioSalvar automaticamente os resultados da gravação como arquivos Markdown e organizar as gravações por data.
Diário de palavras-chaveReconhece a fala que começa com uma palavra-chave específica e a salva como um arquivo Markdown temático separado.
Preservação de gravações de alta qualidadeGravação com taxa de amostragem de 48.000: suporta gravação com taxa de amostragem de 48.000, salva no formato MP3 com FFmpeg.
Suporte a várias plataformasEle é compatível com os sistemas Windows, MacOS e Linux, atendendo às necessidades de vários cenários.

Usando a Ajuda

Processo de instalação

O CapsWriter-Offline é um software de código aberto que os usuários precisam baixar do GitHub e instalar manualmente. Veja a seguir as etapas detalhadas:

1. download de software

Visite a página do GitHub.
Selecione a versão apropriada para o seu sistema na seção "Releases":
- Windows 10 e sistemas de 64 bits superiores: Download CapsWriter-Offline-Windows-64bit.zip(tanto no lado do servidor quanto no lado do cliente) e models.zip(arquivo de modelo).
- Windows 7 e sistemas de 32 bits superiores: Download CapsWriter-Offline-Windows-32bit-Client.zip(Somente cliente, é necessário conectar-se a outros servidores na LAN).
- MacOS/LinuxCompilação: Você precisa compilar o código-fonte por conta própria ou consultar a versão empacotada fornecida pela comunidade.
Descompacte o arquivo após a conclusão do download e coloque o arquivo models.zip Descompacte-o e coloque-o no diretório do software em models Pasta.

2. preparação ambiental

Usuário do Windows::
- Certifique-se de que seu sistema seja Windows 10 ou superior (necessário no lado do servidor), com pelo menos 4 GB de RAM (sistemas de 64 bits).
- Se quiser gravar no formato MP3, você precisará instalar o FFmpeg e configurar as variáveis de ambiente.
Usuários do MacOS::
- montagem protobuf(em execução) brew install protobuf).
- O cliente precisa começar com o sudo para executar, o atalho padrão é a tecla Shift direita.
Usuários do Linux::
- montagem xclip(em execução) sudo apt-get install xclip) para dar suporte à funcionalidade da área de transferência.

3. executar o software

no lado do servidor: Descompacte e clique duas vezes start_server.exe(Windows) ou execute core_server.py(requer Python 3.8-3.10 e dependências). O modelo é carregado após a inicialização (ocupa cerca de 2 GB de memória e 50 segundos).
cliente (computação): Clique duas vezes start_client.exe(Windows) ou execute core_client.py(MacOS/Linux necessário) sudo). Ele ouve o microfone e os atalhos padrão quando é iniciado.

Funções principais

entrada de fala para texto

Iniciando o clienteSe o cliente for executado, o software ouvirá a tecla CapsLock por padrão (Shift direito no MacOS).
operação de gravação::
- Pressione e mantenha pressionada a tecla CapsLock para iniciar a gravação (gravações com menos de 0,3 segundos são ignoradas).
- Depois de soltar a tecla, o software converte automaticamente a fala em texto e o insere na posição atual do cursor.
Ajuste das configurações::
- existir config.py Modifique as teclas de atalho no arquivo (shortcut), se a saída deve ser colada (paste) e outros parâmetros.
- Para restaurar o status do CapsLock, defina a opção restore_key configurado como True.

Transcrição de áudio e vídeo com legendas

Preparar o documentoVerifique se o cliente está em execução e se o servidor está funcionando corretamente.
Arrastar e soltar arquivosArraste arquivos de áudio e vídeo (por exemplo, MP4, WAV) para o start_client.exe Para cima.
Gerar legendasO software reconhece automaticamente o conteúdo de áudio e gera um arquivo SRT, que é salvo no mesmo diretório.
advertênciaSe o arquivo for grande, é recomendável verificar previamente o espaço na memória e no disco rígido, pois o tempo de reconhecimento está relacionado ao tamanho do arquivo.

substituição de palavras quentes

Editar arquivo de hotwordNo diretório do software, localize o arquivo hot-zh.txt(em chinês),hot-en.txt(Inglês),hot-rule.txt(regras personalizadas).
Adicionar palavra-chave::
- Uma palavra quente chinesa por linha (por exemplo, "inteligência artificial"), com base na substituição de pinyin.
- Palavras quentes em inglês, uma por linha (por exemplo, "AI"), com base em substituições ortográficas.
- As regras personalizadas são separadas por um sinal de igual (por exemplo, "miliampere-hora = mAh").
Modo de entrada em vigorO cliente carrega dinamicamente palavras de destaque para melhorar o reconhecimento da terminologia.

Função de diário

Ativação do diárioAtivado por padrão, cada resultado de gravação será salvo no 年份/月份/日期.md Documentação.
Preservação de registros: Os arquivos de áudio são depositados automaticamente 年份/月份/assets suporta o formato WAV ou MP3.
Diário de palavras-chave::
- compilador keywords.txtAdicione uma palavra-chave (por exemplo, "reunião") a cada linha.
- Quando a voz começa com uma palavra-chave, o resultado é salvo separadamente como um 年份/月份/关键词-日期.md.
Liberação de redundânciaExecute o script Python incluído para remover arquivos de áudio não referenciados pelo Markdown.

Demonstração do fluxo de operação

Cenário 1: Inserção rápida de anotações
Abra o cliente -> pressione e mantenha pressionada a tecla CapsLock -> diga "reunião hoje à tarde para discutir o andamento do projeto" -> solte a tecla -> o texto é inserido automaticamente no documento -> salve como arquivo de diário.
Cenário 2: Vídeo para legenda
Prepare o arquivo MP4 -> Arraste para o cliente -> Aguarde o processamento (o progresso é mostrado no terminal) -> Verifique o arquivo SRT gerado -> Importe para o software de edição de vídeo para uso.

advertência

Se o servidor não for iniciado, o cliente exibirá um erro de conexão. Você precisa garantir que o servidor esteja em execução no servidor 127.0.0.1:6016(endereço padrão).
Os usuários do MacOS precisarão permitir privilégios de microfone e poderão acessar o microfone do terminal como um sudo Execute o cliente.
O excesso de hot words pode aumentar a latência de 3ms/10.000 entradas; recomenda-se simplificar as palavras comuns.