Introdução geral
O CapsWriter-Offline é uma ferramenta de transcrição de legendas e entrada de voz para PC, hospedada no GitHub e criada pelo desenvolvedor HaujetZhao. Ele é executado totalmente off-line e não requer conexão com a Internet para transcrição de fala para texto e de arquivos de áudio/vídeo para legendas, além de oferecer suporte a tempo de gravação ilimitado, entrada mista de chinês e inglês e reconhecimento de alta precisão. O software é fácil e eficiente de operar, bastando pressionar o atalho do teclado (CapsLock por padrão) para gravar e soltá-lo para inserir automaticamente o resultado do reconhecimento. Além disso, ele pode arrastar arquivos de áudio e vídeo para o cliente para gerar legendas SRT, o que é adequado para usuários que precisam transcrever rapidamente. O CapsWriter-Offline é de código aberto e gratuito para Windows, MacOS e Linux, e é um dos favoritos entre aqueles que precisam de entrada eficiente e produção de legendas.
Lista de funções
- entrada de fala para textoTecla de atalho: pressione a tecla de atalho para gravar e solte-a para converter automaticamente a voz em entrada de texto, com suporte para conteúdo misto em chinês e inglês.
- Horas ilimitadas de transcriçãoTranscrição precisa de conteúdo de fala muito longo por meio de técnicas de reconhecimento de segmentação e eliminação de duplicação.
- Transcrição de áudio e vídeo com legendasSuporte a arrastar arquivos de áudio e vídeo para o cliente para gerar automaticamente legendas no formato SRT.
- substituição de palavras quentesO sistema de reconhecimento de palavras: chinês, inglês e palavras quentes baseadas em regras podem ser personalizadas para melhorar a precisão do reconhecimento de palavras específicas.
- Função de diárioSalvar automaticamente os resultados da gravação como arquivos Markdown e organizar as gravações por data.
- Diário de palavras-chaveReconhece a fala que começa com uma palavra-chave específica e a salva como um arquivo Markdown temático separado.
- Preservação de gravações de alta qualidadeGravação com taxa de amostragem de 48.000: suporta gravação com taxa de amostragem de 48.000, salva no formato MP3 com FFmpeg.
- Suporte a várias plataformasEle é compatível com os sistemas Windows, MacOS e Linux, atendendo às necessidades de vários cenários.
Usando a Ajuda
Processo de instalação
O CapsWriter-Offline é um software de código aberto que os usuários precisam baixar do GitHub e instalar manualmente. Veja a seguir as etapas detalhadas:
1. download de software
- Visite a página do GitHub.
- Selecione a versão apropriada para o seu sistema na seção "Releases":
- Windows 10 e sistemas de 64 bits superiores: Download
CapsWriter-Offline-Windows-64bit.zip
(tanto no lado do servidor quanto no lado do cliente) emodels.zip
(arquivo de modelo). - Windows 7 e sistemas de 32 bits superiores: Download
CapsWriter-Offline-Windows-32bit-Client.zip
(Somente cliente, é necessário conectar-se a outros servidores na LAN). - MacOS/LinuxCompilação: Você precisa compilar o código-fonte por conta própria ou consultar a versão empacotada fornecida pela comunidade.
- Windows 10 e sistemas de 64 bits superiores: Download
- Descompacte o arquivo após a conclusão do download e coloque o arquivo
models.zip
Descompacte-o e coloque-o no diretório do software emmodelos
Pasta.
2. preparação ambiental
- Usuário do Windows::
- Certifique-se de que seu sistema seja Windows 10 ou superior (necessário no lado do servidor), com pelo menos 4 GB de RAM (sistemas de 64 bits).
- Se quiser gravar no formato MP3, você precisará instalar o FFmpeg e configurar as variáveis de ambiente.
- Usuários do MacOS::
- montagem
protobuf
(em execução)brew install protobuf
). - O cliente precisa começar com o
sudo
para executar, o atalho padrão é a tecla Shift direita.
- montagem
- Usuários do Linux::
- montagem
xclip
(em execução)sudo apt-get install xclip
) para dar suporte à funcionalidade da área de transferência.
- montagem
3. executar o software
- no lado do servidor: Descompacte e clique duas vezes
start_server.exe
(Windows) ou executecore_server.py
(requer Python 3.8-3.10 e dependências). O modelo é carregado após a inicialização (ocupa cerca de 2 GB de memória e 50 segundos). - cliente (computação): Clique duas vezes
start_client.exe
(Windows) ou executecore_client.py
(MacOS/Linux necessário)sudo
). Ele ouve o microfone e os atalhos padrão quando é iniciado.
Funções principais
entrada de fala para texto
- Iniciando o clienteSe o cliente for executado, o software ouvirá a tecla CapsLock por padrão (Shift direito no MacOS).
- operação de gravação::
- Pressione e mantenha pressionada a tecla CapsLock para iniciar a gravação (gravações com menos de 0,3 segundos são ignoradas).
- Depois de soltar a tecla, o software converte automaticamente a fala em texto e o insere na posição atual do cursor.
- Ajuste das configurações::
- existir
config.py
Modifique as teclas de atalho no arquivo (atalho
), se a saída deve ser colada (colar
) e outros parâmetros. - Para restaurar o status do CapsLock, defina a opção
restore_key
configurado comoVerdadeiro
.
- existir
Transcrição de áudio e vídeo com legendas
- Preparar o documentoVerifique se o cliente está em execução e se o servidor está funcionando corretamente.
- Arrastar e soltar arquivosArraste arquivos de áudio e vídeo (por exemplo, MP4, WAV) para o
start_client.exe
Para cima. - Gerar legendasO software reconhece automaticamente o conteúdo de áudio e gera um arquivo SRT, que é salvo no mesmo diretório.
- advertênciaSe o arquivo for grande, é recomendável verificar previamente o espaço na memória e no disco rígido, pois o tempo de reconhecimento está relacionado ao tamanho do arquivo.
substituição de palavras quentes
- Editar arquivo de hotwordNo diretório do software, localize o arquivo
hot-zh.txt
(em chinês),hot-en.txt
(Inglês),hot-rule.txt
(regras personalizadas). - Adicionar palavra-chave::
- Uma palavra quente chinesa por linha (por exemplo, "inteligência artificial"), com base na substituição de pinyin.
- Palavras quentes em inglês, uma por linha (por exemplo, "AI"), com base em substituições ortográficas.
- As regras personalizadas são separadas por um sinal de igual (por exemplo, "miliampere-hora = mAh").
- Modo de entrada em vigorO cliente carrega dinamicamente palavras de destaque para melhorar o reconhecimento da terminologia.
Função de diário
- Ativação do diárioAtivado por padrão, cada resultado de gravação será salvo no
Ano/mês/data.md
Documentação. - Preservação de registros: Os arquivos de áudio são depositados automaticamente
Ano/mês/ativos
suporta o formato WAV ou MP3. - Diário de palavras-chave::
- compilador
palavras-chave.txt
Adicione uma palavra-chave (por exemplo, "reunião") a cada linha. - Quando a voz começa com uma palavra-chave, o resultado é salvo separadamente como um
Year/Month/Keyword-Date.md
.
- compilador
- Liberação de redundânciaExecute o script Python incluído para remover arquivos de áudio não referenciados pelo Markdown.
Demonstração do fluxo de operação
- Cenário 1: Inserção rápida de anotações
Abra o cliente -> pressione e mantenha pressionada a tecla CapsLock -> diga "reunião hoje à tarde para discutir o andamento do projeto" -> solte a tecla -> o texto é inserido automaticamente no documento -> salve como arquivo de diário. - Cenário 2: Vídeo para legenda
Prepare o arquivo MP4 -> Arraste para o cliente -> Aguarde o processamento (o progresso é mostrado no terminal) -> Verifique o arquivo SRT gerado -> Importe para o software de edição de vídeo para uso.
advertência
- Se o servidor não for iniciado, o cliente exibirá um erro de conexão. Você precisa garantir que o servidor esteja em execução no servidor
127.0.0.1:6016
(endereço padrão). - Os usuários do MacOS precisarão permitir privilégios de microfone e poderão acessar o microfone do terminal como um
sudo
Execute o cliente. - O excesso de hot words pode aumentar a latência de 3ms/10.000 entradas; recomenda-se simplificar as palavras comuns.