Aprendizagem pessoal com IA
e orientação prática
Recomendação de recursos 1

CapsWriter-Offline: ferramenta de entrada de fala e transcrição de legendas para PC

Introdução geral

O CapsWriter-Offline é uma ferramenta de transcrição de legendas e entrada de voz para PC, hospedada no GitHub e criada pelo desenvolvedor HaujetZhao. Ele é executado totalmente off-line e não requer conexão com a Internet para transcrição de fala para texto e de arquivos de áudio/vídeo para legendas, além de oferecer suporte a tempo de gravação ilimitado, entrada mista de chinês e inglês e reconhecimento de alta precisão. O software é fácil e eficiente de operar, bastando pressionar o atalho do teclado (CapsLock por padrão) para gravar e soltá-lo para inserir automaticamente o resultado do reconhecimento. Além disso, ele pode arrastar arquivos de áudio e vídeo para o cliente para gerar legendas SRT, o que é adequado para usuários que precisam transcrever rapidamente. O CapsWriter-Offline é de código aberto e gratuito para Windows, MacOS e Linux, e é um dos favoritos entre aqueles que precisam de entrada eficiente e produção de legendas.

CapsWriter-Offline: ferramenta de entrada de fala e transcrição de legendas para PC-1


 

CapsWriter-Offline: ferramenta de entrada de fala e transcrição de legendas para PC-1

 

Lista de funções

  • entrada de fala para textoTecla de atalho: pressione a tecla de atalho para gravar e solte-a para converter automaticamente a voz em entrada de texto, com suporte para conteúdo misto em chinês e inglês.
  • Horas ilimitadas de transcriçãoTranscrição precisa de conteúdo de fala muito longo por meio de técnicas de reconhecimento de segmentação e eliminação de duplicação.
  • Transcrição de áudio e vídeo com legendasSuporte a arrastar arquivos de áudio e vídeo para o cliente para gerar automaticamente legendas no formato SRT.
  • substituição de palavras quentesO sistema de reconhecimento de palavras: chinês, inglês e palavras quentes baseadas em regras podem ser personalizadas para melhorar a precisão do reconhecimento de palavras específicas.
  • Função de diárioSalvar automaticamente os resultados da gravação como arquivos Markdown e organizar as gravações por data.
  • Diário de palavras-chaveReconhece a fala que começa com uma palavra-chave específica e a salva como um arquivo Markdown temático separado.
  • Preservação de gravações de alta qualidadeGravação com taxa de amostragem de 48.000: suporta gravação com taxa de amostragem de 48.000, salva no formato MP3 com FFmpeg.
  • Suporte a várias plataformasEle é compatível com os sistemas Windows, MacOS e Linux, atendendo às necessidades de vários cenários.

 

Usando a Ajuda

Processo de instalação

O CapsWriter-Offline é um software de código aberto que os usuários precisam baixar do GitHub e instalar manualmente. Veja a seguir as etapas detalhadas:

1. download de software

  • Visite a página do GitHub.
  • Selecione a versão apropriada para o seu sistema na seção "Releases":
    • Windows 10 e sistemas de 64 bits superiores: Download CapsWriter-Offline-Windows-64bit.zip(tanto no lado do servidor quanto no lado do cliente) e models.zip(arquivo de modelo).
    • Windows 7 e sistemas de 32 bits superiores: Download CapsWriter-Offline-Windows-32bit-Client.zip(Somente cliente, é necessário conectar-se a outros servidores na LAN).
    • MacOS/LinuxCompilação: Você precisa compilar o código-fonte por conta própria ou consultar a versão empacotada fornecida pela comunidade.
  • Descompacte o arquivo após a conclusão do download e coloque o arquivo models.zip Descompacte-o e coloque-o no diretório do software em modelos Pasta.

2. preparação ambiental

  • Usuário do Windows::
    • Certifique-se de que seu sistema seja Windows 10 ou superior (necessário no lado do servidor), com pelo menos 4 GB de RAM (sistemas de 64 bits).
    • Se quiser gravar no formato MP3, você precisará instalar o FFmpeg e configurar as variáveis de ambiente.
  • Usuários do MacOS::
    • montagem protobuf(em execução) brew install protobuf).
    • O cliente precisa começar com o sudo para executar, o atalho padrão é a tecla Shift direita.
  • Usuários do Linux::
    • montagem xclip(em execução) sudo apt-get install xclip) para dar suporte à funcionalidade da área de transferência.

3. executar o software

  • no lado do servidor: Descompacte e clique duas vezes start_server.exe(Windows) ou execute core_server.py(requer Python 3.8-3.10 e dependências). O modelo é carregado após a inicialização (ocupa cerca de 2 GB de memória e 50 segundos).
  • cliente (computação): Clique duas vezes start_client.exe(Windows) ou execute core_client.py(MacOS/Linux necessário) sudo). Ele ouve o microfone e os atalhos padrão quando é iniciado.

Funções principais

entrada de fala para texto

  1. Iniciando o clienteSe o cliente for executado, o software ouvirá a tecla CapsLock por padrão (Shift direito no MacOS).
  2. operação de gravação::
    • Pressione e mantenha pressionada a tecla CapsLock para iniciar a gravação (gravações com menos de 0,3 segundos são ignoradas).
    • Depois de soltar a tecla, o software converte automaticamente a fala em texto e o insere na posição atual do cursor.
  3. Ajuste das configurações::
    • existir config.py Modifique as teclas de atalho no arquivo (atalho), se a saída deve ser colada (colar) e outros parâmetros.
    • Para restaurar o status do CapsLock, defina a opção restore_key configurado como Verdadeiro.

Transcrição de áudio e vídeo com legendas

  1. Preparar o documentoVerifique se o cliente está em execução e se o servidor está funcionando corretamente.
  2. Arrastar e soltar arquivosArraste arquivos de áudio e vídeo (por exemplo, MP4, WAV) para o start_client.exe Para cima.
  3. Gerar legendasO software reconhece automaticamente o conteúdo de áudio e gera um arquivo SRT, que é salvo no mesmo diretório.
  4. advertênciaSe o arquivo for grande, é recomendável verificar previamente o espaço na memória e no disco rígido, pois o tempo de reconhecimento está relacionado ao tamanho do arquivo.

substituição de palavras quentes

  1. Editar arquivo de hotwordNo diretório do software, localize o arquivo hot-zh.txt(em chinês),hot-en.txt(Inglês),hot-rule.txt(regras personalizadas).
  2. Adicionar palavra-chave::
    • Uma palavra quente chinesa por linha (por exemplo, "inteligência artificial"), com base na substituição de pinyin.
    • Palavras quentes em inglês, uma por linha (por exemplo, "AI"), com base em substituições ortográficas.
    • As regras personalizadas são separadas por um sinal de igual (por exemplo, "miliampere-hora = mAh").
  3. Modo de entrada em vigorO cliente carrega dinamicamente palavras de destaque para melhorar o reconhecimento da terminologia.

Função de diário

  1. Ativação do diárioAtivado por padrão, cada resultado de gravação será salvo no Ano/mês/data.md Documentação.
  2. Preservação de registros: Os arquivos de áudio são depositados automaticamente Ano/mês/ativos suporta o formato WAV ou MP3.
  3. Diário de palavras-chave::
    • compilador palavras-chave.txtAdicione uma palavra-chave (por exemplo, "reunião") a cada linha.
    • Quando a voz começa com uma palavra-chave, o resultado é salvo separadamente como um Year/Month/Keyword-Date.md.
  4. Liberação de redundânciaExecute o script Python incluído para remover arquivos de áudio não referenciados pelo Markdown.

Demonstração do fluxo de operação

  • Cenário 1: Inserção rápida de anotações
    Abra o cliente -> pressione e mantenha pressionada a tecla CapsLock -> diga "reunião hoje à tarde para discutir o andamento do projeto" -> solte a tecla -> o texto é inserido automaticamente no documento -> salve como arquivo de diário.
  • Cenário 2: Vídeo para legenda
    Prepare o arquivo MP4 -> Arraste para o cliente -> Aguarde o processamento (o progresso é mostrado no terminal) -> Verifique o arquivo SRT gerado -> Importe para o software de edição de vídeo para uso.

advertência

  • Se o servidor não for iniciado, o cliente exibirá um erro de conexão. Você precisa garantir que o servidor esteja em execução no servidor 127.0.0.1:6016(endereço padrão).
  • Os usuários do MacOS precisarão permitir privilégios de microfone e poderão acessar o microfone do terminal como um sudo Execute o cliente.
  • O excesso de hot words pode aumentar a latência de 3ms/10.000 entradas; recomenda-se simplificar as palavras comuns.
Endereço para download de documentos relacionados
Os direitos autorais dos recursos de download © pertencem ao autor; todos os recursos deste site são da rede, apenas para fins de aprendizado; por favor, apoie a versão original!
Download de ferramentas
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " CapsWriter-Offline: ferramenta de entrada de fala e transcrição de legendas para PC

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil