Aprendizagem pessoal com IA
e orientação prática

CrisperWhisper: Ferramenta de transcrição exata e fiel da fala

Introdução geral

O CrisperWhisper é uma ferramenta avançada de reconhecimento de fala baseada no OpenAI Whisper que se concentra na transcrição rápida, precisa e palavra por palavra da fala. O CrisperWhisper melhora a precisão do registro de data e hora ajustando o marcador e personalizando a perda de atenção, além de reduzir as ilusões de transcrição para garantir que cada palavra pronunciada seja registrada com precisão.

 

Resumo do documento

O CrisperWhisper é uma versão aprimorada do modelo de reconhecimento de fala Whisper que, ao ajustar o tokenizador e usar o algoritmo Dynamic Time Warping (DTW), permite um registro de tempo mais preciso no nível da palavra, fornece uma transcrição de fala mais granular, melhora a detecção de eventos de pausa e preenchimento de palavras na fala e reduz a produção de alucinações. Ele também reduz a geração de alucinações.

resumos

O CrisperWhisper é um aprimoramento baseado no modelo Whisper projetado para fornecer um registro de data e hora mais preciso em nível de palavra e uma transcrição de fala mais granular. O modelo melhora a precisão do registro de data e hora ajustando o tokenizador do Whisper para que o algoritmo DTW possa alinhar com mais precisão os clipes de áudio com as palavras. Essa técnica é particularmente útil para capturar a transcrição da fala em todas as pronúncias, o que é importante para a avaliação clínica da fala, analisando o processo de planejamento da linguagem e identificando indicadores de carga cognitiva. O CrisperWhisper também aprimora a atenção e a adaptação ao ruído de fontes sonoras monofônicas, treinando e neutralizando o ruído, e foi testado em vários conjuntos de dados de referência, demonstrando seu uso no reconhecimento de fala, segmentação, detecção de eventos de preenchimento e redução de conteúdo ilusório. Além disso, o código do modelo e um conjunto de dados sintético com registros de tempo precisos em nível de palavra foram disponibilizados.

Pontos de vista

  • Tokenizador aprimoradoCrisperWhisper: melhora a precisão do registro de data e hora removendo espaços redundantes no tokenizador e marcando novamente palavras específicas como "uh" e "um" para que o algoritmo DTW possa alinhar com mais precisão os clipes de áudio com as palavras.
  • Tecnologia antirruídoO modelo melhora a adaptação ao ruído ao incluir dados de fontes ruidosas e polifônicas durante o treinamento e reduz a geração de conteúdo ilusório ao introduzir amostras de treinamento em branco.
  • Desempenho superiorO CrisperWhisper foi testado em vários conjuntos de dados de referência, incluindo AMI Meeting Corpus, TED-LIUM e LibriSpeech, e demonstrou excelente desempenho de reconhecimento de fala e marcação de tempo em nível de palavra nesses conjuntos de dados.
  • Código-fonte aberto e conjuntos de dadosO código do modelo e um conjunto de dados de fala sintética foram disponibilizados como código aberto, o que ajudará pesquisadores e desenvolvedores a estudar e aprimorar ainda mais as técnicas de reconhecimento de fala.
  • Redução do conteúdo virtualCrisperWhisper: O CrisperWhisper reduz efetivamente a geração de conteúdo ilusório por meio da marcação de tempo precisa e do processamento específico do conteúdo ilusório, o que é particularmente importante para melhorar a confiabilidade dos sistemas de reconhecimento de fala.

 


 

Lista de funções

  • Carimbos de data e hora precisos no nível da palavraFornece registros de data e hora precisos, mesmo com preenchimentos de fala e pausas.
  • transcrição literalRegistre cada palavra pronunciada literalmente, inclusive as palavras de preenchimento, como "um" e "ah".
  • detecção de palavras de preenchimentoDetectar e transcrever com precisão palavras de preenchimento.
  • Redução das alucinaçõesRedução de alucinações transcricionais e aumento da precisão.
  • código abertoO código está disponível publicamente para fácil visualização e uso.

 

 

Usando a Ajuda

Processo de instalação

  1. Preparação ambiental::
    • Certifique-se de que você tenha o Python 3.7 ou superior instalado.
    • Instale as bibliotecas de dependência necessárias:pip install -r requirements.txt.
  2. Código de download::
    • Clonar um repositório do GitHub:git clone https://github.com/nyrahealth/CrisperWhisper.git.
  3. Executar o aplicativo::
    • Vá para o catálogo de projetos:cd CrisperWhisper.
    • Execute o aplicativo:python app.py.

Diretrizes para uso

  1. Uso básico::
    • Depois de abrir o aplicativo, carregue o arquivo de áudio a ser transcrito.
    • Selecione o modo de transcrição (transcrição literal ou padrão).
    • Clique no botão "Start Transcription" (Iniciar transcrição) e aguarde a conclusão da transcrição.
  2. Recursos avançados::
    • Ajuste do registro de data e horaA precisão do registro de data e hora pode ser ajustada nas configurações.
    • detecção de palavras de preenchimentoDetecção de palavras de preenchimento: ativa ou desativa a detecção de palavras de preenchimento.
    • Exportar resultadosTranscrição: Quando a transcrição estiver concluída, os resultados poderão ser exportados para um arquivo de texto ou outro formato.
  3. problemas comuns::
    • transcrição imprecisaQualidade de áudio: Garanta uma boa qualidade de áudio e evite ruídos de fundo.
    • Registros de data e hora imprecisosTente ajustar as configurações de registro de data e hora ou usar um arquivo de áudio de qualidade superior.

exemplo típico

  1. Exemplo de transcrição literal::
    Áudio original: Bem, eu acho esse projeto muito interessante.
    RESULTADO DA TRANSCRIÇÃO: Bem, eu acho esse projeto muito interessante.
    Timestamp: [0:00:01] Bem, [0:00:02] eu, [0:00:03] acho, [0:00:04] esse, [0:00:05] projeto, [0:00:06] muito, [0:00:07] interessante.
    
  2. Exemplo de detecção de palavras de preenchimento::
    Áudio original: Bem, eu acho esse projeto muito interessante.
    RESULTADO DA TRANSCRIÇÃO: Bem, eu acho esse projeto muito interessante.
    Palavra de preenchimento: [0:00:01] hmmm
    
Aprendizagem fácil com IA

O guia do leigo para começar a usar a IA

Ajuda você a aprender a utilizar as ferramentas de IA com baixo custo e a partir de uma base zero.A IA, assim como o software de escritório, é uma habilidade essencial para todos. Dominar a IA lhe dará uma vantagem em sua busca de emprego e metade do esforço em seu trabalho e estudos futuros.

Ver detalhes>
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " CrisperWhisper: Ferramenta de transcrição exata e fiel da fala

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil