Introdução geral
O CrisperWhisper é uma ferramenta avançada de reconhecimento de fala baseada no OpenAI Whisper que se concentra na transcrição rápida, precisa e palavra por palavra da fala. O CrisperWhisper melhora a precisão do registro de data e hora ajustando o marcador e personalizando a perda de atenção, além de reduzir as ilusões de transcrição para garantir que cada palavra pronunciada seja registrada com precisão.
Resumo do documento
O CrisperWhisper é uma versão aprimorada do modelo de reconhecimento de fala Whisper que, ao ajustar o tokenizador e usar o algoritmo Dynamic Time Warping (DTW), permite um registro de tempo mais preciso no nível da palavra, fornece uma transcrição de fala mais granular, melhora a detecção de eventos de pausa e preenchimento de palavras na fala e reduz a produção de alucinações. Ele também reduz a geração de alucinações.
resumos
O CrisperWhisper é um aprimoramento baseado no modelo Whisper projetado para fornecer um registro de data e hora mais preciso em nível de palavra e uma transcrição de fala mais granular. O modelo melhora a precisão do registro de data e hora ajustando o tokenizador do Whisper para que o algoritmo DTW possa alinhar com mais precisão os clipes de áudio com as palavras. Essa técnica é particularmente útil para capturar a transcrição da fala em todas as pronúncias, o que é importante para a avaliação clínica da fala, analisando o processo de planejamento da linguagem e identificando indicadores de carga cognitiva. O CrisperWhisper também aprimora a atenção e a adaptação ao ruído de fontes sonoras monofônicas, treinando e neutralizando o ruído, e foi testado em vários conjuntos de dados de referência, demonstrando seu uso no reconhecimento de fala, segmentação, detecção de eventos de preenchimento e redução de conteúdo ilusório. Além disso, o código do modelo e um conjunto de dados sintético com registros de tempo precisos em nível de palavra foram disponibilizados.
Pontos de vista
- Tokenizador aprimoradoCrisperWhisper: melhora a precisão do registro de data e hora removendo espaços redundantes no tokenizador e marcando novamente palavras específicas como "uh" e "um" para que o algoritmo DTW possa alinhar com mais precisão os clipes de áudio com as palavras.
- Tecnologia antirruídoO modelo melhora a adaptação ao ruído ao incluir dados de fontes ruidosas e polifônicas durante o treinamento e reduz a geração de conteúdo ilusório ao introduzir amostras de treinamento em branco.
- Desempenho superiorO CrisperWhisper foi testado em vários conjuntos de dados de referência, incluindo AMI Meeting Corpus, TED-LIUM e LibriSpeech, e demonstrou excelente desempenho de reconhecimento de fala e marcação de tempo em nível de palavra nesses conjuntos de dados.
- Código-fonte aberto e conjuntos de dadosO código do modelo e um conjunto de dados de fala sintética foram disponibilizados como código aberto, o que ajudará pesquisadores e desenvolvedores a estudar e aprimorar ainda mais as técnicas de reconhecimento de fala.
- Redução do conteúdo virtualCrisperWhisper: O CrisperWhisper reduz efetivamente a geração de conteúdo ilusório por meio da marcação de tempo precisa e do processamento específico do conteúdo ilusório, o que é particularmente importante para melhorar a confiabilidade dos sistemas de reconhecimento de fala.
Lista de funções
- Carimbos de data e hora precisos no nível da palavraFornece registros de data e hora precisos, mesmo com preenchimentos de fala e pausas.
- transcrição literalRegistre cada palavra pronunciada literalmente, inclusive as palavras de preenchimento, como "um" e "ah".
- detecção de palavras de preenchimentoDetectar e transcrever com precisão palavras de preenchimento.
- Redução das alucinaçõesRedução de alucinações transcricionais e aumento da precisão.
- código abertoO código está disponível publicamente para fácil visualização e uso.
Usando a Ajuda
Processo de instalação
- Preparação ambiental::
- Certifique-se de que você tenha o Python 3.7 ou superior instalado.
- Instale as bibliotecas de dependência necessárias:
pip install -r requirements.txt
.
- Código de download::
- Clonar um repositório do GitHub:
git clone https://github.com/nyrahealth/CrisperWhisper.git
.
- Clonar um repositório do GitHub:
- Executar o aplicativo::
- Vá para o catálogo de projetos:
cd CrisperWhisper
. - Execute o aplicativo:
python app.py
.
- Vá para o catálogo de projetos:
Diretrizes para uso
- Uso básico::
- Depois de abrir o aplicativo, carregue o arquivo de áudio a ser transcrito.
- Selecione o modo de transcrição (transcrição literal ou padrão).
- Clique no botão "Start Transcription" (Iniciar transcrição) e aguarde a conclusão da transcrição.
- Recursos avançados::
- Ajuste do registro de data e horaA precisão do registro de data e hora pode ser ajustada nas configurações.
- detecção de palavras de preenchimentoDetecção de palavras de preenchimento: ativa ou desativa a detecção de palavras de preenchimento.
- Exportar resultadosTranscrição: Quando a transcrição estiver concluída, os resultados poderão ser exportados para um arquivo de texto ou outro formato.
- problemas comuns::
- transcrição imprecisaQualidade de áudio: Garanta uma boa qualidade de áudio e evite ruídos de fundo.
- Registros de data e hora imprecisosTente ajustar as configurações de registro de data e hora ou usar um arquivo de áudio de qualidade superior.
exemplo típico
- Exemplo de transcrição literal::
Áudio original: Bem, eu acho esse projeto muito interessante. RESULTADO DA TRANSCRIÇÃO: Bem, eu acho esse projeto muito interessante. Timestamp: [0:00:01] Bem, [0:00:02] eu, [0:00:03] acho, [0:00:04] esse, [0:00:05] projeto, [0:00:06] muito, [0:00:07] interessante.
- Exemplo de detecção de palavras de preenchimento::
Áudio original: Bem, eu acho esse projeto muito interessante. RESULTADO DA TRANSCRIÇÃO: Bem, eu acho esse projeto muito interessante. Palavra de preenchimento: [0:00:01] hmmm