CrisperWhisper: Ferramenta de transcrição exata e fiel da fala

Recursos mais recentes de IAAtualizado há 8 meses Círculo de compartilhamento de IA

Introdução geral

O CrisperWhisper é uma ferramenta avançada de reconhecimento de fala baseada no OpenAI Whisper que se concentra na transcrição rápida, precisa e palavra por palavra da fala. O CrisperWhisper melhora a precisão do registro de data e hora ajustando o marcador e personalizando a perda de atenção, além de reduzir as ilusões de transcrição para garantir que cada palavra pronunciada seja registrada com precisão.

Resumo do documento
O CrisperWhisper é uma versão aprimorada do modelo de reconhecimento de fala Whisper que, ao ajustar o tokenizador e usar o algoritmo Dynamic Time Warping (DTW), permite um registro de tempo mais preciso no nível da palavra, fornece uma transcrição de fala mais granular, melhora a detecção de eventos de pausa e preenchimento de palavras na fala e reduz a produção de alucinações. Ele também reduz a geração de alucinações.
resumos
O CrisperWhisper é um aprimoramento baseado no modelo Whisper projetado para fornecer um registro de data e hora mais preciso em nível de palavra e uma transcrição de fala mais granular. O modelo melhora a precisão do registro de data e hora ajustando o tokenizador do Whisper para que o algoritmo DTW possa alinhar com mais precisão os clipes de áudio com as palavras. Essa técnica é particularmente útil para capturar a transcrição da fala em todas as pronúncias, o que é importante para a avaliação clínica da fala, analisando o processo de planejamento da linguagem e identificando indicadores de carga cognitiva. O CrisperWhisper também aprimora a atenção e a adaptação ao ruído de fontes sonoras monofônicas, treinando e neutralizando o ruído, e foi testado em vários conjuntos de dados de referência, demonstrando seu uso no reconhecimento de fala, segmentação, detecção de eventos de preenchimento e redução de conteúdo ilusório. Além disso, o código do modelo e um conjunto de dados sintético com registros de tempo precisos em nível de palavra foram disponibilizados.
Pontos de vista
Tokenizador aprimoradoCrisperWhisper: melhora a precisão do registro de data e hora removendo espaços redundantes no tokenizador e marcando novamente palavras específicas como "uh" e "um" para que o algoritmo DTW possa alinhar com mais precisão os clipes de áudio com as palavras.
Tecnologia antirruídoO modelo melhora a adaptação ao ruído ao incluir dados de fontes ruidosas e polifônicas durante o treinamento e reduz a geração de conteúdo ilusório ao introduzir amostras de treinamento em branco.
Desempenho superiorO CrisperWhisper foi testado em vários conjuntos de dados de referência, incluindo AMI Meeting Corpus, TED-LIUM e LibriSpeech, e demonstrou excelente desempenho de reconhecimento de fala e marcação de tempo em nível de palavra nesses conjuntos de dados.
Código-fonte aberto e conjuntos de dadosO código do modelo e um conjunto de dados de fala sintética foram disponibilizados como código aberto, o que ajudará pesquisadores e desenvolvedores a estudar e aprimorar ainda mais as técnicas de reconhecimento de fala.
Redução do conteúdo virtualCrisperWhisper: O CrisperWhisper reduz efetivamente a geração de conteúdo ilusório por meio da marcação de tempo precisa e do processamento específico do conteúdo ilusório, o que é particularmente importante para melhorar a confiabilidade dos sistemas de reconhecimento de fala.

Lista de funções

Carimbos de data e hora precisos no nível da palavraFornece registros de data e hora precisos, mesmo com preenchimentos de fala e pausas.
transcrição literalRegistre cada palavra pronunciada literalmente, inclusive as palavras de preenchimento, como "um" e "ah".
detecção de palavras de preenchimentoDetectar e transcrever com precisão palavras de preenchimento.
Redução das alucinaçõesRedução de alucinações transcricionais e aumento da precisão.
código abertoO código está disponível publicamente para fácil visualização e uso.

Usando a Ajuda

Processo de instalação

Preparação ambiental::
- Certifique-se de que você tenha o Python 3.7 ou superior instalado.
- Instale as bibliotecas de dependência necessárias:pip install -r requirements.txt.
Código de download::
- Clonar um repositório do GitHub:git clone https://github.com/nyrahealth/CrisperWhisper.git.
Executar o aplicativo::
- Vá para o catálogo de projetos:cd CrisperWhisper.
- Execute o aplicativo:python app.py.

Diretrizes para uso

Uso básico::
- Depois de abrir o aplicativo, carregue o arquivo de áudio a ser transcrito.
- Selecione o modo de transcrição (transcrição literal ou padrão).
- Clique no botão "Start Transcription" (Iniciar transcrição) e aguarde a conclusão da transcrição.
Recursos avançados::
- Ajuste do registro de data e horaA precisão do registro de data e hora pode ser ajustada nas configurações.
- detecção de palavras de preenchimentoDetecção de palavras de preenchimento: ativa ou desativa a detecção de palavras de preenchimento.
- Exportar resultadosTranscrição: Quando a transcrição estiver concluída, os resultados poderão ser exportados para um arquivo de texto ou outro formato.
problemas comuns::
- transcrição imprecisaQualidade de áudio: Garanta uma boa qualidade de áudio e evite ruídos de fundo.
- Registros de data e hora imprecisosTente ajustar as configurações de registro de data e hora ou usar um arquivo de áudio de qualidade superior.

exemplo típico

Exemplo de transcrição literal::

原音频：嗯，我觉得这个项目非常有趣。
转录结果：嗯，我觉得这个项目非常有趣。
时间戳：[0:00:01] 嗯，[0:00:02] 我，[0:00:03] 觉得，[0:00:04] 这个，[0:00:05] 项目，[0:00:06] 非常，[0:00:07] 有趣。

Exemplo de detecção de palavras de preenchimento::

原音频：嗯，我觉得这个项目非常有趣。
转录结果：嗯，我觉得这个项目非常有趣。
填充词：[0:00:01] 嗯

Direitos autorais do artigo Círculo de compartilhamento de IA A todos, favor não reproduzir sem permissão.

ImBD: detecção de conteúdo gerado por IA, detectando se o conteúdo é gerado por IA ou não

Recursos mais recentes de IA # Projeto de código aberto AI Java # Ferramentas educacionais de IA

8 meses atrás

011.9K

TubeTube: Ferramenta de download de vídeos do YouTube com implantação automática

Recursos mais recentes de IA # Projeto de código aberto AI Java

7 meses atrás

011.7K

Deeptrain: conversão de conteúdo de vídeo em informações recuperáveis de modelos grandes

Recursos mais recentes de IA # Recuperação de conhecimento e estrutura RAG

7 meses atrás

09.9K

BocaLive: Plataforma de transmissão ao vivo inteligente com IA | Pessoas digitais clonadas personalizadas

Recursos mais recentes de IA # AI Digital Man # AI Marketing

1 ano atrás

014.2K

Sem comentários

Você precisa estar conectado para participar dos comentários!

Faça login agora

Nenhum comentário...

CrisperWhisper: Ferramenta de transcrição exata e fiel da fala

Introdução geral

Resumo do documento

resumos

Pontos de vista

Lista de funções

Usando a Ajuda

Processo de instalação

Diretrizes para uso

exemplo típico

PaddleOCR: uma biblioteca de ferramentas de OCR multilíngue baseada no Flying Paddle, com suporte ao reconhecimento de mais de 80 idiomas

Illuminate: a ferramenta de IA que transforma artigos acadêmicos em podcasts de áudio

Artigos relacionados

ImBD: detecção de conteúdo gerado por IA, detectando se o conteúdo é gerado por IA ou não

TubeTube: Ferramenta de download de vídeos do YouTube com implantação automática

Deeptrain: conversão de conteúdo de vídeo em informações recuperáveis de modelos grandes

BocaLive: Plataforma de transmissão ao vivo inteligente com IA | Pessoas digitais clonadas personalizadas

Sem comentários

Últimas coleções

Artigos mais recentes

CrisperWhisper: Ferramenta de transcrição exata e fiel da fala

Introdução geral

Resumo do documento

resumos

Pontos de vista

Lista de funções

Usando a Ajuda

Processo de instalação

Diretrizes para uso

exemplo típico

PaddleOCR: uma biblioteca de ferramentas de OCR multilíngue baseada no Flying Paddle, com suporte ao reconhecimento de mais de 80 idiomas

Illuminate: a ferramenta de IA que transforma artigos acadêmicos em podcasts de áudio

Artigos relacionados

ImBD: detecção de conteúdo gerado por IA, detectando se o conteúdo é gerado por IA ou não

TubeTube: Ferramenta de download de vídeos do YouTube com implantação automática

Deeptrain: conversão de conteúdo de vídeo em informações recuperáveis de modelos grandes

BocaLive: Plataforma de transmissão ao vivo inteligente com IA | Pessoas digitais clonadas personalizadas

Sem comentários

Ferramentas de IA selecionadas

Últimas coleções

Artigos mais recentes