CrisperWhisper : Outil de transcription verbatim précise de la parole

Introduction générale

CrisperWhisper est un outil de reconnaissance vocale avancé basé sur OpenAI Whisper qui se concentre sur la transcription rapide, précise et mot à mot de la parole. Il améliore la précision de l'horodatage en ajustant le tagger et en personnalisant la perte d'attention. CrisperWhisper améliore la précision de l'horodatage en ajustant le marqueur et en personnalisant la perte d'attention, et réduit les illusions de transcription pour s'assurer que chaque mot prononcé est enregistré avec précision.

 

Résumé du document

CrisperWhisper est une version améliorée du modèle de reconnaissance vocale Whisper qui, en ajustant le tokenizer et en utilisant l'algorithme DTW (Dynamic Time Warping), permet un horodatage plus précis au niveau des mots, fournit une transcription plus granulaire de la parole, améliore la détection des pauses et des remplissages de mots dans la parole et réduit la production d'hallucinations. Il réduit également la production d'hallucinations.

résumés

CrisperWhisper est une amélioration basée sur le modèle Whisper conçu pour fournir un horodatage plus précis au niveau des mots et une transcription plus granulaire de la parole. Le modèle améliore la précision de l'horodatage en ajustant le tokeniser de Whisper afin que l'algorithme DTW puisse aligner plus précisément les clips audio avec les mots. Cette technique est particulièrement utile pour capturer la transcription de la parole à travers toutes les prononciations, ce qui est important pour l'évaluation clinique de la parole, l'analyse du processus de planification du langage et l'identification des indicateurs de charge cognitive.CrisperWhisper améliore également l'attention et l'adaptation au bruit des sources sonores monophoniques en entraînant et en contrecarrant le bruit, et a été testé sur un certain nombre d'ensembles de données de référence, démontrant son utilisation dans la reconnaissance de la parole, segmentation, la détection d'événements de remplissage et la réduction du contenu illusoire. En outre, le code du modèle et un ensemble de données synthétiques avec des horodatages précis au niveau des mots ont été mis à disposition.

Points de vue

  • Tokenizer amélioréCrisperWhisper améliore la précision de l'horodatage en supprimant les espaces redondants dans le tokeniser et en réétiquetant des mots spécifiques tels que "uh" et "um" afin que l'algorithme DTW soit en mesure d'aligner plus précisément les clips audio avec les mots.
  • Technologie anti-bruitLe modèle améliore l'adaptation au bruit en incluant des données provenant de sources bruyantes et polyphoniques pendant la formation, et réduit la production de contenu illusoire en introduisant des échantillons de formation vierges.
  • Des performances supérieuresCrisperWhisper a été testé sur un certain nombre d'ensembles de données de référence, notamment AMI Meeting Corpus, TED-LIUM et LibriSpeech, et a démontré d'excellentes performances en matière d'horodatage au niveau des mots et de reconnaissance vocale sur ces ensembles de données.
  • Code source ouvert et ensembles de donnéesLe code du modèle et un ensemble de données vocales synthétiques ont été mis en libre accès, ce qui permettra aux chercheurs et aux développeurs d'étudier et d'améliorer les techniques de reconnaissance vocale.
  • Réduction du contenu virtuelCrisperWhisper : CrisperWhisper réduit efficacement la production de contenu illusoire grâce à un horodatage précis et à un traitement spécifique du contenu illusoire, ce qui est particulièrement important pour améliorer la fiabilité des systèmes de reconnaissance vocale.

 

 

Liste des fonctions

  • Des horodatages précis au niveau des motsLe système d'horodatage : Il fournit des horodatages précis même en cas de remplissage et de pauses de la parole.
  • transcription in extensoLes mots prononcés sont enregistrés mot pour mot, y compris les mots de remplissage tels que "um" et "ah".
  • détection des mots de remplissageDétecter et transcrire avec précision les mots de remplissage.
  • Réduction des hallucinationsLe système d'évaluation de la qualité de la transcription : Réduction des hallucinations de la transcription et amélioration de la précision.
  • source ouverteLe code est accessible au public pour une consultation et une utilisation aisées.

 

 

Utiliser l'aide

Processus d'installation

  1. Préparation de l'environnement: :
    • Assurez-vous que Python 3.7 et plus est installé.
    • Installer les bibliothèques de dépendances nécessaires :pip install -r requirements.txt.
  2. Télécharger le code: :
    • Cloner un dépôt GitHub :git clone https://github.com/nyrahealth/CrisperWhisper.git.
  3. Exécution de l'application: :
    • Accédez au catalogue de projets :cd CrisperWhisper.
    • Exécuter l'application :python app.py.

Lignes directrices pour l'utilisation

  1. Utilisation de base: :
    • Après avoir ouvert l'application, téléchargez le fichier audio à transcrire.
    • Sélectionnez le mode de transcription (verbatim ou transcription standard).
    • Cliquez sur le bouton "Commencer la transcription" et attendez la fin de la transcription.
  2. Fonctionnalités avancées: :
    • Ajustement de l'horodatageLa précision de l'horodatage peut être ajustée dans les paramètres.
    • détection des mots de remplissageDétection des mots de remplissage : active ou désactive la détection des mots de remplissage.
    • Exporter les résultatsLa transcription : Une fois la transcription terminée, les résultats peuvent être exportés dans un fichier texte ou dans un autre format.
  3. problèmes courants: :
    • transcription inexacteLes informations sur l'état de santé de l'utilisateur doivent être conservées à l'abri des bruits de fond et de la poussière.
    • Horodatage imprécisSi vous n'êtes pas satisfait de la qualité de votre fichier audio, vous risquez de ne pas être en mesure de l'utiliser.

exemple typique

  1. Exemple de transcription in extenso: :
    原音频:嗯,我觉得这个项目非常有趣。
    转录结果:嗯,我觉得这个项目非常有趣。
    时间戳:[0:00:01] 嗯,[0:00:02] 我,[0:00:03] 觉得,[0:00:04] 这个,[0:00:05] 项目,[0:00:06] 非常,[0:00:07] 有趣。
    
  2. Exemple de détection de mots de remplissage: :
    原音频:嗯,我觉得这个项目非常有趣。
    转录结果:嗯,我觉得这个项目非常有趣。
    填充词:[0:00:01] 嗯
    
© déclaration de droits d'auteur
AiPPT

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...