CrisperWhisper : Outil de transcription verbatim précise de la parole

Dernières ressources sur l'IAMise à jour il y a 9 mois Cercle de partage de l'IA

Introduction générale

CrisperWhisper est un outil de reconnaissance vocale avancé basé sur OpenAI Whisper qui se concentre sur la transcription rapide, précise et mot à mot de la parole. Il améliore la précision de l'horodatage en ajustant le tagger et en personnalisant la perte d'attention. CrisperWhisper améliore la précision de l'horodatage en ajustant le marqueur et en personnalisant la perte d'attention, et réduit les illusions de transcription pour s'assurer que chaque mot prononcé est enregistré avec précision.

Résumé du document
CrisperWhisper est une version améliorée du modèle de reconnaissance vocale Whisper qui, en ajustant le tokenizer et en utilisant l'algorithme DTW (Dynamic Time Warping), permet un horodatage plus précis au niveau des mots, fournit une transcription plus granulaire de la parole, améliore la détection des pauses et des remplissages de mots dans la parole et réduit la production d'hallucinations. Il réduit également la production d'hallucinations.
résumés
CrisperWhisper est une amélioration basée sur le modèle Whisper conçu pour fournir un horodatage plus précis au niveau des mots et une transcription plus granulaire de la parole. Le modèle améliore la précision de l'horodatage en ajustant le tokeniser de Whisper afin que l'algorithme DTW puisse aligner plus précisément les clips audio avec les mots. Cette technique est particulièrement utile pour capturer la transcription de la parole à travers toutes les prononciations, ce qui est important pour l'évaluation clinique de la parole, l'analyse du processus de planification du langage et l'identification des indicateurs de charge cognitive.CrisperWhisper améliore également l'attention et l'adaptation au bruit des sources sonores monophoniques en entraînant et en contrecarrant le bruit, et a été testé sur un certain nombre d'ensembles de données de référence, démontrant son utilisation dans la reconnaissance de la parole, segmentation, la détection d'événements de remplissage et la réduction du contenu illusoire. En outre, le code du modèle et un ensemble de données synthétiques avec des horodatages précis au niveau des mots ont été mis à disposition.
Points de vue
Tokenizer amélioréCrisperWhisper améliore la précision de l'horodatage en supprimant les espaces redondants dans le tokeniser et en réétiquetant des mots spécifiques tels que "uh" et "um" afin que l'algorithme DTW soit en mesure d'aligner plus précisément les clips audio avec les mots.
Technologie anti-bruitLe modèle améliore l'adaptation au bruit en incluant des données provenant de sources bruyantes et polyphoniques pendant la formation, et réduit la production de contenu illusoire en introduisant des échantillons de formation vierges.
Des performances supérieuresCrisperWhisper a été testé sur un certain nombre d'ensembles de données de référence, notamment AMI Meeting Corpus, TED-LIUM et LibriSpeech, et a démontré d'excellentes performances en matière d'horodatage au niveau des mots et de reconnaissance vocale sur ces ensembles de données.
Code source ouvert et ensembles de donnéesLe code du modèle et un ensemble de données vocales synthétiques ont été mis en libre accès, ce qui permettra aux chercheurs et aux développeurs d'étudier et d'améliorer les techniques de reconnaissance vocale.
Réduction du contenu virtuelCrisperWhisper : CrisperWhisper réduit efficacement la production de contenu illusoire grâce à un horodatage précis et à un traitement spécifique du contenu illusoire, ce qui est particulièrement important pour améliorer la fiabilité des systèmes de reconnaissance vocale.

Liste des fonctions

Des horodatages précis au niveau des motsLe système d'horodatage : Il fournit des horodatages précis même en cas de remplissage et de pauses de la parole.
transcription in extensoLes mots prononcés sont enregistrés mot pour mot, y compris les mots de remplissage tels que "um" et "ah".
détection des mots de remplissageDétecter et transcrire avec précision les mots de remplissage.
Réduction des hallucinationsLe système d'évaluation de la qualité de la transcription : Réduction des hallucinations de la transcription et amélioration de la précision.
source ouverteLe code est accessible au public pour une consultation et une utilisation aisées.

Utiliser l'aide

Processus d'installation

Préparation de l'environnement: :
- Assurez-vous que Python 3.7 et plus est installé.
- Installer les bibliothèques de dépendances nécessaires :pip install -r requirements.txt.
Télécharger le code: :
- Cloner un dépôt GitHub :git clone https://github.com/nyrahealth/CrisperWhisper.git.
Exécution de l'application: :
- Accédez au catalogue de projets :cd CrisperWhisper.
- Exécuter l'application :python app.py.

Lignes directrices pour l'utilisation

Utilisation de base: :
- Après avoir ouvert l'application, téléchargez le fichier audio à transcrire.
- Sélectionnez le mode de transcription (verbatim ou transcription standard).
- Cliquez sur le bouton "Commencer la transcription" et attendez la fin de la transcription.
Fonctionnalités avancées: :
- Ajustement de l'horodatageLa précision de l'horodatage peut être ajustée dans les paramètres.
- détection des mots de remplissageDétection des mots de remplissage : active ou désactive la détection des mots de remplissage.
- Exporter les résultatsLa transcription : Une fois la transcription terminée, les résultats peuvent être exportés dans un fichier texte ou dans un autre format.
problèmes courants: :
- transcription inexacteLes informations sur l'état de santé de l'utilisateur doivent être conservées à l'abri des bruits de fond et de la poussière.
- Horodatage imprécisSi vous n'êtes pas satisfait de la qualité de votre fichier audio, vous risquez de ne pas être en mesure de l'utiliser.

exemple typique

Exemple de transcription in extenso: :

原音频：嗯，我觉得这个项目非常有趣。
转录结果：嗯，我觉得这个项目非常有趣。
时间戳：[0:00:01] 嗯，[0:00:02] 我，[0:00:03] 觉得，[0:00:04] 这个，[0:00:05] 项目，[0:00:06] 非常，[0:00:07] 有趣。

Exemple de détection de mots de remplissage: :

原音频：嗯，我觉得这个项目非常有趣。
转录结果：嗯，我觉得这个项目非常有趣。
填充词：[0:00:01] 嗯

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

Sync : support multilingue en ligne pour l'outil de synchronisation labiale des vidéos AI (Wav2Lip en ligne)

Dernières ressources sur l'IA # Synchronisation des ports

Il y a 9 mois

024.4K

Quantera.ai : organisme d'intelligence artificielle fournissant des recherches et des informations sur les actions et les marchés financiers

Dernières ressources sur l'IA # AI Analyse des données financières

Il y a 8 mois

017.9K

Blooper : un outil de création qui génère intelligemment des scripts et des écrans partagés

Dernières ressources sur l'IA # AI Image Editor # AI Image Style Control # Outils de productivité professionnels

Il y a 6 mois

020K

Goose : des intelligences de programmation évolutives à source ouverte qui automatisent les tâches de programmation à part entière

Dernières ressources sur l'IA # AI Java Open Source Projecct # Programmation AI # Cadre de développement de l'organisme intelligent

Il y a 8 mois

021.8K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

CrisperWhisper : Outil de transcription verbatim précise de la parole

Introduction générale

Résumé du document

résumés

Points de vue

Liste des fonctions

Utiliser l'aide

Processus d'installation

Lignes directrices pour l'utilisation

exemple typique

PaddleOCR : bibliothèque d'outils d'OCR multilingue basée sur Flying Paddle, prenant en charge la reconnaissance de plus de 80 langues.

Illuminate : l'outil d'IA qui transforme les articles universitaires en podcasts audio

Articles connexes

Sync : support multilingue en ligne pour l'outil de synchronisation labiale des vidéos AI (Wav2Lip en ligne)

Quantera.ai : organisme d'intelligence artificielle fournissant des recherches et des informations sur les actions et les marchés financiers

Blooper : un outil de création qui génère intelligemment des scripts et des écrans partagés

Goose : des intelligences de programmation évolutives à source ouverte qui automatisent les tâches de programmation à part entière

Pas de commentaires

Dernières collections

Derniers articles

CrisperWhisper : Outil de transcription verbatim précise de la parole

Introduction générale

Résumé du document

résumés

Points de vue

Liste des fonctions

Utiliser l'aide

Processus d'installation

Lignes directrices pour l'utilisation

exemple typique

PaddleOCR : bibliothèque d'outils d'OCR multilingue basée sur Flying Paddle, prenant en charge la reconnaissance de plus de 80 langues.

Illuminate : l'outil d'IA qui transforme les articles universitaires en podcasts audio

Articles connexes

Sync : support multilingue en ligne pour l'outil de synchronisation labiale des vidéos AI (Wav2Lip en ligne)

Quantera.ai : organisme d'intelligence artificielle fournissant des recherches et des informations sur les actions et les marchés financiers

Blooper : un outil de création qui génère intelligemment des scripts et des écrans partagés

Goose : des intelligences de programmation évolutives à source ouverte qui automatisent les tâches de programmation à part entière

Pas de commentaires

Outils d'IA sélectionnés

Dernières collections

Derniers articles