Allgemeine Einführung
CrisperWhisper ist ein fortschrittliches Spracherkennungswerkzeug, das auf OpenAI Whisper basiert und sich auf eine schnelle, genaue und wortgenaue Sprachtranskription konzentriert. CrisperWhisper verbessert die Genauigkeit der Zeitstempel, indem es den Tagger anpasst, den Aufmerksamkeitsverlust anpasst und Transkriptionsillusionen reduziert, um sicherzustellen, dass jedes ausgesprochene Wort genau erfasst wird.
Zusammenfassung des Papiers
CrisperWhisper ist eine verbesserte Version des Whisper-Spracherkennungsmodells, die durch die Anpassung des Tokenizers und die Verwendung des DTW-Algorithmus (Dynamic Time Warping) eine genauere Zeitmarkierung auf Wortebene ermöglicht, eine granularere Sprachtranskription bietet, die Erkennung von Pausen- und Wortfüllungsereignissen in der Sprache verbessert und die Erzeugung von Halluzinationen reduziert. Auch die Erzeugung von Halluzinationen wird reduziert.
Abstracts
CrisperWhisper ist eine auf dem Whisper-Modell basierende Erweiterung, die eine genauere Zeitstempelung auf Wortebene und eine feinere Sprachtranskription ermöglicht. Das Modell verbessert die Genauigkeit der Zeitstempelung, indem es den Tokenisierer von Whisper so anpasst, dass der DTW-Algorithmus die Audioclips genauer an die Wörter anpassen kann. Diese Technik ist besonders nützlich für die Erfassung der Sprachtranskription über alle Aussprachen hinweg, was für die klinische Beurteilung von Sprache, die Analyse des Sprachplanungsprozesses und die Identifizierung von Indikatoren für kognitive Belastung wichtig ist.CrisperWhisper verbessert auch die Aufmerksamkeit und die Geräuschanpassung an monophone Schallquellen, indem es Geräusche trainiert und ihnen entgegenwirkt, und wurde an einer Reihe von Benchmark-Datensätzen getestet, was seinen Einsatz in der Spracherkennung zeigt, Segmentierung, Erkennung von Füllereignissen und Reduktion von illusorischen Inhalten. Darüber hinaus wurden der Code für das Modell und ein synthetischer Datensatz mit genauen Zeitstempeln auf Wortebene zur Verfügung gestellt.
Standpunkte
- Verbesserter TokenizerCrisperWhisper: CrisperWhisper verbessert die Genauigkeit der Zeitstempel, indem es redundante Leerzeichen im Tokenisierer entfernt und bestimmte Wörter wie "äh" und "um" neu markiert, so dass der DTW-Algorithmus in der Lage ist, Audiosegmente genauer an Wörtern auszurichten.
- Anti-Lärm-TechnologieDas Modell verbessert die Anpassung an Rauschen, indem es Daten von verrauschten und polyphonen Quellen während des Trainings einbezieht, und es reduziert die Erzeugung von illusorischen Inhalten, indem es leere Trainingsbeispiele einführt.
- Überlegene LeistungCrisperWhisper wurde an einer Reihe von Benchmark-Datensätzen getestet, darunter AMI Meeting Corpus, TED-LIUM und LibriSpeech, und hat bei diesen Datensätzen eine ausgezeichnete Zeitstempel- und Spracherkennungsleistung auf Wortebene gezeigt.
- Offener Quellcode und DatensätzeDer Code für das Modell und ein synthetischer Sprachdatensatz wurden als Open Source zur Verfügung gestellt, was Forschern und Entwicklern helfen wird, Spracherkennungstechniken weiter zu untersuchen und zu verbessern.
- Verringerung der virtuellen InhalteCrisperWhisper reduziert die Erzeugung von Täuschungsinhalten durch präzise Zeitstempel und gezielte Verarbeitung der Täuschungsinhalte, was besonders wichtig für die Verbesserung der Zuverlässigkeit von Spracherkennungssystemen ist.
Funktionsliste
- Genaue Zeitstempel auf WortebeneErmöglicht genaue Zeitstempel auch bei Sprachfüllungen und Pausen.
- wortgetreue TranskriptionSchreiben Sie jedes ausgesprochene Wort wortwörtlich auf, auch Füllwörter wie "äh" und "ah".
- Erkennung von FüllwörternErkennen und genaues Abschreiben von Füllwörtern.
- Verminderte Halluzinationen: Reduzierung von Transkriptionshalluzinationen und Verbesserung der Genauigkeit.
- offene QuelleDer Code ist öffentlich zugänglich und kann leicht eingesehen und verwendet werden.
Hilfe verwenden
Ablauf der Installation
- Vorbereitung der Umwelt::
- Stellen Sie sicher, dass Sie Python 3.7 und höher installiert haben.
- Installieren Sie die erforderlichen Abhängigkeits-Bibliotheken:
pip install -r anforderungen.txt
.
- Code herunterladen::
- Klonen Sie ein GitHub-Repository:
git clone https://github.com/nyrahealth/CrisperWhisper.git
.
- Klonen Sie ein GitHub-Repository:
- Ausführen der Anwendung::
- Rufen Sie den Projektkatalog auf:
cd CrisperWhisper
. - Führen Sie die Anwendung aus:
python app.py
.
- Rufen Sie den Projektkatalog auf:
Richtlinien für die Verwendung
- Grundlegende Verwendung::
- Nachdem Sie die App geöffnet haben, laden Sie die zu transkribierende Audiodatei hoch.
- Wählen Sie den Transkriptionsmodus (wortwörtliche oder Standardtranskription).
- Klicken Sie auf die Schaltfläche "Transkription starten" und warten Sie, bis die Transkription abgeschlossen ist.
- Erweiterte Funktionen::
- Anpassung des ZeitstempelsDie Genauigkeit des Zeitstempels kann in den Einstellungen angepasst werden.
- Erkennung von FüllwörternErkennung von Füllwörtern: Aktiviert oder deaktiviert die Erkennung von Füllwörtern.
- Ergebnisse exportierenSobald die Transkription abgeschlossen ist, können die Ergebnisse in eine Textdatei oder ein anderes Format exportiert werden.
- allgemeine Probleme::
- ungenaue TranskriptionAchten Sie auf eine gute Audioqualität und vermeiden Sie Hintergrundgeräusche.
- Ungenaue ZeitstempelVersuchen Sie, die Zeitstempel-Einstellungen anzupassen oder eine Audiodatei höherer Qualität zu verwenden.
typisches Beispiel
- Beispiel für eine wortwörtliche Transkription::
O-Ton: Also, ich finde dieses Projekt sehr interessant. TRANSCRIPT RESULT: Nun, ich finde dieses Projekt sehr interessant. Zeitstempel: [0:00:01] Nun, [0:00:02] ich, [0:00:03] finde, [0:00:04] dieses, [0:00:05] Projekt, [0:00:06] sehr, [0:00:07] interessant.
- Beispiel für die Erkennung von Füllwörtern::
O-Ton: Also, ich finde dieses Projekt sehr interessant. TRANSCRIPT RESULT: Nun, ich finde dieses Projekt sehr interessant. Füllwort: [0:00:01] hmmm