AI Personal Learning
und praktische Anleitung
讯飞绘镜

CrisperWhisper: Genaue wortgetreue Sprachtranskription

Allgemeine Einführung

CrisperWhisper ist ein fortschrittliches Spracherkennungswerkzeug, das auf OpenAI Whisper basiert und sich auf eine schnelle, genaue und wortgenaue Sprachtranskription konzentriert. CrisperWhisper verbessert die Genauigkeit der Zeitstempel, indem es den Tagger anpasst, den Aufmerksamkeitsverlust anpasst und Transkriptionsillusionen reduziert, um sicherzustellen, dass jedes ausgesprochene Wort genau erfasst wird.

 

Zusammenfassung des Papiers

CrisperWhisper ist eine verbesserte Version des Whisper-Spracherkennungsmodells, die durch die Anpassung des Tokenizers und die Verwendung des DTW-Algorithmus (Dynamic Time Warping) eine genauere Zeitmarkierung auf Wortebene ermöglicht, eine granularere Sprachtranskription bietet, die Erkennung von Pausen- und Wortfüllungsereignissen in der Sprache verbessert und die Erzeugung von Halluzinationen reduziert. Auch die Erzeugung von Halluzinationen wird reduziert.

Abstracts

CrisperWhisper ist eine auf dem Whisper-Modell basierende Erweiterung, die eine genauere Zeitstempelung auf Wortebene und eine feinere Sprachtranskription ermöglicht. Das Modell verbessert die Genauigkeit der Zeitstempelung, indem es den Tokenisierer von Whisper so anpasst, dass der DTW-Algorithmus die Audioclips genauer an die Wörter anpassen kann. Diese Technik ist besonders nützlich für die Erfassung der Sprachtranskription über alle Aussprachen hinweg, was für die klinische Beurteilung von Sprache, die Analyse des Sprachplanungsprozesses und die Identifizierung von Indikatoren der kognitiven Belastung wichtig ist.CrisperWhisper verbessert auch die Aufmerksamkeit und die Geräuschanpassung an monophone Schallquellen, indem es Geräusche trainiert und ihnen entgegenwirkt, und wurde an einer Reihe von Benchmark-Datensätzen getestet, was seinen Einsatz in der Spracherkennung zeigt, Segmentierung, Erkennung von Füllereignissen und Reduktion von illusorischen Inhalten. Darüber hinaus wurden der Code für das Modell und ein synthetischer Datensatz mit genauen Zeitstempeln auf Wortebene zur Verfügung gestellt.

Standpunkte

  • Verbesserter TokenizerCrisperWhisper: CrisperWhisper verbessert die Genauigkeit der Zeitstempel, indem es redundante Leerzeichen im Tokeniser entfernt und bestimmte Wörter wie "äh" und "um" neu markiert, so dass der DTW-Algorithmus Audioclips genauer mit Wörtern abgleichen kann.
  • Anti-Lärm-TechnologieDas Modell verbessert die Anpassung an Störgeräusche, indem es Daten von verrauschten und polyphonen Quellen in das Training einbezieht und die Erzeugung von Scheininhalten durch die Einführung von leeren Trainingsproben reduziert.
  • Überlegene LeistungCrisperWhisper wurde an einer Reihe von Benchmark-Datensätzen getestet, darunter AMI Meeting Corpus, TED-LIUM und LibriSpeech, und hat bei diesen Datensätzen eine ausgezeichnete Zeitstempel- und Spracherkennungsleistung auf Wortebene gezeigt.
  • Offener Quellcode und DatensatzDer Code für das Modell und ein synthetischer Sprachdatensatz wurden als Open Source zur Verfügung gestellt, was Forschern und Entwicklern helfen wird, Spracherkennungstechniken weiter zu untersuchen und zu verbessern.
  • Verringerung der virtuellen InhalteCrisperWhisper reduziert die Erzeugung von Täuschungsinhalten durch präzise Zeitstempel und gezielte Verarbeitung der Täuschungsinhalte, was besonders wichtig für die Verbesserung der Zuverlässigkeit von Spracherkennungssystemen ist.

 


 

Funktionsliste

  • Genaue Zeitstempel auf WortebeneErmöglicht genaue Zeitstempel auch bei Sprachfüllungen und Pausen.
  • wortgetreue TranskriptionSchreiben Sie jedes ausgesprochene Wort wortwörtlich auf, auch Füllwörter wie "äh" und "ah".
  • Erkennung von FüllwörternErkennen und genaues Abschreiben von Füllwörtern.
  • Verminderte Halluzinationen: Verringerung von Transkriptionshalluzinationen und Verbesserung der Genauigkeit.
  • offene QuelleDer Code ist öffentlich zugänglich und kann leicht eingesehen und verwendet werden.

 

 

Hilfe verwenden

Einbauverfahren

  1. Vorbereitung der Umwelt::
    • Stellen Sie sicher, dass Sie Python 3.7 und höher installiert haben.
    • Installieren Sie die erforderlichen Abhängigkeits-Bibliotheken:pip install -r requirements.txt.
  2. Code herunterladen::
    • Klonen Sie ein GitHub-Repository:git clone https://github.com/nyrahealth/CrisperWhisper.git.
  3. Ausführen der Anwendung::
    • Rufen Sie den Projektkatalog auf:cd CrisperWhisper.
    • Führen Sie die Anwendung aus:python app.py.

Leitlinien für die Verwendung

  1. Grundlegende Verwendung::
    • Nachdem Sie die App geöffnet haben, laden Sie die zu transkribierende Audiodatei hoch.
    • Wählen Sie den Transkriptionsmodus (wortwörtliche oder Standardtranskription).
    • Klicken Sie auf die Schaltfläche "Transkription starten" und warten Sie, bis die Transkription abgeschlossen ist.
  2. Erweiterte Funktionen::
    • Anpassung des ZeitstempelsDie Genauigkeit des Zeitstempels kann in den Einstellungen angepasst werden.
    • Erkennung von FüllwörternErkennung von Füllwörtern: Aktiviert oder deaktiviert die Erkennung von Füllwörtern.
    • Ergebnisse exportierenSobald die Transkription abgeschlossen ist, können die Ergebnisse in eine Textdatei oder ein anderes Format exportiert werden.
  3. allgemeine Probleme::
    • ungenaue TranskriptionAchten Sie auf eine gute Audioqualität und vermeiden Sie Hintergrundgeräusche.
    • Ungenaue ZeitstempelVersuchen Sie, die Zeitstempel-Einstellungen anzupassen, oder verwenden Sie eine Audiodatei höherer Qualität.

typisches Beispiel

  1. Beispiel für eine wortwörtliche Transkription::
    原音频:嗯,我觉得这个项目非常有趣。
    转录结果:嗯,我觉得这个项目非常有趣。
    时间戳:[0:00:01] 嗯,[0:00:02] 我,[0:00:03] 觉得,[0:00:04] 这个,[0:00:05] 项目,[0:00:06] 非常,[0:00:07] 有趣。
    
  2. Beispiel für die Erkennung von Füllwörtern::
    原音频:嗯,我觉得这个项目非常有趣。
    转录结果:嗯,我觉得这个项目非常有趣。
    填充词:[0:00:01] 嗯
    
Darf nicht ohne Genehmigung vervielfältigt werden:Leiter des AI-Austauschkreises " CrisperWhisper: Genaue wortgetreue Sprachtranskription
de_DEDeutsch