はじめに
CrisperWhisperは、OpenAI Whisperをベースとした先進的な音声認識ツールで、高速で正確な単語単位の音声書き起こしに重点を置いています。CrisperWhisperは、タガーを調整し、注意力の損失をカスタマイズすることで、タイムスタンプの精度を向上させ、すべての発音された単語が正確に記録されるように、転写の錯覚を低減します。
論文概要
CrisperWhisperは、Whisper音声認識モデルの改良版であり、トークナイザーを調整し、DTW(Dynamic Time Warping)アルゴリズムを使用することで、より正確な単語レベルのタイムスタンプを可能にし、よりきめ細かな音声転写を提供し、音声中のポーズやワードフィル事象の検出を改善し、幻覚の発生を低減します。また、幻覚の発生も減少します。
抄録
CrisperWhisperは、より正確な単語レベルのタイムスタンプと、よりきめ細かな音声トランスクリプションを提供するために設計されたWhisperモデルに基づく機能拡張です。このモデルは、Whisperのトークナイザーを調整することで、タイムスタンプの精度を向上させ、DTWアルゴリズムが音声クリップと単語をより正確に位置合わせできるようにします。CrisperWhisperはまた、訓練とノイズ対策により、単音音源に対する注意とノイズ適応を改善し、多くのベンチマークデータセットでテストされ、音声認識への利用が実証されています、セグメンテーション、フィラーイベント検出、イリューサリーコンテンツの削減などである。さらに、このモデルのコードと、正確な単語レベルのタイムスタンプを持つ合成データセットが公開されている。
視点
- 改良されたトークナイザーCrisperWhisperは、トークナイザーで冗長なスペースを削除し、"uh "や "um "といった特定の単語を再タギングすることで、タイムスタンプの精度を向上させる。
- アンチ・ノイズ・テクノロジーまた、空白のトレーニングサンプルを導入することで、錯覚的なコンテンツの生成を低減します。
- 優れたパフォーマンスCrisperWhisperは、AMI Meeting Corpus、TED-LIUM、LibriSpeechを含む多くのベンチマークデータセットでテストされ、これらのデータセットにおいて、単語レベルのタイムスタンプと音声認識の優れた性能を実証しました。
- オープンソース・コードとデータセットこのモデルのコードと合成音声データセットはオープンソース化されており、研究者や開発者が音声認識技術をさらに研究・改善するのに役立っている。
- 仮想コンテンツの削減CrisperWhisper : CrisperWhisperは、正確なタイムスタンプと錯覚コンテンツの特殊な処理により、錯覚コンテンツの生成を効果的に低減します。
機能一覧
- 正確な単語レベルのタイムスタンプスピーチのフィルやポーズがあっても、正確なタイムスタンプを提供します。
- 逐語転写発音された単語は、"um "や "ah "などのフィラー単語も含めて、そのまま記録する。
- フィラーワード検出フィラーワードを検出し、正確に書き取る。
- 幻覚の減少転写の幻覚を減らし、精度を向上させる。
- オープンソースコードは公開されており、簡単に閲覧・利用できる。
ヘルプの使用
設置プロセス
- 環境準備::
- Python 3.7以上がインストールされていることを確認してください。
- 必要な依存ライブラリをインストールする:
pip install -r requirements.txt
.
- ダウンロードコード::
- GitHubリポジトリをクローンする:
git clone https://github.com/nyrahealth/CrisperWhisper.git
.
- GitHubリポジトリをクローンする:
- アプリケーションの実行::
- プロジェクト・カタログにアクセスする:
cd クリスパーウィスパー
. - アプリケーションを実行する:
python app.py
.
- プロジェクト・カタログにアクセスする:
使用ガイドライン
- 基本的な使い方::
- アプリを起動したら、書き起こしたい音声ファイルをアップロードします。
- 採譜モード(逐語採譜または標準採譜)を選択します。
- テープ起こし開始」ボタンをクリックし、テープ起こしが完了するまでお待ちください。
- 高度な機能::
- タイムスタンプ調整タイムスタンプの精度は設定で調整できます。
- フィラーワード検出フィラー語検出の有効/無効を設定する。
- エクスポート結果テープ起こしが完了したら、結果をテキストファイルやその他の形式にエクスポートできます。
- 一般的な問題::
- 不正転写良好な音質を確保し、バックグラウンドノイズを避ける。
- 不正確なタイムスタンプタイムスタンプの設定を調整するか、より高音質のオーディオファイルを使用してみてください。
典型例
- 逐語転写の例::
元の音声:さて、私はこのプロジェクトがとても興味深いと思います。 TRANSCRIPT RESULT: さて、私はこのプロジェクトがとても面白いと思います。 タイムスタンプ: [0:00:01] さて、[0:00:02] 私は、[0:00:03] このプロジェクトを、[0:00:04] とても面白いと思います。
- フィラー語検出の例::
元の音声:さて、私はこのプロジェクトがとても興味深いと思います。 TRANSCRIPT RESULT: さて、このプロジェクトはとても面白いと思います。 フィラーワード: [0:00:01] うーん