CrisperWhisper：正確な逐語音声書き起こしツール

68.5K 00

はじめに

CrisperWhisperは、OpenAI Whisperをベースとした先進的な音声認識ツールで、高速で正確な単語単位の音声書き起こしに重点を置いています。CrisperWhisperは、タガーを調整し、注意力の損失をカスタマイズすることで、タイムスタンプの精度を向上させ、すべての発音された単語が正確に記録されるように、転写の錯覚を低減します。

論文概要
CrisperWhisperは、Whisper音声認識モデルの改良版であり、トークナイザーを調整し、DTW（Dynamic Time Warping）アルゴリズムを使用することで、より正確な単語レベルのタイムスタンプを可能にし、よりきめ細かな音声転写を提供し、音声中のポーズやワードフィル事象の検出を改善し、幻覚の発生を低減します。また、幻覚の発生も減少します。
抄録
CrisperWhisperは、より正確な単語レベルのタイムスタンプと、よりきめ細かな音声トランスクリプションを提供するために設計されたWhisperモデルに基づく機能拡張です。このモデルは、Whisperのトークナイザーを調整することで、タイムスタンプの精度を向上させ、DTWアルゴリズムが音声クリップと単語をより正確に位置合わせできるようにします。CrisperWhisperはまた、訓練とノイズ対策により、単音音源に対する注意とノイズ適応を改善し、多くのベンチマークデータセットでテストされ、音声認識への利用が実証されています、セグメンテーション、フィラーイベント検出、イリューサリーコンテンツの削減などである。さらに、このモデルのコードと、正確な単語レベルのタイムスタンプを持つ合成データセットが公開されている。
視点
改良されたトークナイザーCrisperWhisperは、トークナイザーで冗長なスペースを削除し、"uh "や "um "といった特定の単語を再タギングすることで、タイムスタンプの精度を向上させる。
アンチ・ノイズ・テクノロジーまた、空白のトレーニングサンプルを導入することで、錯覚的なコンテンツの生成を低減します。
優れたパフォーマンスCrisperWhisperは、AMI Meeting Corpus、TED-LIUM、LibriSpeechを含む多くのベンチマークデータセットでテストされ、これらのデータセットにおいて、単語レベルのタイムスタンプと音声認識の優れた性能を実証しました。
オープンソース・コードとデータセットこのモデルのコードと合成音声データセットはオープンソース化されており、研究者や開発者が音声認識技術をさらに研究・改善するのに役立っている。
仮想コンテンツの削減CrisperWhisper : CrisperWhisperは、正確なタイムスタンプと錯覚コンテンツの特殊な処理により、錯覚コンテンツの生成を効果的に低減します。

機能一覧

正確な単語レベルのタイムスタンプスピーチのフィルやポーズがあっても、正確なタイムスタンプを提供します。
逐語転写発音された単語は、"um "や "ah "などのフィラー単語も含めて、そのまま記録する。
フィラーワード検出フィラーワードを検出し、正確に書き取る。
幻覚の減少転写の幻覚を減らし、精度を向上させる。
オープンソースコードは公開されており、簡単に閲覧・利用できる。

ヘルプの使用

設置プロセス

環境準備::
- Python 3.7以上がインストールされていることを確認してください。
- 必要な依存ライブラリをインストールする：pip install -r requirements.txt.
ダウンロードコード::
- GitHubリポジトリをクローンする：git clone https://github.com/nyrahealth/CrisperWhisper.git.
アプリケーションの実行::
- プロジェクト・カタログにアクセスする：cd CrisperWhisper.
- アプリケーションを実行する：python app.py.

使用ガイドライン

基本的な使い方::
- アプリを起動したら、書き起こしたい音声ファイルをアップロードします。
- 採譜モード（逐語採譜または標準採譜）を選択します。
- テープ起こし開始」ボタンをクリックし、テープ起こしが完了するまでお待ちください。
高度な機能::
- タイムスタンプ調整タイムスタンプの精度は設定で調整できます。
- フィラーワード検出フィラー語検出の有効／無効を設定する。
- エクスポート結果テープ起こしが完了したら、結果をテキストファイルやその他の形式にエクスポートできます。
一般的な問題::
- 不正転写良好な音質を確保し、バックグラウンドノイズを避ける。
- 不正確なタイムスタンプタイムスタンプの設定を調整するか、より高音質のオーディオファイルを使用してみてください。

典型例

逐語転写の例::

原音频：嗯，我觉得这个项目非常有趣。
转录结果：嗯，我觉得这个项目非常有趣。
时间戳：[0:00:01] 嗯，[0:00:02] 我，[0:00:03] 觉得，[0:00:04] 这个，[0:00:05] 项目，[0:00:06] 非常，[0:00:07] 有趣。

フィラー語検出の例::

原音频：嗯，我觉得这个项目非常有趣。
转录结果：嗯，我觉得这个项目非常有趣。
填充词：[0:00:01] 嗯

PapersGPT: 論文の読解と研究の効率を高めるZoteroのAIプラグイン

最新のAIリソース # AI教育ツール

1年前

081.7K

wechat-article-exporter：一键部署微信公众号文章批量导出工具

wechat-article-exporter：wechat公開番号記事一括エクスポートツールのワンクリックデプロイメント

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

099.4K

如意AIビデオ合成：AIビデオを生成し、ライブデジタルピープルサービスを提供する

最新のAIリソース # AIデジタルマン

1年前

056.1K

Eden AI: 100以上のAIモデルを統合APIで接続

最新のAIリソース # AIオープンサービス

12ヶ月前

073.6K

コメントなし

コメントに参加するにはログインが必要です！

今すぐログイン

コメントはありません

CrisperWhisper：正確な逐語音声書き起こしツール

はじめに

論文概要

抄録

視点

機能一覧

ヘルプの使用

設置プロセス

使用ガイドライン

典型例

PaddleOCR: Flying Paddleベースの多言語OCRツールライブラリ。

イルミネート：学術論文を音声ポッドキャストに変えるAIツール

関連記事

PapersGPT: 論文の読解と研究の効率を高めるZoteroのAIプラグイン

wechat-article-exporter：wechat公開番号記事一括エクスポートツールのワンクリックデプロイメント

如意AIビデオ合成：AIビデオを生成し、ライブデジタルピープルサービスを提供する

Eden AI: 100以上のAIモデルを統合APIで接続

コメントなし

最新コレクション

最新記事

CrisperWhisper：正確な逐語音声書き起こしツール

はじめに

論文概要

抄録

視点

機能一覧

ヘルプの使用

設置プロセス

使用ガイドライン

典型例

PaddleOCR: Flying Paddleベースの多言語OCRツールライブラリ。

イルミネート：学術論文を音声ポッドキャストに変えるAIツール

関連記事

PapersGPT: 論文の読解と研究の効率を高めるZoteroのAIプラグイン

wechat-article-exporter：wechat公開番号記事一括エクスポートツールのワンクリックデプロイメント

如意AIビデオ合成：AIビデオを生成し、ライブデジタルピープルサービスを提供する

Eden AI: 100以上のAIモデルを統合APIで接続

コメントなし

厳選されたAIツール

最新コレクション

最新記事