综合介绍
CrisperWhisper 是一个基于 OpenAI Whisper 的高级语音识别工具,专注于快速、精确和逐字的语音转录。它能够提供精确的单词级时间戳,甚至在语音填充和停顿的情况下也能准确记录。CrisperWhisper 通过调整标记器和自定义注意力损失来提高时间戳的精度,并减少转录幻觉,确保每个发音的单词都被准确记录。
论文總結
CrisperWhisper 是一款改進版的 Whisper 語音識別模型,通過調整 tokenizer 和使用動態時間扭曲(DTW)算法,實現了更精確的詞級時間戳記,並能夠提供更細緻的語音轉錄,增強對語音中暫停和填詞事件的檢測能力,並降低虛幻(hallucinations)的產生。
摘要
CrisperWhisper 是基於 Whisper 模型的一項改進,旨在提供更精確的詞級時間戳記和更細緻的語音轉錄。該模型通過調整 Whisper 的 tokenizer,使得 DTW 算法能夠更準確地對齊音頻片段與詞語,從而提高了時間戳記的精確度。這項技術對於捕捉所有發音的語音轉錄特別有用,這對於臨床評估語音、分析語言規劃過程以及識別認知負荷指標非常重要。CrisperWhisper 還通過訓練和對抗噪音的方法,提高了對單一聲音源的關注度和噪音適應性,並且在多個基準數據集上進行了測試,展示了其在語音識別、詞段分割、填詞事件檢測以及降低虛幻內容方面的優異性能。此外,該模型的代碼和一個具有準確詞級時間戳記的合成數據集已經開源。
觀點
- 改進的 Tokenizer:CrisperWhisper 通過移除 tokenizer 中的多餘空格,並對特定詞語(如 "uh" 和 "um")進行重新標記,使得 DTW 算法能夠更準確地對齊音頻片段與詞語,從而提高了時間戳記的精確度。
- 對抗噪音的技術:模型通過訓練時加入噪音和多聲音源的數據,提高了對噪音的適應性,並且通過引入空白的訓練樣本來減少虛幻內容的產生。
- 優異的性能:CrisperWhisper 在多個基準數據集上進行了測試,包括 AMI Meeting Corpus、TED-LIUM 和 LibriSpeech,並在這些數據集上展示了優異的詞級時間戳記和語音識別性能。
- 開源代碼和數據集:該模型的代碼和一個合成的語音數據集已經開源,這有助於研究人員和開發者進一步研究和改進語音識別技術。
- 虛幻內容的降低:CrisperWhisper 通過精確的時間戳記和對虛幻內容的特定處理,有效降低了虛幻內容的產生,這對於提高語音識別系統的可靠性特別重要。
功能列表
- 精确的单词级时间戳:即使在语音填充和停顿的情况下,也能提供精确的时间戳。
- 逐字转录:逐字记录每个发音的单词,包括填充词如“嗯”和“啊”。
- 填充词检测:检测并准确转录填充词。
- 幻觉减轻:减少转录幻觉,提高准确性。
- 开源代码:代码公开,便于用户查看和使用。
使用帮助
安装流程
- 环境准备:
- 确保已安装 Python 3.7 及以上版本。
- 安装必要的依赖库:
pip install -r requirements.txt
。
- 下载代码:
- 克隆 GitHub 仓库:
git clone https://github.com/nyrahealth/CrisperWhisper.git
。
- 克隆 GitHub 仓库:
- 运行应用:
- 进入项目目录:
cd CrisperWhisper
。 - 运行应用:
python app.py
。
- 进入项目目录:
使用指南
- 基本使用:
- 打开应用后,上传需要转录的音频文件。
- 选择转录模式(逐字转录或标准转录)。
- 点击“开始转录”按钮,等待转录完成。
- 高级功能:
- 时间戳调整:在设置中可以调整时间戳的精度。
- 填充词检测:开启或关闭填充词检测功能。
- 导出结果:转录完成后,可以将结果导出为文本文件或其他格式。
- 常见问题:
- 转录不准确:确保音频质量良好,避免背景噪音。
- 时间戳不精确:尝试调整时间戳设置,或使用更高质量的音频文件。
示例
- 逐字转录示例:
原音频:嗯,我觉得这个项目非常有趣。 转录结果:嗯,我觉得这个项目非常有趣。 时间戳:[0:00:01] 嗯,[0:00:02] 我,[0:00:03] 觉得,[0:00:04] 这个,[0:00:05] 项目,[0:00:06] 非常,[0:00:07] 有趣。
- 填充词检测示例:
原音频:嗯,我觉得这个项目非常有趣。 转录结果:嗯,我觉得这个项目非常有趣。 填充词:[0:00:01] 嗯