CrisperWhisper：精确的逐字语音转录工具

68.6K 00

综合介绍

CrisperWhisper 是一个基于 OpenAI Whisper 的高级语音识别工具，专注于快速、精确和逐字的语音转录。它能够提供精确的单词级时间戳，甚至在语音填充和停顿的情况下也能准确记录。CrisperWhisper 通过调整标记器和自定义注意力损失来提高时间戳的精度，并减少转录幻觉，确保每个发音的单词都被准确记录。

论文總結
CrisperWhisper 是一款改進版的 Whisper 語音識別模型，通過調整 tokenizer 和使用動態時間扭曲（DTW）算法，實現了更精確的詞級時間戳記，並能夠提供更細緻的語音轉錄，增強對語音中暫停和填詞事件的檢測能力，並降低虛幻（hallucinations）的產生。
摘要
CrisperWhisper 是基於 Whisper 模型的一項改進，旨在提供更精確的詞級時間戳記和更細緻的語音轉錄。該模型通過調整 Whisper 的 tokenizer，使得 DTW 算法能夠更準確地對齊音頻片段與詞語，從而提高了時間戳記的精確度。這項技術對於捕捉所有發音的語音轉錄特別有用，這對於臨床評估語音、分析語言規劃過程以及識別認知負荷指標非常重要。CrisperWhisper 還通過訓練和對抗噪音的方法，提高了對單一聲音源的關注度和噪音適應性，並且在多個基準數據集上進行了測試，展示了其在語音識別、詞段分割、填詞事件檢測以及降低虛幻內容方面的優異性能。此外，該模型的代碼和一個具有準確詞級時間戳記的合成數據集已經開源。
觀點
改進的 Tokenizer：CrisperWhisper 通過移除 tokenizer 中的多餘空格，並對特定詞語（如 "uh" 和 "um"）進行重新標記，使得 DTW 算法能夠更準確地對齊音頻片段與詞語，從而提高了時間戳記的精確度。
對抗噪音的技術：模型通過訓練時加入噪音和多聲音源的數據，提高了對噪音的適應性，並且通過引入空白的訓練樣本來減少虛幻內容的產生。
優異的性能：CrisperWhisper 在多個基準數據集上進行了測試，包括 AMI Meeting Corpus、TED-LIUM 和 LibriSpeech，並在這些數據集上展示了優異的詞級時間戳記和語音識別性能。
開源代碼和數據集：該模型的代碼和一個合成的語音數據集已經開源，這有助於研究人員和開發者進一步研究和改進語音識別技術。
虛幻內容的降低：CrisperWhisper 通過精確的時間戳記和對虛幻內容的特定處理，有效降低了虛幻內容的產生，這對於提高語音識別系統的可靠性特別重要。

功能列表

精确的单词级时间戳：即使在语音填充和停顿的情况下，也能提供精确的时间戳。
逐字转录：逐字记录每个发音的单词，包括填充词如“嗯”和“啊”。
填充词检测：检测并准确转录填充词。
幻觉减轻：减少转录幻觉，提高准确性。
开源代码：代码公开，便于用户查看和使用。

使用帮助

安装流程

环境准备：
- 确保已安装 Python 3.7 及以上版本。
- 安装必要的依赖库：pip install -r requirements.txt。
下载代码：
- 克隆 GitHub 仓库：git clone https://github.com/nyrahealth/CrisperWhisper.git。
运行应用：
- 进入项目目录：cd CrisperWhisper。
- 运行应用：python app.py。

使用指南

基本使用：
- 打开应用后，上传需要转录的音频文件。
- 选择转录模式（逐字转录或标准转录）。
- 点击“开始转录”按钮，等待转录完成。
高级功能：
- 时间戳调整：在设置中可以调整时间戳的精度。
- 填充词检测：开启或关闭填充词检测功能。
- 导出结果：转录完成后，可以将结果导出为文本文件或其他格式。
常见问题：
- 转录不准确：确保音频质量良好，避免背景噪音。
- 时间戳不精确：尝试调整时间戳设置，或使用更高质量的音频文件。

示例

逐字转录示例：

原音频：嗯，我觉得这个项目非常有趣。
转录结果：嗯，我觉得这个项目非常有趣。
时间戳：[0:00:01] 嗯，[0:00:02] 我，[0:00:03] 觉得，[0:00:04] 这个，[0:00:05] 项目，[0:00:06] 非常，[0:00:07] 有趣。

填充词检测示例：

原音频：嗯，我觉得这个项目非常有趣。
转录结果：嗯，我觉得这个项目非常有趣。
填充词：[0:00:01] 嗯

最新AI资源 # AI开源项目 # AI语音转文本

文章版权归 AI分享圈所有，未经允许请勿转载。

Akool：生成图像和视频营销素材|视频换脸|视频翻译|人像说话

最新AI资源 # AI图像转视频 # AI数字人 # AI视频换脸

1年前

067.7K

Genmo：用AI轻松创造视频|对话生成视频|快速生成动画

最新AI资源 # AI图像转视频 # AI文本转视频

1年前

058.2K

MiniMax M2.7 - MiniMax 推出的旗舰级 Agent 推理大模型

Hour One：AI虚拟人视频生成，制作虚拟人出镜的企业培训与品牌宣传视频

最新AI资源 # AI数字人

1年前

054.8K

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...