General Introduction
CapsWriter-Offline 是一个专注于PC端的语音输入和字幕转录工具,托管于 GitHub,由开发者 HaujetZhao 打造。它完全离线运行,无需联网即可实现语音转文字和音视频文件转录字幕的功能,支持无限时长录音、中英文混合输入以及高准确率识别。软件通过按下键盘快捷键(默认 CapsLock)录音,松开后自动输入识别结果,操作简单高效。此外,它还能将音视频文件拖入客户端生成 SRT 字幕,适合需要快速转录的用户。CapsWriter-Offline 开源免费,适用于 Windows、MacOS 和 Linux 系统,深受需要高效输入和字幕制作的用户喜爱。
Function List
- 语音转文字输入:按下快捷键录音,松开后自动将语音转为文字输入,支持中英文混合内容。
- 无限时长录音转写:通过分段识别和去重技术,实现超长语音内容的准确转录。
- 音视频转录字幕:支持将音视频文件拖入客户端,自动生成 SRT 格式字幕。
- 热词替换:可自定义中文、英文及规则热词,提升特定词汇的识别准确性。
- 日记功能:自动将录音结果保存为 Markdown 文件,并按日期整理录音内容。
- 关键词日记:识别以特定关键词开头的语音,单独保存为专题 Markdown 文件。
- 高品质录音保存:支持 48000 采样率录音,配合 FFmpeg 可保存为 MP3 格式。
- Cross-platform support:兼容 Windows、MacOS 和 Linux 系统,满足多场景使用需求。
Using Help
Installation process
CapsWriter-Offline 是开源软件,用户需要从 GitHub 下载并手动安装。以下是详细步骤:
1. 下载软件
- 访问 GitHub 页面。
- 在“Releases”板块选择适合你系统的版本:
- Windows 10 及以上 64 位系统: Download
CapsWriter-Offline-Windows-64bit.zip
(包含服务端和客户端)及models.zip
(模型文件)。 - Windows 7 及以上 32 位系统: Download
CapsWriter-Offline-Windows-32bit-Client.zip
(仅客户端,需连接局域网内其他服务端)。 - MacOS/Linux:需自行从源码编译,或参考社区提供的打包版本。
- Windows 10 及以上 64 位系统: Download
- 下载完成后解压文件,将
models.zip
解压后放入软件目录下的models
Folder.
2. Environmental preparation
- Windows user::
- 确保系统为 Windows 10 或以上(服务端需要),内存至少 4GB(64 位系统)。
- 若需 MP3 格式录音,需安装 FFmpeg 并配置环境变量。
- MacOS Users::
- mounting
protobuf
(运行brew install protobuf
). - 客户端需以
sudo
权限运行,默认快捷键为右 Shift。
- mounting
- Linux users::
- mounting
xclip
(运行sudo apt-get install xclip
)以支持剪贴板功能。
- mounting
3. 运行软件
- 服务端:解压后双击
start_server.exe
(Windows)或运行core_server.py
(需 Python 3.8-3.10 及依赖)。启动后会加载模型(约占 2GB 内存,耗时 50 秒)。 - client (computing): double-click
start_client.exe
(Windows)或运行core_client.py
(MacOS/Linux 需sudo
)。启动后会监听默认麦克风和快捷键。
Main Functions
语音转文字输入
- Starting the client:运行客户端后,软件默认监听 CapsLock 键(MacOS 为右 Shift)。
- 录音操作::
- 按住 CapsLock 键开始录音(小于 0.3 秒的录音会被忽略)。
- 松开按键后,软件自动将语音转为文字并输入到当前光标位置。
- Adjustment of settings::
- exist
config.py
文件中修改快捷键(shortcut
)、是否粘贴输出(paste
)等参数。 - 若需恢复 CapsLock 状态,可将
restore_key
设为True
The
- exist
音视频转录字幕
- 准备文件:确保客户端已运行,且服务端正常工作。
- 拖入文件:将音视频文件(如 MP4、WAV)拖到
start_client.exe
Up. - Generate Subtitles:软件自动识别音频内容并生成 SRT 文件,保存在同一目录下。
- caveat:若文件较大,建议预先检查内存和硬盘空间,识别时间与文件长度相关。
热词替换
- 编辑热词文件:在软件目录下找到
hot-zh.txt
(中文)、hot-en.txt
(英文)、hot-rule.txt
(自定义规则)。 - 添加热词::
- 中文热词每行一个(如“人工智能”),基于拼音替换。
- 英文热词每行一个(如“AI”),基于拼写替换。
- 自定义规则用等号分隔(如“毫安时 = mAh”)。
- 生效方式:无需重启,客户端会动态加载热词,提升专业术语识别率。
日记功能
- 启用日记:默认开启,每次录音结果会保存到
年份/月份/日期.md
Documentation. - 录音保存:音频文件自动存入
年份/月份/assets
文件夹,支持 WAV 或 MP3 格式。 - 关键词日记::
- compiler
keywords.txt
,每行添加一个关键词(如“会议”)。 - 语音以关键词开头时,结果会单独保存为
年份/月份/关键词-日期.md
The
- compiler
- 清理冗余:运行附带的 Python 脚本,删除未被 Markdown 引用的音频文件。
操作流程演示
- 场景 1:快速输入笔记
打开客户端 -> 按住 CapsLock -> 说“今天下午开会讨论项目进度” -> 松开按键 -> 文字自动输入到文档 -> 保存为日记文件。 - 场景 2:视频转字幕
准备 MP4 文件 -> 拖到客户端 -> 等待处理(进度显示在终端) -> 检查生成的 SRT 文件 -> 导入视频编辑软件使用。
caveat
- 若服务端未启动,客户端会显示连接错误,需确保服务端运行在
127.0.0.1:6016
(默认地址)。 - MacOS 用户需允许麦克风权限,并在终端以
sudo
运行客户端。 - 热词过多可能增加 3ms/万条的延迟,建议精简常用词。
Related documents download address
© Download resources copyright belongs to the author; all resources on this site are from the network, for learning purposes only, please support the original version!