CapsWriter-Offline：PC端的语音输入和字幕转录工具

1.5K 00

综合介绍

CapsWriter-Offline 是一个专注于PC端的语音输入和字幕转录工具，托管于 GitHub，由开发者 HaujetZhao 打造。它完全离线运行，无需联网即可实现语音转文字和音视频文件转录字幕的功能，支持无限时长录音、中英文混合输入以及高准确率识别。软件通过按下键盘快捷键（默认 CapsLock）录音，松开后自动输入识别结果，操作简单高效。此外，它还能将音视频文件拖入客户端生成 SRT 字幕，适合需要快速转录的用户。CapsWriter-Offline 开源免费，适用于 Windows、MacOS 和 Linux 系统，深受需要高效输入和字幕制作的用户喜爱。

功能列表

语音转文字输入：按下快捷键录音，松开后自动将语音转为文字输入，支持中英文混合内容。
无限时长录音转写：通过分段识别和去重技术，实现超长语音内容的准确转录。
音视频转录字幕：支持将音视频文件拖入客户端，自动生成 SRT 格式字幕。
热词替换：可自定义中文、英文及规则热词，提升特定词汇的识别准确性。
日记功能：自动将录音结果保存为 Markdown 文件，并按日期整理录音内容。
关键词日记：识别以特定关键词开头的语音，单独保存为专题 Markdown 文件。
高品质录音保存：支持 48000 采样率录音，配合 FFmpeg 可保存为 MP3 格式。
跨平台支持：兼容 Windows、MacOS 和 Linux 系统，满足多场景使用需求。

使用帮助

安装流程

CapsWriter-Offline 是开源软件，用户需要从 GitHub 下载并手动安装。以下是详细步骤：

1. 下载软件

访问 GitHub 页面。
在“Releases”板块选择适合你系统的版本：
- Windows 10 及以上 64 位系统：下载 CapsWriter-Offline-Windows-64bit.zip（包含服务端和客户端）及 models.zip（模型文件）。
- Windows 7 及以上 32 位系统：下载 CapsWriter-Offline-Windows-32bit-Client.zip（仅客户端，需连接局域网内其他服务端）。
- MacOS/Linux：需自行从源码编译，或参考社区提供的打包版本。
下载完成后解压文件，将 models.zip 解压后放入软件目录下的 models 文件夹。

2. 环境准备

Windows 用户：
- 确保系统为 Windows 10 或以上（服务端需要），内存至少 4GB（64 位系统）。
- 若需 MP3 格式录音，需安装 FFmpeg 并配置环境变量。
MacOS 用户：
- 安装 protobuf（运行 brew install protobuf）。
- 客户端需以 sudo 权限运行，默认快捷键为右 Shift。
Linux 用户：
- 安装 xclip（运行 sudo apt-get install xclip）以支持剪贴板功能。

3. 运行软件

服务端：解压后双击 start_server.exe（Windows）或运行 core_server.py（需 Python 3.8-3.10 及依赖）。启动后会加载模型（约占 2GB 内存，耗时 50 秒）。
客户端：双击 start_client.exe（Windows）或运行 core_client.py（MacOS/Linux 需 sudo）。启动后会监听默认麦克风和快捷键。

主要功能操作

语音转文字输入

启动客户端：运行客户端后，软件默认监听 CapsLock 键（MacOS 为右 Shift）。
录音操作：
- 按住 CapsLock 键开始录音（小于 0.3 秒的录音会被忽略）。
- 松开按键后，软件自动将语音转为文字并输入到当前光标位置。
调整设置：
- 在 config.py 文件中修改快捷键（shortcut）、是否粘贴输出（paste）等参数。
- 若需恢复 CapsLock 状态，可将 restore_key 设为 True。

音视频转录字幕

准备文件：确保客户端已运行，且服务端正常工作。
拖入文件：将音视频文件（如 MP4、WAV）拖到 start_client.exe 上。
生成字幕：软件自动识别音频内容并生成 SRT 文件，保存在同一目录下。
注意事项：若文件较大，建议预先检查内存和硬盘空间，识别时间与文件长度相关。

热词替换

编辑热词文件：在软件目录下找到 hot-zh.txt（中文）、hot-en.txt（英文）、hot-rule.txt（自定义规则）。
添加热词：
- 中文热词每行一个（如“人工智能”），基于拼音替换。
- 英文热词每行一个（如“AI”），基于拼写替换。
- 自定义规则用等号分隔（如“毫安时 = mAh”）。
生效方式：无需重启，客户端会动态加载热词，提升专业术语识别率。

日记功能

启用日记：默认开启，每次录音结果会保存到 年份/月份/日期.md 文件中。
录音保存：音频文件自动存入 年份/月份/assets 文件夹，支持 WAV 或 MP3 格式。
关键词日记：
- 编辑 keywords.txt，每行添加一个关键词（如“会议”）。
- 语音以关键词开头时，结果会单独保存为 年份/月份/关键词-日期.md。
清理冗余：运行附带的 Python 脚本，删除未被 Markdown 引用的音频文件。

操作流程演示

场景 1：快速输入笔记
打开客户端 -> 按住 CapsLock -> 说“今天下午开会讨论项目进度” -> 松开按键 -> 文字自动输入到文档 -> 保存为日记文件。
场景 2：视频转字幕
准备 MP4 文件 -> 拖到客户端 -> 等待处理（进度显示在终端） -> 检查生成的 SRT 文件 -> 导入视频编辑软件使用。