AI Personal Learning
and practical guidance
Resource Recommendation 1

CapsWriter-Offline:PC端的语音输入和字幕转录工具

General Introduction

CapsWriter-Offline 是一个专注于PC端的语音输入和字幕转录工具,托管于 GitHub,由开发者 HaujetZhao 打造。它完全离线运行,无需联网即可实现语音转文字和音视频文件转录字幕的功能,支持无限时长录音、中英文混合输入以及高准确率识别。软件通过按下键盘快捷键(默认 CapsLock)录音,松开后自动输入识别结果,操作简单高效。此外,它还能将音视频文件拖入客户端生成 SRT 字幕,适合需要快速转录的用户。CapsWriter-Offline 开源免费,适用于 Windows、MacOS 和 Linux 系统,深受需要高效输入和字幕制作的用户喜爱。

CapsWriter-Offline:PC端的语音输入和字幕转录工具-1


 

CapsWriter-Offline:PC端的语音输入和字幕转录工具-1

 

Function List

  • 语音转文字输入:按下快捷键录音,松开后自动将语音转为文字输入,支持中英文混合内容。
  • 无限时长录音转写:通过分段识别和去重技术,实现超长语音内容的准确转录。
  • 音视频转录字幕:支持将音视频文件拖入客户端,自动生成 SRT 格式字幕。
  • 热词替换:可自定义中文、英文及规则热词,提升特定词汇的识别准确性。
  • 日记功能:自动将录音结果保存为 Markdown 文件,并按日期整理录音内容。
  • 关键词日记:识别以特定关键词开头的语音,单独保存为专题 Markdown 文件。
  • 高品质录音保存:支持 48000 采样率录音,配合 FFmpeg 可保存为 MP3 格式。
  • Cross-platform support:兼容 Windows、MacOS 和 Linux 系统,满足多场景使用需求。

 

Using Help

Installation process

CapsWriter-Offline 是开源软件,用户需要从 GitHub 下载并手动安装。以下是详细步骤:

1. 下载软件

  • 访问 GitHub 页面。
  • 在“Releases”板块选择适合你系统的版本:
    • Windows 10 及以上 64 位系统: Download CapsWriter-Offline-Windows-64bit.zip(包含服务端和客户端)及 models.zip(模型文件)。
    • Windows 7 及以上 32 位系统: Download CapsWriter-Offline-Windows-32bit-Client.zip(仅客户端,需连接局域网内其他服务端)。
    • MacOS/Linux:需自行从源码编译,或参考社区提供的打包版本。
  • 下载完成后解压文件,将 models.zip 解压后放入软件目录下的 models Folder.

2. Environmental preparation

  • Windows user::
    • 确保系统为 Windows 10 或以上(服务端需要),内存至少 4GB(64 位系统)。
    • 若需 MP3 格式录音,需安装 FFmpeg 并配置环境变量。
  • MacOS Users::
    • mounting protobuf(运行 brew install protobuf).
    • 客户端需以 sudo 权限运行,默认快捷键为右 Shift。
  • Linux users::
    • mounting xclip(运行 sudo apt-get install xclip)以支持剪贴板功能。

3. 运行软件

  • 服务端:解压后双击 start_server.exe(Windows)或运行 core_server.py(需 Python 3.8-3.10 及依赖)。启动后会加载模型(约占 2GB 内存,耗时 50 秒)。
  • client (computing): double-click start_client.exe(Windows)或运行 core_client.py(MacOS/Linux 需 sudo)。启动后会监听默认麦克风和快捷键。

Main Functions

语音转文字输入

  1. Starting the client:运行客户端后,软件默认监听 CapsLock 键(MacOS 为右 Shift)。
  2. 录音操作::
    • 按住 CapsLock 键开始录音(小于 0.3 秒的录音会被忽略)。
    • 松开按键后,软件自动将语音转为文字并输入到当前光标位置。
  3. Adjustment of settings::
    • exist config.py 文件中修改快捷键(shortcut)、是否粘贴输出(paste)等参数。
    • 若需恢复 CapsLock 状态,可将 restore_key 设为 TrueThe

音视频转录字幕

  1. 准备文件:确保客户端已运行,且服务端正常工作。
  2. 拖入文件:将音视频文件(如 MP4、WAV)拖到 start_client.exe Up.
  3. Generate Subtitles:软件自动识别音频内容并生成 SRT 文件,保存在同一目录下。
  4. caveat:若文件较大,建议预先检查内存和硬盘空间,识别时间与文件长度相关。

热词替换

  1. 编辑热词文件:在软件目录下找到 hot-zh.txt(中文)、hot-en.txt(英文)、hot-rule.txt(自定义规则)。
  2. 添加热词::
    • 中文热词每行一个(如“人工智能”),基于拼音替换。
    • 英文热词每行一个(如“AI”),基于拼写替换。
    • 自定义规则用等号分隔(如“毫安时 = mAh”)。
  3. 生效方式:无需重启,客户端会动态加载热词,提升专业术语识别率。

日记功能

  1. 启用日记:默认开启,每次录音结果会保存到 年份/月份/日期.md Documentation.
  2. 录音保存:音频文件自动存入 年份/月份/assets 文件夹,支持 WAV 或 MP3 格式。
  3. 关键词日记::
    • compiler keywords.txt,每行添加一个关键词(如“会议”)。
    • 语音以关键词开头时,结果会单独保存为 年份/月份/关键词-日期.mdThe
  4. 清理冗余:运行附带的 Python 脚本,删除未被 Markdown 引用的音频文件。

操作流程演示

  • 场景 1:快速输入笔记
    打开客户端 -> 按住 CapsLock -> 说“今天下午开会讨论项目进度” -> 松开按键 -> 文字自动输入到文档 -> 保存为日记文件。
  • 场景 2:视频转字幕
    准备 MP4 文件 -> 拖到客户端 -> 等待处理(进度显示在终端) -> 检查生成的 SRT 文件 -> 导入视频编辑软件使用。

caveat

  • 若服务端未启动,客户端会显示连接错误,需确保服务端运行在 127.0.0.1:6016(默认地址)。
  • MacOS 用户需允许麦克风权限,并在终端以 sudo 运行客户端。
  • 热词过多可能增加 3ms/万条的延迟,建议精简常用词。
Related documents download address
© Download resources copyright belongs to the author; all resources on this site are from the network, for learning purposes only, please support the original version!
Content 2
May not be reproduced without permission:Chief AI Sharing Circle " CapsWriter-Offline:PC端的语音输入和字幕转录工具

Chief AI Sharing Circle

Chief AI Sharing Circle specializes in AI learning, providing comprehensive AI learning content, AI tools and hands-on guidance. Our goal is to help users master AI technology and explore the unlimited potential of AI together through high-quality content and practical experience sharing. Whether you are an AI beginner or a senior expert, this is the ideal place for you to gain knowledge, improve your skills and realize innovation.

Contact Us
en_USEnglish