AI个人学习
和实操指南
资源推荐1

CapsWriter-Offline:PC端的语音输入和字幕转录工具

综合介绍

CapsWriter-Offline 是一个专注于PC端的语音输入和字幕转录工具,托管于 GitHub,由开发者 HaujetZhao 打造。它完全离线运行,无需联网即可实现语音转文字和音视频文件转录字幕的功能,支持无限时长录音、中英文混合输入以及高准确率识别。软件通过按下键盘快捷键(默认 CapsLock)录音,松开后自动输入识别结果,操作简单高效。此外,它还能将音视频文件拖入客户端生成 SRT 字幕,适合需要快速转录的用户。CapsWriter-Offline 开源免费,适用于 Windows、MacOS 和 Linux 系统,深受需要高效输入和字幕制作的用户喜爱。

CapsWriter-Offline:PC端的语音输入和字幕转录工具-1


 

CapsWriter-Offline:PC端的语音输入和字幕转录工具-1

 

功能列表

  • 语音转文字输入:按下快捷键录音,松开后自动将语音转为文字输入,支持中英文混合内容。
  • 无限时长录音转写:通过分段识别和去重技术,实现超长语音内容的准确转录。
  • 音视频转录字幕:支持将音视频文件拖入客户端,自动生成 SRT 格式字幕。
  • 热词替换:可自定义中文、英文及规则热词,提升特定词汇的识别准确性。
  • 日记功能:自动将录音结果保存为 Markdown 文件,并按日期整理录音内容。
  • 关键词日记:识别以特定关键词开头的语音,单独保存为专题 Markdown 文件。
  • 高品质录音保存:支持 48000 采样率录音,配合 FFmpeg 可保存为 MP3 格式。
  • 跨平台支持:兼容 Windows、MacOS 和 Linux 系统,满足多场景使用需求。

 

使用帮助

安装流程

CapsWriter-Offline 是开源软件,用户需要从 GitHub 下载并手动安装。以下是详细步骤:

1. 下载软件

  • 访问 GitHub 页面。
  • 在“Releases”板块选择适合你系统的版本:
    • Windows 10 及以上 64 位系统:下载 CapsWriter-Offline-Windows-64bit.zip(包含服务端和客户端)及 models.zip(模型文件)。
    • Windows 7 及以上 32 位系统:下载 CapsWriter-Offline-Windows-32bit-Client.zip(仅客户端,需连接局域网内其他服务端)。
    • MacOS/Linux:需自行从源码编译,或参考社区提供的打包版本。
  • 下载完成后解压文件,将 models.zip 解压后放入软件目录下的 models 文件夹。

2. 环境准备

  • Windows 用户
    • 确保系统为 Windows 10 或以上(服务端需要),内存至少 4GB(64 位系统)。
    • 若需 MP3 格式录音,需安装 FFmpeg 并配置环境变量。
  • MacOS 用户
    • 安装 protobuf(运行 brew install protobuf)。
    • 客户端需以 sudo 权限运行,默认快捷键为右 Shift。
  • Linux 用户
    • 安装 xclip(运行 sudo apt-get install xclip)以支持剪贴板功能。

3. 运行软件

  • 服务端:解压后双击 start_server.exe(Windows)或运行 core_server.py(需 Python 3.8-3.10 及依赖)。启动后会加载模型(约占 2GB 内存,耗时 50 秒)。
  • 客户端:双击 start_client.exe(Windows)或运行 core_client.py(MacOS/Linux 需 sudo)。启动后会监听默认麦克风和快捷键。

主要功能操作

语音转文字输入

  1. 启动客户端:运行客户端后,软件默认监听 CapsLock 键(MacOS 为右 Shift)。
  2. 录音操作
    • 按住 CapsLock 键开始录音(小于 0.3 秒的录音会被忽略)。
    • 松开按键后,软件自动将语音转为文字并输入到当前光标位置。
  3. 调整设置
    • 在 config.py 文件中修改快捷键(shortcut)、是否粘贴输出(paste)等参数。
    • 若需恢复 CapsLock 状态,可将 restore_key 设为 True

音视频转录字幕

  1. 准备文件:确保客户端已运行,且服务端正常工作。
  2. 拖入文件:将音视频文件(如 MP4、WAV)拖到 start_client.exe 上。
  3. 生成字幕:软件自动识别音频内容并生成 SRT 文件,保存在同一目录下。
  4. 注意事项:若文件较大,建议预先检查内存和硬盘空间,识别时间与文件长度相关。

热词替换

  1. 编辑热词文件:在软件目录下找到 hot-zh.txt(中文)、hot-en.txt(英文)、hot-rule.txt(自定义规则)。
  2. 添加热词
    • 中文热词每行一个(如“人工智能”),基于拼音替换。
    • 英文热词每行一个(如“AI”),基于拼写替换。
    • 自定义规则用等号分隔(如“毫安时 = mAh”)。
  3. 生效方式:无需重启,客户端会动态加载热词,提升专业术语识别率。

日记功能

  1. 启用日记:默认开启,每次录音结果会保存到 年份/月份/日期.md 文件中。
  2. 录音保存:音频文件自动存入 年份/月份/assets 文件夹,支持 WAV 或 MP3 格式。
  3. 关键词日记
    • 编辑 keywords.txt,每行添加一个关键词(如“会议”)。
    • 语音以关键词开头时,结果会单独保存为 年份/月份/关键词-日期.md
  4. 清理冗余:运行附带的 Python 脚本,删除未被 Markdown 引用的音频文件。

操作流程演示

  • 场景 1:快速输入笔记
    打开客户端 -> 按住 CapsLock -> 说“今天下午开会讨论项目进度” -> 松开按键 -> 文字自动输入到文档 -> 保存为日记文件。
  • 场景 2:视频转字幕
    准备 MP4 文件 -> 拖到客户端 -> 等待处理(进度显示在终端) -> 检查生成的 SRT 文件 -> 导入视频编辑软件使用。

注意事项

  • 若服务端未启动,客户端会显示连接错误,需确保服务端运行在 127.0.0.1:6016(默认地址)。
  • MacOS 用户需允许麦克风权限,并在终端以 sudo 运行客户端。
  • 热词过多可能增加 3ms/万条的延迟,建议精简常用词。
相关文件下载地址
©下载资源版权归作者所有;本站所有资源均来源于网络,仅供学习使用,请支持正版!
工具下载
未经允许不得转载:首席AI分享圈 » CapsWriter-Offline:PC端的语音输入和字幕转录工具

首席AI分享圈

首席AI分享圈专注于人工智能学习,提供全面的AI学习内容、AI工具和实操指导。我们的目标是通过高质量的内容和实践经验分享,帮助用户掌握AI技术,一起挖掘AI的无限潜能。无论您是AI初学者还是资深专家,这里都是您获取知识、提升技能、实现创新的理想之地。

联系我们
zh_CN简体中文