AI个人学习
和实操指南
豆包Marscode1

Aqua Voice:跨应用语音输入生成精准文本

综合介绍

Aqua Voice 是一个基于语音的智能文本生成工具,专注于将用户语音快速转化为格式化文本。它由 Finnian Brown 和 Jack McIntire 创建于2023年,总部位于美国旧金山,隶属于 Y Combinator W24 孵化项目。Aqua Voice 不仅能准确转写语音,还能根据上下文理解用户意图,自动调整文本格式,生成邮件、代码或消息等内容。它的响应速度快,启动时间不到 200 毫秒,文本输出延迟低至 450 毫秒,错误率比 Siri 和 Google 语音输入低约 17 倍。支持 Mac 和 Windows 系统,无需额外插件即可在多种应用中使用,适合需要高效完成文字工作的用户。

Aqua Voice:跨应用语音输入生成精准文本-1


 

功能列表

  • 高精度语音转写:将语音实时转化为文本,自动修正拼写、语法和格式。
  • 自然语言指令:用简单口头指令调整文本,如“改成列表”或“插入表格”。
  • 上下文感知:根据屏幕内容或文档上下文,智能补充信息或优化输出。
  • 超低延迟:启动时间低于 200 毫秒,快速模式输出延迟约 450 毫秒。
  • 流式模式:支持连续语音输入,延迟约 850 毫秒,适合复杂任务。
  • 跨应用兼容:无需插件,直接在 Notion、Slack、VSCode 等应用中输入文本。
  • 代码理解:为开发者优化代码相关转写,支持语法高亮和术语纠正。
  • 自定义词典:添加专有词汇(如人名、技术术语),确保转写准确。
  • 隐私保护:数据本地处理,不存储用户数据,保障隐私安全。

 

使用帮助

安装流程

  1. 访问官网 https://withaqua.com/,点击页面顶部的“Download”按钮。
  2. 根据你的操作系统选择版本:
    • Mac 用户选择 Apple Silicon 或 Intel 版本。
    • Windows 用户直接下载通用安装包。
  3. 下载完成后,双击安装包,按提示完成安装。整个过程通常只需 3-5 分钟。
  4. 启动 Aqua Voice,软件会自动检测麦克风并提示连接。如有问题,可在官网 FAQ 查看解决方案。
  5. 首次使用需注册账户,免费版提供 1000 字的试用额度。试用后可选择订阅 Pro 版(每月 10 美元或年付 96 美元)。

如何使用

Aqua Voice 的核心是通过语音快速生成和编辑文本,操作简单,适合多种场景。以下是详细使用指南:

基本语音输入

  1. 打开 Aqua Voice,点击麦克风图标或按默认快捷键 Ctrl+Space(可自定义)开始录音。
  2. 说出内容,比如“写一封邮件给 Sarah,说明明天会议取消”。软件会生成格式化的文本:
主题:会议取消通知
亲爱的 Sarah,
明天原定的会议已取消,请知悉。谢谢!
  1. 短暂停顿会自动分段,长按麦克风图标可结束录音。

使用自然语言指令

Aqua Voice 支持用简单指令调整文本格式。例如:

  • 说“改成列表”,文本会变成:
- 明天原定的会议已取消
- 请知悉
  • 说“插入表格”,可生成:
| 任务     | 状态   |
|----------|--------|
| 会议     | 取消   |
  • 说“缩短这段”,软件会精简文本,比如将“请知悉并确认收到”改为“请确认”。
    指令要清晰,避免复杂语句。例如,“把这部分改得更简洁”比“优化文本结构”更容易被识别。

跨应用使用

Aqua Voice 无需插件即可在多种应用中运行:

  1. 在 Slack、Notion 或 Gmail 中,按快捷键激活 Aqua Voice。
  2. 说出内容,比如“回复 John,告诉他项目已完成”。软件会直接输入:
嗨 John,项目已经完成,请确认。
  1. 完成后可手动发送,或说“发送”触发应用内发送功能(需应用支持)。

特色功能操作

  1. 上下文感知
    Aqua Voice 通过屏幕内容理解上下文。例如:
  • 在写代码时说“添加注释”,它会根据代码生成类似 // 初始化用户数据 的注释。
  • 在邮件中说“填入日期”,它会插入当前日期,如“2025年4月10日”。
  • 如果提到人名(如“Tom”),它会参考屏幕上的联系人列表,减少拼写错误。
  1. 代码理解与语法高亮
    对于开发者,Aqua Voice 能识别技术术语并优化输出:
  • 说“创建函数 getUserData,接受 ID 参数”,会生成:
    async function getUserData(id) {
    const response = await fetch(`/users/${id}`);
    return response.json();
    }
    
  • 自动纠正术语,比如将“Jason”改为“JSON”。
  1. 流式模式与快速模式
  • 快速模式(Instant Mode):适合短句输入,延迟约 450 毫秒。说出内容后,文本立即输出。
  • 流式模式(Streaming Mode):适合长段落或复杂任务,延迟约 850 毫秒。边说边生成,适合口述长文档。
  • 切换模式:在设置中选择,或说“切换到流式模式”。
  1. 自定义词典
  • 在设置中添加专有词汇,如“Grok”或“xAI”,确保准确转写。
  • 示例:添加“Grok”后,说“Grok 是 AI 助手”,不会误写为“Grock”。
  1. 隐私与安全
  • 所有语音数据在本地处理,不上传云端。
  • 屏幕上下文分析仅用于优化输出,不会存储任何信息。

注意事项

  • 确保麦克风质量良好,避免背景噪音干扰转写准确性。
  • 目前仅支持英语,中文语音输入暂不支持,但开发团队表示正在开发多语言功能。
  • 网络连接可提升上下文感知效果,但离线模式也能正常使用基本功能。
  • 定期检查官网 https://withaqua.com/changelog 获取最新更新,软件会自动提示新版本。

进阶技巧

  • 复杂文档格式化:说“格式化成报告”,可生成带标题、正文和结论的结构化文本。
  • 多任务处理:在流式模式下,连续说“写邮件给 Anna,说明计划;然后创建待办列表”,软件会依次完成。
  • 快捷键优化:在设置中调整快捷键,如将 Ctrl+Space 改为 Alt+V,提升操作效率。

通过这些功能,用户可以轻松用语音完成从简单消息到复杂代码的编辑,大幅减少手动输入时间。

 

应用场景

  1. 职场高效沟通
    场景描述:忙碌的经理需要在会议间隙回复多封邮件。使用 Aqua Voice 口述邮件内容,软件自动生成格式化文本,直接发送,节省时间。
  2. 开发者快速编码
    场景描述:程序员口述代码逻辑,如“创建 REST API 端点”,Aqua Voice 生成准确的代码片段,减少手动敲键盘的麻烦。
  3. 学生课堂笔记
    场景描述:学生用语音记录讲课内容,说“整理成大纲”,快速生成复习资料,方便课后整理。
  4. 无障碍辅助工具
    场景描述:无法方便打字的用户通过语音操作电脑,完成消息发送或文档编辑,提升生活和工作效率。

 

QA

  1. Aqua Voice 支持中文语音吗?
    目前仅支持英语,中文功能正在开发中。可关注官网 https://withaqua.com/blog 获取更新。
  2. 免费版有什么限制?
    免费版提供 1000 字试用额度和 5 个自定义词典名额。无限字数需订阅 Pro 版(每月 10 美元)。
  3. 如何确保数据安全?
    语音和屏幕数据在本地处理,不上传云端,未经用户许可不会存储任何信息。
  4. 可以在哪些应用中使用?
    Aqua Voice 支持 Notion、Slack、VSCode、Gmail、WhatsApp 等,无需额外插件,直接输入文本。
  5. 如何处理专有术语?
    在设置中添加自定义词典,比如公司名称或技术术语,软件会优先识别这些词汇。
未经允许不得转载:首席AI分享圈 » Aqua Voice:跨应用语音输入生成精准文本
zh_CN简体中文