Voicebox - 开源本地优先的AI语音克隆工作室

最新AI资源5小时前发布 AI分享圈
872 00
堆友AI

Voicebox是什么

Voicebox 是开源的本地优先的语音克隆工作室,定位为 ElevenLabs 的免费开源替代品。基于阿里巴巴的 Qwen3-TTS 模型,支持从几秒钟音频样本克隆声音,在本地设备上生成高质量语音。不同于云端服务,Voicebox 确保所有模型和语音数据始终保留在本地,无需订阅费用,无需联网即可生成语音。

Voicebox - 开源本地优先的AI语音克隆工作室

Voicebox的功能特色

  • 多引擎 TTS 支持:目前集成 5 个独立引擎,包括 Qwen3-TTS(1.7B/0.6B)、LuxTTS(轻量级英文,300MB,150倍实时速度)、Chatterbox Multilingual(支持23种语言零样本克隆)、Chatterbox Turbo(350M参数,支持[laugh][sigh]等9种副语言标签)、HumeAI TADA。
  • 零样本语音克隆:仅需 5-10 秒音频样本即可克隆声音,支持多样本合并提升质量。
  • 多轨时间线编辑器:类似 DAW(数字音频工作站)的专业编辑界面,支持对话混音、音频修剪、多角色播客/叙事创作。
  • 应用内录音与转录:集成 Whisper 模型,可直接录音并自动提取参考文本。
  • 后期处理效果:音高变换、混响、延迟、合唱、压缩和滤波器。
  • API 优先设计:提供完整 REST API(默认端口 8000/17493),支持程序化集成到游戏、播客生产管道、无障碍工具等。
  • 无限长度生成:自动分块与交叉淡入淡出,支持长脚本、文章和章节生成。
  • 跨平台支持:macOS(Apple Silicon/Intel)、Windows(CUDA)、Linux、AMD ROCm、Intel Arc、Docker。

Voicebox的核心优势

  • 完全隐私保护:所有处理和存储均在本地完成,语音数据永不发送到外部服务器。
  • 零订阅成本:开源免费,无使用限制,仅需承担本地硬件成本。
  • 原生性能:Rust + Tauri 构建,非 Electron,启动更快内存占用更低;Apple Silicon 原生 Metal 加速
  • 专业工作流:从语音克隆、生成、效果处理到多轨编排的完整创作流水线。
  • 多语言覆盖:支持英语、中文、阿拉伯语、日语、印地语、斯瓦希里语等 23 种语言。
  • 灵活部署:支持纯本地模式、远程 GPU 服务器模式,可一键将任何机器转为 Voicebox 服务器。

Voicebox官网是什么

  • 项目官网:https://voicebox.sh/
  • GitHub仓库:https://github.com/jamiepine/voicebox

使用Voicebox的操作步骤

  • 下载安装:访问 voicebox.sh 官网,下载对应平台安装包(macOS DMG / Windows MSI / Docker 镜像),首次启动后自动下载 Qwen3-TTS 模型(约 3.5GB),无需手动配置 Python 环境。
  • 创建语音档案:点击"Create voice"上传参考音频(建议 5-10 秒,小于 30 秒),命名档案并选择语言,使用内置 Whisper 自动转录参考文本,点击"Create profile"保存,支持多样本合并以提升克隆质量。
  • 生成单段语音:选择已创建的语音档案,在文本框输入内容(5000 字符以内,长文本建议分段),选择 TTS 引擎(Qwen3-TTS 1.7B 质量优先 / 0.6B 速度优先,或切换 LuxTTS、Chatterbox 等引擎),点击生成按钮,CPU 约需 1-5 分钟,GPU 显著加速。
  • 多轨项目编辑(Stories):进入 Stories 编辑器,添加多个语音轨道并分配不同语音档案,在时间线上调整音频片段位置,添加交叉淡入淡出过渡,应用后期效果(音高变换、混响、延迟、压缩等),导出最终混音文件。
  • 应用内录音与转录:直接使用应用内置录音功能采集参考音频,系统自动调用 Whisper 模型完成语音到文本的转录,省去外部工具处理步骤。
  • API 程序化调用:通过本地 REST API(默认端口 8000/17493)发送 POST 请求,传入文本、语音档案 ID 和语言参数,集成到游戏、播客生产管道或无障碍工具中。
  • 模型与引擎管理:在设置中切换不同 TTS 后端(支持 Qwen3-TTS、XTTS、Bark、Chatterbox、HumeAI TADA 等),根据硬件条件选择 MLX(Apple Silicon 加速)、CUDA(NVIDIA)或 CPU 推理模式。

Voicebox的适用人群

  • 内容创作者:YouTube 旁白、角色配音、播客制作,需要离线工作流保护内容隐私。
  • 游戏开发者:构建本地化游戏对话系统,无需担心 API 配额或网络稳定性。
  • 无障碍工具开发者:集成语音合成到辅助阅读、语音助手等应用。
  • 隐私敏感行业:医疗、法律、个人内容创作领域,无法将语音数据上传至云端。
  • Apple Silicon 用户:追求 4-5 倍速度优势的 macOS 用户。
  • 技术团队:需要通过 REST API 将语音能力集成到自有产品的开发者。

Voicebox的常见问题FAQ

Q: Voicebox 会将我的语音数据发送到外部服务器吗?
A: 不会。所有模型和语音数据完全在本地处理,首次模型下载后无需网络连接即可生成。


Q: 支持哪些语言?
A: Qwen3-TTS 支持英语和中文;Chatterbox Multilingual 扩展至 23 种语言(阿拉伯语、丹麦语、荷兰语、法语、德语、希腊语、希伯来语、印地语、意大利语、日语、韩语、马来语、挪威语、波兰语、葡萄牙语、俄语、西班牙语、斯瓦希里语、瑞典语、土耳其语等)。


Q: 无独立 GPU 的 Windows 电脑性能如何?
A: CPU 推理可用但较慢(短句约 1 分钟),建议使用 CUDA 显卡;Apple Silicon Mac 通过 MLX 后端显著更快。


Q: 克隆的语音可以商业使用吗?
A: 可以。Voicebox 本身开源,基于的 Qwen3-TTS 和 Chatterbox 均允许商业使用,但需遵守各模型的具体许可证条款。


Q: 与 ElevenLabs 相比质量如何?
A: 英语输出质量接近商业工具,Qwen3-TTS 1.7B 模型在主观测试中表现优异;Chatterbox 在盲测中 63.8% 听众偏好度超过 ElevenLabs。


Q: Linux 支持情况如何?
A: 官方预构建版本暂未发布(受 GitHub Actions 磁盘空间限制),但可通过源码构建,支持 CUDA 和 PyTorch 后端。


Q: 支持实时合成吗?
A: 目前所有生成均为批处理模式,暂不支持实时流式合成或语音助手交互场景。
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...