Voicebox - 开源本地优先的AI语音克隆工作室

Voicebox是什么

Voicebox 是开源的本地优先的语音克隆工作室，定位为 ElevenLabs 的免费开源替代品。基于阿里巴巴的 Qwen3-TTS 模型，支持从几秒钟音频样本克隆声音，在本地设备上生成高质量语音。不同于云端服务，Voicebox 确保所有模型和语音数据始终保留在本地，无需订阅费用，无需联网即可生成语音。

Voicebox的功能特色

多引擎 TTS 支持：目前集成 5 个独立引擎，包括 Qwen3-TTS（1.7B/0.6B）、LuxTTS（轻量级英文，300MB，150倍实时速度）、Chatterbox Multilingual（支持23种语言零样本克隆）、Chatterbox Turbo（350M参数，支持[laugh][sigh]等9种副语言标签）、HumeAI TADA。
零样本语音克隆：仅需 5-10 秒音频样本即可克隆声音，支持多样本合并提升质量。
多轨时间线编辑器：类似 DAW（数字音频工作站）的专业编辑界面，支持对话混音、音频修剪、多角色播客/叙事创作。
应用内录音与转录：集成 Whisper 模型，可直接录音并自动提取参考文本。
后期处理效果：音高变换、混响、延迟、合唱、压缩和滤波器。
API 优先设计：提供完整 REST API（默认端口 8000/17493），支持程序化集成到游戏、播客生产管道、无障碍工具等。
无限长度生成：自动分块与交叉淡入淡出，支持长脚本、文章和章节生成。
跨平台支持：macOS（Apple Silicon/Intel）、Windows（CUDA）、Linux、AMD ROCm、Intel Arc、Docker。

Voicebox的核心优势

完全隐私保护：所有处理和存储均在本地完成，语音数据永不发送到外部服务器。
零订阅成本：开源免费，无使用限制，仅需承担本地硬件成本。
原生性能：Rust + Tauri 构建，非 Electron，启动更快内存占用更低；Apple Silicon 原生 Metal 加速。
专业工作流：从语音克隆、生成、效果处理到多轨编排的完整创作流水线。
多语言覆盖：支持英语、中文、阿拉伯语、日语、印地语、斯瓦希里语等 23 种语言。
灵活部署：支持纯本地模式、远程 GPU 服务器模式，可一键将任何机器转为 Voicebox 服务器。

Voicebox官网是什么

项目官网：https://voicebox.sh/
GitHub仓库：https://github.com/jamiepine/voicebox

使用Voicebox的操作步骤

下载安装：访问 voicebox.sh 官网，下载对应平台安装包（macOS DMG / Windows MSI / Docker 镜像），首次启动后自动下载 Qwen3-TTS 模型（约 3.5GB），无需手动配置 Python 环境。
创建语音档案：点击"Create voice"上传参考音频（建议 5-10 秒，小于 30 秒），命名档案并选择语言，使用内置 Whisper 自动转录参考文本，点击"Create profile"保存，支持多样本合并以提升克隆质量。
生成单段语音：选择已创建的语音档案，在文本框输入内容（5000 字符以内，长文本建议分段），选择 TTS 引擎（Qwen3-TTS 1.7B 质量优先 / 0.6B 速度优先，或切换 LuxTTS、Chatterbox 等引擎），点击生成按钮，CPU 约需 1-5 分钟，GPU 显著加速。
多轨项目编辑（Stories）：进入 Stories 编辑器，添加多个语音轨道并分配不同语音档案，在时间线上调整音频片段位置，添加交叉淡入淡出过渡，应用后期效果（音高变换、混响、延迟、压缩等），导出最终混音文件。
应用内录音与转录：直接使用应用内置录音功能采集参考音频，系统自动调用 Whisper 模型完成语音到文本的转录，省去外部工具处理步骤。
API 程序化调用：通过本地 REST API（默认端口 8000/17493）发送 POST 请求，传入文本、语音档案 ID 和语言参数，集成到游戏、播客生产管道或无障碍工具中。
模型与引擎管理：在设置中切换不同 TTS 后端（支持 Qwen3-TTS、XTTS、Bark、Chatterbox、HumeAI TADA 等），根据硬件条件选择 MLX（Apple Silicon 加速）、CUDA（NVIDIA）或 CPU 推理模式。

Voicebox的适用人群

内容创作者：YouTube 旁白、角色配音、播客制作，需要离线工作流保护内容隐私。
游戏开发者：构建本地化游戏对话系统，无需担心 API 配额或网络稳定性。
无障碍工具开发者：集成语音合成到辅助阅读、语音助手等应用。
隐私敏感行业：医疗、法律、个人内容创作领域，无法将语音数据上传至云端。
Apple Silicon 用户：追求 4-5 倍速度优势的 macOS 用户。
技术团队：需要通过 REST API 将语音能力集成到自有产品的开发者。

Voicebox的常见问题FAQ

Q: Voicebox 会将我的语音数据发送到外部服务器吗？
A: 不会。所有模型和语音数据完全在本地处理，首次模型下载后无需网络连接即可生成。

Q: 支持哪些语言？
A: Qwen3-TTS 支持英语和中文；Chatterbox Multilingual 扩展至 23 种语言（阿拉伯语、丹麦语、荷兰语、法语、德语、希腊语、希伯来语、印地语、意大利语、日语、韩语、马来语、挪威语、波兰语、葡萄牙语、俄语、西班牙语、斯瓦希里语、瑞典语、土耳其语等）。

Q: 无独立 GPU 的 Windows 电脑性能如何？
A: CPU 推理可用但较慢（短句约 1 分钟），建议使用 CUDA 显卡；Apple Silicon Mac 通过 MLX 后端显著更快。

Q: 克隆的语音可以商业使用吗？
A: 可以。Voicebox 本身开源，基于的 Qwen3-TTS 和 Chatterbox 均允许商业使用，但需遵守各模型的具体许可证条款。

Q: 与 ElevenLabs 相比质量如何？
A: 英语输出质量接近商业工具，Qwen3-TTS 1.7B 模型在主观测试中表现优异；Chatterbox 在盲测中 63.8% 听众偏好度超过 ElevenLabs。

Q: Linux 支持情况如何？
A: 官方预构建版本暂未发布（受 GitHub Actions 磁盘空间限制），但可通过源码构建，支持 CUDA 和 PyTorch 后端。

Q: 支持实时合成吗？
A: 目前所有生成均为批处理模式，暂不支持实时流式合成或语音助手交互场景。