本文于 2025-04-02 15:11 更新,部分内容具有时效性,如有失效,请留言
综合介绍
Open-VoiceCanvas 是一个开源的语音合成平台,由 ItusiAI 团队开发。它支持超过 50 种语言,可以将文字转为自然语音,还能通过上传音频克隆个性化声音。项目整合了 OpenAI TTS、AWS Polly 和 MiniMax 三种语音服务,提供多种音色选择和语速调节。代码 100% 开源,托管在 GitHub 上,用户可以免费下载和修改。它还支持谷歌和 GitHub 登录,以及 Stripe 支付,方便解锁高级功能。这个工具适合开发者、内容创作者和普通用户使用。
功能列表
- 支持 50 多种语言的文本转语音转换。
- 提供多种语音服务:OpenAI TTS(自然语音)、AWS Polly(多语言)、MiniMax(中文优化)。
- 支持男声和女声选择,可调节语速。
- 提供声音克隆功能,用户可上传音频创建个性化音色。
- 支持文本文件上传和音频文件下载,处理长文本无压力。
- 集成谷歌和 GitHub 登录,支持多语言界面和深色/浅色主题。
- 通过 Stripe 提供订阅服务,包括免费试用、按月/按年付费和按量计费。
使用帮助
Open-VoiceCanvas 是一个功能强大的开源工具。以下是详细的安装和使用指南,帮助你快速上手。
安装流程
- 准备环境
在开始前,确保电脑安装以下工具:- Git:用于下载代码。
- Node.js(建议 18.x 或以上):运行前端和后端。
- npm:Node.js 的包管理工具。
检查是否安装:
git --version
node --version
npm --version
如果缺少,可以去官方网站下载安装。
- 克隆代码
打开终端,输入以下命令下载项目:
git clone https://github.com/ItusiAI/Open-VoiceCanvas.git
进入项目目录:
cd Open-VoiceCanvas
- 安装依赖
运行以下命令安装所需库:
npm install
如果网络慢,可用国内镜像:
npm install --registry=https://registry.npmmirror.com
- 配置环境变量
在项目根目录创建.env
文件,添加以下配置(需替换为自己的密钥):
# OpenAI
OPENAI_API_KEY="your_openai_api_key"
# AWS Polly
NEXT_PUBLIC_AWS_REGION="us-east-1"
NEXT_PUBLIC_AWS_ACCESS_KEY_ID="your_aws_access_key_id"
NEXT_PUBLIC_AWS_SECRET_ACCESS_KEY="your_aws_secret_access_key"
# MiniMax
MINIMAX_API_KEY="your_minimax_api_key"
MINIMAX_GROUP_ID="your_minimax_group_id"
# 数据库
DATABASE_URL="your_neon_db_url"
# Stripe
STRIPE_SECRET_KEY="your_stripe_secret_key"
NEXT_PUBLIC_STRIPE_PUBLISHABLE_KEY="your_stripe_publishable_key"
STRIPE_WEBHOOK_SECRET="your_stripe_webhook_secret"
# NextAuth
NEXTAUTH_URL="http://localhost:3000"
NEXTAUTH_SECRET="your_nextauth_secret"
# OAuth
GITHUB_ID="your_github_client_id"
GITHUB_SECRET="your_github_client_secret"
GOOGLE_ID="your_google_client_id"
GOOGLE_SECRET="your_google_client_secret"
这些密钥需要从对应服务官网获取,比如 OpenAI、AWS、MiniMax、Neon、Stripe 和 GitHub/Google OAuth。
- 运行数据库迁移
配置好数据库后,运行:
npx prisma migrate dev
这会初始化 PostgreSQL 数据库。
- 启动程序
输入以下命令启动开发服务器:
npm run dev
启动后,浏览器访问 http://localhost:3000
,即可看到界面。
主要功能操作
文本转语音
- 打开网页,登录后进入主界面。
- 在“文本输入”框输入文字,比如“你好,今天是星期三”。
- 选择语言(支持 50 多种,如中文、英文、日文等)。
- 选择语音服务:OpenAI TTS、AWS Polly 或 MiniMax。
- 挑选音色(男声或女声,比如 OpenAI 的 “nova” 或 AWS 的 “Joanna”)。
- 调整语速(范围 0.5-2.0,1.0 为正常速度)。
- 点击“生成”,几秒后可预览音频。
- 点击“下载”保存为 MP3 文件。
声音克隆
- 进入“声音克隆”页面。
- 点击“上传音频”,选择一段 10-20 秒的清晰音频(WAV 或 MP3 格式)。
- 输入音色名称,比如“我的声音”。
- 点击“克隆”,等待 1-2 分钟处理完成。
- 克隆成功后,新音色会出现在音色列表。
- 返回文本转语音页面,选择克隆音色,输入文字生成语音。
文件处理
- 在主界面点击“上传文本文件”。
- 选择一个
.txt
文件,内容会被自动加载到输入框。 - 设置语言、音色和语速后生成音频。
- 长文本会自动分段处理,确保生成顺利。
订阅和登录
- 点击右上角“登录”,选择谷歌或 GitHub 账号授权。
- 登录后可查看字符配额和克隆次数。
- 点击“订阅”,选择免费试用、按月(月付)或按年(年付)计划。
- 通过 Stripe 输入支付信息,完成订阅后解锁更多功能。
注意事项
- 音频要求:克隆用的音频要清晰,无背景噪音。
- 密钥安全:不要泄露
.env
文件中的密钥。 - 网络需求:首次运行需下载模型,保持网络稳定。
- 技术支持:遇到问题可在 GitHub 提交 issue。
通过这些步骤,你可以充分利用 Open-VoiceCanvas 的功能。它的开源设计还支持开发者自定义,比如添加新语音服务或调整界面。
应用场景
- 内容创作
主播可以用它生成多语言旁白,节省录音时间。
场景描述:一个 YouTuber 用中文和英文生成视频解说,直接下载音频用于剪辑。 - 教育支持
老师将课本转为语音,制作教学音频。
场景描述:一位英语老师上传课文,生成美式发音音频给学生练习听力。 - 个性化应用
开发者克隆自己的声音,打造独特语音助手。
场景描述:程序员克隆声音后集成到智能家居系统,用自己的声音播报天气。 - 娱乐用途
用户生成搞笑语音分享给朋友。
场景描述:有人用朋友的声音生成“生日快乐”音频,作为惊喜礼物。
QA
- 支持哪些语音服务?
支持 OpenAI TTS(自然语音)、AWS Polly(多语言)和 MiniMax(中文优化)。 - 克隆声音需要什么条件?
需要 10-20 秒清晰音频,格式为 WAV 或 MP3,背景噪音越少越好。 - 免费版和付费版有什么区别?
免费版有字符和克隆次数限制,付费版提供更多配额和音色选择。 - 如何解决启动失败?
检查 Node.js 版本(建议 18.x),确保环境变量正确配置,依赖完整安装。