AI个人学习
和实操指南
豆包Marscode1

集成多种先进语音合成服务的开源运营项目

本文于 2025-04-02 15:11 更新,部分内容具有时效性,如有失效,请留言

综合介绍

Open-VoiceCanvas 是一个开源的语音合成平台,由 ItusiAI 团队开发。它支持超过 50 种语言,可以将文字转为自然语音,还能通过上传音频克隆个性化声音。项目整合了 OpenAI TTS、AWS Polly 和 MiniMax 三种语音服务,提供多种音色选择和语速调节。代码 100% 开源,托管在 GitHub 上,用户可以免费下载和修改。它还支持谷歌和 GitHub 登录,以及 Stripe 支付,方便解锁高级功能。这个工具适合开发者、内容创作者和普通用户使用。

集成多种先进语音合成模型的开源运营项目-1


 

功能列表

  • 支持 50 多种语言的文本转语音转换。
  • 提供多种语音服务:OpenAI TTS(自然语音)、AWS Polly(多语言)、MiniMax(中文优化)。
  • 支持男声和女声选择,可调节语速。
  • 提供声音克隆功能,用户可上传音频创建个性化音色。
  • 支持文本文件上传和音频文件下载,处理长文本无压力。
  • 集成谷歌和 GitHub 登录,支持多语言界面和深色/浅色主题。
  • 通过 Stripe 提供订阅服务,包括免费试用、按月/按年付费和按量计费。

 

使用帮助

Open-VoiceCanvas 是一个功能强大的开源工具。以下是详细的安装和使用指南,帮助你快速上手。

安装流程

  1. 准备环境
    在开始前,确保电脑安装以下工具:

    • Git:用于下载代码。
    • Node.js(建议 18.x 或以上):运行前端和后端。
    • npm:Node.js 的包管理工具。
      检查是否安装:
git --version
node --version
npm --version

如果缺少,可以去官方网站下载安装。

  1. 克隆代码
    打开终端,输入以下命令下载项目:
git clone https://github.com/ItusiAI/Open-VoiceCanvas.git

进入项目目录:

cd Open-VoiceCanvas
  1. 安装依赖
    运行以下命令安装所需库:
npm install

如果网络慢,可用国内镜像:

npm install --registry=https://registry.npmmirror.com
  1. 配置环境变量
    在项目根目录创建 .env 文件,添加以下配置(需替换为自己的密钥):
# OpenAI
OPENAI_API_KEY="your_openai_api_key"
# AWS Polly
NEXT_PUBLIC_AWS_REGION="us-east-1"
NEXT_PUBLIC_AWS_ACCESS_KEY_ID="your_aws_access_key_id"
NEXT_PUBLIC_AWS_SECRET_ACCESS_KEY="your_aws_secret_access_key"
# MiniMax
MINIMAX_API_KEY="your_minimax_api_key"
MINIMAX_GROUP_ID="your_minimax_group_id"
# 数据库
DATABASE_URL="your_neon_db_url"
# Stripe
STRIPE_SECRET_KEY="your_stripe_secret_key"
NEXT_PUBLIC_STRIPE_PUBLISHABLE_KEY="your_stripe_publishable_key"
STRIPE_WEBHOOK_SECRET="your_stripe_webhook_secret"
# NextAuth
NEXTAUTH_URL="http://localhost:3000"
NEXTAUTH_SECRET="your_nextauth_secret"
# OAuth
GITHUB_ID="your_github_client_id"
GITHUB_SECRET="your_github_client_secret"
GOOGLE_ID="your_google_client_id"
GOOGLE_SECRET="your_google_client_secret"

这些密钥需要从对应服务官网获取,比如 OpenAI、AWS、MiniMax、Neon、Stripe 和 GitHub/Google OAuth。

  1. 运行数据库迁移
    配置好数据库后,运行:
npx prisma migrate dev

这会初始化 PostgreSQL 数据库。

  1. 启动程序
    输入以下命令启动开发服务器:
npm run dev

启动后,浏览器访问 http://localhost:3000,即可看到界面。

主要功能操作

文本转语音

  1. 打开网页,登录后进入主界面。
  2. 在“文本输入”框输入文字,比如“你好,今天是星期三”。
  3. 选择语言(支持 50 多种,如中文、英文、日文等)。
  4. 选择语音服务:OpenAI TTS、AWS Polly 或 MiniMax。
  5. 挑选音色(男声或女声,比如 OpenAI 的 “nova” 或 AWS 的 “Joanna”)。
  6. 调整语速(范围 0.5-2.0,1.0 为正常速度)。
  7. 点击“生成”,几秒后可预览音频。
  8. 点击“下载”保存为 MP3 文件。

声音克隆

  1. 进入“声音克隆”页面。
  2. 点击“上传音频”,选择一段 10-20 秒的清晰音频(WAV 或 MP3 格式)。
  3. 输入音色名称,比如“我的声音”。
  4. 点击“克隆”,等待 1-2 分钟处理完成。
  5. 克隆成功后,新音色会出现在音色列表。
  6. 返回文本转语音页面,选择克隆音色,输入文字生成语音。

文件处理

  1. 在主界面点击“上传文本文件”。
  2. 选择一个 .txt 文件,内容会被自动加载到输入框。
  3. 设置语言、音色和语速后生成音频。
  4. 长文本会自动分段处理,确保生成顺利。

订阅和登录

  1. 点击右上角“登录”,选择谷歌或 GitHub 账号授权。
  2. 登录后可查看字符配额和克隆次数。
  3. 点击“订阅”,选择免费试用、按月(月付)或按年(年付)计划。
  4. 通过 Stripe 输入支付信息,完成订阅后解锁更多功能。

注意事项

  • 音频要求:克隆用的音频要清晰,无背景噪音。
  • 密钥安全:不要泄露 .env 文件中的密钥。
  • 网络需求:首次运行需下载模型,保持网络稳定。
  • 技术支持:遇到问题可在 GitHub 提交 issue。

通过这些步骤,你可以充分利用 Open-VoiceCanvas 的功能。它的开源设计还支持开发者自定义,比如添加新语音服务或调整界面。

 

应用场景

  1. 内容创作
    主播可以用它生成多语言旁白,节省录音时间。
    场景描述:一个 YouTuber 用中文和英文生成视频解说,直接下载音频用于剪辑。
  2. 教育支持
    老师将课本转为语音,制作教学音频。
    场景描述:一位英语老师上传课文,生成美式发音音频给学生练习听力。
  3. 个性化应用
    开发者克隆自己的声音,打造独特语音助手。
    场景描述:程序员克隆声音后集成到智能家居系统,用自己的声音播报天气。
  4. 娱乐用途
    用户生成搞笑语音分享给朋友。
    场景描述:有人用朋友的声音生成“生日快乐”音频,作为惊喜礼物。

 

QA

  1. 支持哪些语音服务?
    支持 OpenAI TTS(自然语音)、AWS Polly(多语言)和 MiniMax(中文优化)。
  2. 克隆声音需要什么条件?
    需要 10-20 秒清晰音频,格式为 WAV 或 MP3,背景噪音越少越好。
  3. 免费版和付费版有什么区别?
    免费版有字符和克隆次数限制,付费版提供更多配额和音色选择。
  4. 如何解决启动失败?
    检查 Node.js 版本(建议 18.x),确保环境变量正确配置,依赖完整安装。
未经允许不得转载:首席AI分享圈 » 集成多种先进语音合成服务的开源运营项目
zh_CN简体中文