集成多种先进语音合成服务的开源运营项目

57.1K 00

综合介绍

Open-VoiceCanvas 是一个开源的语音合成平台，由 ItusiAI 团队开发。它支持超过 50 种语言，可以将文字转为自然语音，还能通过上传音频克隆个性化声音。项目整合了 OpenAI TTS、AWS Polly 和 MiniMax 三种语音服务，提供多种音色选择和语速调节。代码 100% 开源，托管在 GitHub 上，用户可以免费下载和修改。它还支持谷歌和 GitHub 登录，以及 Stripe 支付，方便解锁高级功能。这个工具适合开发者、内容创作者和普通用户使用。

功能列表

支持 50 多种语言的文本转语音转换。
提供多种语音服务：OpenAI TTS（自然语音）、AWS Polly（多语言）、MiniMax（中文优化）。
支持男声和女声选择，可调节语速。
提供声音克隆功能，用户可上传音频创建个性化音色。
支持文本文件上传和音频文件下载，处理长文本无压力。
集成谷歌和 GitHub 登录，支持多语言界面和深色/浅色主题。
通过 Stripe 提供订阅服务，包括免费试用、按月/按年付费和按量计费。

使用帮助

Open-VoiceCanvas 是一个功能强大的开源工具。以下是详细的安装和使用指南，帮助你快速上手。

安装流程

准备环境
在开始前，确保电脑安装以下工具：
- Git：用于下载代码。
- Node.js（建议 18.x 或以上）：运行前端和后端。
- npm：Node.js 的包管理工具。
  检查是否安装：

git --version
node --version
npm --version

如果缺少，可以去官方网站下载安装。

克隆代码
打开终端，输入以下命令下载项目：

git clone https://github.com/ItusiAI/Open-VoiceCanvas.git

进入项目目录：

cd Open-VoiceCanvas

安装依赖
运行以下命令安装所需库：

npm install

如果网络慢，可用国内镜像：

npm install --registry=https://registry.npmmirror.com

配置环境变量
在项目根目录创建 .env 文件，添加以下配置（需替换为自己的密钥）：

# OpenAI
OPENAI_API_KEY="your_openai_api_key"
# AWS Polly
NEXT_PUBLIC_AWS_REGION="us-east-1"
NEXT_PUBLIC_AWS_ACCESS_KEY_ID="your_aws_access_key_id"
NEXT_PUBLIC_AWS_SECRET_ACCESS_KEY="your_aws_secret_access_key"
# MiniMax
MINIMAX_API_KEY="your_minimax_api_key"
MINIMAX_GROUP_ID="your_minimax_group_id"
# 数据库
DATABASE_URL="your_neon_db_url"
# Stripe
STRIPE_SECRET_KEY="your_stripe_secret_key"
NEXT_PUBLIC_STRIPE_PUBLISHABLE_KEY="your_stripe_publishable_key"
STRIPE_WEBHOOK_SECRET="your_stripe_webhook_secret"
# NextAuth
NEXTAUTH_URL="http://localhost:3000"
NEXTAUTH_SECRET="your_nextauth_secret"
# OAuth
GITHUB_ID="your_github_client_id"
GITHUB_SECRET="your_github_client_secret"
GOOGLE_ID="your_google_client_id"
GOOGLE_SECRET="your_google_client_secret"

这些密钥需要从对应服务官网获取，比如 OpenAI、AWS、MiniMax、Neon、Stripe 和 GitHub/Google OAuth。

运行数据库迁移
配置好数据库后，运行：

npx prisma migrate dev

这会初始化 PostgreSQL 数据库。

启动程序
输入以下命令启动开发服务器：

npm run dev

启动后，浏览器访问 http://localhost:3000，即可看到界面。

主要功能操作

文本转语音

打开网页，登录后进入主界面。
在“文本输入”框输入文字，比如“你好，今天是星期三”。
选择语言（支持 50 多种，如中文、英文、日文等）。
选择语音服务：OpenAI TTS、AWS Polly 或 MiniMax。
挑选音色（男声或女声，比如 OpenAI 的 “nova” 或 AWS 的 “Joanna”）。
调整语速（范围 0.5-2.0，1.0 为正常速度）。
点击“生成”，几秒后可预览音频。
点击“下载”保存为 MP3 文件。

声音克隆

进入“声音克隆”页面。
点击“上传音频”，选择一段 10-20 秒的清晰音频（WAV 或 MP3 格式）。
输入音色名称，比如“我的声音”。
点击“克隆”，等待 1-2 分钟处理完成。
克隆成功后，新音色会出现在音色列表。
返回文本转语音页面，选择克隆音色，输入文字生成语音。

文件处理

在主界面点击“上传文本文件”。
选择一个 .txt 文件，内容会被自动加载到输入框。
设置语言、音色和语速后生成音频。
长文本会自动分段处理，确保生成顺利。

订阅和登录

点击右上角“登录”，选择谷歌或 GitHub 账号授权。
登录后可查看字符配额和克隆次数。
点击“订阅”，选择免费试用、按月（月付）或按年（年付）计划。
通过 Stripe 输入支付信息，完成订阅后解锁更多功能。

注意事项

音频要求：克隆用的音频要清晰，无背景噪音。
密钥安全：不要泄露 .env 文件中的密钥。
网络需求：首次运行需下载模型，保持网络稳定。
技术支持：遇到问题可在 GitHub 提交 issue。

通过这些步骤，你可以充分利用 Open-VoiceCanvas 的功能。它的开源设计还支持开发者自定义，比如添加新语音服务或调整界面。

应用场景

内容创作
主播可以用它生成多语言旁白，节省录音时间。
场景描述：一个 YouTuber 用中文和英文生成视频解说，直接下载音频用于剪辑。
教育支持
老师将课本转为语音，制作教学音频。
场景描述：一位英语老师上传课文，生成美式发音音频给学生练习听力。
个性化应用
开发者克隆自己的声音，打造独特语音助手。
场景描述：程序员克隆声音后集成到智能家居系统，用自己的声音播报天气。
娱乐用途
用户生成搞笑语音分享给朋友。
场景描述：有人用朋友的声音生成“生日快乐”音频，作为惊喜礼物。

QA

支持哪些语音服务？
支持 OpenAI TTS（自然语音）、AWS Polly（多语言）和 MiniMax（中文优化）。
克隆声音需要什么条件？
需要 10-20 秒清晰音频，格式为 WAV 或 MP3，背景噪音越少越好。
免费版和付费版有什么区别？
免费版有字符和克隆次数限制，付费版提供更多配额和音色选择。
如何解决启动失败？
检查 Node.js 版本（建议 18.x），确保环境变量正确配置，依赖完整安装。

文章版权归 AI分享圈所有，未经允许请勿转载。

Glarity AI：对网页和视频快速总结的AI阅读助手

最新AI资源 # AI集成多模型对话平台 # 浏览器AI助手

12个月前

060K

Jammable - AI 音乐翻唱平台，支持AI模仿特定歌手或风格进行创作

DuckDuckGo AI Chat：免登录使用ChatGPT和Claude

最新AI资源 # AI集成多模型对话平台

2年前

051.4K

WriteHERE - 开源AI长文写作框架，单次生成超长文本内容

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

集成多种先进语音合成服务的开源运营项目

综合介绍

功能列表

使用帮助

安装流程

主要功能操作

文本转语音

声音克隆

文件处理

订阅和登录

注意事项

应用场景

QA

Libra：用对话生成本地AI智能体的客户端（内测）

YOLOE：实时视频检测和分割物体的开源工具

相关文章

Glarity AI：对网页和视频快速总结的AI阅读助手

Jammable - AI 音乐翻唱平台，支持AI模仿特定歌手或风格进行创作

DuckDuckGo AI Chat：免登录使用ChatGPT和Claude

WriteHERE - 开源AI长文写作框架，单次生成超长文本内容

暂无评论

最新收录

最新文章

集成多种先进语音合成服务的开源运营项目

综合介绍

功能列表

使用帮助

安装流程

主要功能操作

文本转语音

声音克隆

文件处理

订阅和登录

注意事项

应用场景

QA

Libra：用对话生成本地AI智能体的客户端（内测）

YOLOE：实时视频检测和分割物体的开源工具

相关文章

Glarity AI：对网页和视频快速总结的AI阅读助手

Jammable - AI 音乐翻唱平台，支持AI模仿特定歌手或风格进行创作

DuckDuckGo AI Chat：免登录使用ChatGPT和Claude

WriteHERE - 开源AI长文写作框架，单次生成超长文本内容

暂无评论

AI工具精选

最新收录

最新文章