综合介绍
Text2Voice 是一个开源工具,基于硅基流动 API 提供文本转语音功能,最大的特点是带有简洁的图形用户界面(GUI)。它由开发者 Sheldon Lee 在 GitHub 上创建,让用户可以通过界面轻松把文字变成语音。项目使用 Python 开发,结合 PyQt6 框架打造直观的操作窗口。它的核心是利用 API 将文本实时转为可听的音频,支持中文、英文等多语言,还能选择不同音色。代码开放,任何人都可以下载、运行或修改,适合想快速生成语音的人或开发者。项目已有稳定版本,功能实用,安装后即可上手。
功能列表
- 通过图形界面将中文、英文等多语言文本转为语音。
- 提供多种语音音色选择。
- 支持实时音频播放控制,包括播放、暂停和停止。
- 显示简洁美观的图形操作窗口。
- 自动管理生成的音频文件。
- 支持长文本分段转为语音。
使用帮助
Text2Voice 依赖 Python 和硅基流动 API,使用前需要安装环境并配置密钥。以下是详细步骤,帮助你快速上手。
安装流程
- 准备系统环境
确保电脑满足要求:Windows、macOS 或 Linux 系统,2GB 以上内存,稳定的网络连接。- 安装 Python:访问
https://www.python.org/
,下载 3.8 或更高版本,安装时勾选“Add Python to PATH”。 - 安装 Git:访问
https://git-scm.com/
,下载并安装。
- 安装 Python:访问
- 下载项目代码
打开终端(Windows 用 CMD,Mac/Linux 用 Terminal),运行:
git clone https://github.com/axdlee/text2voice.git
然后进入项目目录:
cd text2voice
- 设置虚拟环境(推荐)
创建并激活虚拟环境,避免依赖冲突:
python -m venv venv
- Windows:
venv\Scripts\activate
- Mac/Linux:
source venv/bin/activate
- 安装依赖
项目依赖列在requirements.txt
中,运行以下命令安装:
pip install -r requirements.txt
这会安装 PyQt6、Requests、Pygame 等必要库。
- 配置 API 密钥
在项目根目录创建.env
文件,内容如下:
SILICON_API_KEY=你的API密钥
API 密钥需从硅基流动官网获取,填入后保存。
- 运行程序
在终端输入:
python main.py
程序启动后,会出现图形界面。
如何使用主要功能
- 启动图形界面
运行python main.py
后,会看到一个窗口,里面有文本输入框和控制按钮。 - 设置 API 密钥
点击界面上的“设置”按钮,输入.env
文件中的硅基流动 API 密钥,保存设置。 - 输入文本
在文本框中输入或粘贴想转为语音的文字,比如“你好,这是一个测试”。 - 选择音色
从下拉菜单中挑选语音音色,比如男声或女声(具体选项由 API 决定)。 - 转为语音
点击“转换为语音”按钮,程序会通过硅基流动 API 处理文本,生成音频。 - 播放音频
转换完成后,用界面上的“播放”按钮听音频,可以用“暂停”或“停止”控制。
特色功能操作流程
- 基于图形界面的长文本分段转换
如果文本超过 5000 字,程序会自动分段处理。直接在界面输入完整文本,点击“转换为语音”,程序会逐段生成音频。你可以用播放按钮听每段内容。 - 音频文件管理
生成的音频临时存放在temp
文件夹。程序退出时,这些文件会自动删除。如果想保存,可以在退出前手动移到其他地方。 - 实时播放控制
转换后的音频支持实时操作。点击“播放”开始听,随时“暂停”或“停止”,操作都在图形界面完成。
注意事项
- 网络要稳定,因为功能依赖硅基流动 API。
- 单次转换建议不超过 5000 字,避免 API 出错。
- API 密钥要保密,不要公开分享。
- 如果界面没反应,检查密钥、网络和依赖是否正确。
通过这些步骤,你就能用 Text2Voice 的图形界面把文本转为语音。开发者还可以修改代码,调整界面或功能。
应用场景
- 教育辅助
用图形界面把课文转为语音,方便听力学习。 - 内容制作
为视频或播客生成语音,操作简单,节省时间。 - 无障碍支持
通过界面将文字转为语音,帮助视障人士获取信息。
QA
- 支持哪些语言?
支持中文、英文等多种语言,具体由硅基流动 API 决定。 - 为什么界面没反应?
可能是 API 密钥错误、网络问题或依赖没装好。检查后重试。 - 音频文件存哪里?
临时保存在temp
文件夹,程序关闭后自动清理。