AI个人学习
和实操指南
讯飞绘镜

Text2Voice:基于硅基流动API的文本转语音图形界面

综合介绍

Text2Voice 是一个开源工具,基于硅基流动 API 提供文本转语音功能,最大的特点是带有简洁的图形用户界面(GUI)。它由开发者 Sheldon Lee 在 GitHub 上创建,让用户可以通过界面轻松把文字变成语音。项目使用 Python 开发,结合 PyQt6 框架打造直观的操作窗口。它的核心是利用 API 将文本实时转为可听的音频,支持中文、英文等多语言,还能选择不同音色。代码开放,任何人都可以下载、运行或修改,适合想快速生成语音的人或开发者。项目已有稳定版本,功能实用,安装后即可上手。

Text2Voice:基于硅基流动API的文本转语音图形界面-1


 

功能列表

  • 通过图形界面将中文、英文等多语言文本转为语音。
  • 提供多种语音音色选择。
  • 支持实时音频播放控制,包括播放、暂停和停止。
  • 显示简洁美观的图形操作窗口。
  • 自动管理生成的音频文件。
  • 支持长文本分段转为语音。

 

使用帮助

Text2Voice 依赖 Python 和硅基流动 API,使用前需要安装环境并配置密钥。以下是详细步骤,帮助你快速上手。

安装流程

  1. 准备系统环境
    确保电脑满足要求:Windows、macOS 或 Linux 系统,2GB 以上内存,稳定的网络连接。

    • 安装 Python:访问 https://www.python.org/,下载 3.8 或更高版本,安装时勾选“Add Python to PATH”。
    • 安装 Git:访问 https://git-scm.com/,下载并安装。
  2. 下载项目代码
    打开终端(Windows 用 CMD,Mac/Linux 用 Terminal),运行:
git clone https://github.com/axdlee/text2voice.git

然后进入项目目录:

cd text2voice
  1. 设置虚拟环境(推荐)
    创建并激活虚拟环境,避免依赖冲突:
python -m venv venv
  • Windows:
    venv\Scripts\activate
    
  • Mac/Linux:
    source venv/bin/activate
    
  1. 安装依赖
    项目依赖列在 requirements.txt 中,运行以下命令安装:
pip install -r requirements.txt

这会安装 PyQt6、Requests、Pygame 等必要库。

  1. 配置 API 密钥
    在项目根目录创建 .env 文件,内容如下:
SILICON_API_KEY=你的API密钥

API 密钥需从硅基流动官网获取,填入后保存。

  1. 运行程序
    在终端输入:
python main.py

程序启动后,会出现图形界面。

如何使用主要功能

  1. 启动图形界面
    运行 python main.py 后,会看到一个窗口,里面有文本输入框和控制按钮。
  2. 设置 API 密钥
    点击界面上的“设置”按钮,输入 .env 文件中的硅基流动 API 密钥,保存设置。
  3. 输入文本
    在文本框中输入或粘贴想转为语音的文字,比如“你好,这是一个测试”。
  4. 选择音色
    从下拉菜单中挑选语音音色,比如男声或女声(具体选项由 API 决定)。
  5. 转为语音
    点击“转换为语音”按钮,程序会通过硅基流动 API 处理文本,生成音频。
  6. 播放音频
    转换完成后,用界面上的“播放”按钮听音频,可以用“暂停”或“停止”控制。

特色功能操作流程

  • 基于图形界面的长文本分段转换
    如果文本超过 5000 字,程序会自动分段处理。直接在界面输入完整文本,点击“转换为语音”,程序会逐段生成音频。你可以用播放按钮听每段内容。
  • 音频文件管理
    生成的音频临时存放在 temp 文件夹。程序退出时,这些文件会自动删除。如果想保存,可以在退出前手动移到其他地方。
  • 实时播放控制
    转换后的音频支持实时操作。点击“播放”开始听,随时“暂停”或“停止”,操作都在图形界面完成。

注意事项

  • 网络要稳定,因为功能依赖硅基流动 API。
  • 单次转换建议不超过 5000 字,避免 API 出错。
  • API 密钥要保密,不要公开分享。
  • 如果界面没反应,检查密钥、网络和依赖是否正确。

通过这些步骤,你就能用 Text2Voice 的图形界面把文本转为语音。开发者还可以修改代码,调整界面或功能。

 

应用场景

  1. 教育辅助
    用图形界面把课文转为语音,方便听力学习。
  2. 内容制作
    为视频或播客生成语音,操作简单,节省时间。
  3. 无障碍支持
    通过界面将文字转为语音,帮助视障人士获取信息。

 

QA

  1. 支持哪些语言?
    支持中文、英文等多种语言,具体由硅基流动 API 决定。
  2. 为什么界面没反应?
    可能是 API 密钥错误、网络问题或依赖没装好。检查后重试。
  3. 音频文件存哪里?
    临时保存在 temp 文件夹,程序关闭后自动清理。
未经允许不得转载:首席AI分享圈 » Text2Voice:基于硅基流动API的文本转语音图形界面
zh_CN简体中文