综合介绍
Voice-Pro 是一个基于 Gradio WebUI 的多功能工具,支持语音转文字、文本转语音、实时翻译、YouTube 视频下载和人声分离。它集成了 Whisper、Faster-Whisper 和 Whisper-Timestamped 等技术,提供高效的音频处理和翻译功能,适用于多种语言和场景。
功能列表
- 语音转文字:支持 Whisper、Faster-Whisper 和 Whisper-Timestamped,提供高精度的语音识别。
- 文本转语音:支持 Edge-TTS 和 F5-TTS,提供多种语言和声音选择,支持语速、音量和音调调整。
- 实时翻译:支持实时语音识别和翻译,适用于多种语言。
- YouTube 下载:可以下载 YouTube 视频并提取音频(mp3、wav、flac)。
- 人声分离:使用 MDX-Net 和 Demucs 引擎进行人声和背景音分离。
- 批量处理:支持大批量文件的字幕生成、翻译和文本转语音处理。
- 字幕生成:支持超过 90 种语言的字幕生成和编辑。
- 多格式支持:支持所有由 ffmpeg 支持的视频和音频格式。
使用帮助
安装流程
- 准备包:从 GitHub 克隆或下载最新版本的源码。
git clone https://github.com/abus-aikorea/voice-pro.git
- 安装并运行程序:
- 运行
configure.bat
安装所需的依赖包(如 git、ffmpeg 和 CUDA)。 - 运行
start.bat
启动 Voice-Pro,WebUI 将自动运行。 - 初次运行时,Voice-Pro 将首先进行安装,可能需要一小时以上,期间请勿关闭 Windows 命令窗口。
- 运行
使用功能
- 语音转文字:
- 在 Studio 选项卡中选择 Whisper 模型和计算类型。
- 上传音频文件或选择音频输入源(如麦克风)。
- 点击“开始”按钮,等待语音识别和字幕创建完成。
- 翻译:
- 在 Translate 选项卡中上传需要翻译的文本或字幕文件。
- 选择目标语言,点击“翻译”按钮。
- 翻译完成后,可以下载翻译后的文件。
- 文本转语音:
- 在 TTS 选项卡中选择 Edge-TTS 或 F5-TTS。
- 输入需要转换的文本,选择语音参数(如速度、音量、音调)。
- 点击“生成语音”按钮,等待语音生成完成。
- YouTube 下载:
- 在 YouTube Downloader 选项卡中输入 YouTube 视频链接。
- 选择音频格式(mp3、wav、flac),点击“下载”按钮。
- 下载完成后,可以在指定文件夹中找到音频文件。
- 声音分离:
- 在 Vocal Remover 选项卡中上传音频文件。
- 选择 MDX-Net 或 Demucs 引擎,点击“开始”按钮。
- 等待声音分离完成,可以下载分离后的音频文件。
- 批量处理:
- 在 Batch 选项卡中上传多个文件。
- 选择需要进行的操作(字幕、翻译、文本转语音)。
- 点击“开始”按钮,等待批量处理完成。
常见问题
- 浏览器未自动运行:关闭 Windows 命令窗口,重新运行
start.bat
,或手动在浏览器中输入显示的地址(如 http://127.0.0.1:7892)。 - CUDA 内存不足错误:检查 GPU 内存状态,调整降噪级别或计算类型。
- Windows Defender 警告:将批处理文件添加为例外,或暂时禁用 Windows Defender。