Voice-Pro：开源多功能视频翻译工具，语音转录并翻译为多语言，Windows一键安装

68.4K 00

综合介绍

Voice-Pro 是一个基于 Gradio WebUI 的多功能工具，支持语音转文字、文本转语音、实时翻译、YouTube 视频下载和人声分离。它集成了 Whisper、Faster-Whisper 和 Whisper-Timestamped 等技术，提供高效的音频处理和翻译功能，适用于多种语言和场景。

Voice-Pro：开源多功能视频翻译工具，语音转录并翻译为多语言，Windows一键安装

功能列表

语音转文字：支持 Whisper、Faster-Whisper 和 Whisper-Timestamped，提供高精度的语音识别。
文本转语音：支持 Edge-TTS 和 F5-TTS，提供多种语言和声音选择，支持语速、音量和音调调整。
实时翻译：支持实时语音识别和翻译，适用于多种语言。
YouTube 下载：可以下载 YouTube 视频并提取音频（mp3、wav、flac）。
人声分离：使用 MDX-Net 和 Demucs 引擎进行人声和背景音分离。
批量处理：支持大批量文件的字幕生成、翻译和文本转语音处理。
字幕生成：支持超过 90 种语言的字幕生成和编辑。
多格式支持：支持所有由 ffmpeg 支持的视频和音频格式。

使用帮助

安装流程

准备包：从 GitHub 克隆或下载最新版本的源码。
```
git clone https://github.com/abus-aikorea/voice-pro.git
```

安装并运行程序：
- 运行 configure.bat 安装所需的依赖包（如 git、ffmpeg 和 CUDA）。
- 运行 start.bat 启动 Voice-Pro，WebUI 将自动运行。
- 初次运行时，Voice-Pro 将首先进行安装，可能需要一小时以上，期间请勿关闭 Windows 命令窗口。

使用功能

语音转文字：
- 在 Studio 选项卡中选择 Whisper 模型和计算类型。
- 上传音频文件或选择音频输入源（如麦克风）。
- 点击“开始”按钮，等待语音识别和字幕创建完成。
翻译：
- 在 Translate 选项卡中上传需要翻译的文本或字幕文件。
- 选择目标语言，点击“翻译”按钮。
- 翻译完成后，可以下载翻译后的文件。
文本转语音：
- 在 TTS 选项卡中选择 Edge-TTS 或 F5-TTS。
- 输入需要转换的文本，选择语音参数（如速度、音量、音调）。
- 点击“生成语音”按钮，等待语音生成完成。
YouTube 下载：
- 在 YouTube Downloader 选项卡中输入 YouTube 视频链接。
- 选择音频格式（mp3、wav、flac），点击“下载”按钮。
- 下载完成后，可以在指定文件夹中找到音频文件。
声音分离：
- 在 Vocal Remover 选项卡中上传音频文件。
- 选择 MDX-Net 或 Demucs 引擎，点击“开始”按钮。
- 等待声音分离完成，可以下载分离后的音频文件。
批量处理：
- 在 Batch 选项卡中上传多个文件。
- 选择需要进行的操作（字幕、翻译、文本转语音）。
- 点击“开始”按钮，等待批量处理完成。

常见问题

浏览器未自动运行：关闭 Windows 命令窗口，重新运行 start.bat，或手动在浏览器中输入显示的地址（如 http://127.0.0.1:7892）。
CUDA 内存不足错误：检查 GPU 内存状态，调整降噪级别或计算类型。
Windows Defender 警告：将批处理文件添加为例外，或暂时禁用 Windows Defender。