综合介绍
GPT-SoVITS是一款开源的语音转换与合成工具,结合了GPT模型和SoVITS变声器技术。该工具支持零样本与少量样本的即时文本转语音,仅需5秒音频样本即可实现声音风格迁移。其特色包括跨语言支持、内置音轨分离等实用功能,让初学者也能轻松创建个性化语音模型。适用于英语、日语及中文,结合WebUI工具集,从数据预处理到模型训练全程助力。不论是AI新手还是专业人士,都能在此体验到语音技术的魅力。
功能列表
- 零样本TTS:输入5秒的语音样本,即可立即体验文本转语音转换。
- 少样本TTS:使用仅1分钟的训练数据微调模型,提高声音相似度与逼真感。
- 跨语言支持:目前支持不同于训练集的语言推断,包括英语、日语、韩语、粤语和普通话。
- WebUI工具:集成了语音伴奏分离、自动训练集分割、中文ASR及文本标注等功能,帮助初学者创建训练数据和GPT/SoVITS模型。
使用帮助
安装流程
Windows用户
- 下载集成包。
- 双击
go-webui.bat
启动GPT-SoVITS-WebUI。 - 按照界面提示进行操作。
Linux用户
- 创建虚拟环境:
conda create -n GPTSoVits python=3.9
- 激活虚拟环境:
conda activate GPTSoVits
- 安装依赖:
bash install.sh
macOS用户
- 安装Xcode命令行工具:
xcode-select --install
- 安装FFmpeg:
brew install ffmpeg
- 创建虚拟环境并安装依赖:
conda create -n GPTSoVits python=3.9 conda activate GPTSoVits pip install -r requirements.txt
使用流程
- 数据准备:准备至少5秒的语音样本,上传到WebUI界面。
- 模型训练:选择零样本或少样本模式,上传相应的训练数据。
- 语音转换:输入文本内容,选择目标语音样本,点击转换按钮。
- 结果导出:转换完成后,可以下载生成的音频文件。
功能操作详解
- 零样本TTS:在WebUI界面上传5秒的语音样本,输入文本内容,点击转换按钮,即可生成对应的语音文件。
- 少样本TTS:上传至少1分钟的训练数据,进行模型微调,提高生成语音的相似度和逼真感。
- 跨语言支持:选择不同语言的文本内容进行输入,系统会自动进行语言转换和语音生成。
- WebUI工具:使用内置的语音伴奏分离、自动训练集分割、中文ASR及文本标注等功能,简化数据处理和模型训练过程。