AI个人学习
和实操指南

ChatTTS:模仿真人说话声音的语音生成模型(ChatTTS一键加速包)

综合介绍

ChatTTS 是一个专为对话场景设计的生成语音模型。它能够生成自然且富有表现力的语音,支持多种语言和多位说话者,适用于互动对话。该模型通过预测和控制细粒度的韵律特征,如笑声、停顿和插话,超越了大多数开源的语音合成模型。ChatTTS 提供预训练模型,支持进一步的研究和开发,主要用于学术目的。

 


ChatTTS:对话场景的生成语音模型-1

 

ChatTTS:对话场景的生成语音模型-1

 

功能列表

  • 多语言支持:支持中文和英文,未来将扩展更多语言。
  • 多说话者支持:能够生成多位说话者的语音,适用于互动对话。
  • 细粒度韵律控制:可以预测和控制笑声、停顿和插话等韵律特征。
  • 预训练模型:提供40,000小时的预训练模型,支持进一步研究和开发。
  • 开源代码:代码在GitHub上开源,供学术和研究使用。

 

使用帮助

安装流程

  1. 克隆项目代码
    git clone https://github.com/2noise/ChatTTS.git
    
  2. 安装依赖
    cd ChatTTS
    pip install -r requirements.txt
    
  3. 下载预训练模型: 从HuggingFace或ModelScope下载预训练模型,并将其放置在指定目录。

使用方法

  1. 加载模型
    from chattts import ChatTTS
    model = ChatTTS.load_model('path/to/pretrained/model')
    
  2. 生成语音
    text = "你好,欢迎使用ChatTTS!"
    audio = model.synthesize(text)
    
  3. 保存音频文件
    with open('output.wav', 'wb') as f:
        f.write(audio)
    

详细功能操作

  • 文本输入:支持中文和英文混杂的文本输入。
  • 韵律控制:通过设置参数控制笑声、停顿和插话等韵律特征。
  • 音色控制:可以通过预设的音色种子值或音色码控制生成的音色。
  • 情感控制:通过设置情感波动性和相关性参数,控制生成语音的情感特征。
  • 流式输出:支持长音频生成和分角色阅读,适用于复杂对话场景。

示例代码

from chattts import ChatTTS

# 加载模型
model = ChatTTS.load_model('path/to/pretrained/model')

# 设置文本和韵律参数
text = "你好,欢迎使用ChatTTS!"
params = {
    'laugh': True,
    'pause': True,
    'interjection': True
}

# 生成语音
audio = model.synthesize(text, params)

# 保存音频文件
with open('output.wav', 'wb') as f:
    f.write(audio)

 

ChatTTS 客户端

快速体验

网址 类型
Original Web 原版网页版体验
Forge Web Forge 增强版体验
Linux Python 安装包
Samples 音色种子示例
Cloning 音色克隆体验

 

功能增强

项目 亮点
jianchang512/ChatTTS-ui 提供 API 接口,可在第三方应用中调用
6drf21e/ChatTTS_colab 提供流式输出,支持长音频生成和分角色阅读
lenML/ChatTTS-Forge 提供人声增强和背景降噪,可使用附加提示词
CCmahua/ChatTTS-Enhanced 支持文件批量处理,以及导出 SRT 文件
HKoon/ChatTTS-OpenVoice 配合 OpenVoice 进行声音克隆

 

功能扩展

项目 亮点
6drf21e/ChatTTS_Speaker 音色角色打标与稳定性评估
AIFSH/ComfyUI-ChatTTS ComfyUi 版本,可作为工作流节点引入
MaterialShadow/ChatTTS-manager 提供了音色管理系统和 WebUI 界面

 

ChatTTSPlus加速版一键安装包

ChatTTSPlus是ChatTTS的扩展版本,它在原有的基础上增加了TensorRT加速、语音克隆和移动端模型部署等功能。该项目使用方便,提供Windows一键安装包,并通过TensorRT实现了超过3倍的性能提升(在Windows 3060 GPU上,从28 tokens/s提升到110 tokens/s)。 它支持使用LoRA进行语音克隆,并正在开发模型压缩和加速技术以实现移动端部署。ChatTTSPlus是一个功能强大且易于使用的语音合成工具,适用于多种场景,尤其在需要高性能和语音克隆功能的应用中具有优势。

地址:https://github.com/warmshao/ChatTTSPlus

未经允许不得转载:首席AI分享圈 » ChatTTS:模仿真人说话声音的语音生成模型(ChatTTS一键加速包)

首席AI分享圈

首席AI分享圈专注于人工智能学习,提供全面的AI学习内容、AI工具和实操指导。我们的目标是通过高质量的内容和实践经验分享,帮助用户掌握AI技术,一起挖掘AI的无限潜能。无论您是AI初学者还是资深专家,这里都是您获取知识、提升技能、实现创新的理想之地。

联系我们
zh_CN简体中文