ChatTTS: модель генерации речи, имитирующая голос реального собеседника (пакет ускорения ChatTTS в один клик)

Последние ресурсы по искусственному интеллектуОбновлено 1 год назад Круг обмена ИИ

70.5K 00

Общее введение

ChatTTS - это генеративная модель речи, разработанная для сценариев диалога. Она генерирует естественную и выразительную речь, поддерживает несколько языков и нескольких дикторов и подходит для интерактивных диалогов. Модель превосходит большинство моделей синтеза речи с открытым исходным кодом, предсказывая и контролируя тонкие ритмические особенности, такие как смех, паузы и междометия. ChatTTS предоставляет предварительно обученные модели для поддержки дальнейших исследований и разработок, в основном для академических целей.

Список функций

Поддержка нескольких языковПоддерживаются китайский и английский языки, в будущем будет расширен список языков.
Поддержка нескольких собеседников: Способность генерировать голоса нескольких дикторов делает его подходящим для интерактивных диалогов.
Тонкий ритмический контрольРитмические особенности, такие как смех, паузы и междометия, можно прогнозировать и контролировать.
Модель предварительного обучения: Предоставляет 40 000 часов предварительно обученных моделей для поддержки дальнейших исследований и разработок.
открытый исходный код: Код с открытым исходным кодом на GitHub для академического и исследовательского использования.

Использование помощи

Процесс установки

Клонирование кода проекта::
```
git clone https://github.com/2noise/ChatTTS.git
```
Установка зависимостей::
```
cd ChatTTS
pip install -r requirements.txt
```
Загрузите предварительно обученную модель: Загрузите предварительно обученную модель из HuggingFace или ModelScope и поместите ее в указанный каталог.

Использование

Модели для погрузки::

from chattts import ChatTTS
model = ChatTTS.load_model('path/to/pretrained/model')

Создайте речь::

text = "你好，欢迎使用ChatTTS！"
audio = model.synthesize(text)

Сохранение аудиофайлов::

with open('output.wav', 'wb') as f:
f.write(audio)

Детальное управление функциями

ввод текста: Поддерживает смешанный ввод текста на китайском и английском языках.
Ритмический контроль: Особенности рифмы, такие как смех, паузы и междометия, управляются с помощью параметров.
регулятор тембра: Генерируемый тон может управляться заданным значением начального тона или кодом тона.
эмоциональный контроль: Управляйте эмоциональными характеристиками генерируемой речи, задавая параметры волатильности и релевантности эмоций.
потоковый вывод: Поддержка генерации длинных звуков и чтения на основе персонажей для сложных диалоговых сценариев.

пример кода (вычисления)

from chattts import ChatTTS
# 加载模型
model = ChatTTS.load_model('path/to/pretrained/model')
# 设置文本和韵律参数
text = "你好，欢迎使用ChatTTS！"
params = {
'laugh': True,
'pause': True,
'interjection': True
}
# 生成语音
audio = model.synthesize(text, params)
# 保存音频文件
with open('output.wav', 'wb') as f:
f.write(audio)

Клиент ChatTTS

Быстрый опыт

веб-адрес	типология
Оригинальная паутина	Оригинальный веб-опыт
Forge Web	Формируйте расширенный опыт
Linux	Установщик Python
Образцы	Примеры тоновых семян
Клонирование	Опыт клонирования тонов

повышение функциональности

спортивное мероприятие	яркое пятно
jianchang512/ChatTTS-ui	Предоставляет интерфейс API, который может быть вызван в приложениях сторонних разработчиков
6drf21e/ChatTTS_colab	Обеспечивает потоковый вывод с поддержкой создания длинных аудиозаписей и чтения с разделенными ролями
lenML/ChatTTS-Forge	Обеспечивает усиление вокала и подавление фонового шума с помощью дополнительных слов-подсказок
CCmahua/ChatTTS-Enhanced	Поддерживает пакетную обработку файлов и экспорт файлов SRT.
HKoon/ChatTTS-OpenVoice	подходит OpenVoice Выполните клонирование звука

Расширение функциональности

спортивное мероприятие	яркое пятно
6drf21e/ChatTTS_Speaker	Маркировка тональных символов и оценка устойчивости
AIFSH/ComfyUI-ChatTTS	ComfyUi версия, которая может быть представлена как узел рабочего процесса
MaterialShadow/ChatTTS-manager	Предусмотрена система управления тональным сигналом и интерфейс WebUI.

Пакет ускоренной установки ChatTTSPlus одним щелчком мыши

ChatTTSPlus - это расширенная версия ChatTTS, которая добавляет к оригиналу ускорение TensorRT, клонирование речи и развертывание мобильной модели. Она проста в использовании, предлагает программу установки в один клик для Windows и достигает более чем 3-кратного повышения производительности с помощью TensorRT (с 28 токенов/с до 110 токенов/с на графических процессорах Windows 3060). Он поддерживает клонирование речи с помощью LoRA и разрабатывает методы сжатия и ускорения модели для мобильного развертывания.ChatTTSPlus - это мощный и простой в использовании инструмент синтеза речи для широкого спектра сценариев, с особыми преимуществами в приложениях, требующих высокой производительности и возможности клонирования речи.

Адрес: https://github.com/warmshao/ChatTTSPlus