ChatTTS: модель генерации речи, имитирующая голос реального собеседника (пакет ускорения ChatTTS в один клик)
Общее введение
ChatTTS - это генеративная модель речи, разработанная для сценариев диалога. Она генерирует естественную и выразительную речь, поддерживает несколько языков и нескольких дикторов и подходит для интерактивных диалогов. Модель превосходит большинство моделей синтеза речи с открытым исходным кодом, предсказывая и контролируя тонкие ритмические особенности, такие как смех, паузы и междометия. ChatTTS предоставляет предварительно обученные модели для поддержки дальнейших исследований и разработок, в основном для академических целей.


Список функций
- Поддержка нескольких языковПоддерживаются китайский и английский языки, в будущем будет расширен список языков.
- Поддержка нескольких собеседников: Способность генерировать голоса нескольких дикторов делает его подходящим для интерактивных диалогов.
- Тонкий ритмический контрольРитмические особенности, такие как смех, паузы и междометия, можно прогнозировать и контролировать.
- Модель предварительного обучения: Предоставляет 40 000 часов предварительно обученных моделей для поддержки дальнейших исследований и разработок.
- открытый исходный код: Код с открытым исходным кодом на GitHub для академического и исследовательского использования.
Использование помощи
Процесс установки
- Клонирование кода проекта::
git clone https://github.com/2noise/ChatTTS.git
- Установка зависимостей::
cd ChatTTS pip install -r requirements.txt
- Загрузите предварительно обученную модель: Загрузите предварительно обученную модель из HuggingFace или ModelScope и поместите ее в указанный каталог.
Использование
- Модели для погрузки::
from chattts import ChatTTS model = ChatTTS.load_model('path/to/pretrained/model')
- Создайте речь::
text = "你好,欢迎使用ChatTTS!" audio = model.synthesize(text)
- Сохранение аудиофайлов::
with open('output.wav', 'wb') as f: f.write(audio)
Детальное управление функциями
- ввод текста: Поддерживает смешанный ввод текста на китайском и английском языках.
- Ритмический контроль: Особенности рифмы, такие как смех, паузы и междометия, управляются с помощью параметров.
- регулятор тембра: Генерируемый тон может управляться заданным значением начального тона или кодом тона.
- эмоциональный контроль: Управляйте эмоциональными характеристиками генерируемой речи, задавая параметры волатильности и релевантности эмоций.
- потоковый вывод: Поддержка генерации длинных звуков и чтения на основе персонажей для сложных диалоговых сценариев.
пример кода (вычисления)
from chattts import ChatTTS
# 加载模型
model = ChatTTS.load_model('path/to/pretrained/model')
# 设置文本和韵律参数
text = "你好,欢迎使用ChatTTS!"
params = {
'laugh': True,
'pause': True,
'interjection': True
}
# 生成语音
audio = model.synthesize(text, params)
# 保存音频文件
with open('output.wav', 'wb') as f:
f.write(audio)
Клиент ChatTTS
Быстрый опыт
веб-адрес | типология |
---|---|
Оригинальная паутина | Оригинальный веб-опыт |
Forge Web | Формируйте расширенный опыт |
Linux | Установщик Python |
Образцы | Примеры тоновых семян |
Клонирование | Опыт клонирования тонов |
повышение функциональности
спортивное мероприятие | яркое пятно |
---|---|
jianchang512/ChatTTS-ui | Предоставляет интерфейс API, который может быть вызван в приложениях сторонних разработчиков |
6drf21e/ChatTTS_colab | Обеспечивает потоковый вывод с поддержкой создания длинных аудиозаписей и чтения с разделенными ролями |
lenML/ChatTTS-Forge | Обеспечивает усиление вокала и подавление фонового шума с помощью дополнительных слов-подсказок |
CCmahua/ChatTTS-Enhanced | Поддерживает пакетную обработку файлов и экспорт файлов SRT. |
HKoon/ChatTTS-OpenVoice | подходит OpenVoice Выполните клонирование звука |
Расширение функциональности
спортивное мероприятие | яркое пятно |
---|---|
6drf21e/ChatTTS_Speaker | Маркировка тональных символов и оценка устойчивости |
AIFSH/ComfyUI-ChatTTS | ComfyUi версия, которая может быть представлена как узел рабочего процесса |
MaterialShadow/ChatTTS-manager | Предусмотрена система управления тональным сигналом и интерфейс WebUI. |
Пакет ускоренной установки ChatTTSPlus одним щелчком мыши
ChatTTSPlus - это расширенная версия ChatTTS, которая добавляет к оригиналу ускорение TensorRT, клонирование речи и развертывание мобильной модели. Она проста в использовании, предлагает программу установки в один клик для Windows и достигает более чем 3-кратного повышения производительности с помощью TensorRT (с 28 токенов/с до 110 токенов/с на графических процессорах Windows 3060). Он поддерживает клонирование речи с помощью LoRA и разрабатывает методы сжатия и ускорения модели для мобильного развертывания.ChatTTSPlus - это мощный и простой в использовании инструмент синтеза речи для широкого спектра сценариев, с особыми преимуществами в приложениях, требующих высокой производительности и возможности клонирования речи.
Адрес: https://github.com/warmshao/ChatTTSPlus
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...