ChatTTS: модель генерации речи, имитирующая голос реального собеседника (пакет ускорения ChatTTS в один клик)

Общее введение

ChatTTS - это генеративная модель речи, разработанная для сценариев диалога. Она генерирует естественную и выразительную речь, поддерживает несколько языков и нескольких дикторов и подходит для интерактивных диалогов. Модель превосходит большинство моделей синтеза речи с открытым исходным кодом, предсказывая и контролируя тонкие ритмические особенности, такие как смех, паузы и междометия. ChatTTS предоставляет предварительно обученные модели для поддержки дальнейших исследований и разработок, в основном для академических целей.

 

ChatTTS:模仿真人说话声音的语音生成模型(ChatTTS一键加速包)

 

ChatTTS:模仿真人说话声音的语音生成模型(ChatTTS一键加速包)

 

Список функций

  • Поддержка нескольких языковПоддерживаются китайский и английский языки, в будущем будет расширен список языков.
  • Поддержка нескольких собеседников: Способность генерировать голоса нескольких дикторов делает его подходящим для интерактивных диалогов.
  • Тонкий ритмический контрольРитмические особенности, такие как смех, паузы и междометия, можно прогнозировать и контролировать.
  • Модель предварительного обучения: Предоставляет 40 000 часов предварительно обученных моделей для поддержки дальнейших исследований и разработок.
  • открытый исходный код: Код с открытым исходным кодом на GitHub для академического и исследовательского использования.

 

Использование помощи

Процесс установки

  1. Клонирование кода проекта::
    git clone https://github.com/2noise/ChatTTS.git
    
  2. Установка зависимостей::
    cd ChatTTS
    pip install -r requirements.txt
    
  3. Загрузите предварительно обученную модель: Загрузите предварительно обученную модель из HuggingFace или ModelScope и поместите ее в указанный каталог.

Использование

  1. Модели для погрузки::
    from chattts import ChatTTS
    model = ChatTTS.load_model('path/to/pretrained/model')
    
  2. Создайте речь::
    text = "你好,欢迎使用ChatTTS!"
    audio = model.synthesize(text)
    
  3. Сохранение аудиофайлов::
    with open('output.wav', 'wb') as f:
    f.write(audio)
    

Детальное управление функциями

  • ввод текста: Поддерживает смешанный ввод текста на китайском и английском языках.
  • Ритмический контроль: Особенности рифмы, такие как смех, паузы и междометия, управляются с помощью параметров.
  • регулятор тембра: Генерируемый тон может управляться заданным значением начального тона или кодом тона.
  • эмоциональный контроль: Управляйте эмоциональными характеристиками генерируемой речи, задавая параметры волатильности и релевантности эмоций.
  • потоковый вывод: Поддержка генерации длинных звуков и чтения на основе персонажей для сложных диалоговых сценариев.

пример кода (вычисления)

from chattts import ChatTTS
# 加载模型
model = ChatTTS.load_model('path/to/pretrained/model')
# 设置文本和韵律参数
text = "你好,欢迎使用ChatTTS!"
params = {
'laugh': True,
'pause': True,
'interjection': True
}
# 生成语音
audio = model.synthesize(text, params)
# 保存音频文件
with open('output.wav', 'wb') as f:
f.write(audio)

 

Клиент ChatTTS

Быстрый опыт

веб-адрестипология
Оригинальная паутинаОригинальный веб-опыт
Forge WebФормируйте расширенный опыт
LinuxУстановщик Python
ОбразцыПримеры тоновых семян
КлонированиеОпыт клонирования тонов

 

повышение функциональности

спортивное мероприятиеяркое пятно
jianchang512/ChatTTS-uiПредоставляет интерфейс API, который может быть вызван в приложениях сторонних разработчиков
6drf21e/ChatTTS_colabОбеспечивает потоковый вывод с поддержкой создания длинных аудиозаписей и чтения с разделенными ролями
lenML/ChatTTS-ForgeОбеспечивает усиление вокала и подавление фонового шума с помощью дополнительных слов-подсказок
CCmahua/ChatTTS-EnhancedПоддерживает пакетную обработку файлов и экспорт файлов SRT.
HKoon/ChatTTS-OpenVoiceподходит OpenVoice Выполните клонирование звука

 

Расширение функциональности

спортивное мероприятиеяркое пятно
6drf21e/ChatTTS_SpeakerМаркировка тональных символов и оценка устойчивости
AIFSH/ComfyUI-ChatTTSComfyUi версия, которая может быть представлена как узел рабочего процесса
MaterialShadow/ChatTTS-managerПредусмотрена система управления тональным сигналом и интерфейс WebUI.

 

Пакет ускоренной установки ChatTTSPlus одним щелчком мыши

ChatTTSPlus - это расширенная версия ChatTTS, которая добавляет к оригиналу ускорение TensorRT, клонирование речи и развертывание мобильной модели. Она проста в использовании, предлагает программу установки в один клик для Windows и достигает более чем 3-кратного повышения производительности с помощью TensorRT (с 28 токенов/с до 110 токенов/с на графических процессорах Windows 3060). Он поддерживает клонирование речи с помощью LoRA и разрабатывает методы сжатия и ускорения модели для мобильного развертывания.ChatTTSPlus - это мощный и простой в использовании инструмент синтеза речи для широкого спектра сценариев, с особыми преимуществами в приложениях, требующих высокой производительности и возможности клонирования речи.

Адрес: https://github.com/warmshao/ChatTTSPlus

© заявление об авторских правах

Похожие статьи

SciSpace:一站式学术研究与论文写作平台,为学生和研究人员提供一体化 AI 工具

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...