IndexTTS: инструмент преобразования текста в речь с поддержкой китайско-английского смешивания

Последние ресурсы по искусственному интеллектуОпубликовано 12 месяцев назад Круг обмена ИИ

116.3K 00

Общее введение

IndexTTS - это инструмент преобразования текста в речь (TTS) с открытым исходным кодом, размещенный на GitHub и разработанный командой index-tts. Он основан на технологиях XTTS и Tortoise и обеспечивает эффективный и качественный синтез речи за счет улучшения конструкции модулей. indexTTS был обучен на десятках тысяч часов данных, поддерживает китайский и английский языки и особенно хорошо работает в китайских сценариях. Он исправляет ошибки в произношении с помощью пиньинь и контролирует паузы в речи. Команда оптимизировала качество звука, стабильность обучения и схожесть тембров, и утверждает, что превосходит такие популярные системы TTS, как XTTS и CosyVoice2. Чтобы оценить всю функциональность, вы можете обратиться за дополнительной информацией по официальному адресу электронной почты.

Список функций

Поддерживает ввод китайского пиньинь и исправляет ошибки произношения полифонических иероглифов.
Управление положением речевой паузы с помощью пунктуации.
Повысьте качество звука с помощью BigVGAN2.
Интеграция условного кодера Conformer для повышения стабильности обучения и тембрового сходства.
Поддерживает синтез речи с нулевым образцом, который можно генерировать без предварительного обучения конкретной речи.
Работает со смешанным китайским и английским текстом.

Использование помощи

Как установить

IndexTTS в настоящее время является проектом с открытым исходным кодом на GitHub, но ни прямого установщика, ни онлайн-сервиса официально не существует. Чтобы использовать его, вам нужно создать собственное окружение. Ниже приведены шаги по установке:

Подготовка среды
- Убедитесь, что на вашем компьютере установлена версия Python 3.8 или более поздняя.
- Установите Git для загрузки кода.
- Для ускорения обработки требуется поддержка GPU (например, видеокарты NVIDIA), рекомендуется использовать CUDA.
Код загрузки
Введите его в терминал или командную строку:

git clone https://github.com/index-tts/index-tts.git

Это позволит загрузить код IndexTTS локально.

Установка зависимостей

Перейдите в папку с проектом:
```
cd index-tts
```
Установите необходимые библиотеки. Так как нет специальных официальных <code>requirements.txt</code> рекомендуется установить общие TTS-зависимости, такие как PyTorch, NumPy и Torchaudio. вы можете попробовать:
```
pip install torch torchaudio numpy
```
Если есть конкретная зависимость, вам нужно обратиться к оператору импорта в коде, чтобы установить ее вручную.

Получите предварительно обученные модели

Модель предварительного обучения IndexTTS не имеет прямого открытого исходного кода. Вам необходимо связаться с нами по электронной почте <code>xuanwu@bilibili.com</code> Получите файл модели.
После получения модели поместите файлы в каталог проекта (точный путь указан в официальном ответе).

Текущие проекты

Предполагая, что модель создана, запустите основной скрипт (имя файла может быть <code>main.py</code> (или похожее название, для подтверждения необходимо проверить код):
```
python main.py
```
Если есть требования к параметрам (например, к входному тексту или конфигурационным файлам), необходимо настроить команду в соответствии с официальной документацией.

Как использовать основные функции

После установки основной функцией IndexTTS является генерация речи. Вот как им управлять:

Создайте речь

текст ввода
Найдите в коде секцию ввода текста (это может быть параметр сценария или входной сигнал интерфейса). Например:

python main.py --text "你好，这是测试文本。"

Вводимый текст может быть на китайском, английском или смешанном языке.

Коррекция пиньинь Произношение

Если у вас возникли проблемы с полифоническими символами, введите пиньинь напрямую. Например:

python main.py --text "xing2 hang2"  # 纠正为“银行”而不是“星航”

Система сгенерирует правильно произнесенную речь на основе пиньинь.

Контрольные остановки

Когда в текст добавляются знаки препинания, IndexTTS автоматически распознает их и корректирует паузы. Пример:

python main.py --text "你好，世界。这是一个测试。"

"," и "." позволят голосу делать естественные паузы, имитируя ритм реальной речи.

выходной аудиосигнал

Сгенерированная речь обычно сохраняется в виде WAV-файла. Проверьте каталог проекта после запуска, там может быть что-то вроде <code>output.wav</code> документа.
Вы можете открыть файл с помощью проигрывателя или указать путь к выходу в коде:

python main.py --text "测试" --output "my_audio.wav"

Основные функции Процедура работы

Синтез речи с нулевой выборкой

IndexTTS поддерживает синтез с нулевой выборкой и может имитировать необученные звуки.
Как это сделать: предоставьте эталонное аудио (формат обычно WAV). Предполагается, что код поддерживает его:

python main.py --text "hello" --ref_audio "reference.wav"

Система анализирует тембр эталонного звука, чтобы сгенерировать похожий звук.

Высококачественный аудиовыход

IndexTTS оптимизирован для качества звука с помощью BigVGAN2. Никаких дополнительных настроек не требуется, а звук на выходе получается гораздо чище, чем в обычном TTS, при условии, что модели загружены правильно.
Убедитесь, что ваше оборудование поддерживает ускорение GPU, иначе обработка будет замедляться.

предостережение

Если прогон сообщает об ошибке, проверьте, совместим ли PyTorch с вашим GPU.
Официальная документация может быть неполной, поэтому мы рекомендуем проверить <code>README.md</code> или комментарии к коду.
Для более глубокой настройки параметров можно изучить конфигурацию Conformer и BigVGAN2 (требуется знание принципов программирования и TTS).

сценарий применения

Учебные пособия
Учителя могут использовать IndexTTS для преобразования текстов в речь, чтобы помочь ученикам в аудировании. Функция коррекции пиньинь также учит правильному произношению.
создание контента
Ведущие или владельцы UP могут использовать его для создания закадрового голоса, особенно для видео, где требуется сочетание китайского и английского языков.
Разработка голосового помощника
Разработчики могут использовать IndexTTS для создания интеллектуальной службы поддержки клиентов, имитирующей реальный человеческий голос и обеспечивающей естественный диалог.
изучение языков
Студенты могут использовать его для отработки произношения, переписывая слова или предложения в речь, слушая и имитируя их снова и снова.

QA

Какие языки поддерживает IndexTTS?
Он поддерживает в основном китайский и английский языки и может работать со смешанным текстом. Поддержка других языков неизвестна и нуждается в проверке.
Как получить полную функциональность?
Требуется почтовый контакт <code>xuanwu@bilibili.com</code>Получите предварительно обученные модели и подробные описания.
Насколько мощный компьютер мне нужен для его запуска?
Рекомендуется использовать графический процессор (например, видеокарту NVIDIA), процессор тоже будет работать, но медленно. Не менее 8 ГБ оперативной памяти.
Это бесплатно?
Код является открытым и бесплатным, но коммерческое использование может быть ограничено, для этого необходимо проконсультироваться с официальным представителем.