IndexTTS: инструмент преобразования текста в речь с поддержкой китайско-английского смешивания

Общее введение

IndexTTS - это инструмент преобразования текста в речь (TTS) с открытым исходным кодом, размещенный на GitHub и разработанный командой index-tts. Он основан на технологиях XTTS и Tortoise и обеспечивает эффективный и качественный синтез речи за счет улучшения конструкции модулей. indexTTS был обучен на десятках тысяч часов данных, поддерживает китайский и английский языки и особенно хорошо работает в китайских сценариях. Он исправляет ошибки в произношении с помощью пиньинь и контролирует паузы в речи. Команда оптимизировала качество звука, стабильность обучения и схожесть тембров, и утверждает, что превосходит такие популярные системы TTS, как XTTS и CosyVoice2. Чтобы оценить всю функциональность, вы можете обратиться за дополнительной информацией по официальному адресу электронной почты.

IndexTTS:支持中英文混合的文本转语音工具

 

Список функций

  • Поддерживает ввод китайского пиньинь и исправляет ошибки произношения полифонических иероглифов.
  • Управление положением речевой паузы с помощью пунктуации.
  • Повысьте качество звука с помощью BigVGAN2.
  • Интеграция условного кодера Conformer для повышения стабильности обучения и тембрового сходства.
  • Поддерживает синтез речи с нулевым образцом, который можно генерировать без предварительного обучения конкретной речи.
  • Работает со смешанным китайским и английским текстом.

 

Использование помощи

Как установить

IndexTTS в настоящее время является проектом с открытым исходным кодом на GitHub, но ни прямого установщика, ни онлайн-сервиса официально не существует. Чтобы использовать его, вам нужно создать собственное окружение. Ниже приведены шаги по установке:

  1. Подготовка среды
    • Убедитесь, что на вашем компьютере установлена версия Python 3.8 или более поздняя.
    • Установите Git для загрузки кода.
    • Для ускорения обработки требуется поддержка GPU (например, видеокарты NVIDIA), рекомендуется использовать CUDA.
  2. Код загрузки
    Введите его в терминал или командную строку:
git clone https://github.com/index-tts/index-tts.git

Это позволит загрузить код IndexTTS локально.

  1. Установка зависимостей
  • Перейдите в папку с проектом:
    cd index-tts
    
  • Установите необходимые библиотеки. Так как нет специальных официальных <code>requirements.txt</code> рекомендуется установить общие TTS-зависимости, такие как PyTorch, NumPy и Torchaudio. вы можете попробовать:
    pip install torch torchaudio numpy
    
  • Если есть конкретная зависимость, вам нужно обратиться к оператору импорта в коде, чтобы установить ее вручную.
  1. Получите предварительно обученные модели
  • Модель предварительного обучения IndexTTS не имеет прямого открытого исходного кода. Вам необходимо связаться с нами по электронной почте <code>xuanwu@bilibili.com</code> Получите файл модели.
  • После получения модели поместите файлы в каталог проекта (точный путь указан в официальном ответе).
  1. Текущие проекты
  • Предполагая, что модель создана, запустите основной скрипт (имя файла может быть <code>main.py</code> (или похожее название, для подтверждения необходимо проверить код):
    python main.py
    
  • Если есть требования к параметрам (например, к входному тексту или конфигурационным файлам), необходимо настроить команду в соответствии с официальной документацией.

Как использовать основные функции

После установки основной функцией IndexTTS является генерация речи. Вот как им управлять:

Создайте речь

  • текст ввода
    Найдите в коде секцию ввода текста (это может быть параметр сценария или входной сигнал интерфейса). Например:
python main.py --text "你好,这是测试文本。"

Вводимый текст может быть на китайском, английском или смешанном языке.

Коррекция пиньинь Произношение

  • Если у вас возникли проблемы с полифоническими символами, введите пиньинь напрямую. Например:
python main.py --text "xing2 hang2"  # 纠正为“银行”而不是“星航”
  • Система сгенерирует правильно произнесенную речь на основе пиньинь.

Контрольные остановки

  • Когда в текст добавляются знаки препинания, IndexTTS автоматически распознает их и корректирует паузы. Пример:
python main.py --text "你好,世界。这是一个测试。"
  • "," и "." позволят голосу делать естественные паузы, имитируя ритм реальной речи.

выходной аудиосигнал

  • Сгенерированная речь обычно сохраняется в виде WAV-файла. Проверьте каталог проекта после запуска, там может быть что-то вроде <code>output.wav</code> документа.
  • Вы можете открыть файл с помощью проигрывателя или указать путь к выходу в коде:
python main.py --text "测试" --output "my_audio.wav"

Основные функции Процедура работы

Синтез речи с нулевой выборкой

  • IndexTTS поддерживает синтез с нулевой выборкой и может имитировать необученные звуки.
  • Как это сделать: предоставьте эталонное аудио (формат обычно WAV). Предполагается, что код поддерживает его:

python main.py --text "hello" --ref_audio "reference.wav"

  • Система анализирует тембр эталонного звука, чтобы сгенерировать похожий звук.

Высококачественный аудиовыход

  • IndexTTS оптимизирован для качества звука с помощью BigVGAN2. Никаких дополнительных настроек не требуется, а звук на выходе получается гораздо чище, чем в обычном TTS, при условии, что модели загружены правильно.
  • Убедитесь, что ваше оборудование поддерживает ускорение GPU, иначе обработка будет замедляться.

предостережение

  • Если прогон сообщает об ошибке, проверьте, совместим ли PyTorch с вашим GPU.
  • Официальная документация может быть неполной, поэтому мы рекомендуем проверить <code>README.md</code> или комментарии к коду.
  • Для более глубокой настройки параметров можно изучить конфигурацию Conformer и BigVGAN2 (требуется знание принципов программирования и TTS).

 

сценарий применения

  1. Учебные пособия
    Учителя могут использовать IndexTTS для преобразования текстов в речь, чтобы помочь ученикам в аудировании. Функция коррекции пиньинь также учит правильному произношению.
  2. создание контента
    Ведущие или владельцы UP могут использовать его для создания закадрового голоса, особенно для видео, где требуется сочетание китайского и английского языков.
  3. Разработка голосового помощника
    Разработчики могут использовать IndexTTS для создания интеллектуальной службы поддержки клиентов, имитирующей реальный человеческий голос и обеспечивающей естественный диалог.
  4. изучение языков
    Студенты могут использовать его для отработки произношения, переписывая слова или предложения в речь, слушая и имитируя их снова и снова.

 

QA

  1. Какие языки поддерживает IndexTTS?
    Он поддерживает в основном китайский и английский языки и может работать со смешанным текстом. Поддержка других языков неизвестна и нуждается в проверке.
  2. Как получить полную функциональность?
    Требуется почтовый контакт <code>xuanwu@bilibili.com</code>Получите предварительно обученные модели и подробные описания.
  3. Насколько мощный компьютер мне нужен для его запуска?
    Рекомендуется использовать графический процессор (например, видеокарту NVIDIA), процессор тоже будет работать, но медленно. Не менее 8 ГБ оперативной памяти.
  4. Это бесплатно?
    Код является открытым и бесплатным, но коммерческое использование может быть ограничено, для этого необходимо проконсультироваться с официальным представителем.
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...