GPT SoVITS: революционные инструменты для генерации и клонирования речи

Последние ресурсы по искусственному интеллекту2年前更新 Круг обмена ИИ

84.5K 00

Общее введение

GPT-SoVITS - это инструмент для преобразования и синтеза речи с открытым исходным кодом, который сочетает в себе модель GPT и технологию изменения голоса SoVITS. Инструмент поддерживает мгновенное преобразование текста в речь с нулевым и малым количеством образцов, а также перенос стиля голоса всего за 5 секунд аудиообразцов. Среди особенностей - кросс-языковая поддержка, встроенное разделение дорожек и другие полезные функции, позволяющие даже новичкам легко создавать индивидуальные голосовые модели. Доступен для английского, японского и китайского языков. В сочетании с набором инструментов WebUI он поможет вам во всем - от предварительной обработки данных до обучения модели. Независимо от того, новичок вы в области ИИ или профессионал, здесь вы сможете ощутить всю прелесть речевых технологий.

Список функций

Zero Sample TTS: введите 5-секундный образец речи, чтобы немедленно приступить к преобразованию текста в речь.
TTS без образцов: точная настройка модели с использованием всего 1 минуты обучающих данных для улучшения сходства и реалистичности звучания.
Межъязыковая поддержка: в настоящее время поддерживаются умозаключения для языков, отличных от обучающего набора, включая английский, японский, корейский, кантонский и мандаринский.
Инструменты WebUI: интегрированное разделение речевого сопровождения, автоматическая сегментация обучающего набора, китайский ASR и текстовая аннотация для помощи начинающим в создании обучающих данных и моделей GPT/SoVITS.

Использование помощи

Процесс установки

Пользователь Windows

Загрузите пакет интеграции.
двойной щелчокgo-webui.batЗапустите GPT-SoVITS-WebUI.
Следуйте подсказкам интерфейса.

Пользователь Linux

Создайте виртуальную среду:conda create -n GPTSoVits python=3.9
Активируйте виртуальную среду:conda activate GPTSoVits
Установите зависимость:bash install.sh

пользователи macOS

Установите инструмент командной строки Xcode:xcode-select --install
Установите FFmpeg:brew install ffmpeg
Создайте виртуальную среду и установите зависимости:
```
conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
pip install -r requirements.txt
```

Процесс использования

Подготовка данных: Подготовьте образец речи длительностью не менее 5 секунд для загрузки в интерфейс WebUI.
обучение модели: Выберите режим с нулем или несколькими образцами и загрузите соответствующие обучающие данные.
фонетическая транскрипция: Введите содержание текста, выберите целевой образец речи и нажмите кнопку Преобразовать.
Экспорт результатов: После завершения преобразования вы можете загрузить полученный аудиофайл.

Функции

Нулевой образец TTS: Загрузите 5-секундный образец голоса в интерфейс WebUI, введите текстовое содержание и нажмите кнопку Convert, чтобы сгенерировать соответствующий голосовой файл.
Образец меньше TTS: Загрузите не менее 1 минуты обучающих данных для тонкой настройки модели, чтобы улучшить сходство и реалистичность генерируемой речи.
межъязыковая поддержка: Выберите для ввода текст на разных языках, и система автоматически выполнит преобразование языка и генерацию речи.
Инструменты WebUI: Упростите процесс обработки данных и обучения модели, используя встроенные функции, такие как разделение речевого сопровождения, автоматическая сегментация обучающего набора, китайский ASR и аннотирование текста.