MockingBird: быстрое клонирование голоса и обучение моделей, преобразование текста в речь на основе xtts v2
Общее введение
MockingBird - это проект с открытым исходным кодом, целью которого является быстрое клонирование речи и преобразование текста в речь с помощью технологии искусственного интеллекта. Для генерации любого голосового контента пользователям достаточно предоставить образцы речи длительностью 5 секунд. Проект поддерживает различные китайские наборы данных и хорошо работает в системах Windows и Linux. MockingBird использует фреймворк PyTorch и предоставляет простые в использовании инструменты и подробные инструкции по установке для разработчиков и исследователей.


Список функций
- Клонирование речи: генерируйте произвольный речевой контент из 5-секундных образцов голоса
- Преобразование текста в речь: ввод текста для генерации соответствующей речи
- Поддержка нескольких языков: поддержка китайского языка и нескольких китайских наборов данных.
- Кроссплатформенная работа: совместимость с системами Windows и Linux
- Обработка в реальном времени: обеспечивает генерацию речи в реальном времени
- Открытый исходный код: код открыт, чтобы облегчить вторичную разработку и исследования.
Использование помощи
Процесс установки
- Подготовка к защите окружающей среды::
- Установите Python 3.7 или более позднюю версию.
- Установите PyTorch (рекомендуется версия 1.9.0).
- Установите ffmpeg.
- Скачать проект::
- Откройте адрес проекта MockingBird, нажмите зеленую кнопку "Code" и выберите "Download ZIP", чтобы загрузить файл проекта.
- Или воспользуйтесь командой git, чтобы загрузить его:
git clone https://github.com/babysor/MockingBird.git
- Установка зависимостей::
- Перейдите в каталог проекта и выполните команду
pip install -r requirements.txt
Установите необходимые пакеты Python. - При необходимости вы можете использовать conda для создания виртуальной среды и установки зависимостей:
conda env create -n env_name -f env.yml
, а затем активируйте среду:conda activate env_name
.
- Перейдите в каталог проекта и выполните команду
- модель фонетической транскрипции
Для того чтобы уменьшить размер основного файла, он не содержит звуковую модель, если вам нужно скачать отдельно, перейдите по ссылкеМодель для скачивания (3G)
Процесс использования
- Инструментарий времени выполнения::
- быть в движении
demo_toolbox.py
чтобы открыть экран панели инструментов. - Выберите файл образца речи на панели инструментов, введите содержание текста и нажмите кнопку Generate, чтобы сгенерировать соответствующий речевой файл.
- быть в движении
- Модели обучения::
- Если вам нужно обучить свою собственную модель, вы можете следовать учебному руководству в проекте.
- Загрузите и подготовьте обучающий набор данных, запустите
train.py
Начните обучение. - Китайский файл справки по обучению моделей
- удалённый вызов::
- MockingBird предоставляет функцию веб-сервера, которая позволяет использовать сгенерированные результаты речи путем удаленного вызова.
- Настройте и запустите веб-сервер, который будет вызываться с помощью интерфейса API.
общие проблемы
- нарушение монтажа: Убедитесь, что ваша версия Python соответствует требованиям, и обратите внимание на совместимость версий при установке PyTorch.
- качество голоса: Качество образцов речи и богатство набора обучающих данных влияют на эффективность генерируемой речи, поэтому для обучения рекомендуется использовать высококачественные образцы речи и разнообразные наборы данных.
Предварительная загрузка для Windows (3,7 Гб/ с моделированием текста в звук)
Ссылка на скачивание Baidu.com
Загрузите/перезапишите пакет обновлений непосредственно в каталог app.exe.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...