MockingBird: быстрое клонирование голоса и обучение моделей, преобразование текста в речь на основе xtts v2

Общее введение

MockingBird - это проект с открытым исходным кодом, целью которого является быстрое клонирование речи и преобразование текста в речь с помощью технологии искусственного интеллекта. Для генерации любого голосового контента пользователям достаточно предоставить образцы речи длительностью 5 секунд. Проект поддерживает различные китайские наборы данных и хорошо работает в системах Windows и Linux. MockingBird использует фреймворк PyTorch и предоставляет простые в использовании инструменты и подробные инструкции по установке для разработчиков и исследователей.

MockingBird:快速克隆声音与模型训练,基于 xtts v2 实现的文本转语音

 

MockingBird:快速克隆声音与模型训练,基于 xtts v2 实现的文本转语音

 

Список функций

  • Клонирование речи: генерируйте произвольный речевой контент из 5-секундных образцов голоса
  • Преобразование текста в речь: ввод текста для генерации соответствующей речи
  • Поддержка нескольких языков: поддержка китайского языка и нескольких китайских наборов данных.
  • Кроссплатформенная работа: совместимость с системами Windows и Linux
  • Обработка в реальном времени: обеспечивает генерацию речи в реальном времени
  • Открытый исходный код: код открыт, чтобы облегчить вторичную разработку и исследования.

 

Использование помощи

Процесс установки

  1. Подготовка к защите окружающей среды::
    • Установите Python 3.7 или более позднюю версию.
    • Установите PyTorch (рекомендуется версия 1.9.0).
    • Установите ffmpeg.
  2. Скачать проект::
    • Откройте адрес проекта MockingBird, нажмите зеленую кнопку "Code" и выберите "Download ZIP", чтобы загрузить файл проекта.
    • Или воспользуйтесь командой git, чтобы загрузить его:git clone https://github.com/babysor/MockingBird.git
  3. Установка зависимостей::
    • Перейдите в каталог проекта и выполните команду pip install -r requirements.txt Установите необходимые пакеты Python.
    • При необходимости вы можете использовать conda для создания виртуальной среды и установки зависимостей:conda env create -n env_name -f env.yml, а затем активируйте среду:conda activate env_name.
  4. модель фонетической транскрипции

Для того чтобы уменьшить размер основного файла, он не содержит звуковую модель, если вам нужно скачать отдельно, перейдите по ссылкеМодель для скачивания (3G)

 

Процесс использования

  1. Инструментарий времени выполнения::
    • быть в движении demo_toolbox.pyчтобы открыть экран панели инструментов.
    • Выберите файл образца речи на панели инструментов, введите содержание текста и нажмите кнопку Generate, чтобы сгенерировать соответствующий речевой файл.
  2. Модели обучения::
    • Если вам нужно обучить свою собственную модель, вы можете следовать учебному руководству в проекте.
    • Загрузите и подготовьте обучающий набор данных, запустите train.py Начните обучение.
    • Китайский файл справки по обучению моделей
  3. удалённый вызов::
    • MockingBird предоставляет функцию веб-сервера, которая позволяет использовать сгенерированные результаты речи путем удаленного вызова.
    • Настройте и запустите веб-сервер, который будет вызываться с помощью интерфейса API.

общие проблемы

  • нарушение монтажа: Убедитесь, что ваша версия Python соответствует требованиям, и обратите внимание на совместимость версий при установке PyTorch.
  • качество голоса: Качество образцов речи и богатство набора обучающих данных влияют на эффективность генерируемой речи, поэтому для обучения рекомендуется использовать высококачественные образцы речи и разнообразные наборы данных.

 

Предварительная загрузка для Windows (3,7 Гб/ с моделированием текста в звук)

Ссылка на скачивание Baidu.com

Обнимающееся лицо скачать

Загрузите/перезапишите пакет обновлений непосредственно в каталог app.exe.

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...