MockingBird: быстрое клонирование голоса и обучение моделей, преобразование текста в речь на основе xtts v2

Последние ресурсы по искусственному интеллектуОбновлено 1 год назад Круг обмена ИИ

Общее введение

MockingBird - это проект с открытым исходным кодом, целью которого является быстрое клонирование речи и преобразование текста в речь с помощью технологии искусственного интеллекта. Для генерации любого голосового контента пользователям достаточно предоставить образцы речи длительностью 5 секунд. Проект поддерживает различные китайские наборы данных и хорошо работает в системах Windows и Linux. MockingBird использует фреймворк PyTorch и предоставляет простые в использовании инструменты и подробные инструкции по установке для разработчиков и исследователей.

MockingBird：快速克隆声音与模型训练，基于 xtts v2 实现的文本转语音

Список функций

Клонирование речи: генерируйте произвольный речевой контент из 5-секундных образцов голоса
Преобразование текста в речь: ввод текста для генерации соответствующей речи
Поддержка нескольких языков: поддержка китайского языка и нескольких китайских наборов данных.
Кроссплатформенная работа: совместимость с системами Windows и Linux
Обработка в реальном времени: обеспечивает генерацию речи в реальном времени
Открытый исходный код: код открыт, чтобы облегчить вторичную разработку и исследования.

Использование помощи

Процесс установки

Подготовка к защите окружающей среды::
- Установите Python 3.7 или более позднюю версию.
- Установите PyTorch (рекомендуется версия 1.9.0).
- Установите ffmpeg.
Скачать проект::
- Откройте адрес проекта MockingBird, нажмите зеленую кнопку "Code" и выберите "Download ZIP", чтобы загрузить файл проекта.
- Или воспользуйтесь командой git, чтобы загрузить его:git clone https://github.com/babysor/MockingBird.git
Установка зависимостей::
- Перейдите в каталог проекта и выполните команду pip install -r requirements.txt Установите необходимые пакеты Python.
- При необходимости вы можете использовать conda для создания виртуальной среды и установки зависимостей:conda env create -n env_name -f env.yml, а затем активируйте среду:conda activate env_name.
модель фонетической транскрипции

Для того чтобы уменьшить размер основного файла, он не содержит звуковую модель, если вам нужно скачать отдельно, перейдите по ссылкеМодель для скачивания (3G)

Процесс использования

Инструментарий времени выполнения::
- быть в движении demo_toolbox.pyчтобы открыть экран панели инструментов.
- Выберите файл образца речи на панели инструментов, введите содержание текста и нажмите кнопку Generate, чтобы сгенерировать соответствующий речевой файл.
Модели обучения::
- Если вам нужно обучить свою собственную модель, вы можете следовать учебному руководству в проекте.
- Загрузите и подготовьте обучающий набор данных, запустите train.py Начните обучение.
- Китайский файл справки по обучению моделей
удалённый вызов::
- MockingBird предоставляет функцию веб-сервера, которая позволяет использовать сгенерированные результаты речи путем удаленного вызова.
- Настройте и запустите веб-сервер, который будет вызываться с помощью интерфейса API.

общие проблемы

нарушение монтажа: Убедитесь, что ваша версия Python соответствует требованиям, и обратите внимание на совместимость версий при установке PyTorch.
качество голоса: Качество образцов речи и богатство набора обучающих данных влияют на эффективность генерируемой речи, поэтому для обучения рекомендуется использовать высококачественные образцы речи и разнообразные наборы данных.

Предварительная загрузка для Windows (3,7 Гб/ с моделированием текста в звук)

Ссылка на скачивание Baidu.com

Обнимающееся лицо скачать

Загрузите/перезапишите пакет обновлений непосредственно в каталог app.exe.

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Клонирование голоса AI

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

OmniParse: извлечение любых неструктурированных данных из документов/мультимедиа и их разбор в структурированные данные

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Извлечение и очистка документов

1 год назад

047.8K

Matrix-3D - фреймворк с открытым исходным кодом для генерации 3D-миров в Kunlun World Wide Web

Последние ресурсы по искусственному интеллекту

7 месяцев назад

044.7K

UnifiedTTS - единая сервисная платформа TTS API, мониторинг производительности в реальном времени

Последние ресурсы по искусственному интеллекту

6 месяцев назад

039.1K

Wispr Flow: используйте голос для быстрого ввода текста в любом приложении

Последние ресурсы по искусственному интеллекту # AI Speech to Text

9 месяцев назад

0112.9K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

Нет комментариев...

MockingBird: быстрое клонирование голоса и обучение моделей, преобразование текста в речь на основе xtts v2

Общее введение

Список функций

Использование помощи

Процесс установки

Процесс использования

общие проблемы

Предварительная загрузка для Windows (3,7 Гб/ с моделированием текста в звук)

Clone Voice: Многоязычный инструмент для клонирования голоса без сэмплов на основе xtts_v2 для Windows.

302.AI: Платная платформа услуг ИИ, быстрая интеграция роботов ИИ, инструменты упаковки ИИ, интерфейс пересылки API

Похожие статьи

OmniParse: извлечение любых неструктурированных данных из документов/мультимедиа и их разбор в структурированные данные

Matrix-3D - фреймворк с открытым исходным кодом для генерации 3D-миров в Kunlun World Wide Web

UnifiedTTS - единая сервисная платформа TTS API, мониторинг производительности в реальном времени

Wispr Flow: используйте голос для быстрого ввода текста в любом приложении

Нет комментариев

Последние коллекции

Последние статьи

MockingBird: быстрое клонирование голоса и обучение моделей, преобразование текста в речь на основе xtts v2

Общее введение

Список функций

Использование помощи

Процесс установки

Процесс использования

общие проблемы

Предварительная загрузка для Windows (3,7 Гб/ с моделированием текста в звук)

Clone Voice: Многоязычный инструмент для клонирования голоса без сэмплов на основе xtts_v2 для Windows.

302.AI: Платная платформа услуг ИИ, быстрая интеграция роботов ИИ, инструменты упаковки ИИ, интерфейс пересылки API

Похожие статьи

OmniParse: извлечение любых неструктурированных данных из документов/мультимедиа и их разбор в структурированные данные

Matrix-3D - фреймворк с открытым исходным кодом для генерации 3D-миров в Kunlun World Wide Web

UnifiedTTS - единая сервисная платформа TTS API, мониторинг производительности в реальном времени

Wispr Flow: используйте голос для быстрого ввода текста в любом приложении

Нет комментариев

Избранные инструменты искусственного интеллекта

Последние коллекции

Последние статьи