Easy Voice Toolkit: набор инструментов для локального развертывания AI Voice Toolkit

Последние ресурсы по искусственному интеллекту2年前更新 Круг обмена ИИ

60.4K 00

Общее введение

Easy-Voice-Toolkit - это универсальный набор инструментов, основанный на проекте Open Source Speech Project, который предоставляет широкий спектр автоматизированных аудиоинструментов для распознавания речи, транскрипции речи, преобразования речи, создания наборов данных и обучения моделей. Пользователи могут выборочно использовать эти инструменты по мере необходимости или применять их последовательно для постепенного преобразования необработанных аудиофайлов в идеальные речевые модели. Инструментарий поддерживает локальное развертывание, и пользователи могут загрузить легкий установочный пакет или портативный пакет для использования.

Список функций

обработка звука

распознавание речи

транскрипция голоса

Создание набора данных (преобразование SRT и разделение WAV)

обучение модели

синтез речи

Использование помощи

Процесс установки:

Загрузите легкий установщик: Небольшие пакеты, содержащие инструкции по установке, но не содержащие необходимых зависимостей и моделей окружения.
Скачать готовый к использованию чехол для переноски: Большой пакет со всеми зависимостями окружения и несколькими пресетами моделей, загрузите и распакуйте для использования.

Локальное развертывание - установка пользователем:

Загрузите легкий инсталлятор или готовый к использованию портативный пакет.
Распакуйте загруженный файл.
быть в движении .exe файл или его ярлык.

Локальное развертывание - среда настройки разработчика:

Убедитесь, что установлен Python 3.8 или более поздней версии.

Хранилище проектов клонирования:

git clone https://github.com/Spr-Aachen/Easy-Voice-Toolkit.git

Перейдите в каталог проекта:
```
cd Easy-Voice-Toolkit
```
Установите зависимости:
```
pip install -r requirements.txt
```
Установите зависимости графического интерфейса:
```
pip install pyside6 QEasyWidgets pywin32==300 psutil pynvml darkdetect PyGithub
```
Запустите программу:
```
python Run.py
```

Функциональный поток операций:

обработка звука: Импортируйте аудиофайл, выберите нужные инструменты обработки (например, шумоподавление, редактирование и т. д.), примените обработку и сохраните результат.
распознавание речи: Импорт аудиофайла, выбор модели распознавания речи, запуск распознавания и экспорт текстовых результатов.
транскрипция голоса: Импортируйте аудиофайл, выберите инструмент транскрипции, запустите транскрипцию и экспортируйте файл субтитров (например, SRT).
Производство наборов данных: Импортируйте аудиофайлы, выберите инструмент для создания набора данных и выполните преобразование SRT или разбиение WAV для создания обучающего набора данных.
обучение модели: Импортируйте набор данных для обучения, выберите инструмент обучения модели, настройте параметры обучения, запустите обучение и сохраните модель.
фонетическая транскрипция: Импортируйте аудиофайлы, выберите инструмент для преобразования голоса, настройте параметры преобразования, запустите преобразование и сохраните результат.

предостережение

В настоящее время интерфейс UI поддерживает только системы Windows.
Пожалуйста, обеспечьте стабильное интернет-соединение во время загрузки и использования.
Если у вас возникнут проблемы, обратитесь к инструкциям и часто задаваемым вопросам в репозитории проекта.