Easy Voice Toolkit: набор инструментов для локального развертывания AI Voice Toolkit

Общее введение

Easy-Voice-Toolkit - это универсальный набор инструментов, основанный на проекте Open Source Speech Project, который предоставляет широкий спектр автоматизированных аудиоинструментов для распознавания речи, транскрипции речи, преобразования речи, создания наборов данных и обучения моделей. Пользователи могут выборочно использовать эти инструменты по мере необходимости или применять их последовательно для постепенного преобразования необработанных аудиофайлов в идеальные речевые модели. Инструментарий поддерживает локальное развертывание, и пользователи могут загрузить легкий установочный пакет или портативный пакет для использования.

 

Easy Voice Toolkit:本地部署的AI语音工具箱

 

 

Список функций

  • обработка звука
Easy Voice Toolkit:本地部署的AI语音工具箱

 

  • распознавание речи
Easy Voice Toolkit:本地部署的AI语音工具箱

 

  • транскрипция голоса
Easy Voice Toolkit:本地部署的AI语音工具箱

 

  • Создание набора данных (преобразование SRT и разделение WAV)
Easy Voice Toolkit:本地部署的AI语音工具箱

 

  • обучение модели
Easy Voice Toolkit:本地部署的AI语音工具箱

 

  • синтез речи
Easy Voice Toolkit:本地部署的AI语音工具箱

 

Использование помощи

Процесс установки:

  1. Загрузите легкий установщик: Небольшие пакеты, содержащие инструкции по установке, но не содержащие необходимых зависимостей и моделей окружения.
  2. Скачать готовый к использованию чехол для переноски: Большой пакет со всеми зависимостями окружения и несколькими пресетами моделей, загрузите и распакуйте для использования.

Локальное развертывание - установка пользователем:

  1. Загрузите легкий инсталлятор или готовый к использованию портативный пакет.
  2. Распакуйте загруженный файл.
  3. быть в движении .exe файл или его ярлык.

Локальное развертывание - среда настройки разработчика:

  1. Убедитесь, что установлен Python 3.8 или более поздней версии.
  2. Хранилище проектов клонирования:
    git clone https://github.com/Spr-Aachen/Easy-Voice-Toolkit.git
    
  3. Перейдите в каталог проекта:
    cd Easy-Voice-Toolkit
    
  4. Установите зависимости:
    pip install -r requirements.txt
    
  5. Установите зависимости графического интерфейса:
    pip install pyside6 QEasyWidgets pywin32==300 psutil pynvml darkdetect PyGithub
    
  6. Запустите программу:
    python Run.py
    

Функциональный поток операций:

  1. обработка звука: Импортируйте аудиофайл, выберите нужные инструменты обработки (например, шумоподавление, редактирование и т. д.), примените обработку и сохраните результат.
  2. распознавание речи: Импорт аудиофайла, выбор модели распознавания речи, запуск распознавания и экспорт текстовых результатов.
  3. транскрипция голоса: Импортируйте аудиофайл, выберите инструмент транскрипции, запустите транскрипцию и экспортируйте файл субтитров (например, SRT).
  4. Производство наборов данных: Импортируйте аудиофайлы, выберите инструмент для создания набора данных и выполните преобразование SRT или разбиение WAV для создания обучающего набора данных.
  5. обучение модели: Импортируйте набор данных для обучения, выберите инструмент обучения модели, настройте параметры обучения, запустите обучение и сохраните модель.
  6. фонетическая транскрипция: Импортируйте аудиофайлы, выберите инструмент для преобразования голоса, настройте параметры преобразования, запустите преобразование и сохраните результат.

предостережение

  • В настоящее время интерфейс UI поддерживает только системы Windows.
  • Пожалуйста, обеспечьте стабильное интернет-соединение во время загрузки и использования.
  • Если у вас возникнут проблемы, обратитесь к инструкциям и часто задаваемым вопросам в репозитории проекта.
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...