Easy Voice Toolkit: kit de herramientas de voz AI para implantación local

Últimos recursos sobre IA2年前更新 Círculo de intercambio de inteligencia artificial

60.9K 00

Introducción general

Easy-Voice-Toolkit es un kit de herramientas versátil basado en el proyecto Open Source Speech Project que proporciona una amplia gama de herramientas de audio automatizadas para el reconocimiento del habla, la transcripción del habla, la conversión del habla, la creación de conjuntos de datos y el entrenamiento de modelos. Los usuarios pueden utilizar estas herramientas de forma selectiva según sus necesidades o de forma secuencial para convertir gradualmente archivos de audio sin procesar en modelos de habla ideales. El conjunto de herramientas admite la implantación local, y los usuarios pueden descargar un paquete de instalación ligera o un paquete portátil para su uso.

Lista de funciones

procesamiento de audio

reconocimiento de voz

transcripción de voz

Creación de conjuntos de datos (conversión SRT y división WAV)

formación de modelos

síntesis de voz

Utilizar la ayuda

Proceso de instalación:

Descargar el instalador ligero: Paquetes pequeños que contienen instrucciones de instalación, pero no contienen las dependencias y modelos de entorno necesarios.
Descargar maletín de transporte listo para usarPaquete grande con todas las dependencias del entorno y múltiples preajustes de modelos, descárguelo y descomprímalo para utilizarlo.

Despliegue local - Instalación del usuario:

Descargue el paquete de instalación ligera o el paquete portátil listo para usar.
Descomprima el archivo descargado.
estar en movimiento .exe o su acceso directo.

Despliegue local - Entorno de configuración para desarrolladores:

Asegúrese de que Python 3.8 o posterior está instalado.

Almacén de proyectos de clonación:

git clone https://github.com/Spr-Aachen/Easy-Voice-Toolkit.git

Cambie al directorio del proyecto:
```
cd Easy-Voice-Toolkit
```
Instalar dependencias:
```
pip install -r requirements.txt
```

Instale las dependencias GUI:

pip install pyside6 QEasyWidgets pywin32==300 psutil pynvml darkdetect PyGithub

Ejecuta el programa:
```
python Run.py
```

Flujo de operaciones funcionales:

procesamiento de audioImportar el archivo de audio, seleccionar las herramientas de procesamiento deseadas (por ejemplo, reducción de ruido, edición, etc.), aplicar el procesamiento y guardar el resultado.
reconocimiento de vozImportar el archivo de audio, seleccionar el modelo de reconocimiento de voz, ejecutar el reconocimiento y exportar los resultados de texto.
transcripción de vozImporta el archivo de audio, selecciona la herramienta de transcripción, ejecuta la transcripción y exporta el archivo de subtítulos (por ejemplo, SRT).
Producción de conjuntos de datosImportar archivos de audio, seleccionar la herramienta de creación de conjuntos de datos y realizar la conversión SRT o la división WAV para generar un conjunto de datos de entrenamiento.
formación de modelosImportar el conjunto de datos de entrenamiento, seleccionar la herramienta de entrenamiento del modelo, configurar los parámetros de entrenamiento, ejecutar el entrenamiento y guardar el modelo.
transcripción fonéticaImportar archivos de audio, seleccionar la herramienta de conversión de voz, configurar los parámetros de conversión, ejecutar la conversión y guardar el resultado.

advertencia

Actualmente, la interfaz de usuario sólo es compatible con sistemas Windows.
Asegúrese de que dispone de una conexión a Internet estable durante la descarga y el uso.
Si tiene problemas, consulte las instrucciones y preguntas frecuentes del repositorio del proyecto.