GPT SoVITS: revolucionarias herramientas de generación y clonación de voz

Últimos recursos sobre IA2年前更新 Círculo de intercambio de inteligencia artificial

82.1K 00

Introducción general

GPT-SoVITS es una herramienta de conversión y síntesis de voz de código abierto que combina el modelo GPT y la tecnología de cambio de voz SoVITS. La herramienta admite la conversión instantánea de texto a voz con cero y pocas muestras, y la migración de estilo de voz en sólo 5 segundos de muestras de audio. Incluye compatibilidad con varios idiomas, separación de pistas integrada y otras funciones útiles que facilitan la creación de modelos de voz personalizados incluso a los principiantes. Disponible para inglés, japonés y chino, se combina con el conjunto de herramientas WebUI para ayudarle en todo, desde el preprocesamiento de datos hasta el entrenamiento del modelo. Tanto si es un principiante en IA como un profesional, aquí podrá experimentar el encanto de la tecnología del habla.

Lista de funciones

TTS de muestra cero: introduce una muestra de voz de 5 segundos para experimentar inmediatamente la conversión de texto a voz.
TTS sin muestras: ajuste el modelo utilizando sólo 1 minuto de datos de entrenamiento para mejorar la similitud y el realismo del sonido.
Compatibilidad con varios idiomas: actualmente admite inferencias para idiomas distintos del conjunto de entrenamiento, incluidos el inglés, el japonés, el coreano, el cantonés y el mandarín.
Herramientas WebUI: separación integrada del acompañamiento del habla, segmentación automática del conjunto de entrenamiento, ASR chino y anotación de texto para ayudar a los principiantes a crear datos de entrenamiento y modelos GPT/SoVITS.

Utilizar la ayuda

Proceso de instalación

Usuario de Windows

Descargue el paquete de integración.
doble clicgo-webui.batInicie la GPT-SoVITS-WebUI.
Siga las instrucciones de la interfaz.

Usuario de Linux

Crear un entorno virtual:conda create -n GPTSoVits python=3.9
Active el entorno virtual:conda activate GPTSoVits
Instale la dependencia:bash install.sh

usuarios de macOS

Instale la herramienta de línea de comandos Xcode:xcode-select --install
Instala FFmpeg:brew install ffmpeg

Cree un entorno virtual e instale las dependencias:

conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
pip install -r requirements.txt

Proceso de utilización

Preparación de datosPrepara una muestra de voz de al menos 5 segundos para cargarla en la interfaz WebUI.
formación de modelosSeleccione el modo de cero o pocas muestras y cargue los datos de entrenamiento correspondientes.
transcripción fonéticaIntroduzca el contenido del texto, seleccione la muestra de voz de destino y haga clic en el botón Convertir.
Exportación de resultadosUna vez finalizada la conversión, puedes descargar el archivo de audio resultante.

Funciones

Muestra cero TTSCarga una muestra de voz de 5 segundos en la interfaz WebUI, introduce el contenido del texto y haz clic en el botón Convertir para generar el archivo de voz correspondiente.
Muestra menos TTSCarga al menos 1 minuto de datos de entrenamiento para ajustar el modelo y mejorar la similitud y el realismo del habla generada.
soporte multilingüeEl sistema realiza automáticamente la conversión de idioma y la generación de voz.
Herramientas WebUISimplifica el procesamiento de datos y el proceso de formación de modelos mediante funciones integradas como la separación del acompañamiento del habla, la segmentación automática del conjunto de formación, la ASR en chino y la anotación de texto.