GPT SoVITS: revolucionarias herramientas de generación y clonación de voz

Introducción general

GPT-SoVITS es una herramienta de conversión y síntesis de voz de código abierto que combina el modelo GPT y la tecnología de cambio de voz SoVITS. La herramienta admite la conversión instantánea de texto a voz con cero y pocas muestras, y la migración de estilo de voz en sólo 5 segundos de muestras de audio. Incluye compatibilidad con varios idiomas, separación de pistas integrada y otras funciones útiles que facilitan la creación de modelos de voz personalizados incluso a los principiantes. Disponible para inglés, japonés y chino, se combina con el conjunto de herramientas WebUI para ayudarle en todo, desde el preprocesamiento de datos hasta el entrenamiento del modelo. Tanto si es un principiante en IA como un profesional, aquí podrá experimentar el encanto de la tecnología del habla.

 

 

Lista de funciones

  • TTS de muestra cero: introduce una muestra de voz de 5 segundos para experimentar inmediatamente la conversión de texto a voz.
  • TTS sin muestras: ajuste el modelo utilizando sólo 1 minuto de datos de entrenamiento para mejorar la similitud y el realismo del sonido.
  • Compatibilidad con varios idiomas: actualmente admite inferencias para idiomas distintos del conjunto de entrenamiento, incluidos el inglés, el japonés, el coreano, el cantonés y el mandarín.
  • Herramientas WebUI: separación integrada del acompañamiento del habla, segmentación automática del conjunto de entrenamiento, ASR chino y anotación de texto para ayudar a los principiantes a crear datos de entrenamiento y modelos GPT/SoVITS.

 

 

Utilizar la ayuda

Proceso de instalación

Usuario de Windows

  1. Descargue el paquete de integración.
  2. doble clicgo-webui.batInicie la GPT-SoVITS-WebUI.
  3. Siga las instrucciones de la interfaz.

Usuario de Linux

  1. Crear un entorno virtual:conda create -n GPTSoVits python=3.9
  2. Active el entorno virtual:conda activate GPTSoVits
  3. Instale la dependencia:bash install.sh

usuarios de macOS

  1. Instale la herramienta de línea de comandos Xcode:xcode-select --install
  2. Instala FFmpeg:brew install ffmpeg
  3. Cree un entorno virtual e instale las dependencias:
    conda create -n GPTSoVits python=3.9
    conda activate GPTSoVits
    pip install -r requirements.txt
    

Proceso de utilización

  1. Preparación de datosPrepara una muestra de voz de al menos 5 segundos para cargarla en la interfaz WebUI.
  2. formación de modelosSeleccione el modo de cero o pocas muestras y cargue los datos de entrenamiento correspondientes.
  3. transcripción fonéticaIntroduzca el contenido del texto, seleccione la muestra de voz de destino y haga clic en el botón Convertir.
  4. Exportación de resultadosUna vez finalizada la conversión, puedes descargar el archivo de audio resultante.

Funciones

  • Muestra cero TTSCarga una muestra de voz de 5 segundos en la interfaz WebUI, introduce el contenido del texto y haz clic en el botón Convertir para generar el archivo de voz correspondiente.
  • Muestra menos TTSCarga al menos 1 minuto de datos de entrenamiento para ajustar el modelo y mejorar la similitud y el realismo del habla generada.
  • soporte multilingüeEl sistema realiza automáticamente la conversión de idioma y la generación de voz.
  • Herramientas WebUISimplifica el procesamiento de datos y el proceso de formación de modelos mediante funciones integradas como la separación del acompañamiento del habla, la segmentación automática del conjunto de formación, la ASR en chino y la anotación de texto.

 

 

Integración de opciones de implantación

Tutorial GPT-SoVITS

colab free run GPT-SoVITS

Multi-voice-TTS-GPT-SoVITS (en línea)

GPT-SoVITS Versión simplificada

Instalador Universal Monarch

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...