GPT SoVITS: revolucionarias herramientas de generación y clonación de voz
Últimos recursos sobre IAActualizado hace 11 meses Círculo de intercambio de inteligencia artificial 2.4K 00
Introducción general
GPT-SoVITS es una herramienta de conversión y síntesis de voz de código abierto que combina el modelo GPT y la tecnología de cambio de voz SoVITS. La herramienta admite la conversión instantánea de texto a voz con cero y pocas muestras, y la migración de estilo de voz en sólo 5 segundos de muestras de audio. Incluye compatibilidad con varios idiomas, separación de pistas integrada y otras funciones útiles que facilitan la creación de modelos de voz personalizados incluso a los principiantes. Disponible para inglés, japonés y chino, se combina con el conjunto de herramientas WebUI para ayudarle en todo, desde el preprocesamiento de datos hasta el entrenamiento del modelo. Tanto si es un principiante en IA como un profesional, aquí podrá experimentar el encanto de la tecnología del habla.
Lista de funciones
- TTS de muestra cero: introduce una muestra de voz de 5 segundos para experimentar inmediatamente la conversión de texto a voz.
- TTS sin muestras: ajuste el modelo utilizando sólo 1 minuto de datos de entrenamiento para mejorar la similitud y el realismo del sonido.
- Compatibilidad con varios idiomas: actualmente admite inferencias para idiomas distintos del conjunto de entrenamiento, incluidos el inglés, el japonés, el coreano, el cantonés y el mandarín.
- Herramientas WebUI: separación integrada del acompañamiento del habla, segmentación automática del conjunto de entrenamiento, ASR chino y anotación de texto para ayudar a los principiantes a crear datos de entrenamiento y modelos GPT/SoVITS.
Utilizar la ayuda
Proceso de instalación
Usuario de Windows
- Descargue el paquete de integración.
- doble clic
go-webui.bat
Inicie la GPT-SoVITS-WebUI. - Siga las instrucciones de la interfaz.
Usuario de Linux
- Crear un entorno virtual:
conda create -n GPTSoVits python=3.9
- Active el entorno virtual:
conda activate GPTSoVits
- Instale la dependencia:
bash install.sh
usuarios de macOS
- Instale la herramienta de línea de comandos Xcode:
xcode-select --install
- Instala FFmpeg:
brew install ffmpeg
- Cree un entorno virtual e instale las dependencias:
conda create -n GPTSoVits python=3.9 conda activate GPTSoVits pip install -r requirements.txt
Proceso de utilización
- Preparación de datosPrepara una muestra de voz de al menos 5 segundos para cargarla en la interfaz WebUI.
- formación de modelosSeleccione el modo de cero o pocas muestras y cargue los datos de entrenamiento correspondientes.
- transcripción fonéticaIntroduzca el contenido del texto, seleccione la muestra de voz de destino y haga clic en el botón Convertir.
- Exportación de resultadosUna vez finalizada la conversión, puedes descargar el archivo de audio resultante.
Funciones
- Muestra cero TTSCarga una muestra de voz de 5 segundos en la interfaz WebUI, introduce el contenido del texto y haz clic en el botón Convertir para generar el archivo de voz correspondiente.
- Muestra menos TTSCarga al menos 1 minuto de datos de entrenamiento para ajustar el modelo y mejorar la similitud y el realismo del habla generada.
- soporte multilingüeEl sistema realiza automáticamente la conversión de idioma y la generación de voz.
- Herramientas WebUISimplifica el procesamiento de datos y el proceso de formación de modelos mediante funciones integradas como la separación del acompañamiento del habla, la segmentación automática del conjunto de formación, la ASR en chino y la anotación de texto.
Integración de opciones de implantación
Multi-voice-TTS-GPT-SoVITS (en línea)
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...