Kokoro: modelos eficientes de síntesis del habla para generar un habla natural y fluida

Introducción general

Kokoro 82M es un modelo de síntesis de voz altamente eficiente proporcionado por Hugging Face, diseñado para generar voz de alta calidad con menos parámetros y menos datos. El modelo tiene 82 millones de parámetros, está liberado bajo licencia Apache 2.0 y admite varios paquetes de voz para generar habla en distintos estilos e idiomas. kokoro-82M tiene un buen rendimiento en el ámbito del TTS (Text-to-Speech), especialmente en las clasificaciones Elo, y es capaz de conseguir Kokoro-82M tiene un buen rendimiento en TTS (Text-to-Speech), especialmente en el ranking Elo, y puede lograr una síntesis de voz de alta calidad con menos recursos informáticos.

Kokoro envolvió la API:Kokoro TTS API: Dockerised FastAPI wrapper for fast text-to-speech (modelo Kokoro-82M)

Kokoro:高效语音合成模型,生成自然流畅的语音

Experiencia: https://huggingface.co/spaces/hexgrad/Kokoro-TTS

 

Lista de funciones

  • síntesis de voz: Genera una salida de voz natural y fluida.
  • Compatibilidad con varios paquetes de voz: Hay disponibles varios paquetes de voz y los usuarios pueden elegir entre diferentes estilos de voz.
  • Modelización eficiente: Síntesis de voz de alta calidad con menos parámetros y datos.
  • licencia de código abiertoBajo la licencia Apache 2.0, que permite el uso y la modificación libres.
  • Apoyo comunitario: Existe un servidor Discord en el que los usuarios pueden debatir y dar su opinión en la comunidad.

 

Utilizar la ayuda

Proceso de instalación

  1. Instalación de dependencias::
   git lfs install
git clone https://huggingface.co/hexgrad/Kokoro-82M
cd Kokoro-82M
apt-get -qq -y install espeak-ng > /dev/null 2>&1
pip install -q phonemizer torch transformers scipy munch
  1. Construye el modelo y carga el paquete de voces por defecto::
   from models import build_model
import torch
device = 'cuda' if torch.cuda.is_available() else 'cpu'
MODEL = build_model('kokoro-v0_19.pth', device)
VOICE_NAME = 'af'  # 默认语音包
VOICEPACK = torch.load(f'voices/{VOICE_NAME}.pt', weights_only=True).to(device)
print(f'Loaded voice: {VOICE_NAME}')
  1. Generar discurso::
   from kokoro import generate
text = "How could I know? It's an unanswerable question. Like asking an unborn child if they'll lead a good life. They haven't even been born."
audio, out_ps = generate(MODEL, text, VOICEPACK, lang=VOICE_NAME[0])
from IPython.display import display, Audio
display(Audio(data=audio, rate=24000, autoplay=True))

Instrucciones de uso

  1. Seleccionar paquete de vozEl Kokoro-82M ofrece una variedad de paquetes de voz que permiten al usuario seleccionar diferentes estilos de voz según sea necesario. El paquete de voz predeterminado es afA continuación se muestra un ejemplo del tipo de datos que se pueden encontrar en la base de datos voices Busca otros paquetes de voz en la carpeta.
  2. Generar discurso: Uso generate La función introduce texto y genera voz. El habla generada es de 24 kHz y se puede reproducir a través de la pantalla IPython.
  3. Parámetros de ajusteLos usuarios pueden ajustar los parámetros del modelo y los paquetes de voz según sea necesario para obtener los mejores resultados de síntesis de voz.
© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...