Kokoro: modelos eficientes de síntesis del habla para generar un habla natural y fluida
Últimos recursos sobre IAActualizado hace 8 meses Círculo de intercambio de inteligencia artificial 14K 00
Introducción general
Kokoro 82M es un modelo de síntesis de voz altamente eficiente proporcionado por Hugging Face, diseñado para generar voz de alta calidad con menos parámetros y menos datos. El modelo tiene 82 millones de parámetros, está liberado bajo licencia Apache 2.0 y admite varios paquetes de voz para generar habla en distintos estilos e idiomas. kokoro-82M tiene un buen rendimiento en el ámbito del TTS (Text-to-Speech), especialmente en las clasificaciones Elo, y es capaz de conseguir Kokoro-82M tiene un buen rendimiento en TTS (Text-to-Speech), especialmente en el ranking Elo, y puede lograr una síntesis de voz de alta calidad con menos recursos informáticos.
Kokoro envolvió la API:Kokoro TTS API: Dockerised FastAPI wrapper for fast text-to-speech (modelo Kokoro-82M)

Experiencia: https://huggingface.co/spaces/hexgrad/Kokoro-TTS
Lista de funciones
- síntesis de voz: Genera una salida de voz natural y fluida.
- Compatibilidad con varios paquetes de voz: Hay disponibles varios paquetes de voz y los usuarios pueden elegir entre diferentes estilos de voz.
- Modelización eficiente: Síntesis de voz de alta calidad con menos parámetros y datos.
- licencia de código abiertoBajo la licencia Apache 2.0, que permite el uso y la modificación libres.
- Apoyo comunitario: Existe un servidor Discord en el que los usuarios pueden debatir y dar su opinión en la comunidad.
Utilizar la ayuda
Proceso de instalación
- Instalación de dependencias::
git lfs install
git clone https://huggingface.co/hexgrad/Kokoro-82M
cd Kokoro-82M
apt-get -qq -y install espeak-ng > /dev/null 2>&1
pip install -q phonemizer torch transformers scipy munch
- Construye el modelo y carga el paquete de voces por defecto::
from models import build_model
import torch
device = 'cuda' if torch.cuda.is_available() else 'cpu'
MODEL = build_model('kokoro-v0_19.pth', device)
VOICE_NAME = 'af' # 默认语音包
VOICEPACK = torch.load(f'voices/{VOICE_NAME}.pt', weights_only=True).to(device)
print(f'Loaded voice: {VOICE_NAME}')
- Generar discurso::
from kokoro import generate
text = "How could I know? It's an unanswerable question. Like asking an unborn child if they'll lead a good life. They haven't even been born."
audio, out_ps = generate(MODEL, text, VOICEPACK, lang=VOICE_NAME[0])
from IPython.display import display, Audio
display(Audio(data=audio, rate=24000, autoplay=True))
Instrucciones de uso
- Seleccionar paquete de vozEl Kokoro-82M ofrece una variedad de paquetes de voz que permiten al usuario seleccionar diferentes estilos de voz según sea necesario. El paquete de voz predeterminado es
af
A continuación se muestra un ejemplo del tipo de datos que se pueden encontrar en la base de datosvoices
Busca otros paquetes de voz en la carpeta. - Generar discurso: Uso
generate
La función introduce texto y genera voz. El habla generada es de 24 kHz y se puede reproducir a través de la pantalla IPython. - Parámetros de ajusteLos usuarios pueden ajustar los parámetros del modelo y los paquetes de voz según sea necesario para obtener los mejores resultados de síntesis de voz.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...