Kokoro : modèles de synthèse vocale efficaces pour générer une parole naturelle et fluide

Introduction générale

Kokoro 82M est un modèle de synthèse vocale très efficace fourni par Hugging Face, conçu pour générer une parole de haute qualité avec moins de paramètres et moins de données. Le modèle a 82 millions de paramètres, est publié sous la licence Apache 2.0, et supporte plusieurs Voicepacks pour générer de la parole dans différents styles et langues. kokoro-82M a de bonnes performances dans le domaine du TTS (Text-to-Speech), en particulier dans les classements Elo, et est capable d'atteindre des niveaux de performance de 1,5 à 1,5 million d'euros. Kokoro-82M a de bonnes performances dans le domaine TTS (Text-to-Speech), en particulier dans le classement Elo, et peut réaliser une synthèse vocale de haute qualité avec moins de ressources informatiques.

Kokoro a enveloppé l'API :Kokoro TTS API : Dockerised FastAPI wrapper for fast text-to-speech (Kokoro-82M model)

Kokoro:高效语音合成模型,生成自然流畅的语音

Expérience : https://huggingface.co/spaces/hexgrad/Kokoro-TTS

 

Liste des fonctions

  • synthèse vocaleLes logiciels d'aide à la décision : Générer des sorties vocales naturelles et fluides.
  • Prise en charge de paquets vocaux multiplesLes utilisateurs peuvent choisir parmi différents styles de voix.
  • Modélisation efficaceSynthèse vocale : Synthèse vocale de haute qualité utilisant moins de paramètres et de données.
  • licence open sourceLes droits d'auteur : Sous la licence Apache 2.0, qui permet l'utilisation et la modification libre et gratuite.
  • Soutien communautaireLes utilisateurs disposent d'un serveur Discord pour discuter et faire part de leurs commentaires au sein de la communauté.

 

Utiliser l'aide

Processus d'installation

  1. Installation des dépendances: :
   git lfs install
git clone https://huggingface.co/hexgrad/Kokoro-82M
cd Kokoro-82M
apt-get -qq -y install espeak-ng > /dev/null 2>&1
pip install -q phonemizer torch transformers scipy munch
  1. Construire le modèle et charger le pack vocal par défaut: :
   from models import build_model
import torch
device = 'cuda' if torch.cuda.is_available() else 'cpu'
MODEL = build_model('kokoro-v0_19.pth', device)
VOICE_NAME = 'af'  # 默认语音包
VOICEPACK = torch.load(f'voices/{VOICE_NAME}.pt', weights_only=True).to(device)
print(f'Loaded voice: {VOICE_NAME}')
  1. Générer un discours: :
   from kokoro import generate
text = "How could I know? It's an unanswerable question. Like asking an unborn child if they'll lead a good life. They haven't even been born."
audio, out_ps = generate(MODEL, text, VOICEPACK, lang=VOICE_NAME[0])
from IPython.display import display, Audio
display(Audio(data=audio, rate=24000, autoplay=True))

Mode d'emploi

  1. Sélectionner le pack vocalKokoro-82M : Le Kokoro-82M offre une variété de packs vocaux qui permettent à l'utilisateur de sélectionner différents styles de voix en fonction de ses besoins. L'ensemble vocal par défaut est afCela peut être fait dans le voices Recherchez d'autres kits vocaux dans le dossier.
  2. Générer un discours: Utilisation generate entre du texte et génère de la parole. La parole générée est de 24kHz et peut être jouée via l'écran IPython.
  3. Paramètres de réglageLes utilisateurs peuvent ajuster les paramètres du modèle et les paquets de parole selon les besoins pour obtenir les meilleurs résultats de synthèse vocale.
© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...