Kokoro : modèles de synthèse vocale efficaces pour générer une parole naturelle et fluide
Introduction générale
Kokoro 82M est un modèle de synthèse vocale très efficace fourni par Hugging Face, conçu pour générer une parole de haute qualité avec moins de paramètres et moins de données. Le modèle a 82 millions de paramètres, est publié sous la licence Apache 2.0, et supporte plusieurs Voicepacks pour générer de la parole dans différents styles et langues. kokoro-82M a de bonnes performances dans le domaine du TTS (Text-to-Speech), en particulier dans les classements Elo, et est capable d'atteindre des niveaux de performance de 1,5 à 1,5 million d'euros. Kokoro-82M a de bonnes performances dans le domaine TTS (Text-to-Speech), en particulier dans le classement Elo, et peut réaliser une synthèse vocale de haute qualité avec moins de ressources informatiques.
Kokoro a enveloppé l'API :Kokoro TTS API : Dockerised FastAPI wrapper for fast text-to-speech (Kokoro-82M model)

Expérience : https://huggingface.co/spaces/hexgrad/Kokoro-TTS
Liste des fonctions
- synthèse vocaleLes logiciels d'aide à la décision : Générer des sorties vocales naturelles et fluides.
- Prise en charge de paquets vocaux multiplesLes utilisateurs peuvent choisir parmi différents styles de voix.
- Modélisation efficaceSynthèse vocale : Synthèse vocale de haute qualité utilisant moins de paramètres et de données.
- licence open sourceLes droits d'auteur : Sous la licence Apache 2.0, qui permet l'utilisation et la modification libre et gratuite.
- Soutien communautaireLes utilisateurs disposent d'un serveur Discord pour discuter et faire part de leurs commentaires au sein de la communauté.
Utiliser l'aide
Processus d'installation
- Installation des dépendances: :
git lfs install
git clone https://huggingface.co/hexgrad/Kokoro-82M
cd Kokoro-82M
apt-get -qq -y install espeak-ng > /dev/null 2>&1
pip install -q phonemizer torch transformers scipy munch
- Construire le modèle et charger le pack vocal par défaut: :
from models import build_model
import torch
device = 'cuda' if torch.cuda.is_available() else 'cpu'
MODEL = build_model('kokoro-v0_19.pth', device)
VOICE_NAME = 'af' # 默认语音包
VOICEPACK = torch.load(f'voices/{VOICE_NAME}.pt', weights_only=True).to(device)
print(f'Loaded voice: {VOICE_NAME}')
- Générer un discours: :
from kokoro import generate
text = "How could I know? It's an unanswerable question. Like asking an unborn child if they'll lead a good life. They haven't even been born."
audio, out_ps = generate(MODEL, text, VOICEPACK, lang=VOICE_NAME[0])
from IPython.display import display, Audio
display(Audio(data=audio, rate=24000, autoplay=True))
Mode d'emploi
- Sélectionner le pack vocalKokoro-82M : Le Kokoro-82M offre une variété de packs vocaux qui permettent à l'utilisateur de sélectionner différents styles de voix en fonction de ses besoins. L'ensemble vocal par défaut est
af
Cela peut être fait dans levoices
Recherchez d'autres kits vocaux dans le dossier. - Générer un discours: Utilisation
generate
entre du texte et génère de la parole. La parole générée est de 24kHz et peut être jouée via l'écran IPython. - Paramètres de réglageLes utilisateurs peuvent ajuster les paramètres du modèle et les paquets de parole selon les besoins pour obtenir les meilleurs résultats de synthèse vocale.
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...