Kokoro : modèles de synthèse vocale efficaces pour générer une parole naturelle et fluide

Dernières ressources sur l'IAMise à jour il y a 8 mois Cercle de partage de l'IA

23.8K 00

Introduction générale

Kokoro 82M est un modèle de synthèse vocale très efficace fourni par Hugging Face, conçu pour générer une parole de haute qualité avec moins de paramètres et moins de données. Le modèle a 82 millions de paramètres, est publié sous la licence Apache 2.0, et supporte plusieurs Voicepacks pour générer de la parole dans différents styles et langues. kokoro-82M a de bonnes performances dans le domaine du TTS (Text-to-Speech), en particulier dans les classements Elo, et est capable d'atteindre des niveaux de performance de 1,5 à 1,5 million d'euros. Kokoro-82M a de bonnes performances dans le domaine TTS (Text-to-Speech), en particulier dans le classement Elo, et peut réaliser une synthèse vocale de haute qualité avec moins de ressources informatiques.

Kokoro a enveloppé l'API :Kokoro TTS API : Dockerised FastAPI wrapper for fast text-to-speech (Kokoro-82M model)

Expérience : https://huggingface.co/spaces/hexgrad/Kokoro-TTS

Liste des fonctions

synthèse vocaleLes logiciels d'aide à la décision : Générer des sorties vocales naturelles et fluides.
Prise en charge de paquets vocaux multiplesLes utilisateurs peuvent choisir parmi différents styles de voix.
Modélisation efficaceSynthèse vocale : Synthèse vocale de haute qualité utilisant moins de paramètres et de données.
licence open sourceLes droits d'auteur : Sous la licence Apache 2.0, qui permet l'utilisation et la modification libre et gratuite.
Soutien communautaireLes utilisateurs disposent d'un serveur Discord pour discuter et faire part de leurs commentaires au sein de la communauté.

Utiliser l'aide

Processus d'installation

Installation des dépendances: :

   git lfs install
git clone https://huggingface.co/hexgrad/Kokoro-82M
cd Kokoro-82M
apt-get -qq -y install espeak-ng > /dev/null 2>&1
pip install -q phonemizer torch transformers scipy munch

Construire le modèle et charger le pack vocal par défaut: :

   from models import build_model
import torch
device = 'cuda' if torch.cuda.is_available() else 'cpu'
MODEL = build_model('kokoro-v0_19.pth', device)
VOICE_NAME = 'af'  # 默认语音包
VOICEPACK = torch.load(f'voices/{VOICE_NAME}.pt', weights_only=True).to(device)
print(f'Loaded voice: {VOICE_NAME}')

Générer un discours: :

   from kokoro import generate
text = "How could I know? It's an unanswerable question. Like asking an unborn child if they'll lead a good life. They haven't even been born."
audio, out_ps = generate(MODEL, text, VOICEPACK, lang=VOICE_NAME[0])
from IPython.display import display, Audio
display(Audio(data=audio, rate=24000, autoplay=True))

Mode d'emploi

Sélectionner le pack vocalKokoro-82M : Le Kokoro-82M offre une variété de packs vocaux qui permettent à l'utilisateur de sélectionner différents styles de voix en fonction de ses besoins. L'ensemble vocal par défaut est afCela peut être fait dans le voices Recherchez d'autres kits vocaux dans le dossier.
Générer un discours: Utilisation generate entre du texte et génère de la parole. La parole générée est de 24kHz et peut être jouée via l'écran IPython.
Paramètres de réglageLes utilisateurs peuvent ajuster les paramètres du modèle et les paquets de parole selon les besoins pour obtenir les meilleurs résultats de synthèse vocale.

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

Volcano Ark : Formation au Big Model et service de Cloud Computing, S'inscrire pour 150 $ d'arithmétique équivalente

Dernières ressources sur l'IA # AI Open Services

Il y a 7 mois

019.3K

GenEx : Génération de mondes 3D explorables à 360° à partir d'une seule image (code progressivement ouvert)

Dernières ressources sur l'IA # AI Java Open Source Projecct # AI Text and Image to 3D (Texte et image en 3D)

Il y a 9 mois

017.6K

GeekAI : assistant d'IA commercial multifonctionnel auto-déployé avec accès complet au backend des opérations API multi-modèles

Dernières ressources sur l'IA # AI Side Hustle Money Making Project (Projet de création d'argent)# AI Localised Chat Application

Il y a 12 mois

020.7K

Ollie : le premier assistant IA domestique au monde pour planifier la vie de famille et simplifier les tâches quotidiennes

Dernières ressources sur l'IA # AI Life Efficiency Assistant

Il y a 8 mois

019.2K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

Kokoro : modèles de synthèse vocale efficaces pour générer une parole naturelle et fluide

Introduction générale

Liste des fonctions

Utiliser l'aide

Processus d'installation

Mode d'emploi

WrenAI : Assistant conversationnel d'analyse de données avec accès direct aux réponses, aux requêtes SQL et aux rapports d'analyse

Auto-Coder.Chat : Assistant de programmation assisté par l'IA, basé sur la ligne de commande du terminal, avec plug-in VSCode

Articles connexes

Volcano Ark : Formation au Big Model et service de Cloud Computing, S'inscrire pour 150 $ d'arithmétique équivalente

GenEx : Génération de mondes 3D explorables à 360° à partir d'une seule image (code progressivement ouvert)

GeekAI : assistant d'IA commercial multifonctionnel auto-déployé avec accès complet au backend des opérations API multi-modèles

Ollie : le premier assistant IA domestique au monde pour planifier la vie de famille et simplifier les tâches quotidiennes

Pas de commentaires

Dernières collections

Derniers articles

Kokoro : modèles de synthèse vocale efficaces pour générer une parole naturelle et fluide

Introduction générale

Liste des fonctions

Utiliser l'aide

Processus d'installation

Mode d'emploi

WrenAI : Assistant conversationnel d'analyse de données avec accès direct aux réponses, aux requêtes SQL et aux rapports d'analyse

Auto-Coder.Chat : Assistant de programmation assisté par l'IA, basé sur la ligne de commande du terminal, avec plug-in VSCode

Articles connexes

Volcano Ark : Formation au Big Model et service de Cloud Computing, S'inscrire pour 150 $ d'arithmétique équivalente

GenEx : Génération de mondes 3D explorables à 360° à partir d'une seule image (code progressivement ouvert)

GeekAI : assistant d'IA commercial multifonctionnel auto-déployé avec accès complet au backend des opérations API multi-modèles

Ollie : le premier assistant IA domestique au monde pour planifier la vie de famille et simplifier les tâches quotidiennes

Pas de commentaires

Outils d'IA sélectionnés

Dernières collections

Derniers articles