Allgemeine Einführung
Kokoro 82M ist ein hocheffizientes Sprachsynthesemodell von Hugging Face, das entwickelt wurde, um mit weniger Parametern und weniger Daten hochwertige Sprache zu erzeugen. Das Modell hat 82 Millionen Parameter, ist unter der Apache 2.0 Lizenz veröffentlicht und unterstützt mehrere Voicepacks, um Sprache in verschiedenen Stilen und Sprachen zu erzeugen. kokoro-82M zeigt gute Leistungen im Bereich TTS (Text-to-Speech), insbesondere in den Elo-Rankings, und ist in der Lage Kokoro-82M hat eine gute Leistung im Bereich TTS (Text-to-Speech), vor allem in der Elo-Rangliste, und kann eine qualitativ hochwertige Sprachsynthese mit weniger Rechenressourcen erreichen.
Kokoro verpackt API:Kokoro TTS API: Dockerisierter FastAPI-Wrapper für schnelle Text-to-Speech (Kokoro-82M-Modell)
Erfahrung: https://huggingface.co/spaces/hexgrad/Kokoro-TTS
Funktionsliste
- SprachsyntheseGenerieren Sie eine natürliche und flüssige Sprachausgabe.
- Unterstützung mehrerer SprachpaketeEine Vielzahl von Sprachpaketen ist verfügbar, und die Benutzer können zwischen verschiedenen Sprachstilen wählen.
- Effiziente ModellierungHochwertige Sprachsynthese mit weniger Parametern und Daten.
- Open-Source-LizenzUnter der Apache 2.0-Lizenz, die die freie Nutzung und Veränderung erlaubt.
- Unterstützung der GemeinschaftEin Discord-Server steht den Benutzern zur Verfügung, um in der Gemeinschaft zu diskutieren und Feedback zu geben.
Hilfe verwenden
Ablauf der Installation
- Installation von Abhängigkeiten::
git lfs install
git clone https://huggingface.co/hexgrad/Kokoro-82M
cd Kokoro-82M
apt-get -qq -y install espeak-ng > /dev/null 2>&1
pip install -q phonemizer torch transformers scipy munch
- Erstellen Sie das Modell und laden Sie das Standard-Sprachpaket::
from models import build_model
importieren torch
device = 'cuda' if torch.cuda.is_available() else 'cpu'
MODEL = build_model('kokoro-v0_19.pth', device)
VOICE_NAME = 'af' # Standard-Sprachpaket
VOICEPACK = torch.load(f'voices/{VOICE_NAME}.pt', weights_only=True).to(device)
print(f'Geladene Stimme: {VOICE_NAME}')
- Sprache generieren::
from kokoro import generate
text = "Woher soll ich das wissen? Das ist eine unbeantwortbare Frage. Als würde man ein ungeborenes Kind fragen, ob es ein gutes Leben führen wird. Es ist noch nicht einmal geboren."
audio, out_ps = generate(MODEL, text, VOICEPACK, lang=VOICE_NAME[0])
from IPython.display import display, Audio
display(Audio(data=audio, rate=24000, autoplay=True))
Anweisungen für den Gebrauch
- Voice Pack auswählenDer Kokoro-82M bietet eine Reihe von Sprachpaketen, mit denen der Benutzer je nach Bedarf verschiedene Sprachstile auswählen kann. Das Standard-Sprachpaket ist
af
Dies kann in derStimmen
Ordner, um andere Sprachpakete zu finden. - Sprache generieren: Verwendung
erzeugen
Die Funktion gibt Text ein und erzeugt Sprache. Die generierte Sprache ist 24kHz und kann über IPython Display abgespielt werden. - AnpassungsparameterBenutzer können die Modellparameter und Sprachpakete nach Bedarf anpassen, um die besten Sprachsyntheseergebnisse zu erzielen.