Kokoro: Effiziente Sprachsynthesemodelle zur Erzeugung von natürlicher und flüssiger Sprache

Neueste AI-RessourcenAktualisiert vor 8 Monaten AI-Austauschkreis

14.6K 00

Allgemeine Einführung

Kokoro 82M ist ein hocheffizientes Sprachsynthesemodell von Hugging Face, das entwickelt wurde, um mit weniger Parametern und weniger Daten hochwertige Sprache zu erzeugen. Das Modell hat 82 Millionen Parameter, ist unter der Apache 2.0 Lizenz veröffentlicht und unterstützt mehrere Voicepacks, um Sprache in verschiedenen Stilen und Sprachen zu erzeugen. kokoro-82M zeigt gute Leistungen im Bereich TTS (Text-to-Speech), insbesondere in den Elo-Rankings, und ist in der Lage Kokoro-82M hat eine gute Leistung im Bereich TTS (Text-to-Speech), vor allem in der Elo-Rangliste, und kann eine qualitativ hochwertige Sprachsynthese mit weniger Rechenressourcen erreichen.

Kokoro verpackt API:Kokoro TTS API: Dockerisierter FastAPI-Wrapper für schnelle Text-to-Speech (Kokoro-82M-Modell)

Erfahrung: https://huggingface.co/spaces/hexgrad/Kokoro-TTS

Funktionsliste

SprachsyntheseGenerieren Sie eine natürliche und flüssige Sprachausgabe.
Unterstützung mehrerer SprachpaketeEine Vielzahl von Sprachpaketen ist verfügbar, und die Benutzer können zwischen verschiedenen Sprachstilen wählen.
Effiziente ModellierungHochwertige Sprachsynthese mit weniger Parametern und Daten.
Open-Source-LizenzUnter der Apache 2.0-Lizenz, die die freie Nutzung und Veränderung erlaubt.
Unterstützung der GemeinschaftEin Discord-Server steht zur Verfügung, auf dem Nutzer diskutieren und Feedback in der Community geben können.

Hilfe verwenden

Einbauverfahren

Installation von Abhängigkeiten::

   git lfs install
git clone https://huggingface.co/hexgrad/Kokoro-82M
cd Kokoro-82M
apt-get -qq -y install espeak-ng > /dev/null 2>&1
pip install -q phonemizer torch transformers scipy munch

Erstellen Sie das Modell und laden Sie das Standard-Sprachpaket::

   from models import build_model
import torch
device = 'cuda' if torch.cuda.is_available() else 'cpu'
MODEL = build_model('kokoro-v0_19.pth', device)
VOICE_NAME = 'af'  # 默认语音包
VOICEPACK = torch.load(f'voices/{VOICE_NAME}.pt', weights_only=True).to(device)
print(f'Loaded voice: {VOICE_NAME}')

Sprache generieren::

   from kokoro import generate
text = "How could I know? It's an unanswerable question. Like asking an unborn child if they'll lead a good life. They haven't even been born."
audio, out_ps = generate(MODEL, text, VOICEPACK, lang=VOICE_NAME[0])
from IPython.display import display, Audio
display(Audio(data=audio, rate=24000, autoplay=True))

Anweisungen für den Gebrauch

Voice Pack auswählenDer Kokoro-82M bietet eine Reihe von Sprachpaketen, mit denen der Benutzer je nach Bedarf verschiedene Sprachstile auswählen kann. Das Standard-Sprachpaket ist afIm Folgenden finden Sie ein Beispiel für die Art von Daten, die in der Datei voices Finden Sie andere Sprachpakete in dem Ordner.
Sprache generieren: Verwendung generate Die Funktion gibt Text ein und erzeugt Sprache. Die generierte Sprache ist 24kHz und kann über IPython Display abgespielt werden.
AnpassungsparameterBenutzer können die Modellparameter und Sprachpakete nach Bedarf anpassen, um die besten Sprachsyntheseergebnisse zu erzielen.