AI Personal Learning
und praktische Anleitung
豆包Marscode1

Kokoro: Effiziente Sprachsynthesemodelle zur Erzeugung von natürlicher und flüssiger Sprache

Allgemeine Einführung

Kokoro 82M ist ein hocheffizientes Sprachsynthesemodell von Hugging Face, das entwickelt wurde, um mit weniger Parametern und weniger Daten hochwertige Sprache zu erzeugen. Das Modell hat 82 Millionen Parameter, ist unter der Apache 2.0 Lizenz veröffentlicht und unterstützt mehrere Voicepacks, um Sprache in verschiedenen Stilen und Sprachen zu erzeugen. kokoro-82M zeigt gute Leistungen im Bereich TTS (Text-to-Speech), insbesondere in den Elo-Rankings, und ist in der Lage Kokoro-82M hat eine gute Leistung im Bereich TTS (Text-to-Speech), vor allem in der Elo-Rangliste, und kann eine qualitativ hochwertige Sprachsynthese mit weniger Rechenressourcen erreichen.

Kokoro verpackt API:Kokoro TTS API: Dockerisierter FastAPI-Wrapper für schnelle Text-to-Speech (Kokoro-82M-Modell)


Kokoro:高效语音合成模型,生成自然流畅的语音-1

Erfahrung: https://huggingface.co/spaces/hexgrad/Kokoro-TTS

 

Funktionsliste

  • SprachsyntheseGenerieren Sie eine natürliche und flüssige Sprachausgabe.
  • Unterstützung mehrerer SprachpaketeEine Vielzahl von Sprachpaketen ist verfügbar, und die Benutzer können zwischen verschiedenen Sprachstilen wählen.
  • Effiziente ModellierungHochwertige Sprachsynthese mit weniger Parametern und Daten.
  • Open-Source-LizenzUnter der Apache 2.0-Lizenz, die die freie Nutzung und Veränderung erlaubt.
  • Unterstützung der GemeinschaftEin Discord-Server steht zur Verfügung, auf dem Nutzer diskutieren und Feedback in der Community geben können.

 

Hilfe verwenden

Einbauverfahren

  1. Installation von Abhängigkeiten::
   git lfs install
git clone https://huggingface.co/hexgrad/Kokoro-82M
cd Kokoro-82M
apt-get -qq -y install espeak-ng > /dev/null 2>&1
pip install -q phonemizer torch transformers scipy munch
  1. Erstellen Sie das Modell und laden Sie das Standard-Sprachpaket::
   from models import build_model
import torch
device = 'cuda' if torch.cuda.is_available() else 'cpu'
MODEL = build_model('kokoro-v0_19.pth', device)
VOICE_NAME = 'af'  # 默认语音包
VOICEPACK = torch.load(f'voices/{VOICE_NAME}.pt', weights_only=True).to(device)
print(f'Loaded voice: {VOICE_NAME}')
  1. Sprache generieren::
   from kokoro import generate
text = "How could I know? It's an unanswerable question. Like asking an unborn child if they'll lead a good life. They haven't even been born."
audio, out_ps = generate(MODEL, text, VOICEPACK, lang=VOICE_NAME[0])
from IPython.display import display, Audio
display(Audio(data=audio, rate=24000, autoplay=True))

Anweisungen für den Gebrauch

  1. Voice Pack auswählenDer Kokoro-82M bietet eine Reihe von Sprachpaketen, mit denen der Benutzer je nach Bedarf verschiedene Sprachstile auswählen kann. Das Standard-Sprachpaket ist afIm Folgenden finden Sie ein Beispiel für die Art von Daten, die in der Datei voices Finden Sie andere Sprachpakete in dem Ordner.
  2. Sprache generieren: Verwendung generate Die Funktion gibt Text ein und erzeugt Sprache. Die generierte Sprache ist 24kHz und kann über IPython Display abgespielt werden.
  3. AnpassungsparameterBenutzer können die Modellparameter und Sprachpakete nach Bedarf anpassen, um die besten Sprachsyntheseergebnisse zu erzielen.
Darf nicht ohne Genehmigung vervielfältigt werden:Leiter des AI-Austauschkreises " Kokoro: Effiziente Sprachsynthesemodelle zur Erzeugung von natürlicher und flüssiger Sprache
de_DEDeutsch