AI Personal Learning
und praktische Anleitung

Parler-TTS: Generierung sprecherspezifischer Text-to-Speech-Modelle aus Eingabetext

Allgemeine Einführung

Parler-TTS ist eine von Hugging Face entwickelte Open-Source-Text-to-Speech (TTS)-Modellbibliothek zur Erzeugung qualitativ hochwertiger, natürlich klingender Sprache. Das Modell ist in der Lage, auf der Grundlage des Eingabetextes Sprache mit einem bestimmten Sprecherstil (z. B. Geschlecht, Tonhöhe, Sprechweise usw.) zu erzeugen.Parler-TTS basiert auf den Forschungsergebnissen des Papiers "Natural language guidance of high-fidelity text-to-speech with synthetic Parler-TTS basiert auf den Forschungsergebnissen des Papiers "Natural language guidance of high-fidelity text-to-speech with synthetic annotations" und ist vollständig quelloffen, d.h. alle Datensätze, die Vorverarbeitung, der Trainingscode und die Gewichte sind öffentlich zugänglich, so dass die Community sie weiterentwickeln und verbessern kann.

Parler-TTS: Generierung sprecherspezifischer Text-to-Speech-Modelle aus Eingabetext-1


 

Funktionsliste

  • Hochwertige SpracherzeugungGenerieren Sie natürliche und flüssige Sprache mit Unterstützung für mehrere Sprecherstile.
  • offene QuelleAlle Code- und Modellgewichte sind für die Entwicklung und Verbesserung der Gemeinschaft öffentlich zugänglich.
  • Leichtgewichtige AbhängigkeitenEinfach zu installieren und zu verwenden, mit wenigen Abhängigkeiten.
  • Mehrere ModellversionenParler-TTS Mini und Parler-TTS Large: Es sind Versionen des Modells mit unterschiedlichen Parameterzahlen verfügbar.
  • Schnelle ErzeugungOptimierte Generierungsgeschwindigkeit mit Unterstützung für SDPA und Flash Attention 2.
  • Datensätze und GewichteBietet umfangreiche Datensätze und vortrainierte Modellgewichte für einfaches Training und Feinabstimmung.

 

Hilfe verwenden

Ablauf der Installation

  1. Stellen Sie sicher, dass die Python-Umgebung installiert ist.
  2. Verwenden Sie den folgenden Befehl, um die Parler-TTS-Bibliothek zu installieren:
   pip install git+https://github.com/huggingface/parler-tts.git
  1. Für Apple Silicon-Benutzer führen Sie den folgenden Befehl aus, um bfloat16 zu unterstützen:
   pip3 install --pre torch torchaudio --index-url https://download.pytorch.org/whl/nightly/cpu

Verwendung

Zufällige Sprache generieren

  1. Importieren Sie die erforderlichen Bibliotheken:
   torch importieren
from parler_tts import ParlerTTSForConditionalGeneration
von transformers importieren AutoTokenizer
importiere soundfile as sf
  1. Modelle und Splitter laden:
   device = "cuda:0" if torch.cuda.is_available() else "cpu"
model = ParlerTTSForConditionalGeneration.from_pretrained("parler-tts/parler-tts-mini-v1").to(device)
tokeniser = AutoTokenizer.from_pretrained("parler-tts/parler-tts-mini-v1")
  1. Text eingeben und Sprache erzeugen:
   prompt = "Hey, wie geht's dir heute?"
description = "Eine weibliche Sprecherin hält eine leicht ausdrucksstarke und animierte Rede mit moderater Geschwindigkeit und Stellplatz."
inputs = tokeniser(prompt, return_tensors="pt").to(device)
outputs = model.generate(**inputs, description=description)
sf.write("output.wav", outputs.cpu().numpy(), 22050)

Generieren von Sprache in einem bestimmten Sprecherstil

  1. Beschreibungen, die den Stil eines bestimmten Sprechers verwenden:
   description = "Ein männlicher Sprecher mit tiefer Stimme und langsamem Tempo".
inputs = tokeniser(prompt, return_tensors="pt").to(device)
outputs = model.generate(**inputs, description=description)
sf.write("output_specific.wav", outputs.cpu().numpy(), 22050)

Ausbildungsmodelle

  1. Laden Sie den Datensatz herunter und bereiten Sie ihn vor.
  2. Das Training des Modells wird mit dem mitgelieferten Trainingscode durchgeführt:
   python train.py --datensatz_pfad /pfad/zu/datensatz --output_dir /pfad/zu/output

Optimierte Argumentation

  1. Optimiert mit SDPA und Flash Attention 2:
   model = ParlerTTSForConditionalGeneration.from_pretrained("parler-tts/parler-tts-mini-v1", use_flash_attention=True).to(device)
CDN
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " Parler-TTS: Generierung sprecherspezifischer Text-to-Speech-Modelle aus Eingabetext

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)