AI Personal Learning
und praktische Anleitung

ChatTTS: ein Spracherzeugungsmodell, das den Klang echter Menschen beim Sprechen nachahmt

Allgemeine Einführung

ChatTTS ist ein generatives Sprachmodell, das für Dialogszenarien entwickelt wurde. Es erzeugt natürliche und ausdrucksstarke Sprache, unterstützt mehrere Sprachen und mehrere Sprecher und ist für interaktive Dialoge geeignet. Das Modell übertrifft die meisten Open-Source-Sprachsynthesemodelle, indem es feinkörnige rhythmische Merkmale wie Lachen, Pausen und Zwischenrufe vorhersagt und steuert.ChatTTS bietet vortrainierte Modelle zur Unterstützung weiterer Forschung und Entwicklung, vor allem für akademische Zwecke.

 


ChatTTS: ein generatives Sprachmodell für Dialogszenarien-1

 

ChatTTS: ein generatives Sprachmodell für Dialogszenarien-1

 

 

Funktionsliste

  • Mehrsprachige UnterstützungChinesisch und Englisch werden unterstützt, und weitere Sprachen werden in Zukunft hinzukommen.
  • Multi-Talker-UnterstützungDie Fähigkeit, die Stimmen mehrerer Sprecher zu erzeugen, macht es für interaktive Dialoge geeignet.
  • Feinkörnige rhythmische KontrolleRhythmische Merkmale wie Lachen, Pausen und Zwischenrufe können vorhergesagt und kontrolliert werden.
  • Pre-Training ModellBietet 40.000 Stunden an vortrainierten Modellen zur Unterstützung weiterer Forschung und Entwicklung.
  • offene QuelleDer Code ist Open Source auf GitHub für akademische und wissenschaftliche Zwecke.

 

 

Hilfe verwenden

Ablauf der Installation

  1. Projektcode klonen::
    git klonen. https://github.com/2noise/ChatTTS.git
    
  2. Installation von Abhängigkeiten::
    cd ChatTTS
    pip install -r anforderungen.txt
    
  3. Download des vortrainierten ModellsDownloaden Sie das trainierte Modell von HuggingFace oder ModelScope und legen Sie es im angegebenen Verzeichnis ab.

Verwendung

  1. Modelle laden::
    von chattts importieren ChatTTS
    model = ChatTTS.load_model(path/to/pretrained/model'.)
    
  2. Sprache generieren::
    Text = "Hallo und willkommen bei ChatTTS!"
    audio = model.synthesize(text)
    
  3. Speichern von Audiodateien::
    mit öffnen(output.wav', 'wb') als f.
        f.write(audio)
    

Detaillierte Funktionsweise

  • TexteingabeUnterstützt gemischte chinesische und englische Texteingabe.
  • Rhythmische KontrolleReimeigenschaften wie Lachen, Pausen und Zwischenrufe werden durch die Einstellung von Parametern gesteuert.
  • KlangregelungDer erzeugte Ton kann durch einen voreingestellten Ton-Seed-Wert oder Ton-Code gesteuert werden.
  • emotionale KontrolleSteuerung der emotionalen Eigenschaften der generierten Sprache durch die Einstellung der Parameter Emotionsschwankung und Relevanz.
  • Streaming-AusgangUnterstützt lange Audiogenerierung und zeichenbasiertes Lesen für komplexe Dialogszenarien.

Beispielcode (Rechnen)

von chattts importieren ChatTTS

#-Lademodell
model = ChatTTS.load_model(path/to/pretrained/model'.)

# Einstellen von Text- und Reimparametern
Text = "Hallo und willkommen bei ChatTTS!"
params = {
    lachen: Wahr,
    'Pause': Wahr,
    'Zwischenruf': Wahr
}

# Sprache generieren
audio = model.synthesize(text, params)

# Speichern von Audiodateien
mit öffnen(output.wav', 'wb') als f.
    f.write(audio)

 

 

ChatTTS-Klient

 

Schnelle Erfahrung

Internetadresse Typologie
Original Web Original Web-Erlebnis
Web schmieden Verbessertes Erlebnis formen
Linux Python-Installationsprogramm
Proben Beispiele für Tonsamen
Klonen Tone Cloning Erfahrung

 

Funktionserweiterung

Sportereignis Lichtblick
jianchang512/ChatTTS-ui Bietet eine API-Schnittstelle, die in Anwendungen von Drittanbietern aufgerufen werden kann
6drf21e/ChatTTS_colab Bietet eine Streaming-Ausgabe mit Unterstützung für die Erzeugung langer Audiodaten und das Lesen in mehreren Rollen
lenML/ChatTTS-Forge Bietet Stimmverbesserung und Reduzierung von Hintergrundgeräuschen mit zusätzlichen Stichworten
CCmahua/ChatTTS-Enhanced Unterstützt die Stapelverarbeitung von Dateien und den Export von SRT-Dateien.
HKoon/ChatTTS-OpenVoice fit OpenVoice Klonen von Ton durchführen

 

Erweiterung der Funktionalität

Sportereignis Lichtblick
6drf21e/ChatTTS_Lautsprecher Kennzeichnung von Klangcharakteren und Stabilitätsbewertung
AIFSH/ComfyUI-ChatTTS ComfyUi Version, die als Workflow-Knoten eingeführt werden kann
MaterialSchatten/ChatTTS-manager Ein Tonmanagementsystem und eine WebUI-Schnittstelle sind vorhanden.
AI Leichtes Lernen

Der Leitfaden für Laien zum Einstieg in die KI

Hilft Ihnen, die Nutzung von KI-Tools kostengünstig und von Null an zu erlernen.KI ist, wie Bürosoftware, eine wesentliche Fähigkeit für jeden. Die Beherrschung von KI verschafft Ihnen einen Vorteil bei der Stellensuche und die Hälfte des Aufwands bei Ihrer zukünftigen Arbeit und Ihrem Studium.

Details ansehen>
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " ChatTTS: ein Spracherzeugungsmodell, das den Klang echter Menschen beim Sprechen nachahmt

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)