Allgemeine Einführung
OuteTTS ist ein experimentelles Text-to-Speech (TTS)-Modell, das einen reinen Sprachmodellierungsansatz verwendet, um qualitativ hochwertige Sprache zu erzeugen. Im Gegensatz zu herkömmlichen TTS-Systemen benötigt OuteTTS keine externen Adapter oder komplexe Architekturen. Das Modell basiert auf der LLaMa-Architektur und unterstützt eine Sprachklon-Funktion, die die Erzeugung von Sprache mit zufälligen Sprechereigenschaften ermöglicht.
OuteTTS-0.1-350M ist ein Schritt nach vorn bei der Vereinfachung der Text-to-Speech-Synthese. OuteTTS-0.1-350M beweist, dass qualitativ hochwertige Sprache durch einen rein linguistischen Modellierungsansatz erzeugt werden kann.
Funktionsliste
- Text-to-SpeechKonvertiert getippten Text in natürliche, flüssige Sprache.
- SprachklonenErstellen Sie benutzerdefinierte Sprecher, indem Sie Audiodateien referenzieren und die entsprechende Sprache erzeugen.
- Unterstützung mehrerer Modelle: Hugging Face Modell und GGUF Modell werden unterstützt.
- Audio-Wiedergabe und -SpeicherungDie erzeugte Stimme kann direkt abgespielt oder als Audiodatei gespeichert werden.
- Temperatur und WiederholungsstrafenSteuerung der Diversität und Glattheit der erzeugten Sprache durch Anpassung der Parameter Temperatur und Wiederholungsstrafe.
Hilfe verwenden
Ablauf der Installation
- Installation von OuteTTS::
pip install outetts
Wichtig: Für die GGUF-Unterstützung müssen Sie manuell die
lama-cpp-python
. Bitte besuchen Sie lama-cpp-python Holen Sie sich spezifische Installationsanweisungen.
Verwendung
- Initialisierung der Schnittstelle::
from outetts.v0_1.interface import InterfaceHF, InterfaceGGUF # initialisiert die Schnittstelle unter Verwendung des Hugging Face-Modells Schnittstelle = InterfaceHF("OuteAI/OuteTTS-0.1-350M") # oder Verwendung der GGUF-Modellinitialisierungsschnittstelle # Schnittstelle = InterfaceGGUF("Pfad/Zu/Modell.gguf")
- TTS-Ausgabe generieren::
output = interface.generate( text="Hallo, bin ich am Arbeiten?", text="Hallo, bin ich bei der Arbeit?", temperature=0.1, repetition_penalty=1.1, max_length=4096 max_length=4096 )
- Abspielen und Speichern erzeugter Audiodaten::
# Abspielen der erzeugten Audiodaten output.play() # Speichern des erzeugten Tons in einer Datei output.save("output.wav")
Sprachklonen
- Benutzerdefinierte Lautsprecher erstellen::
speaker = interface.create_speaker( "path/to/reference.wav", "Referenztext passend zum Audio", "Referenztext passend zum Audio") "zum Audio passender Referenztext" )
- Speichern und Laden von Lautsprechern::
# Speichern des Sprechers in einer Datei interface.save_speaker(sprecher, "sprecher.pkl") # Laden des Sprechers aus der Datei Sprecher = interface.load_speaker("sprecher.pkl")
- TTS-Erzeugung mit benutzerdefinierter Sprache::
output = interface.generate( text="Dies ist eine geklonte Stimme, die spricht", text="Dies ist eine geklonte Stimme, die spricht", speaker=speaker, temperatur=0.1, repetition_penalty=1.1, max_length=4096 max_length=4096 )
Parametrisierung
- TemperaturSteuert die Vielfalt der erzeugten Sprache. Niedrigere Temperaturen (z. B. 0,1) erzeugen deterministischere Ausgaben, während höhere Temperaturen (z. B. 0,7) vielfältigere Ausgaben erzeugen.
- Wiederholungsstrafe (repetition_penalty)Wiederholungen: Steuert den Grad der Wiederholung in der generierten Sprache. Eine höhere Wiederholungsstrafe (z. B. 1,1) verringert die Erzeugung von doppeltem Inhalt.
Durch die oben genannten Schritte können Benutzer das OuteTTS-Modell einfach installieren und für Text-zu-Sprache- und Sprachklonierungsvorgänge verwenden. Detaillierte Parameteranpassungen und Anwendungsbeispiele helfen den Nutzern, eine qualitativ hochwertige Sprachausgabe entsprechend ihren spezifischen Anforderungen zu erzeugen.