Allgemeine Einführung
OuteTTS ist ein experimentelles Text-to-Speech (TTS)-Modell, das einen reinen Sprachmodellierungsansatz verwendet, um qualitativ hochwertige Sprache zu erzeugen. Im Gegensatz zu herkömmlichen TTS-Systemen benötigt OuteTTS keine externen Adapter oder komplexe Architekturen. Das Modell basiert auf der LLaMa-Architektur und unterstützt eine Sprachklon-Funktion, die die Erzeugung von Sprache mit zufälligen Sprechereigenschaften ermöglicht.
OuteTTS-0.1-350M ist ein Schritt nach vorn bei der Vereinfachung der Text-to-Speech-Synthese. OuteTTS-0.1-350M beweist, dass qualitativ hochwertige Sprache durch einen rein linguistischen Modellierungsansatz erzeugt werden kann.
Funktionsliste
- Text-to-SpeechKonvertiert getippten Text in natürliche, flüssige Sprache.
- SprachklonenErstellen Sie benutzerdefinierte Sprecher, indem Sie Audiodateien referenzieren und die entsprechende Sprache erzeugen.
- Unterstützung mehrerer Modelle: Hugging Face Modell und GGUF Modell werden unterstützt.
- Audio-Wiedergabe und -SpeicherungDie erzeugte Stimme kann direkt abgespielt oder als Audiodatei gespeichert werden.
- Temperatur und WiederholungsstrafenSteuerung der Diversität und Glätte der erzeugten Sprache durch Anpassung der Parameter Temperatur und Wiederholungsstrafe.
Hilfe verwenden
Einbauverfahren
- Installation von OuteTTS::
pip install outetts
Wichtig: Für die GGUF-Unterstützung müssen Sie manuell die
llama-cpp-python
. Bitte besuchen Sie lama-cpp-python Holen Sie sich spezifische Installationsanweisungen.
Verwendung
- Initialisierung der Schnittstelle::
from outetts.v0_1.interface import InterfaceHF, InterfaceGGUF # 使用 Hugging Face 模型初始化接口 interface = InterfaceHF("OuteAI/OuteTTS-0.1-350M") # 或者使用 GGUF 模型初始化接口 # interface = InterfaceGGUF("path/to/model.gguf")
- TTS-Ausgabe generieren::
output = interface.generate( text="Hello, am I working?", temperature=0.1, repetition_penalty=1.1, max_length=4096 )
- Abspielen und Speichern erzeugter Audiodaten::
# 播放生成的音频 output.play() # 保存生成的音频到文件 output.save("output.wav")
Sprachklonen
- Benutzerdefinierte Lautsprecher erstellen::
speaker = interface.create_speaker( "path/to/reference.wav", "reference text matching the audio" )
- Speichern und Laden von Lautsprechern::
# 保存说话人到文件 interface.save_speaker(speaker, "speaker.pkl") # 从文件加载说话人 speaker = interface.load_speaker("speaker.pkl")
- TTS-Erzeugung mit benutzerdefinierter Sprache::
output = interface.generate( text="This is a cloned voice speaking", speaker=speaker, temperature=0.1, repetition_penalty=1.1, max_length=4096 )
Parametrisierung
- TemperaturSteuert die Vielfalt der erzeugten Sprache. Niedrigere Temperaturen (z. B. 0,1) erzeugen deterministischere Ausgaben, während höhere Temperaturen (z. B. 0,7) vielfältigere Ausgaben erzeugen.
- Wiederholungsstrafe (repetition_penalty)Wiederholungen: Steuert den Grad der Wiederholung in der generierten Sprache. Eine höhere Wiederholungsstrafe (z. B. 1,1) verringert die Erzeugung von doppeltem Inhalt.
Durch die oben genannten Schritte können Benutzer das OuteTTS-Modell einfach installieren und für Text-zu-Sprache- und Sprachklonierungsvorgänge verwenden. Detaillierte Parameteranpassungen und Anwendungsbeispiele helfen den Nutzern, eine qualitativ hochwertige Sprachausgabe entsprechend ihren spezifischen Anforderungen zu erzeugen.