OuteTTS: experimentelles Text-to-Speech-Modell, TTS implementiert mit einem reinen Sprachmodellierungsansatz

Neueste AI-RessourcenAktualisiert vor 7 Monaten AI-Austauschkreis

14.9K 00

Allgemeine Einführung

OuteTTS ist ein experimentelles Text-to-Speech (TTS)-Modell, das einen reinen Sprachmodellierungsansatz verwendet, um qualitativ hochwertige Sprache zu erzeugen. Im Gegensatz zu herkömmlichen TTS-Systemen benötigt OuteTTS keine externen Adapter oder komplexe Architekturen. Das Modell basiert auf der LLaMa-Architektur und unterstützt eine Sprachklon-Funktion, die die Erzeugung von Sprache mit zufälligen Sprechereigenschaften ermöglicht.

OuteTTS-0.1-350M ist ein Schritt nach vorn bei der Vereinfachung der Text-to-Speech-Synthese. OuteTTS-0.1-350M beweist, dass qualitativ hochwertige Sprache durch einen rein linguistischen Modellierungsansatz erzeugt werden kann.

Funktionsliste

Text-to-SpeechKonvertiert getippten Text in natürliche, flüssige Sprache.
SprachklonenErstellen Sie benutzerdefinierte Sprecher, indem Sie Audiodateien referenzieren und die entsprechende Sprache erzeugen.
Unterstützung mehrerer Modelle: Hugging Face Modell und GGUF Modell werden unterstützt.
Audio-Wiedergabe und -SpeicherungDie erzeugte Stimme kann direkt abgespielt oder als Audiodatei gespeichert werden.
Temperatur und WiederholungsstrafenSteuerung der Diversität und Glätte der erzeugten Sprache durch Anpassung der Parameter Temperatur und Wiederholungsstrafe.

Hilfe verwenden

Einbauverfahren

Installation von OuteTTS::
```
pip install outetts
```
Wichtig: Für die GGUF-Unterstützung müssen Sie manuell die llama-cpp-python. Bitte besuchen Sie lama-cpp-python Holen Sie sich spezifische Installationsanweisungen.

Verwendung

Initialisierung der Schnittstelle::

from outetts.v0_1.interface import InterfaceHF, InterfaceGGUF
# 使用 Hugging Face 模型初始化接口
interface = InterfaceHF("OuteAI/OuteTTS-0.1-350M")
# 或者使用 GGUF 模型初始化接口
# interface = InterfaceGGUF("path/to/model.gguf")

TTS-Ausgabe generieren::

output = interface.generate(
text="Hello, am I working?",
temperature=0.1,
repetition_penalty=1.1,
max_length=4096
)

Abspielen und Speichern erzeugter Audiodaten::

# 播放生成的音频
output.play()
# 保存生成的音频到文件
output.save("output.wav")

Sprachklonen

Benutzerdefinierte Lautsprecher erstellen::

speaker = interface.create_speaker(
"path/to/reference.wav",
"reference text matching the audio"
)

Speichern und Laden von Lautsprechern::

# 保存说话人到文件
interface.save_speaker(speaker, "speaker.pkl")
# 从文件加载说话人
speaker = interface.load_speaker("speaker.pkl")

TTS-Erzeugung mit benutzerdefinierter Sprache::

output = interface.generate(
text="This is a cloned voice speaking",
speaker=speaker,
temperature=0.1,
repetition_penalty=1.1,
max_length=4096
)

Parametrisierung

TemperaturSteuert die Vielfalt der erzeugten Sprache. Niedrigere Temperaturen (z. B. 0,1) erzeugen deterministischere Ausgaben, während höhere Temperaturen (z. B. 0,7) vielfältigere Ausgaben erzeugen.
Wiederholungsstrafe (repetition_penalty)Wiederholungen: Steuert den Grad der Wiederholung in der generierten Sprache. Eine höhere Wiederholungsstrafe (z. B. 1,1) verringert die Erzeugung von doppeltem Inhalt.

Durch die oben genannten Schritte können Benutzer das OuteTTS-Modell einfach installieren und für Text-zu-Sprache- und Sprachklonierungsvorgänge verwenden. Detaillierte Parameteranpassungen und Anwendungsbeispiele helfen den Nutzern, eine qualitativ hochwertige Sprachausgabe entsprechend ihren spezifischen Anforderungen zu erzeugen.