Allgemeine Einführung
Zonos ist ein von Zyphra entwickeltes Open-Source-Tool zur Sprachsynthese und zum Klonen von Sprache. Die Version Zonos-v0.1 verwendet ein fortschrittliches Transformator- und Überblendungsmodell zur Erzeugung hochwertiger Sprachausgabe. Das Tool unterstützt mehrere Sprachen, darunter Englisch, Japanisch, Chinesisch, Französisch und Deutsch, und bietet eine fein abgestufte Audioqualität und Emotionskontrolle.Zonos' Funktion zum Klonen von Sprache generiert sehr natürliche Sprache nach der Bereitstellung von nur ein paar Sekunden Referenzaudio. Benutzer können Modellgewichte und Beispielcode über GitHub erhalten und es auf Huggingface ausprobieren.
Funktionsliste
- Abtastfreies TTS-SprachklonenEingabe von Text und einer 10-30 Sekunden langen Sprechprobe, um eine qualitativ hochwertige Sprachausgabe zu erzeugen.
- Audio-Präfix-Eingang: Hinzufügen von Text- und Audio-Präfixen für eine umfassendere Sprechererkennung.
- Mehrsprachige UnterstützungEnglisch, Japanisch, Chinesisch, Französisch und Deutsch werden unterstützt.
- Audioqualität und EmotionskontrolleErmöglicht eine fein abgestufte Steuerung vieler Aspekte des erzeugten Tons, einschließlich Sprechgeschwindigkeit, Tonhöhenvariation, Tonqualität und Emotionen (z. B. Freude, Angst, Traurigkeit und Wut).
- Spracherzeugung in EchtzeitUnterstützt die Echtzeit-Erzeugung von originalgetreuer Sprache.
Hilfe verwenden
Ablauf der Installation
- Klonprojekt: Führen Sie den folgenden Befehl in einem Terminal aus, um das Zonos-Projekt zu klonen:
bash
git clone https://github.com/Zyphra/Zonos.git
cd Zonos
- Installation von Abhängigkeiten: Verwenden Sie den folgenden Befehl, um die erforderlichen Python-Abhängigkeiten zu installieren:
bash
pip install -r anforderungen.txt
- Download Modellgewichte: Laden Sie die benötigten Modellgewichte von Huggingface herunter und legen Sie sie im Projektverzeichnis ab.
Verwendung
- Modelle ladenLaden Sie das Zonos-Modell in die Python-Umgebung:
torch importieren importieren torchaudio from zonos.model import Zonos from zonos.conditioning import make_cond_dict model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device="cuda")
- Sprache generierenText- und Sprecherbeispiele zur Erzeugung von Sprachausgabe bereitstellen:
python
wav, sampling_rate = torchaudio.load("assets/exampleaudio.mp3")
speaker = model.make_speaker_embedding(wav, sampling_rate)
cond_dict = make_cond_dict(text="Hallo, Welt!", speaker=speaker, language="en-us")
Konditionierung = model.prepare_conditioning(cond_dict)
Codes = model.generate(Konditionierung)
wavs = model.autoencoder.decode(codes).cpu()
torchaudio.save("sample.wav", wavs[0], model.autoencoder.sampling_rate)
- Verwendung der Gradio-SchnittstelleDie Gradio-Schnittstelle wird für die Spracherzeugung empfohlen:
bash
Dies erzeugt eine
uv run gradio_interface.py
# oder
python gradio_interface.py
sample.wav
Datei, die im Stammverzeichnis des Projekts gespeichert ist.
Detaillierte Funktionsabläufe
- Abtastfreies TTS-Sprachklonen::
- Nach Eingabe des gewünschten Textes und einer 10-30 Sekunden langen Hörprobe des Sprechers erzeugt das Modell eine qualitativ hochwertige Sprachausgabe.
- Audio-Präfix-Eingang::
- Fügen Sie Text- und Audiopräfixe hinzu, um die Sprechererkennung zu verbessern. Zum Beispiel können Flüsterton-Präfixe verwendet werden, um Flüstereffekte zu erzeugen.
- Mehrsprachige Unterstützung::
- Wählen Sie die gewünschte Sprache (z.B. Englisch, Japanisch, Chinesisch, Französisch oder Deutsch) und das Modell erzeugt die Sprachausgabe in der entsprechenden Sprache.
- Audioqualität und Emotionskontrolle::
- Verwenden Sie die Funktion "Bedingte Einstellungen" des Modells, um alle Aspekte des erzeugten Audios genau zu steuern, einschließlich Sprechgeschwindigkeit, Tonhöhenvariation, Audioqualität und Emotionen (z. B. Freude, Angst, Traurigkeit und Wut).
- Spracherzeugung in Echtzeit::
- Verwenden Sie die Gradio-Schnittstelle oder andere Echtzeit-Generierungsmethoden, um schnell eine realitätsnahe Sprache zu erzeugen.