IndexTTS: Text-to-Speech-Tool mit Unterstützung für Chinesisch-Englisch-Mischung

Neueste AI-RessourcenGeschrieben vor 6 Monaten AI-Austauschkreis

29.2K 00

Allgemeine Einführung

IndexTTS ist ein Open-Source-Text-to-Speech (TTS)-Tool, das auf GitHub gehostet und vom index-tts-Team entwickelt wird. Es basiert auf XTTS- und Tortoise-Technologien und bietet eine effiziente und qualitativ hochwertige Sprachsynthese durch die Verbesserung des Moduldesigns. indexTTS wurde mit Zehntausenden von Stunden an Daten trainiert und unterstützt sowohl Chinesisch als auch Englisch, wobei es besonders gut in chinesischen Szenarien funktioniert. Es korrigiert falsche Aussprachen durch Pinyin und kontrolliert Sprechpausen. Das Team hat die Klangqualität, die Trainingsstabilität und die Ähnlichkeit der Klangfarben optimiert und behauptet, beliebte TTS-Systeme wie XTTS und CosyVoice2 zu übertreffen. Um die volle Funktionalität zu erleben, können Sie die offizielle E-Mail-Adresse für weitere Informationen kontaktieren.

Funktionsliste

Unterstützt die chinesische Pinyin-Eingabe und korrigiert Aussprachefehler von mehrstimmigen Zeichen.
Steuerung der Sprechpausenposition durch Interpunktion.
Verbessern Sie die Audioqualität mit BigVGAN2.
Integration des Conformer Conditional Encoders für verbesserte Trainingsstabilität und Klangfarbenähnlichkeit.
Unterstützt die Null-Sample-Sprachsynthese, die ohne Vortraining spezifischer Sprache erzeugt werden kann.
Verarbeitet gemischten chinesischen und englischen Text.

Hilfe verwenden

Wie installieren?

IndexTTS ist derzeit ein Open-Source-Projekt auf GitHub, aber kein direktes Installationsprogramm oder Online-Dienst ist offiziell verfügbar. Um es zu verwenden, müssen Sie Ihre eigene Umgebung erstellen. Hier sind die Installationsschritte:

Vorbereiten der Umgebung
- Stellen Sie sicher, dass auf Ihrem Computer Python 3.8 oder höher installiert ist.
- Installieren Sie Git zum Herunterladen von Code.
- GPU-Unterstützung (z. B. NVIDIA-Grafikkarte) ist erforderlich, um die Verarbeitung zu beschleunigen, und die Installation von CUDA wird empfohlen.
Code herunterladen
Geben Sie sie in ein Terminal oder eine Befehlszeile ein:

git clone https://github.com/index-tts/index-tts.git

Dadurch wird der IndexTTS-Code lokal heruntergeladen.

Installation von Abhängigkeiten

Wechseln Sie in den Projektordner:
```
cd index-tts
```
Installieren Sie die erforderlichen Bibliotheken. Da keine spezifischen offiziellen <code>requirements.txt</code> Datei wird empfohlen, gängige TTS-Abhängigkeiten wie PyTorch, NumPy und Torchaudio zu installieren. Sie können es versuchen:
```
pip install torch torchaudio numpy
```
Wenn es eine bestimmte Abhängigkeit gibt, müssen Sie sich auf die Importanweisung im Code beziehen, um sie manuell zu installieren.

Vorgefertigte Modelle abrufen

Das IndexTTS Pre-Training-Modell ist nicht direkt quelloffen. Sie müssen uns per E-Mail kontaktieren <code>xuanwu@bilibili.com</code> Holen Sie die Modelldatei.
Nachdem Sie das Modell erhalten haben, legen Sie die Dateien in das Projektverzeichnis ab (den genauen Pfad entnehmen Sie bitte der offiziellen Antwort).

Laufende Projekte

Angenommen, das Modell ist vorhanden, führen Sie das Hauptskript aus (der Dateiname könnte lauten <code>main.py</code> (oder eine ähnliche Bezeichnung, zur Bestätigung muss der Code überprüft werden):
```
python main.py
```
Wenn es Parameteranforderungen gibt (z.B. Eingabetext oder Konfigurationsdateien), müssen Sie den Befehl entsprechend der offiziellen Dokumentation anpassen.

Verwendung der wichtigsten Funktionen

Nach der Installation besteht die Hauptfunktion von IndexTTS darin, Sprache zu erzeugen. Hier erfahren Sie, wie Sie es bedienen:

Sprache generieren

Eingabetext
Suchen Sie den Texteingabeabschnitt im Code (der ein Skriptparameter oder eine Schnittstelleneingabe sein kann). Zum Beispiel:

python main.py --text "你好，这是测试文本。"

Der Eingabetext kann in Chinesisch, Englisch oder gemischtem Inhalt sein.

Pinyin-Korrektur Aussprache

Wenn Sie Probleme mit mehrstimmigen Zeichen haben, geben Sie das Pinyin direkt ein. Zum Beispiel:

python main.py --text "xing2 hang2"  # 纠正为“银行”而不是“星航”

Das System generiert die korrekt ausgesprochene Sprache auf der Grundlage von Pinyin.

Kontrolle stoppt

Wenn dem Text Satzzeichen hinzugefügt werden, erkennt IndexTTS diese automatisch und passt die Pausen an. Beispiel:

python main.py --text "你好，世界。这是一个测试。"

"," und "." ermöglichen es der Stimme, auf natürliche Weise Pausen zu machen und den Rhythmus der echten Sprache nachzuahmen.

Audio-Ausgang

Die erzeugte Sprache wird normalerweise als WAV-Datei gespeichert. Überprüfen Sie das Projektverzeichnis nach dem Ausführen, dort könnte etwas stehen wie <code>output.wav</code> des Dokuments.
Sie können die Datei mit dem Player öffnen oder den Ausgabepfad im Code angeben:

python main.py --text "测试" --output "my_audio.wav"

Ausgewählte Funktionen Bedienung Ablauf

Null-Sample-Sprachsynthese

IndexTTS unterstützt die Null-Sample-Synthese und kann untrainierte Klänge imitieren.
So geht's: Stellen Sie ein Referenz-Audiomaterial zur Verfügung (normalerweise im WAV-Format). Vorausgesetzt, der Code unterstützt dies:

python main.py --text "hallo" --ref_audio "reference.wav"

Das System analysiert die Klangfarbe des Referenztons, um einen ähnlichen Klang zu erzeugen.

Hochwertige Audioausgabe

IndexTTS ist für die Klangqualität mit BigVGAN2 optimiert. Es sind keine zusätzlichen Einstellungen erforderlich, und die Audioausgabe ist viel klarer als bei normalem TTS, solange die Modelle korrekt geladen sind.
Vergewissern Sie sich, dass Ihre Hardware die GPU-Beschleunigung unterstützt, sonst wird die Verarbeitung langsamer.

caveat

Wenn der Lauf einen Fehler meldet, überprüfen Sie, ob PyTorch mit Ihrer GPU kompatibel ist.
Die offizielle Dokumentation kann unvollständig sein, daher empfehlen wir, Folgendes zu überprüfen <code>README.md</code> oder Code-Kommentare.
Für eine tiefere Abstimmung der Parameter können Sie die Konfiguration von Conformer und BigVGAN2 studieren (Programmierkenntnisse und TTS-Prinzipien sind erforderlich).

Anwendungsszenario

Pädagogische Hilfsmittel
Lehrer können mit IndexTTS Texte in Sprache umwandeln, um den Schülern beim Üben des Hörverstehens zu helfen. Die Pinyin-Korrekturfunktion lehrt auch die richtige Aussprache.
Erstellung von Inhalten
Moderatoren oder UP-Besitzer können damit Voiceovers erstellen, insbesondere für Videoinhalte, die eine Mischung aus Chinesisch und Englisch erfordern.
Entwicklung von Sprachassistenten
Entwickler können IndexTTS nutzen, um einen intelligenten Kundenservice zu entwickeln, der eine echte menschliche Stimme imitiert und ein natürliches Dialogerlebnis bietet.
Sprachenlernen
Die Schüler können damit die Aussprache üben, indem sie Wörter oder Sätze in Sprache umschreiben, sie anhören und immer wieder imitieren.

QA

Welche Sprachen werden von IndexTTS unterstützt?
Es unterstützt hauptsächlich Chinesisch und Englisch und kann gemischten Text verarbeiten. Die Unterstützung anderer Sprachen ist unbekannt und muss noch getestet werden.
Wie erhalte ich die volle Funktionalität?
Mailkontakt erforderlich <code>xuanwu@bilibili.com</code>erhalten Sie bereits trainierte Modelle und detaillierte Beschreibungen.
Wie stark muss mein Computer sein, um das Programm auszuführen?
Ein Grafikprozessor (z. B. eine NVIDIA-Grafikkarte) wird empfohlen, eine CPU läuft auch, ist aber langsam. Mindestens 8 GB RAM.
Ist es kostenlos?
Der Code ist quelloffen und kostenlos, aber die kommerzielle Nutzung kann eingeschränkt sein, Sie müssen die offizielle Seite konsultieren.