IMS Toucan: Schnelles und kontrollierbares mehrsprachiges (7000+ Sprachen unterstützt) Text-to-Speech Tool

🚀 Einladung zum Erleben: Chinas erste KI-IDE Intelligente Programmiersoftware Trae Chinesische Version downloadDer DeepSeek-R1 und Doubao-pro sind unbegrenzt verfügbar!

Allgemeine Einführung

IMS Toucan ist ein modernes Text-to-Speech (TTS) Toolkit, das vom Institut für Maschinelle Sprachverarbeitung (IMS) der Universität Stuttgart entwickelt wurde. Das Toolkit unterstützt mehr als 7000 Sprachen, ist schnell, kontrollierbar und hat einen geringen Bedarf an Rechenressourcen.IMS Toucan wurde entwickelt, um effiziente Sprachsyntheselösungen für Forschung, Lehre und reale Anwendungen zu bieten. IMS Toucan bietet eine Vielzahl von funktionalen Modulen und eine flexible Steuerungsschnittstelle, die es dem Benutzer ermöglicht, bei Bedarf qualitativ hochwertige Sprachausgabe zu erzeugen.

IMS Toucan: Schnelles und kontrollierbares mehrsprachiges (7000+ Sprachen unterstützt) Text-to-Speech Tool-1

Demo: https://huggingface.co/spaces/Flux9665/MassivelyMultilingualTTS

Funktionsliste

Mehrsprachige UnterstützungUnterstützt die Text-to-Speech-Synthese in über 7000 Sprachen.
Schnelle SyntheseEfficient speech generation speed for real-time applications.
überprüfbarDer Benutzer hat eine präzise Kontrolle über Tonhöhe, Rhythmus und Klangfarbe der Stimme.
geringe RechenleistungBenötigt keine nennenswerten Rechenressourcen und ist für eine Vielzahl von Hardware-Umgebungen geeignet.
Interaktive PräsentationEine Online-Demo wird zur Verfügung gestellt, damit die Benutzer die Sprachsynthesefunktion direkt erleben können.
offene QuelleEine vollständige Open-Source-Codebasis für eine einfache sekundäre Entwicklung und Anpassung.
Pre-Training ModellBietet vortrainierte Sprachsynthesemodelle, die der Benutzer direkt verwenden oder weiter verfeinern kann.

Hilfe verwenden

Ablauf der Installation

grundlegende Anforderung: Python Version 3.10 wird empfohlen. Stellen Sie sicher, dass Sie die folgenden Abhängigkeiten installieren: libsndfile1, espeak-ng, ffmpeg, libasound-dev, libportaudio2, libsqlite3-dev.
Klon-LagerKlonen Sie das IMS Toucan Repository auf einen lokalen Rechner (CUDA-fähige GPUs werden für das Modelltraining empfohlen; für die Inferenz sind keine GPUs erforderlich).

   git clone https://github.com/DigitalPhonetics/IMS-Toucan.git
cd IMS-Toucan

Erstellen einer virtuellen UmgebungErstellen und aktivieren Sie eine virtuelle Umgebung, um grundlegende Abhängigkeiten zu installieren.

   python -m venv 
Quelle /bin/activate
pip install --no-cache-dir -r requirements.txt

Führen Sie das Demoskript ausSobald die Installation abgeschlossen ist, können Sie das folgende Skript zu Demonstrationszwecken ausführen.

   python run_advanced_GUI_demo.py

Funktion Betriebsablauf

Text-to-SpeechGeben Sie den Text in die interaktive Schnittstelle ein, wählen Sie die Sprache und die Sprachparameter aus und klicken Sie auf die Schaltfläche Generieren, um die Stimme zu erzeugen.
SprachsteuerungDurch Ziehen der Schieberegler für Tonhöhe und Dauer können die Benutzer die Tonhöhe und den Rhythmus der erzeugten Sprache genau einstellen.
SprachsubstitutionDer Benutzer kann zu einem anderen Sprachmodell wechseln und dabei die Sprachparameter beibehalten.
ModellschulungBenutzer können neue Sprachmodelle mit ihren eigenen Datensätzen trainieren. Anweisungen dazu finden Sie in den Trainingsskripten im Repository und in der Dokumentation.

Ausgewählte Funktionen

Mehrsprachige UnterstützungIMS Toucan unterstützt mehr als 7.000 Sprachen, so dass die Benutzer je nach Bedarf verschiedene Sprachen für die Sprachsynthese auswählen können.
Effiziente SyntheseIMS Toucan kann selbst in Umgebungen mit geringen Computerressourcen schnell hochwertige Sprache erzeugen.
Flexible SteuerungDer Benutzer kann die Parameter der Stimme über die interaktive Schnittstelle genau steuern, um die Sprachausgabe zu erzeugen, die den Anforderungen entspricht.