Den Text für sich selbst sprechen lassen: Wie wählt man am besten aus dem schwindelerregenden Angebot an TTS-Tools?

AI-NachrichtenGeschrieben vor 5 Monaten AI-Austauschkreis

15.8K 00

Heute werden wir über eine Technologie sprechen, die immer mehr in Mode kommt - Text-to-Speech, auch bekannt als TTS (Text-to-Speech). Einfach ausgedrückt geht es darum, den Computer den Text vorlesen zu lassen und ihn wie menschliche Sprache zu lesen. In den letzten Jahren ist TTS allgegenwärtig, von der kurzen Videovertonung über die Produktion von Hörbüchern bis hin zum intelligenten Kundendienst und virtuellen Assistenten. Es gibt unzählige Tools auf dem Markt, einige kostenlos, andere kostenpflichtig, einige mit offenem oder geschlossenem Quellcode; es gibt einfache und leicht zu bedienende Online-Dienste, und es gibt auch Entwicklungsbibliotheken, die ein gewisses technisches Niveau erfordern. Wie soll der Durchschnittsnutzer oder -entwickler bei so viel Auswahl die für ihn passende Lösung finden?

Keine Sorge, heute werden wir einen Blick auf einige der beliebtesten und repräsentativsten TTS-Tools auf dem Markt werfen und sehen, was sie können und wo sie eingesetzt werden können.

Benutzerfreundlicher, sofort einsatzbereiter Typ

Für Benutzer, die keinen Code schreiben und einfach nur schnell Sprache generieren wollen, gibt es eine Reihe von Online-Diensten und Paketen, die bevorzugt werden.

TTS-Macher: Dies ist ein kostenloses (kommerziell erhältliches) Online-Tool. Der Vorteil ist, dass es eine riesige Anzahl von Sprachen unterstützt, über 50, und sogar Dialekte wie Nordost und Kantonesisch mit einer großen Auswahl an Tönen umfasst. Es ist ein guter Ausgangspunkt für Autoren, die kurze Videos oder Podcasts erstellen, oder für Autoren, die mehrsprachige Inhalte benötigen. Das technische Modell, das dahinter steckt, ist jedoch nicht klar beschrieben, und der Klang ist möglicherweise nicht so natürlich und kontrollierbar wie bei professionelleren Tools.
Edge-TTSDies ist nicht wirklich ein eigenständiger Dienst, sondern jemand hat die in Microsofts Edge-Browser integrierte TTS-Funktionalität in eine Python-Bibliothek gekapselt. Das Gute daran ist, dass es einfach und kostenlos ist, und die Sprachqualität ist ziemlich gut, schließlich steckt die Technologie von Microsoft dahinter. Außerdem werden viele Sprachen und Töne unterstützt (über 40 Sprachen, über 300 Töne). Der Nachteil ist, dass es von Microsofts Schnittstelle abhängt, die Stabilität und langfristige Verfügbarkeit variieren kann und die Anpassungsmöglichkeiten begrenzt sind. Geeignet für leichtgewichtige Anwendungen oder persönliche Projekte zur schnellen Integration.

Business-Giganten und Dienstleistungen auf professionellem Niveau

Wenn Sie eine erstklassige Sprachqualität, ein hohes Maß an Stabilität und eine Fülle von Anpassungsmöglichkeiten benötigen, dann ist ein kommerzieller Dienst in der Regel die bessere Wahl, aber das bedeutet natürlich auch, dass Sie dafür bezahlen müssen.

Microsoft Azure TTSDies ist einer der anerkannten Maßstäbe in der Branche. Die auf der Technologie neuronaler Netze basierende Sprachsynthese ist so natürlich und flüssig, dass man sie fast nicht mehr verwechseln kann. Sie bietet umfangreiche Optionen zur Steuerung von Emotionen und die Möglichkeit zur Feinabstimmung von Aussprache, Sprechgeschwindigkeit, Pausen usw. mit SSML (Speech Synthesis Markup Language). Mit Unterstützung für über 140 Sprachen und 400 Töne ist es die erste Wahl für Unternehmensanwendungen, hochwertige Hörbücher und professionelle virtuelle Assistenten. Und natürlich ist auch der Preis auf Enterprise-Niveau.
Saatgut-TTSEs handelt sich um eine von ByteDance entwickelte Technologie, deren Kernmodell derzeit noch nicht vollständig als Open Source verfügbar zu sein scheint. Aus dem technischen Bericht geht hervor, dass sie sich durch die Fähigkeit auszeichnet, Sprachinhalte zu bearbeiten und die Sprechgeschwindigkeit fein zu steuern, was sich sehr gut für die Nachbearbeitung von Hörbüchern oder Szenarien eignet, die eine Feinabstimmung der Sprachinhalte erfordern. Derzeit hauptsächlich für Chinesisch, die spezifische Produktform und den Zugang zur offiziellen Folgeversion.
Sprach-Engine (von OpenAI?)Der Originalartikel erwähnt diesen Namen, aber es sollte beachtet werden, dass OpenAI den Namen dieses Systems nicht offiziell veröffentlicht zu haben scheint. Voice Engine Es kann Implementierungen von Drittanbietern auf dem Markt geben, die auf der Technologie von OpenAI (z.B. GPT) basieren, oder auf deren interne Forschungsprojekte verweisen. Es kann Implementierungen von Drittanbietern auf dem Markt geben, die auf der Technologie von OpenAI (z. B. GPT) basieren, oder auf ihre internen Forschungsprojekte verweisen.OpenAI ist stark in der Sprachtechnologie und hat viel Aufmerksamkeit für seine Fähigkeiten zum Klonen und Erzeugen von Sprache erhalten, aber es gibt noch keinen Dienst, der explizit Voice Engine Die öffentlichen Produkte können von jedermann direkt genutzt werden, und die Informationsquellen müssen bei der Nutzung überprüft werden.

Die Macht der Open-Source-Gemeinschaften: Freiheit und Individualisierung

Für Entwickler und Forscher bieten Open-Source-TTS-Tools mehr Freiheit und Raum für Anpassungen. Sie können ein tieferes Verständnis der Modellprinzipien erlangen und sie nach Ihren Bedürfnissen verändern und trainieren.

PaddleSpeechFlying Paddle: Ein Open-Source-Projekt von Baidu Flying Paddle, das speziell für die Unterstützung der chinesischen Sprache optimiert wurde. Eines seiner Highlights ist die Unterstützung für Streaming-Synthese, was bedeutet, dass es während der Wiedergabe erzeugt werden kann, niedrige Latenz, sehr geeignet für die Notwendigkeit für die Echtzeit-Reaktion auf die Szene, wie Echtzeit-Sprachübertragung, intelligente Kundenbetreuung. Es basiert auf FastSpeech2 im Gesang antworten HiFiGAN und andere Mainstream-Modelle.
Coqui TTSDies ist ein sehr aktives Open-Source-Projekt, das früher unter dem Namen Mozilla TTS bekannt war. Sein größter Vorteil ist eine große Bibliothek von vortrainierten Modellen, die mehr als 1100 Sprachen unterstützen (basierend auf dem XTTS-Modell), was sehr wertvoll für Anwendungen ist, die mit mehreren Sprachen umgehen müssen, insbesondere mit Sprachen mit geringen Ressourcen. Die Gemeinschaft ist aktiv und gut dokumentiert.
Rinde: Durch Suno AI (bekannt für die Erzeugung von Musik) entwickelt, und das Besondere daran ist, dass es nicht nur Sprache, sondern auch Nicht-Sprach-Sounds wie Musikclips, Hintergrundgeräusche, Lachen, Schreie usw. erzeugt und das Mischen mehrerer Sprachen unterstützt. Dies verleiht ihm ein einzigartiges Potenzial für den Einsatz in kreativen Audioprojekten, im Sounddesign von Spielen und in anderen Bereichen. Die Software basiert auf Transformator Architektur.
TensorFlowTTSWie der Name schon sagt, handelt es sich um ein TensorFlow-basiertes TTS-Toolset. Es unterstützt eine Vielzahl von populären TTS-Modellen wie z.B. Tacotron 2undFastSpeech2 usw., in Verbindung mit MelGAN et Vocoder verwenden. Dies ist eine großartige Option für Entwickler, die mit dem TensorFlow-Ökosystem vertraut sind, und für diejenigen, die akademische Forschung betreiben, um Modellexperimente und kundenspezifische Entwicklungen zu erleichtern.
Fisch-RedeDieses Projekt konzentriert sich auf gemischte mehrsprachige Generierung, wie z.B. den natürlichen Wechsel zwischen Chinesisch, Englisch und Japanisch in einem einzigen Satz. Es unterstützt VITS2undBert-VITS2 und andere neuere Modellarchitekturen. Attraktiv für Produktionsszenarien wie mehrsprachige Podcasts, Film- und Fernsehsynchronisation usw.
ChatTTSEin Open-Source-Modell, das speziell für Dialogszenarien optimiert wurde. Es funktioniert sowohl in englischen als auch in chinesischen Dialogen gut und erzeugt Sprache mit natürlichen emotionalen Merkmalen (z. B. Lachen, Zögern, Tonfallpausen), wodurch die synthetisierten Dialoge realistischer und interaktiver klingen. Es wurde angeblich mit 40.000 Stunden an Daten trainiert.

Voice Cloning: Haben Sie eine exklusive Stimme

Die Technologie des Stimmenklonens ermöglicht es, eine kleine Menge (manchmal sogar nur ein paar Sekunden oder eine Minute) einer Stimmprobe einer Person zu verwenden, um eine Stimme zu synthetisieren, die in der Stimme dieser Person spricht. Diese Technologie ist interessant, aber sie birgt ethische Risiken, und es ist wichtig, bei ihrer Anwendung Gesetze, Vorschriften und ethische Grundsätze zu beachten.

GPT-SoVITS: Es ist eine Kombination aus SoVITS (ein beliebtes Modell für Song-Synthese und Sprachumwandlung) und GPT Es handelt sich um ein Open-Source-Projekt für diese Technologie. Es behauptet, einen guten Klon-Effekt mit 1 Minute Sprache zu erreichen, und hat auch einige Unterstützung für chinesische Dialekte. Es ist derzeit eine der heißesten Lösungen zum Klonen von Stimmen in der Community.
OpenVoice: Durch MyShell.ai Open Source, das nicht nur Stimmen klont, sondern auch die Feinsteuerung der geklonten Stimmen ermöglicht, z. B. die Anpassung von Emotionen, Akzent und Intonation. Dies macht es in Szenarien nützlich, die Personalisierung und Ausdruckskraft erfordern, wie z. B. die Synchronisierung von Werbespots und mehrsprachigen virtuellen Assistenten.
Echtzeit-Voice-CloningDieses Projekt bietet eine grafische Benutzeroberfläche (GUI), die es auch technisch nicht versierten Benutzern relativ einfach macht, Experimente zum Klonen von Sprache durchzuführen. Es basiert auf dem SV2TTS Modelle, die vielleicht nicht so gut funktionieren wie die neuesten Modelle, aber die Benutzerfreundlichkeit übertreffen.
F5-TTSDieses Projekt führt die Diffusionstransformator (DiT)-Technologie für Zero-Shot Voice Cloning ein, was bedeutet, dass es möglich sein könnte, ein gewisses Maß an Stimmimitation oder -transformation ohne die Sprachdaten des Zielsprechers durchzuführen und die Emotionskontrolle zu unterstützen. Dies ist eine relativ neue Forschungsrichtung.
SpottdrosselEs ist auch ein früheres Open-Source-Projekt zum Klonen von Sprache, das viel Aufmerksamkeit erregt hat. Auch wenn es technisch von neueren Programmen überholt wurde, ist es immer noch informativ für das Verständnis der Entwicklung der Sprachklontechnologie.

Andere Tools von Interesse

Außerdem gibt es eine Reihe von Werkzeugen, die für jedes Programm einzigartig sind:

VoiceVoxEs ist hauptsächlich für die japanische Sprache, und es ist besonders gut bei der Erzeugung von Klängen im Sekundär- und Anime-Stil. Es ist sehr beliebt in der japanischen VTuber und Creative Community.
EmotiVoiceNetEaseYouDao Open Source, das sich auf emotionale Sprachsynthese konzentriert, kann Sprache mit einer Vielzahl von Emotionen wie Glück, Wut, Traurigkeit und Freude erzeugen.
MetaVoice-1BEin Open-Source-Modell mit 1B (Milliarde) Parametern bedeutet in der Regel eine größere Ausdruckskraft und höhere Sprachqualität, erfordert aber auch mehr Rechenressourcen.
So-VITS-SVCHauptsächlich für Singing Voice Conversion verwendet, die es ermöglicht, ein Lied mit der Stimme einer anderen Person zu singen, ist SoVITS Ein wichtiger Zweig der Technik.

Wie soll man wählen?

Nachdem Sie all dies gelesen haben, sind Sie vielleicht noch mehr verwirrt. Keine Sorge, hier ist eine einfache Idee für die Auswahl:

Regelmäßige Nutzer, schnelle Stimmen: Versuchen Sie es. TTS Maker Oder finden Sie heraus, was auf Edge-TTS von Online-Tools.
Entwickler, die in die Anwendung integriert werden sollen:
- Für hohe Qualität und Konsistenz zu einem günstigen Preis. Microsoft Azure TTS.
- Erforderlich sind eine chinesische Optimierung und eine geringe Latenzzeit. PaddleSpeech.
- Erfordert die größte Bandbreite an Sprachunterstützung. Coqui TTS.
- Möchte mit Sound + Soundscape-Ideen spielen. Bark.
- Vertrautheit mit TensorFlow Ökologie. TensorFlowTTS.
- Mehrsprachigkeit muss möglich sein. Fish Speech.
- Konzentration auf Dialogszenarien. ChatTTS.
Willst du Stimmenklonen spielen:
- Suche nach Ergebnissen und Gemeinschaftswärme: Die GPT-SoVITS vielleicht OpenVoice.
- Brauchen GUI, einfach zu versuchen. Real-Time-Voice-Cloning.
- Konzentration auf Spitzentechnologie. F5-TTS.
spezielle Anforderung:
- Japanische Nebenstimmen. VoiceVox.
- Reicher emotionaler Ausdruck. EmotiVoice.

Es ist wichtig zu beachten, dass Open-Source-Projekte in der Regel ein gewisses technisches Hintergrundwissen erfordern, um sie einzusetzen und zu nutzen, und dass die Ergebnisse möglicherweise auch eine eigene Fehlersuche und Optimierung erfordern. Kommerzielle Dienste hingegen bieten stabilere und benutzerfreundlichere Schnittstellen, verursachen aber auch Kosten.

Die TTS-Technologie entwickelt sich sehr schnell weiter, und es kommen ständig neue Modelle und Tools auf den Markt. Für welches Tool Sie sich entscheiden, hängt letztlich von Ihren spezifischen Bedürfnissen, Ihrem Budget und Ihren technischen Fähigkeiten ab. Wir hoffen, dass dieses Kompendium Ihnen hilft, den richtigen Ausgangspunkt in diesem sich schnell entwickelnden Bereich zu finden.

Zusammenfassung von Links zu verwandten Ressourcen

Um Ihnen die Suche zu erleichtern, finden Sie hier eine Zusammenstellung der offiziellen oder Codebase-Adressen für einige der in diesem Artikel erwähnten Tools:

TTS-Macher: https://ttsmaker.com/zh-cn (Online-Dienste)
Microsoft Azure TTS:: https://azure.microsoft.com/en-us/products/cognitive-services/text-to-speech/ (Dienstleistungen für Unternehmen)
PaddleSpeech: https://github.com/PaddlePaddle/PaddleSpeech (offener Quellcode)
VoiceVox: https://github.com/VOICEVOX/voicevox (offener Quellcode)
TensorFlowTTS: https://github.com/TensorSpeech/TensorFlowTTS (offener Quellcode)
Edge-TTShttps://github.com/rany2/edge-tts (Open-Source-Bibliothek)
ChatTTS: https://github.com/2noise/ChatTTS (offener Quellcode)
Saatgut-TTS:: Technische Berichte, Papiere, Bewertungsinstrumente (Kernmodell nicht vollständig quelloffen)
Fisch-Rede: https://github.com/fishaudio/fish-speech (offener Quellcode)
GPT-SoVITS: https://github.com/RVC-Boss/GPTSoVITS (offener Quellcode)
OpenVoice: https://github.com/myshell-ai/OpenVoice (offener Quellcode)
Rinde: https://github.com/suno-ai/bark (offener Quellcode)
Coqui TTS: https://github.com/coqui-ai/tts (offener Quellcode)
Echtzeit-Voice-Cloning: https://github.com/CorentinJ/Real-Time-Voice-Cloning (offener Quellcode)
F5-TTS: https://github.com/SWivid/F5-TTS (offener Quellcode)
EmotiVoice: https://github.com/netease-youdao/EmotiVoice (offener Quellcode)
MetaVoice-1B: https://github.com/metavoiceio/metavoice-src (offener Quellcode)
So-VITS-SVC: https://github.com/svc-develop-team/so-vits-svc (offener Quellcode)
Spottdrossel: https://github.com/babysor/MockingBird (offener Quellcode)
FUNAudioLLM-CosyVoice: https://github.com/FunAudioLLM/CosyVoice (offener Quellcode)
VoiceCraft: https://github.com/jasonppy/VoiceCraft (offener Quellcode)
Parler-TTS: https://github.com/huggingface/parler-tts (offener Quellcode)
MaskeGCT:: https://hf-mirror.com/amphion/MaskGCT (Open-Source-Spiegel)