Laisser le texte parler de lui-même : quelle est la meilleure façon de choisir parmi l'éventail vertigineux d'outils TTS ?

Aujourd'hui, nous allons parler d'une technologie de plus en plus populaire : la synthèse vocale, également connue sous le nom de TTS (Text-to-Speech). En termes simples, il s'agit de laisser l'ordinateur lire le texte, et de le lire comme un discours humain. Ces dernières années, du doublage de courtes vidéos à la production de livres audio, en passant par le service client intelligent et les assistants virtuels, la figure du TTS est omniprésente. Il existe également une infinité d'outils sur le marché, certains gratuits, d'autres payants, certains open source, d'autres fermés ; il y a des services en ligne simples et faciles à utiliser, et il y a aussi des bibliothèques de développement qui requièrent un certain seuil technique. Face à tant de choix, comment l'utilisateur ou le développeur moyen peut-il choisir celui qui lui convient ?

让文字开口说话:眼花缭乱的 TTS 工具,到底该怎么选?

Ne vous inquiétez pas, nous allons aujourd'hui examiner quelques-uns des outils TTS les plus populaires et les plus représentatifs du marché, et voir ce dont ils sont capables et où ils peuvent être utilisés.

 

Facile à utiliser, type prêt à l'emploi

Pour les utilisateurs qui ne veulent pas jeter du code et qui souhaitent simplement générer des discours rapidement, un certain nombre de services en ligne et d'outils packagés sont préférables.

  • TTS Maker: Il s'agit d'un outil en ligne gratuit (disponible dans le commerce). L'avantage est qu'il prend en charge un grand nombre de langues, plus de 50, et inclut même des dialectes comme le nord-est et le cantonais, avec une large sélection de tons. C'est un bon point de départ pour les créateurs de vidéos courtes, de podcasts ou pour les créateurs qui ont besoin de contenu multilingue. Toutefois, le modèle technique spécifique qui le sous-tend n'est pas clairement indiqué, et il se peut que le son ne soit pas aussi naturel et contrôlable que celui d'outils plus professionnels.
  • Edge-TTSPython : Il ne s'agit pas vraiment d'un service autonome, mais quelqu'un a encapsulé la fonctionnalité TTS intégrée dans le navigateur Edge de Microsoft dans une bibliothèque Python. L'avantage est que c'est facile à appeler et gratuit, et que la qualité de la voix est assez bonne, après tout, c'est la technologie de Microsoft qui est derrière. De nombreuses langues et tonalités sont également prises en charge (plus de 40 langues, plus de 300 tonalités). L'inconvénient est qu'il repose sur l'interface de Microsoft, que sa stabilité et sa disponibilité à long terme peuvent être variables et que les possibilités de personnalisation sont limitées. Convient aux applications légères ou aux projets personnels pour une intégration rapide.

 

Géants des affaires et services de qualité professionnelle

Si vous avez besoin d'une qualité vocale irréprochable, d'une grande stabilité et d'une multitude d'options de personnalisation, un service commercial est généralement la meilleure option, mais bien sûr, cela signifie aussi qu'il faut payer.

  • Microsoft Azure TTSIl s'agit de l'une des références reconnues dans l'industrie. Basée sur la technologie des réseaux neuronaux, la synthèse vocale est si naturelle et fluide qu'elle est presque impossible à reproduire. Elle offre de nombreuses options de contrôle des émotions et la possibilité d'affiner la prononciation, le débit, les pauses, etc. grâce au SSML (Speech Synthesis Markup Language). Avec la prise en charge de plus de 140 langues et 400 tonalités, c'est le premier choix pour les applications d'entreprise, les livres audio de haute qualité et les assistants virtuels professionnels. Et bien sûr, le prix est celui d'une entreprise.
  • Semences-TTSByteDance : Il s'agit d'une technologie développée par ByteDance qui, à ce stade, ne semble pas avoir entièrement ouvert son modèle de base à la concurrence. D'après le rapport technique, elle se caractérise par la possibilité d'éditer le contenu vocal et de contrôler finement la vitesse d'élocution, ce qui semble très adapté à la post-production de livres audio ou à des scénarios dans lesquels le contenu vocal doit être affiné. Actuellement, il est principalement destiné au chinois, à la forme spécifique du produit et à l'accès à la version officielle de suivi.
  • Moteur vocal (d'OpenAI ?)L'article original mentionne ce nom, mais il convient de noter que l'OpenAI ne semble pas avoir publié officiellement le nom de ce système. Voice Engine Il peut exister sur le marché des implémentations tierces basées sur la technologie d'OpenAI (par exemple, GPT) ou se référer à ses projets de recherche internes. Il peut exister sur le marché des implémentations tierces basées sur la technologie d'OpenAI (par exemple, GPT), ou se référer à ses projets de recherche internes.OpenAI est forte en technologie vocale, avec beaucoup d'attention portée à ses capacités de clonage et de génération vocale, mais il n'y a pas encore de service explicitement appelé Voice Engine Les produits publics sont disponibles pour une utilisation directe par tout le monde, et les sources d'information doivent être contrôlées lorsqu'elles sont utilisées.

 

La puissance des communautés open source : liberté et personnalisation

Pour les développeurs et les chercheurs, les outils TTS open source offrent une plus grande liberté et une plus grande marge de manœuvre pour la personnalisation. Vous pouvez mieux comprendre les principes du modèle, le modifier et le former en fonction de vos besoins.

  • Discours de la pagaieBaidu Flying Paddle : un projet open source de Baidu Flying Paddle, spécialement optimisé pour la prise en charge de la langue chinoise. L'un de ses points forts est la prise en charge de la synthèse en continu, ce qui signifie qu'elle peut être générée pendant la lecture, avec une faible latence, ce qui convient parfaitement aux besoins de réponse en temps réel à la scène, tels que la diffusion vocale en temps réel, le service client intelligent. Il est basé sur FastSpeech2 répondre en chantant HiFiGAN et d'autres modèles courants.
  • Coqui TTSIl s'agit d'un projet open source très actif, anciennement connu sous le nom de Mozilla TTS, dont le principal avantage est de disposer d'une vaste bibliothèque de modèles pré-entraînés prenant en charge plus de 1100 langues (sur la base de son modèle XTTS), ce qui est très utile pour les applications qui doivent traiter plusieurs langues, en particulier les langues à faibles ressources. La communauté est active et bien documentée.
  • Écorce: Par Suno AI (connu pour sa génération de musique) a été développé, et ce qui le rend encore plus spécial, c'est qu'il génère non seulement de la parole, mais aussi des sons non vocaux, tels que des clips musicaux, des bruits de fond, des rires, des cris, etc. et qu'il prend en charge le mélange de plusieurs langues. Cela lui confère un potentiel unique pour une utilisation dans des projets audio créatifs, dans la conception sonore de jeux et dans d'autres domaines. Il est basé sur Transformateur Architecture.
  • TensorFlowTTS: Comme son nom l'indique, il s'agit d'un ensemble d'outils TTS basé sur TensorFlow. Il prend en charge une variété de modèles TTS populaires tels que Tacotron 2,FastSpeech2 etc., en liaison avec MelGAN et l'utilisation du vocodeur. Il s'agit d'une excellente option pour les développeurs familiarisés avec l'écosystème TensorFlow et ceux qui mènent des recherches universitaires afin de faciliter l'expérimentation de modèles et le développement personnalisé.
  • Discours sur les poissonsCe projet se concentre sur la génération multilingue mixte, telle que la commutation naturelle entre le chinois, l'anglais et le japonais dans une seule phrase. Il prend en charge VITS2,Bert-VITS2 et d'autres architectures plus récentes. Intéressant pour la production de scénarios tels que les podcasts multilingues, le doublage de films et de programmes télévisés, etc.
  • ChatTTSLe modèle de synthèse vocale est un modèle open source optimisé spécifiquement pour les scénarios de dialogue. Il donne de bons résultats dans les dialogues en anglais et en chinois, en générant un discours avec des caractéristiques émotionnelles naturelles (par exemple, le rire, l'hésitation, les pauses dans le ton), ce qui rend les dialogues synthétisés plus réalistes et plus interactifs. Il est annoncé qu'il a été pré-entraîné avec 40 000 heures de données.

 

Clonage de voix : avoir une voix exclusive

La technologie du clonage vocal permet d'utiliser une petite quantité (parfois seulement quelques secondes ou une minute) d'un échantillon de la voix d'une personne pour synthétiser une voix qui parle comme cette personne. Cette technologie est intéressante, mais elle présente des risques éthiques, et il est important de respecter les lois, les réglementations et l'éthique lors de son utilisation.

  • GPT-SoVITS: Il s'agit d'une combinaison de SoVITS (un modèle populaire pour la synthèse de chansons et la conversion de la parole) et GPT Il s'agit d'un projet open-source pour cette technologie. Il prétend obtenir un bon effet de clonage avec une minute de parole et prend également en charge les dialectes chinois. Il s'agit actuellement de l'une des solutions de clonage vocal les plus populaires au sein de la communauté.
  • OpenVoice: Par MyShell.ai Open source qui ne se contente pas de cloner des voix, mais qui permet également de contrôler finement les voix clonées, en ajustant par exemple l'émotion, l'accent et l'intonation. Il est donc utile dans les scénarios qui requièrent personnalisation et expressivité, tels que le doublage de publicités et les assistants virtuels multilingues.
  • Clonage vocal en temps réel: Ce projet fournit une interface utilisateur graphique (GUI) qui permet à des utilisateurs non techniques d'effectuer des expériences de clonage de la parole de manière relativement aisée. Il est basé sur le SV2TTS qui ne fonctionnent peut-être pas aussi bien que les modèles les plus récents, mais qui sont plus faciles à utiliser.
  • F5-TTSCe projet introduit la technologie du transformateur de diffusion (DiT) pour le clonage de la voix à partir de zéro, ce qui signifie qu'il peut être possible d'effectuer un certain degré d'imitation ou de transformation de la voix sans les données vocales du locuteur cible, et de prendre en charge le contrôle de l'émotion. Il s'agit d'une orientation de recherche relativement nouvelle.
  • Oiseau moqueurIl s'agit également d'un ancien projet de clonage de la parole à source ouverte qui avait attiré beaucoup d'attention. Bien qu'il ait été techniquement dépassé par des programmes plus récents, il reste instructif pour comprendre le développement de la technologie de clonage de la parole.

 

Autres outils intéressants

Il existe également un certain nombre d'outils qui sont propres à chacun d'entre eux :

  • VoiceVoxIl s'adresse principalement aux Japonais et est particulièrement efficace pour générer des tons secondaires et des tons de style anime. Il est très populaire dans la communauté des VTubeurs et des Créateurs japonais.
  • EmotiVoiceNetEaseYouDao open source, axé sur la synthèse vocale émotionnelle, peut générer des discours avec une variété d'émotions telles que la joie, la colère, la tristesse et l'allégresse.
  • MetaVoice-1BUn modèle à source ouverte avec 1B (milliard) de paramètres implique généralement un plus grand pouvoir d'expression et une meilleure qualité de la parole, mais nécessite également plus de ressources informatiques.
  • So-VITS-SVCLa conversion vocale : Principalement utilisée pour la conversion vocale, qui permet à une chanson d'être chantée avec la voix d'une autre personne. SoVITS Une branche importante de la technologie.

 

Comment choisir ?

Après avoir lu tout cela, vous êtes peut-être encore plus perplexe. Ne vous inquiétez pas, voici une idée simple pour vous aider à choisir :

  • Utilisateurs réguliers, voix rapides: Essayez-le. TTS Maker Ou découvrez ce qui est basé sur Edge-TTS d'outils en ligne.
  • Développeurs, à intégrer dans l'application:
    • Pour une qualité et une cohérence élevées dans le cadre d'un budget. Microsoft Azure TTS.
    • Nécessite une optimisation chinoise et une faible latence. PaddleSpeech.
    • Nécessite le plus grand nombre de langues possibles. Coqui TTS.
    • Envie de jouer avec des idées de sons et d'ambiances sonores. Bark.
    • familiarité avec TensorFlow L'écologie. TensorFlowTTS.
    • Nécessité de gérer le mélange de plusieurs langues. Fish Speech.
    • Se concentrer sur les scénarios de dialogue. ChatTTS.
  • Envie de jouer au clonage de voix:
    • Poursuite des résultats et chaleur communautaire : la GPT-SoVITS peut-être OpenVoice.
    • Besoin d'une interface graphique, simple à essayer. Real-Time-Voice-Cloning.
    • Se concentrer sur les technologies de pointe. F5-TTS.
  • exigence particulière:
    • Voix secondaires japonaises. VoiceVox.
    • Une expression émotionnelle riche. EmotiVoice.

Il est important de noter que le déploiement et l'utilisation des projets open source nécessitent généralement un certain bagage technique et que les résultats peuvent également nécessiter un débogage et une optimisation. Les services commerciaux, quant à eux, fournissent des interfaces plus stables et plus faciles à utiliser, mais entraînent des coûts.

La technologie TTS évolue très rapidement, avec de nouveaux modèles et outils qui sortent en permanence. Le choix de l'outil dépend en fin de compte de vos besoins spécifiques, de votre budget et de vos compétences techniques. Nous espérons que ce recueil vous aidera à trouver le bon point de départ dans ce domaine qui évolue rapidement.

 

Résumé des liens de ressources connexes

Pour vous permettre de les trouver plus facilement, voici une compilation des adresses officielles ou de la base de code de certains des outils mentionnés dans l'article :

  1. TTS Maker: https://ttsmaker.com/zh-cn (services en ligne)
  2. Microsoft Azure TTS: : https://azure.microsoft.com/en-us/products/cognitive-services/text-to-speech/ (services aux entreprises)
  3. Discours de la pagaie: https://github.com/PaddlePaddle/PaddleSpeech (open source)
  4. VoiceVox: https://github.com/VOICEVOX/voicevox (open source)
  5. TensorFlowTTS: https://github.com/TensorSpeech/TensorFlowTTS (open source)
  6. Edge-TTS: https://github.com/rany2/edge-tts (bibliothèque open source)
  7. ChatTTS: https://github.com/2noise/ChatTTS (open source)
  8. Semences-TTS: Rapports techniques, articles, outils d'évaluation (le modèle de base n'est pas entièrement ouvert)
  9. Discours sur les poissons: https://github.com/fishaudio/fish-speech (open source)
  10. GPT-SoVITS: https://github.com/RVC-Boss/GPTSoVITS (open source)
  11. OpenVoice: https://github.com/myshell-ai/OpenVoice (open source)
  12. Écorce: https://github.com/suno-ai/bark (open source)
  13. Coqui TTS: https://github.com/coqui-ai/tts (open source)
  14. Clonage vocal en temps réel: https://github.com/CorentinJ/Real-Time-Voice-Cloning (open source)
  15. F5-TTS: https://github.com/SWivid/F5-TTS (open source)
  16. EmotiVoice: https://github.com/netease-youdao/EmotiVoice (open source)
  17. MetaVoice-1B: https://github.com/metavoiceio/metavoice-src (open source)
  18. So-VITS-SVC: https://github.com/svc-develop-team/so-vits-svc (open source)
  19. Oiseau moqueur: https://github.com/babysor/MockingBird (open source)
  20. FUNAudioLLM-CosyVoice: https://github.com/FunAudioLLM/CosyVoice (open source)
  21. VoiceCraft: https://github.com/jasonppy/VoiceCraft (open source)
  22. Parler-TTS: https://github.com/huggingface/parler-tts (open source)
  23. MasqueGCT: : https://hf-mirror.com/amphion/MaskGCT (miroirs open source)
© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...