Amazon lance BASE TTS, le plus grand modèle d'IA de synthèse vocale disponible, montrant ses "capacités potentielles".

Les chercheurs d'Amazon ont formé le plus grand modèle de conversion texte-parole à ce jour, qui présenterait des qualités "latentes" permettant une sortie vocale plus naturelle des phrases complexes. Cette avancée pourrait être la clé de l'abandon de l'aspect artificiel dans ce domaine de la technologie.
La croissance et l'amélioration de ces modèles se sont poursuivies, et les chercheurs s'attendent spécifiquement à voir le saut de capacité que nous avons observé lorsque le corpus de modèles linguistiques atteint un certain niveau. Pour une raison inconnue, lorsque les modèles linguistiques longs (LLM) dépassent un certain niveau, ils deviennent plus puissants et plus flexibles, capables de prendre en charge des tâches non formées.
Cela ne signifie pas que les modèles ont acquis une conscience de soi ou d'autres attributs similaires, mais plutôt qu'à partir d'un certain point de transcendance, leurs performances dans des tâches d'IA conversationnelle spécifiques ont affiché une forte tendance à la hausse. L'équipe Amazon Artificial General Intelligence (AGI) - dont l'objectif n'est pas un secret - pensait qu'il en irait de même avec l'évolution des modèles de synthèse vocale, et ses recherches montrent que c'est le cas.
Le nouveau modèle est appelé [Conversion adaptative à grande échelle du texte à la parole en continu avec des capacités potentiellesLa plus grande version du modèle utilise 100 000 heures de matériel vocal du domaine public, dont 90% en anglais, le reste comprenant l'allemand, le néerlandais et l'espagnol.
Avec 9,8 millions de paramètres, BASE-large est le plus grand modèle du domaine. À titre de comparaison, ils ont également entraîné des modèles avec 400 millions et 150 millions de paramètres basés respectivement sur 10 000 et 1 000 heures de matériel audio. La raison en est que si un modèle présente des comportements potentiels et pas l'autre, il est possible d'identifier les zones critiques où ces comportements commencent à émerger.
Les résultats ont montré que le modèle de taille moyenne a fait le saut de compétence que l'équipe avait espéré, non seulement dans la qualité du discours ordinaire (bien que les scores se soient améliorés, mais seulement légèrement), mais aussi dans une gamme de compétences potentielles que l'équipe a observées et évaluées. Voici quelques exemples de textes difficiles mentionnés dans l'article :
nom composé (grammaire): Les Beckham ont décidé de louer une charmante maison de vacances traditionnelle en pierre à la campagne.
besoins émotionnelsLe président de la Commission européenne : "Oh, mon Dieu ! On va vraiment aux Maldives ? C'est incroyable !" , s'exclame Jenny en sautillant d'excitation.
vocabulaire des langues étrangèresM. Henry est réputé pour ses superbes préparations culinaires et a orchestré un festin de sept plats, dont chacun est un mets rare.
Paléolinguistique(comme dans la partie non textuelle déchiffrable) : "Chut, Lucy, sois tranquille, nous ne devons pas réveiller ton frère", chuchota Tom, tandis qu'ils marchaient prudemment dans la chambre d'enfant.
un signe de ponctuationPapa et maman sont inquiets. # Family First".
Comment poser une questionLes ministres trouveront-ils des réponses à temps après toutes ces péripéties ?
Complexité syntaxiqueDe Moya, qui a récemment reçu un prix pour l'ensemble de sa carrière, a joué dans un film en 2022 qui a été un succès au box-office malgré des critiques mitigées.
Ces phrases ont été soigneusement conçues pour inclure les tâches difficiles que sont l'analyse de phrases structurées complexes, l'application d'un accent phrastique à de longs noms composés, la production de prononciations émotives ou chuchotées, ou la prononciation correcte de mots ou de ponctuations dans des langues étrangères telles que "qi" ou "@" - toutes des tâches pour lesquelles BASE TTS n'est pas explicitement entraîné", ont déclaré les auteurs. Prononcer correctement les mots ou la ponctuation sont des tâches difficiles - des tâches pour lesquelles BASE TTS n'est pas explicitement entraîné", ont déclaré les auteurs.
Ces caractéristiques frustrent généralement les moteurs de conversion texte-parole, qui peuvent mal prononcer les mots, les omettre, utiliser une intonation inappropriée ou commettre d'autres erreurs. Bien que BASE TTS rencontre également des difficultés, sa puissance de traitement dépasse de loin celle des modèles contemporains tels que Tortoise et VALL-E.
Le site officiel fournit de nombreux exemples de la manière dont ces textes difficiles peuvent être lus à haute voix de façon naturelle et fluide.Découvrez-le sur le site web qu'ils ont créé pour le modèle.] Bien sûr, ces exemples ont été examinés par des chercheurs et ont donc dû être triés sur le volet, mais c'est tout de même impressionnant. Voici quelques exemples au cas où vous ne voudriez pas cliquer :
Comme les trois modèles BASE TTS partagent la même architecture, la taille des modèles et l'adéquation de leurs données d'entraînement sont clairement la raison pour laquelle les modèles sont capables de gérer la complexité décrite ci-dessus. Il convient de noter qu'il s'agit actuellement d'un modèle expérimental et d'un flux de traitement, et non d'un modèle commercial ou d'un produit similaire. Des recherches complémentaires devront déterminer le point de basculement à partir duquel les capacités potentielles sont démontrées et comment former et déployer efficacement le modèle final.
Il est intéressant de noter que le modèle peut être "streamé", comme son nom l'indique, ce qui signifie qu'il n'a pas besoin de générer toute la phrase en une seule fois, mais qu'il peut la générer de manière incrémentale à un débit binaire relativement faible. L'équipe tente également d'intégrer des métadonnées vocales telles que l'humeur et le rythme dans un flux séparé à faible bande passante, qui pourrait être lu en synchronisation avec le son normal.
Il semble que la modélisation de la synthèse vocale soit sur le point de faire une percée en 2024 - juste à temps pour les élections ! Toutefois, l'utilité de cette technologie est indéniable, en particulier lorsqu'il s'agit d'améliorer l'accessibilité. Il est important de noter que l'équipe a choisi de ne pas divulguer le code source du modèle et d'autres données, étant donné le risque que le modèle puisse être exploité par des personnes non averties. Cependant, tôt ou tard, la vérité éclatera.
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...