Lancement national de la voix de conque, peut-être le meilleur produit chinois de doublage vocal
Il n'y a pas eu de production nationale pour le contenu de la production d'excellents produits de voice-over, soit vous ne pouvez utiliser que l'API, soit le produit est un modèle sonore correct qui ne fonctionne pas.
Par exemple, les pays d'outre-mer ElevenLabs Bien que l'anglais soit correct mais que le chinois soit vraiment convaincant, le principal problème du modèle open source est que la qualité du modèle est relativement médiocre, en particulier en ce qui concerne la qualité du son, le sens de l'actualité, les scènes mixtes multi-langues et l'expression des mots multi-sons et multi-sens sont imprécis, etc.
MiniMax a été mis en service il y a un mois. Conch AI version internationale, fonction de clonage de la seconde voix en ligne, lecture à haute voix en chinois et en anglais très efficace !La fonction de génération vocale a été mise en place sur la page domestique il y a quelques jours, et j'ai été vraiment surpris lorsque je l'ai essayée.Prise en charge de plus de 17 langues, contrôle précis de diverses expressions émotionnelles et centaines de bibliothèques de sons pour répondre à différents besoins..
Plus important encore, la qualité audio est vraiment élevée, sans les problèmes habituels de génération de son, et avec une option hautement personnalisable qui la rend différente lorsqu'elle est ajustée, même si la même tonalité est utilisée.
Jetons un coup d'œil à cette petite pièce que j'ai fabriquée, puis nous examinerons les effets des capacités de génération de parole de Conch, tant en termes de fonctionnalité que d'efficacité.
Options détaillées de personnalisation des fonctionnalités
Jetons un coup d'œil aux caractéristiques de Conch Voice, qui est vraiment puissant et détaillé. Conch dispose d'une vaste bibliothèque de sons prenant en charge plus de 17 langues.Chaque langue prend en charge un large éventail de tonalités, et vous pouvez choisir librement entre les voix masculines et féminines, ainsi que les âges..
Par exemple, notre script vidéo a besoin d'un homme âgé ayant le sens de la justice, ce qui est rapidement accessible grâce à ce filtre.

Il est également possible de personnaliser le son dans les moindres détails une fois qu'il a été sélectionné.
Tout d'abord, vous pouvez personnaliser l'émotion de la tonalité, y compris la joie, la tristesse, la colère et d'autres cinq ou six types d'émotions, par exemple, l'audio suivant montre les différentes performances émotionnelles de la tonalité des petites amies chaleureuses, vous pouvez clairement l'entendre, très naturel.
Ensuite, il y a la vitesse d'élocution, qui est très bonne à comprendre, plus la valeur est élevée, plus il parle vite, le volume est également très bon à comprendre, plus la valeur est élevée, plus il parle fort, le ton de la voix, que j'ai essayé d'expliquer grossièrement, peut être compris comme la valeur de la voix, plus elle est grande, plus elle est pointue, et plus elle est petite, plus elle est douce.
En contrôlant ces quatre options de personnalisation, nousIl peut être accordé de manière à produire des sons très différents, même si vous choisissez la même tonalité, ce qui est très amusant à essayer !.
Une autre astuce consiste à ajouter '' là où vous avez besoin d'ajouter une pause, ce type de marqueurs peut faire en sorte que le modèle génère une pause sonore pendant un temps spécifié, si vous avez ce type de besoin, vous pouvez essayer, la conque elle-même peut également juger de la pause nécessaire.

Des effets de génération puissants
En plus de la richesse du timbre, l'ontologie du modèle de conque est également très puissante, nous avons utilisé quelques TTS open source et nous savons que de nombreux modèles présentent les problèmes les plus courants, à savoir des problèmes de qualité du son, une impression de courant, une certaine distorsion, certains ajouts délibérés, d'autres problèmes de formation.
J'ai trouvé ici un paragraphe relativement long que j'ai écrit il y a quelque temps pour qu'il génère un peu de dictée.Vous pouvez écouter la qualité du son qui est très bonne et les pauses sont naturelles et il ajoute de l'emphase quand c'est nécessaire..
Un autre problème courant de la modélisation de la parole est la génération de contenus très longs.De nombreux modèles prennent en charge des textes très courts, tandis que Conch prend en charge jusqu'à 10 000 caractères.En fait, c'est la longueur des manuscrits plus longs et des romans à chapitres, et c'est tout à fait adéquat.
Il y a quelque temps, j'ai trouvé un manuscrit de Wu Enda de deux mille mots qu'il a très bien lu et sans problème, la vitesse de génération est également très rapide, il peut être généré pendant la prévisualisation, ce qui permet de gagner beaucoup de temps !
Le dernier problème le plus délicat est celui de la scène mixte multilingue et de la scène polyphonique, certains modèles vocaux relativement bons ont également souvent des problèmes, en particulier lorsque l'IA génère un texte test, un paragraphe contenant cinq langues différentes, la conque se lit parfaitement, c'est vraiment trop fort.
Je suis très heureux de vous rencontrer. Ich liebe Musik und Kunst. Cela me rend très heureux. ¡Buenos días amigos ! allons déjeuner.
Il s'agit d'une scène polyphonique, et il détermine avec précision la prononciation de "walk" (háng), "first" (xíng), "bank" (háng) et "trip" (xíng) dans leurs différentes positions, et gère très bien les énoncés polyphoniques très complexes.
Je vais prendre de l'avance aujourd'hui et m'arrêter lorsque j'aurai franchi une ligne. Je dois aller à la banque demain, donc si je suis bloqué dans un embouteillage, mon emploi du temps risque d'en être affecté.
C'est tout pour l'introduction, vous pouvez vous amuser davantage avec et l'utiliser dans les endroits suivants :
Conch Voice : https://hailuoai.com/audioHailuo
国内API服务:https://platform.minimaxi.com/document/T2A%20V2
L'année dernière, j'ai toujours demandé à mes amis quand il y aurait un produit de voix off aussi puissant qu'ElevenLabs en Chine. Aujourd'hui, nous avons obtenu des résultats encore meilleurs qu'ElevenLabs et, en 24 ans, nous avons mis au point des modèles qui rivalisent avec les meilleurs de leur catégorie, de l'image à la vidéo en passant par l'audio, alors j'espère que les fournisseurs nationaux d'IA nous réserveront d'autres surprises cette année.
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...