Lancement national de la voix de conque, peut-être le meilleur produit chinois de doublage vocal

Nouvelles de l'IAPosté il y a 7 mois Cercle de partage de l'IA

8.8K 00

Il n'y a pas eu de production nationale pour le contenu de la production d'excellents produits de voice-over, soit vous ne pouvez utiliser que l'API, soit le produit est un modèle sonore correct qui ne fonctionne pas.

Par exemple, les pays d'outre-mer ElevenLabs Bien que l'anglais soit correct mais que le chinois soit vraiment convaincant, le principal problème du modèle open source est que la qualité du modèle est relativement médiocre, en particulier en ce qui concerne la qualité du son, le sens de l'actualité, les scènes mixtes multi-langues et l'expression des mots multi-sons et multi-sens sont imprécis, etc.

MiniMax a été mis en service il y a un mois. Conch AI version internationale, fonction de clonage de la seconde voix en ligne, lecture à haute voix en chinois et en anglais très efficace !La fonction de génération vocale a été mise en place sur la page domestique il y a quelques jours, et j'ai été vraiment surpris lorsque je l'ai essayée.Prise en charge de plus de 17 langues, contrôle précis de diverses expressions émotionnelles et centaines de bibliothèques de sons pour répondre à différents besoins..

Plus important encore, la qualité audio est vraiment élevée, sans les problèmes habituels de génération de son, et avec une option hautement personnalisable qui la rend différente lorsqu'elle est ajustée, même si la même tonalité est utilisée.

Jetons un coup d'œil à cette petite pièce que j'ai fabriquée, puis nous examinerons les effets des capacités de génération de parole de Conch, tant en termes de fonctionnalité que d'efficacité.

Options détaillées de personnalisation des fonctionnalités

Jetons un coup d'œil aux caractéristiques de Conch Voice, qui est vraiment puissant et détaillé. Conch dispose d'une vaste bibliothèque de sons prenant en charge plus de 17 langues.Chaque langue prend en charge un large éventail de tonalités, et vous pouvez choisir librement entre les voix masculines et féminines, ainsi que les âges..

Par exemple, notre script vidéo a besoin d'un homme âgé ayant le sens de la justice, ce qui est rapidement accessible grâce à ce filtre.

Il est également possible de personnaliser le son dans les moindres détails une fois qu'il a été sélectionné.

Tout d'abord, vous pouvez personnaliser l'émotion de la tonalité, y compris la joie, la tristesse, la colère et d'autres cinq ou six types d'émotions, par exemple, l'audio suivant montre les différentes performances émotionnelles de la tonalité des petites amies chaleureuses, vous pouvez clairement l'entendre, très naturel.

Ensuite, il y a la vitesse d'élocution, qui est très bonne à comprendre, plus la valeur est élevée, plus il parle vite, le volume est également très bon à comprendre, plus la valeur est élevée, plus il parle fort, le ton de la voix, que j'ai essayé d'expliquer grossièrement, peut être compris comme la valeur de la voix, plus elle est grande, plus elle est pointue, et plus elle est petite, plus elle est douce.

En contrôlant ces quatre options de personnalisation, nousIl peut être accordé de manière à produire des sons très différents, même si vous choisissez la même tonalité, ce qui est très amusant à essayer !.

Une autre astuce consiste à ajouter '' là où vous avez besoin d'ajouter une pause, ce type de marqueurs peut faire en sorte que le modèle génère une pause sonore pendant un temps spécifié, si vous avez ce type de besoin, vous pouvez essayer, la conque elle-même peut également juger de la pause nécessaire.

Des effets de génération puissants

En plus de la richesse du timbre, l'ontologie du modèle de conque est également très puissante, nous avons utilisé quelques TTS open source et nous savons que de nombreux modèles présentent les problèmes les plus courants, à savoir des problèmes de qualité du son, une impression de courant, une certaine distorsion, certains ajouts délibérés, d'autres problèmes de formation.

J'ai trouvé ici un paragraphe relativement long que j'ai écrit il y a quelque temps pour qu'il génère un peu de dictée.Vous pouvez écouter la qualité du son qui est très bonne et les pauses sont naturelles et il ajoute de l'emphase quand c'est nécessaire..

Un autre problème courant de la modélisation de la parole est la génération de contenus très longs.De nombreux modèles prennent en charge des textes très courts, tandis que Conch prend en charge jusqu'à 10 000 caractères.En fait, c'est la longueur des manuscrits plus longs et des romans à chapitres, et c'est tout à fait adéquat.

Il y a quelque temps, j'ai trouvé un manuscrit de Wu Enda de deux mille mots qu'il a très bien lu et sans problème, la vitesse de génération est également très rapide, il peut être généré pendant la prévisualisation, ce qui permet de gagner beaucoup de temps !

Le dernier problème le plus délicat est celui de la scène mixte multilingue et de la scène polyphonique, certains modèles vocaux relativement bons ont également souvent des problèmes, en particulier lorsque l'IA génère un texte test, un paragraphe contenant cinq langues différentes, la conque se lit parfaitement, c'est vraiment trop fort.

Je suis très heureux de vous rencontrer. Ich liebe Musik und Kunst. Cela me rend très heureux. ¡Buenos días amigos ! allons déjeuner.

Il s'agit d'une scène polyphonique, et il détermine avec précision la prononciation de "walk" (háng), "first" (xíng), "bank" (háng) et "trip" (xíng) dans leurs différentes positions, et gère très bien les énoncés polyphoniques très complexes.

Je vais prendre de l'avance aujourd'hui et m'arrêter lorsque j'aurai franchi une ligne. Je dois aller à la banque demain, donc si je suis bloqué dans un embouteillage, mon emploi du temps risque d'en être affecté.

C'est tout pour l'introduction, vous pouvez vous amuser davantage avec et l'utiliser dans les endroits suivants :

Conch Voice : https://hailuoai.com/audioHailuo

国内API服务：https://platform.minimaxi.com/document/T2A%20V2

L'année dernière, j'ai toujours demandé à mes amis quand il y aurait un produit de voix off aussi puissant qu'ElevenLabs en Chine. Aujourd'hui, nous avons obtenu des résultats encore meilleurs qu'ElevenLabs et, en 24 ans, nous avons mis au point des modèles qui rivalisent avec les meilleurs de leur catégorie, de l'image à la vidéo en passant par l'audio, alors j'espère que les fournisseurs nationaux d'IA nous réserveront d'autres surprises cette année.

Nouvelles de l'IA

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

OpenAI lance Operator, la première intelligence de niveau L3 : l'ouverture d'une nouvelle ère d'interaction homme-machine

Nouvelles de l'IA

Il y a 7 mois

09.6K

L'ANASE lance des lignes directrices sur la gouvernance de l'IA, mais les experts ont encore du mal à les mettre en œuvre.

Nouvelles de l'IA

il y a 2 ans

09K

Lancement officiel des agents intelligents Copilot dans SharePoint

Nouvelles de l'IA

Il y a 9 mois

07.9K

升级版Claude 3.5 Sonnet中文基准测评出炉！代码能力超GPT-4o，高阶推理不及o1

La mise à jour de l'évaluation comparative de Claude 3.5 Sonnet Chinese est disponible ! La capacité de codage dépasse le GPT-4o, le raisonnement d'ordre supérieur n'est pas aussi bon que l'o1

Nouvelles de l'IA

Il y a 10 mois

011.5K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

Lancement national de la voix de conque, peut-être le meilleur produit chinois de doublage vocal

Options détaillées de personnalisation des fonctionnalités

Des effets de génération puissants

Le grand modèle vocal en temps réel de bout en bout de Beanbag est en ligne ! Le QI et le QE sont tous deux en ligne, et le dialogue vocal chinois est en train de s'effondrer !

Prise en main de Trae, l'éditeur d'intelligence artificielle qui sert de référence à Cursor

Articles connexes

OpenAI lance Operator, la première intelligence de niveau L3 : l'ouverture d'une nouvelle ère d'interaction homme-machine

L'ANASE lance des lignes directrices sur la gouvernance de l'IA, mais les experts ont encore du mal à les mettre en œuvre.

Lancement officiel des agents intelligents Copilot dans SharePoint

La mise à jour de l'évaluation comparative de Claude 3.5 Sonnet Chinese est disponible ! La capacité de codage dépasse le GPT-4o, le raisonnement d'ordre supérieur n'est pas aussi bon que l'o1

Pas de commentaires

Dernières collections

Derniers articles

Lancement national de la voix de conque, peut-être le meilleur produit chinois de doublage vocal

Options détaillées de personnalisation des fonctionnalités

Des effets de génération puissants

Le grand modèle vocal en temps réel de bout en bout de Beanbag est en ligne ! Le QI et le QE sont tous deux en ligne, et le dialogue vocal chinois est en train de s'effondrer !

Prise en main de Trae, l'éditeur d'intelligence artificielle qui sert de référence à Cursor

Articles connexes

OpenAI lance Operator, la première intelligence de niveau L3 : l'ouverture d'une nouvelle ère d'interaction homme-machine

L'ANASE lance des lignes directrices sur la gouvernance de l'IA, mais les experts ont encore du mal à les mettre en œuvre.

Lancement officiel des agents intelligents Copilot dans SharePoint

La mise à jour de l'évaluation comparative de Claude 3.5 Sonnet Chinese est disponible ! La capacité de codage dépasse le GPT-4o, le raisonnement d'ordre supérieur n'est pas aussi bon que l'o1

Pas de commentaires

Outils d'IA sélectionnés

Dernières collections

Derniers articles