"Clonage en un clic : la nouvelle version de GPT-SoVITS V2 permet à votre voix de s'exprimer librement !

Nouvelles de l'IAMise à jour il y a 11 mois Cercle de partage de l'IA
2.6K 00

Avec le développement rapide de la technologie de l'intelligence artificielle, la technologie de clonage de la voix a également fait une nouvelle percée. La deuxième génération de GPT-SoVITS, développée conjointement par le fondateur du changeur de voix RVC "Flowers don't cry" et Rcell, le développeur de la technologie de conversion de tonalité de l'IA Sovits, a été officiellement lancée. Cet outil avancé de clonage de voix et de synthèse vocale simplifie non seulement le processus d'opération, mais peut également cloner rapidement une voix réaliste avec un très petit nombre d'échantillons de voix.

Points forts :

  1. Clonage sonore de haute qualitéLa deuxième génération de GPT-SoVITS produit un son plus naturel et plus doux lors du traitement d'un son de faible qualité.
  2. Prise en charge multilingueSynthèse multilingue des émotions : prend en charge la synthèse multilingue des émotions en chinois, en anglais, en japonais, en coréen et en cantonais.
  3. TTS à zéro échantillon et TTS à peu d'échantillonsLe jeu d'entraînement du mode bas a été étendu à 5 000 heures, ce qui a permis d'améliorer considérablement les performances de l'échantillon zéro, avec des tonalités plus réalistes et moins d'ensembles de données.
  4. Outils d'intégrationL'intégration d'outils tels que UVR5, notamment la séparation de l'accompagnement vocal, le découpage de la parole, la réduction du bruit, l'ASR du chinois et l'annotation du texte, simplifie le processus de création d'ensembles de données et de modèles d'entraînement.
  5. Texte frontal optimiséLe chinois et l'anglais de deuxième génération intègrent une optimisation de la polyphonie afin d'améliorer la précision du traitement des textes.

Dernière mise à jour :

  1. Amélioration de la qualité de la synthèse vocaleLa version V2 optimise l'audio de référence de faible qualité (en particulier l'audio provenant d'Internet, dont les hautes fréquences manquent cruellement et dont le son est étouffé) pour produire une meilleure qualité sonore.
  2. Ensemble de formation étenduLe jeu d'entraînement est étendu à 5000 heures, ce qui améliore les performances de l'échantillon zéro pour des tonalités plus réalistes.
  3. Ajouter un support linguistiqueSynthèse multilingue : La synthèse multilingue entre cinq langues est désormais prise en charge, notamment le chinois, le japonais, l'anglais, le coréen et le cantonais.
  4. Amélioration de l'interface texteLa version V2 ajoute l'optimisation de la polyphonie en anglais pour améliorer la précision du traitement des textes.
  5. nouvelle fonctionnalitéAjout d'un ajustement du débit de la parole et d'un mode de texte sans référence afin d'améliorer le découpage en tranches dans les langues mixtes.

Scénarios d'application :

  • Assistant vocal personnaliséLes voix : Créer des voix personnalisées pour les assistants intelligents ou les chatbots afin d'améliorer l'expérience de l'utilisateur.
  • doublage virtuel de caractères (VCD)Les services d'aide à l'enfance : fournir un discours réaliste pour les personnages virtuels dans les jeux, l'animation ou la réalité virtuelle.
  • Production de livres audioLes livres audio : convertir le contenu textuel en discours pour produire des livres audio de haute qualité.
  • AccessibilitéServices de synthèse vocale pour les malvoyants et les dyslexiques afin de leur permettre d'accéder plus facilement à l'information.
  • divertissement vocalLes services d'assistance à la clientèle : Produire des enregistrements sonores, imiter des voix de célébrités, etc. pour offrir une expérience de divertissement enrichissante.
  • Protection de la confidentialité de la voixModifier le ton de la voix pour protéger la vie privée de l'utilisateur : Modifier le ton de la voix pour protéger la vie privée de l'utilisateur.
  • aide vocaleLes services d'assistance vocale pour les personnes malentendantes afin de les aider à mieux reconnaître et comprendre la parole.

Pack d'intégration One-Click pour le déploiement local de Windows :

Afin de réduire le seuil d'utilisation, la communauté F5 AI a lancé la deuxième génération de GPT-SoVITS, un déploiement local en un clic du paquet d'intégration, afin que les utilisateurs puissent rapidement commencer sans avoir besoin d'une configuration complexe de l'environnement. Après avoir téléchargé et décompressé le paquet, vous pouvez l'utiliser pour générer rapidement un son de haute qualité sans configuration complexe de l'environnement.

La sortie de la deuxième génération de GPT-SoVITS marque un nouveau bond en avant dans la technologie du clonage sonore. Les utilisateurs individuels et les entreprises peuvent en bénéficier et profiter d'un service de synthèse sonore plus pratique et plus efficace.

© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...