OpenVoice (MyShell) : Clonage instantané de la parole dans plusieurs langues avec quelques exemples
Introduction générale
OpenVoice est une méthode polyvalente de clonage vocal instantané qui vous permet de copier la voix d'un locuteur de référence et de générer un discours multilingue en utilisant uniquement de courts clips audio du locuteur. Outre la reproduction du timbre, OpenVoice permet un contrôle précis du style de la voix, y compris l'émotion, l'accent, le rythme, les pauses et l'intonation.
Projets de synthèse vocale liés à OpenVoice : https://github.com/myshell-ai/MeloTTS
Le projet peut entraîner sa propre parole en utilisant l'ensemble de données, mais ne dispose pas d'une interface d'entraînement. Il n'est pas identique à Instantaneous Speech Cloning, et se concentre davantage sur la synthèse vocale à l'aide d'un modèle formé de manière stable.
Liste des fonctions
Clonage précis des tonalités : OpenVoice peut reproduire avec précision les tonalités de référence et générer de la parole dans plusieurs langues et accents.
Contrôle flexible du style de la voix : OpenVoice permet un contrôle précis du style de la voix, y compris l'émotion, l'accent, le rythme, les pauses et l'intonation.
Clonage de la parole dans plusieurs langues : il n'est pas nécessaire que la parole générée soit dans la même langue que la parole de référence, ni qu'elle soit présentée dans un ensemble de données de formation multilingue à grande échelle.
En vedette :
1. clonage précis de la tonalité. OpenVoice peut cloner avec précision les tonalités de référence et générer de la parole dans plusieurs langues et accents.
2) Contrôle souple de la tonalité. OpenVoice permet de contrôler finement le style de la voix (par exemple, l'émotion et l'accent) ainsi que d'autres paramètres stylistiques tels que le rythme, les pauses et l'intonation.
3. clonage vocal interlinguistique à zéro échantillon. Il n'est pas nécessaire que la langue dans laquelle le discours est généré ou la langue dans laquelle le discours est référencé soit présente dans un ensemble de données de formation multilingue à grande échelle.
Utiliser l'aide
Reportez-vous au mode d'emploi pour obtenir des conseils détaillés.
Veuillez consulter la section AQ pour les questions fréquemment posées. Nous mettrons régulièrement à jour la liste des questions et des réponses.
Appliquer dans MyShell :Utilisation directe des services de reproduction et de synthèse vocales instantanées (TTS).
Exemple minimaliste :Découvrez rapidement OpenVoice sans avoir besoin d'une qualité supérieure.
Installation de Linux :Réservé aux chercheurs et aux développeurs.
Essai rapide dans google colab
%cd /content!git clone -b dev https://github.com/camenduru/OpenVoice%cd /content/OpenVoice!apt -y install -qq aria2!aria2c --console-log-level=error -c -x 16 -s 16 -k 1M https://huggingface.co/camenduru/OpenVoice/resolve/main/checkpoints_1226.zip -d /content -o checkpoints_1226.zip!unzip /content/checkpoints_1226.zip!pip install -q gradio==3.50.2 langid faster-whisper whisper-timestamped unidecode eng-to-ipa pypinyin cn2an!python openvoice_app.py --share
Appliquer dans MyShell
Pour la plupart des utilisateurs, la façon la plus pratique d'utiliser les services gratuits de TTS et de réplication vocale en direct est de le faire directement dans MyShell.
TTS Services
Cliquez iciet suivez les étapes ci-dessous :

clonage de la parole
Cliquez iciet suivez les étapes ci-dessous :

Exemple minimaliste
Pour ceux qui souhaitent découvrir rapidement OpenVoice et qui n'ont pas besoin d'une qualité ou d'une stabilité trop importante, vous pouvez cliquer sur l'un des liens ci-dessous :
Lepton AI :https://www.lepton.ai/playground/openvoice
MySHell :https://app.myshell.ai/bot/z6Bvua/1702636181
Visage étreint :https://huggingface.co/spaces/myshell-ai/OpenVoice
Installation sous Linux
Cette section s'adresse principalement aux développeurs et aux chercheurs qui maîtrisent Linux, Python et PyTorch. Clonez ce dépôt et procédez comme suit :
conda create -n openvoice python=3.9
conda active openvoice
git clone git@github.com:myshell-ai/OpenVoice.git
cd OpenVoice
pip install -e .
De [VoiciTélécharger le point de contrôle et le décompresser dans le dossier de l'utilisateur. points de contrôle dossier (papier)
1. Contrôle flexible du style vocal :Voir [demo_part1.ipynb]Découvrez comment OpenVoice contrôle le style de la parole clonée.
2. Clonage vocal inter-langues :Veuillez vous référer à [demo_part2.ipynb]En savoir plus sur les démonstrations de langues visibles ou non visibles dans l'ensemble de formation MSML.
3. Démonstration de Gradio :Nous proposons ici une simulation locale minimale de gradio. Si vous avez des problèmes avec la démo gradio, nous vous recommandons fortement de consulter la page demo_part1.ipynb
,demo_part2.ipynb
et [QnA] Utilisez la fonction python -m openvoice_app --share
Démarrer la démo locale de Gradio.
3. Guide de l'utilisateur avancé :Le modèle vocal de base peut être remplacé par n'importe quel modèle (n'importe quelle langue, n'importe quel style) préféré par l'utilisateur. Comme le montre la démo, l'utilisation de la fonction se_extractor.get_se
Méthodes d'extraction d'enregistrements sonores pour les nouveaux locuteurs de base.
4. Une proposition pour générer un discours naturel :Il existe de nombreuses méthodes TTS à un ou plusieurs locuteurs pour générer une parole naturelle. En remplaçant simplement le modèle de haut-parleur de base par le modèle de votre choix, vous pouvez amener le naturel de votre discours au niveau que vous souhaitez.
Tutoriel de déploiement local d'OpenVoiceV2, processus de déploiement d'Apple MacOs
Récemment, le projet OpenVoice a mis à jour sa version V2, le nouveau modèle est plus convivial pour l'inférence chinoise, et le timbre a été amélioré dans une certaine mesure. Cette fois, nous partageons comment déployer localement la version V2 d'OpenVoice dans le système MacOs d'Apple.
Téléchargez d'abord le fichier zip d'OpenVoiceV2 :
OpenVoiceV2-for-mac代码和模型 https://pan.quark.cn/s/33dc06b46699
Cette version a été optimisée pour MacOs, et le volume de la voix chinoise a été modifié.
Après avoir décompressé le fichier, copiez d'abord le dossier hub de HF_HOME dans le répertoire du projet dans le répertoire suivant de votre système actuel :
/Users/当前用户名/.cache/huggingface
Il s'agit du chemin d'enregistrement par défaut du modèle huggingface sur le système Mac. Si vous ne le copiez pas, vous devrez télécharger plus de dix grammes de modèle de pré-entraînement à partir de zéro, ce qui est très gênant.
Retournez ensuite dans le répertoire racine du projet et entrez la commande :
conda create -n openvoice python=3.10
Créez un environnement virtuel avec Python version 3.10, notez que la version ne peut être que 3.10.
Activez ensuite l'environnement virtuel :
conda activate openvoice
Le système revient :
(base) ➜ OpenVoiceV2 git:(main) ✗ conda activate openvoice
(openvoice) ➜ OpenVoiceV2 git:(main) ✗
Indique que l'activation a réussi.
L'installation se fait via brew car la couche inférieure nécessite mecab :
brew install mecab
Commencer l'installation des dépendances :
pip install -r requirements.txt
Comme OpenVoice n'est responsable que de l'extraction des phonèmes, la conversion de la parole nécessite également un support tts, et ici la dépendance sous-jacente est sur le module melo-tts.
Allez dans le répertoire Melo :
(openvoice) ➜ OpenVoiceV2 git:(main) ✗ cd MeloTTS
(openvoice) ➜ MeloTTS git:(main) ✗
Installer la dépendance MeloTTS :
pip install -e .
Après avoir réussi, vous devez télécharger le fichier du dictionnaire séparément :
python -m unidic download
Il suffit ensuite de retourner dans le répertoire racine et de démarrer le projet :
python app.py
Le système revient :
(openvoice) ➜ OpenVoiceV2 git:(main) ✗ python app.py
Running on local URL: http://0.0.0.0:7860
IMPORTANT: You are using gradio version 3.48.0, however version 4.29.0 is available, please upgrade.
--------
To create a public link, set `share=True` in `launch()`.

Ceci termine le déploiement d'OpenVoice dans les MacOs.
remarques finales
L'une des caractéristiques majeures d'OpenVoice est sa capacité à effectuer un clonage vocal inter-langues à partir de zéro. Il peut cloner des voix dans des langues qui ne sont pas incluses dans l'ensemble de données de formation, sans qu'il soit nécessaire de fournir de grandes quantités de données de formation de locuteurs pour ces langues. Toutefois, l'apprentissage à partir de zéro est généralement moins précis pour les catégories inconnues, en particulier pour les catégories complexes, que l'apprentissage supervisé traditionnel avec de nombreuses données étiquetées. Le fait de s'appuyer sur des informations auxiliaires peut introduire du bruit et des inexactitudes, de sorte qu'OpenVoice ne fonctionne pas bien pour certaines tonalités très spécifiques et doit être adapté à la modalité sous-jacente afin de résoudre ces problèmes.
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...