OpenVoice (MyShell) : Clonage instantané de la parole dans plusieurs langues avec quelques exemples

Dernières ressources sur l'IAMise à jour il y a 10 mois Cercle de partage de l'IA

23.1K 00

Introduction générale

OpenVoice est une méthode polyvalente de clonage vocal instantané qui vous permet de copier la voix d'un locuteur de référence et de générer un discours multilingue en utilisant uniquement de courts clips audio du locuteur. Outre la reproduction du timbre, OpenVoice permet un contrôle précis du style de la voix, y compris l'émotion, l'accent, le rythme, les pauses et l'intonation.

Projets de synthèse vocale liés à OpenVoice : https://github.com/myshell-ai/MeloTTS

Le projet peut entraîner sa propre parole en utilisant l'ensemble de données, mais ne dispose pas d'une interface d'entraînement. Il n'est pas identique à Instantaneous Speech Cloning, et se concentre davantage sur la synthèse vocale à l'aide d'un modèle formé de manière stable.

Liste des fonctions

Clonage précis des tonalités : OpenVoice peut reproduire avec précision les tonalités de référence et générer de la parole dans plusieurs langues et accents.
Contrôle flexible du style de la voix : OpenVoice permet un contrôle précis du style de la voix, y compris l'émotion, l'accent, le rythme, les pauses et l'intonation.
Clonage de la parole dans plusieurs langues : il n'est pas nécessaire que la parole générée soit dans la même langue que la parole de référence, ni qu'elle soit présentée dans un ensemble de données de formation multilingue à grande échelle.

En vedette :

1. clonage précis de la tonalité. OpenVoice peut cloner avec précision les tonalités de référence et générer de la parole dans plusieurs langues et accents.

2) Contrôle souple de la tonalité. OpenVoice permet de contrôler finement le style de la voix (par exemple, l'émotion et l'accent) ainsi que d'autres paramètres stylistiques tels que le rythme, les pauses et l'intonation.

3. clonage vocal interlinguistique à zéro échantillon. Il n'est pas nécessaire que la langue dans laquelle le discours est généré ou la langue dans laquelle le discours est référencé soit présente dans un ensemble de données de formation multilingue à grande échelle.

Utiliser l'aide

Reportez-vous au mode d'emploi pour obtenir des conseils détaillés.
Veuillez consulter la section AQ pour les questions fréquemment posées. Nous mettrons régulièrement à jour la liste des questions et des réponses.

Appliquer dans MyShell :Utilisation directe des services de reproduction et de synthèse vocales instantanées (TTS).
Exemple minimaliste :Découvrez rapidement OpenVoice sans avoir besoin d'une qualité supérieure.
Installation de Linux :Réservé aux chercheurs et aux développeurs.

Essai rapide dans google colab

%cd /content!git clone -b dev https://github.com/camenduru/OpenVoice%cd /content/OpenVoice!apt -y install -qq aria2!aria2c --console-log-level=error -c -x 16 -s 16 -k 1M https://huggingface.co/camenduru/OpenVoice/resolve/main/checkpoints_1226.zip -d /content -o checkpoints_1226.zip!unzip /content/checkpoints_1226.zip!pip install -q gradio==3.50.2 langid faster-whisper whisper-timestamped unidecode eng-to-ipa pypinyin cn2an!python openvoice_app.py --share

Appliquer dans MyShell

Pour la plupart des utilisateurs, la façon la plus pratique d'utiliser les services gratuits de TTS et de réplication vocale en direct est de le faire directement dans MyShell.

TTS Services

Cliquez iciet suivez les étapes ci-dessous :

clonage de la parole

Cliquez iciet suivez les étapes ci-dessous :

Exemple minimaliste

Pour ceux qui souhaitent découvrir rapidement OpenVoice et qui n'ont pas besoin d'une qualité ou d'une stabilité trop importante, vous pouvez cliquer sur l'un des liens ci-dessous :

Lepton AI :https://www.lepton.ai/playground/openvoice

MySHell :https://app.myshell.ai/bot/z6Bvua/1702636181

Visage étreint :https://huggingface.co/spaces/myshell-ai/OpenVoice

Installation sous Linux

Cette section s'adresse principalement aux développeurs et aux chercheurs qui maîtrisent Linux, Python et PyTorch. Clonez ce dépôt et procédez comme suit :

conda create -n openvoice python=3.9
conda active openvoice
git clone git@github.com:myshell-ai/OpenVoice.git
cd OpenVoice
pip install -e .

De [VoiciTélécharger le point de contrôle et le décompresser dans le dossier de l'utilisateur. points de contrôle dossier (papier)

1. Contrôle flexible du style vocal :Voir [demo_part1.ipynb]Découvrez comment OpenVoice contrôle le style de la parole clonée.

2. Clonage vocal inter-langues :Veuillez vous référer à [demo_part2.ipynb]En savoir plus sur les démonstrations de langues visibles ou non visibles dans l'ensemble de formation MSML.

3. Démonstration de Gradio :Nous proposons ici une simulation locale minimale de gradio. Si vous avez des problèmes avec la démo gradio, nous vous recommandons fortement de consulter la page demo_part1.ipynb,demo_part2.ipynb et [QnA] Utilisez la fonction python -m openvoice_app --share Démarrer la démo locale de Gradio.

3. Guide de l'utilisateur avancé :Le modèle vocal de base peut être remplacé par n'importe quel modèle (n'importe quelle langue, n'importe quel style) préféré par l'utilisateur. Comme le montre la démo, l'utilisation de la fonction se_extractor.get_se Méthodes d'extraction d'enregistrements sonores pour les nouveaux locuteurs de base.

4. Une proposition pour générer un discours naturel :Il existe de nombreuses méthodes TTS à un ou plusieurs locuteurs pour générer une parole naturelle. En remplaçant simplement le modèle de haut-parleur de base par le modèle de votre choix, vous pouvez amener le naturel de votre discours au niveau que vous souhaitez.

Tutoriel de déploiement local d'OpenVoiceV2, processus de déploiement d'Apple MacOs

Récemment, le projet OpenVoice a mis à jour sa version V2, le nouveau modèle est plus convivial pour l'inférence chinoise, et le timbre a été amélioré dans une certaine mesure. Cette fois, nous partageons comment déployer localement la version V2 d'OpenVoice dans le système MacOs d'Apple.

Téléchargez d'abord le fichier zip d'OpenVoiceV2 :

OpenVoiceV2-for-mac代码和模型 https://pan.quark.cn/s/33dc06b46699

Cette version a été optimisée pour MacOs, et le volume de la voix chinoise a été modifié.

Après avoir décompressé le fichier, copiez d'abord le dossier hub de HF_HOME dans le répertoire du projet dans le répertoire suivant de votre système actuel :

/Users/当前用户名/.cache/huggingface

Il s'agit du chemin d'enregistrement par défaut du modèle huggingface sur le système Mac. Si vous ne le copiez pas, vous devrez télécharger plus de dix grammes de modèle de pré-entraînement à partir de zéro, ce qui est très gênant.

Retournez ensuite dans le répertoire racine du projet et entrez la commande :

conda create -n openvoice python=3.10

Créez un environnement virtuel avec Python version 3.10, notez que la version ne peut être que 3.10.

Activez ensuite l'environnement virtuel :

conda activate openvoice

Le système revient :

(base) ➜  OpenVoiceV2 git:(main) ✗ conda activate openvoice  
(openvoice) ➜  OpenVoiceV2 git:(main) ✗

Indique que l'activation a réussi.

L'installation se fait via brew car la couche inférieure nécessite mecab :

brew install mecab

Commencer l'installation des dépendances :

pip install -r requirements.txt

Comme OpenVoice n'est responsable que de l'extraction des phonèmes, la conversion de la parole nécessite également un support tts, et ici la dépendance sous-jacente est sur le module melo-tts.

Allez dans le répertoire Melo :

(openvoice) ➜  OpenVoiceV2 git:(main) ✗ cd MeloTTS   
(openvoice) ➜  MeloTTS git:(main) ✗

Installer la dépendance MeloTTS :

pip install -e .

Après avoir réussi, vous devez télécharger le fichier du dictionnaire séparément :

python -m unidic download

Il suffit ensuite de retourner dans le répertoire racine et de démarrer le projet :

python app.py

Le système revient :

(openvoice) ➜  OpenVoiceV2 git:(main) ✗ python app.py   
Running on local URL:  http://0.0.0.0:7860  
IMPORTANT: You are using gradio version 3.48.0, however version 4.29.0 is available, please upgrade.  
--------  
To create a public link, set `share=True` in `launch()`.

Ceci termine le déploiement d'OpenVoice dans les MacOs.

remarques finales

L'une des caractéristiques majeures d'OpenVoice est sa capacité à effectuer un clonage vocal inter-langues à partir de zéro. Il peut cloner des voix dans des langues qui ne sont pas incluses dans l'ensemble de données de formation, sans qu'il soit nécessaire de fournir de grandes quantités de données de formation de locuteurs pour ces langues. Toutefois, l'apprentissage à partir de zéro est généralement moins précis pour les catégories inconnues, en particulier pour les catégories complexes, que l'apprentissage supervisé traditionnel avec de nombreuses données étiquetées. Le fait de s'appuyer sur des informations auxiliaires peut introduire du bruit et des inexactitudes, de sorte qu'OpenVoice ne fonctionne pas bien pour certaines tonalités très spécifiques et doit être adapté à la modalité sous-jacente afin de résoudre ces problèmes.