Clonage vocal CSM : Clonage vocal rapide avec CSM-1B

Dernières ressources sur l'IAPosté il y a 6 mois Cercle de partage de l'IA

11.9K 00

Introduction générale

CSM Voice Cloning est un projet open source développé par Isaiah Bjork et hébergé sur GitHub. Il est basé sur le modèle Sesame CSM-1B, qui permet aux utilisateurs de cloner leur propre voix et de générer leur propre voix personnalisée en fournissant simplement un échantillon audio. L'outil prend en charge à la fois les exécutions locales sur GPU et les exécutions sur le nuage Modal, ce qui le rend adapté aux créateurs de contenu, aux développeurs ou à toute personne intéressée par la technologie vocale. Bien que les résultats du clonage ne soient pas des plus parfaits, la voix générée conserve certaines des caractéristiques de la voix cible et l'effet est reconnaissable. Le projet nécessite quelques bases techniques, comme l'installation de Python et la configuration de l'environnement, mais un guide détaillé est officiellement disponible. Le projet est entièrement gratuit et la communauté est invitée à contribuer à l'amélioration du code.

Liste des fonctions

Clonage de la parole : téléchargez des échantillons audio pour générer une parole similaire à l'échantillon.
Synthèse vocale : saisissez du texte et générez des fichiers audio avec des voix clonées.
Exécution locale : utilisez votre GPU personnel pour traiter les tâches de génération de la parole.
Exécution dans le nuage : accélérée par les GPU du nuage par l'intermédiaire de la plateforme Modal.
Support open source : le code est public et peut être modifié ou optimisé par l'utilisateur.
Prend en charge les formats audio courants : accepte les fichiers MP3 ou WAV comme échantillons.
Ajustement des paramètres : permet à l'utilisateur d'ajuster les paramètres du modèle pour s'adapter à différentes longueurs d'audio.

Utiliser l'aide

Processus d'installation

Pour utiliser le clonage vocal CSM, les utilisateurs doivent d'abord configurer l'environnement d'exécution. Voici les étapes détaillées :

Exécuter l'installation localement

Vérifier les exigences en matière de matériel et de logiciel
- Nécessite Python 3.10 ou une version ultérieure.
- Des cartes graphiques compatibles NVIDIA CUDA et une mémoire vidéo suffisante sont nécessaires pour un fonctionnement local.
- Assurez-vous d'avoir une connexion internet pour télécharger les modèles et les dépendances.
Cloner le dépôt de code
- Ouvrez un terminal (CMD ou PowerShell pour Windows, Bash pour Linux/Mac).
- Entrez la commande :
```
git clone https://github.com/isaiahbjork/csm-voice-cloning.git
cd csm-voice-cloning
```
Installation des dépendances
- S'exécute dans le terminal :
```
pip install -r requirements.txt
```
- Ceci installera les bibliothèques nécessaires telles que PyTorch, Hugging Face, etc.

Installation de Cloud Run (Modal)

Installation de Modal
- S'exécute dans le terminal :
```
pip install modal
```
Configuration de l'authentification modale
- Entrez la commande :
```
modal token new
```
- Suivez les instructions pour vous connecter à votre compte Modal ou pour créer un nouveau compte.

Configuration du compte "Hugging Face

S'inscrire et obtenir un jeton
- Visitez le site web de Hugging Face pour vous inscrire ou vous connecter.
- existent Sésame CSM-1B Page modèle Cliquez sur "Access repository" et acceptez les conditions.
- Générer des jetons API : cliquez sur votre avatar dans le coin supérieur droit -> Paramètres -> Jetons -> Nouveau jeton.
Jeton de configuration
- Méthode 1 : Tapez dans le terminal :
```
export HF_TOKEN="你的令牌"
```
- Méthode 2 : Modification voice_clone.py trouver le fichier os.environ["HF_TOKEN"]Remplir le jeton.

Préparation des échantillons audio

Enregistrer l'audio
- Enregistrez un clip audio clair de 2 à 3 minutes, de préférence sans bruit de fond.
- Enregistrer au format MP3 ou WAV, par exemple sample.mp3.
Transcription du texte
- dépense ou frais Chuchotement ou un autre outil pour transcrire le contenu audio, en notant le texte exact (par exemple : "Bonjour, c'est l'audio de mon test").

Principales fonctions

clone de locuteur natif (informatique)

Modifier les paramètres
- spectacle (un billet) voice_clone.py modifiez les éléments suivants :
  - context_audio_path = "sample.mp3"(chemin audio).
  - context_text = "你好，这是我的测试音频"(texte transcrit).
  - text = "今天天气很好"(texte à générer).
  - output_filename = "output.wav"(nom du fichier de sortie).
programme de course
- Saisissez-le dans le terminal :
```
python voice_clone.py
```
- L'audio généré est enregistré dans le dossier du projet.

Clonage vocal dans le nuage (Modal)

Modifier les paramètres
- spectacle (un billet) modal_voice_cloning.py en définissant les mêmes paramètres que pour le fichier local :
  - context_audio_path = "sample.mp3".
  - context_text = "你好，这是我的测试音频".
  - text = "今天天气很好".
  - output_filename = "output.wav".
programme de course
- Saisissez-le dans le terminal :
```
modal run modal_voice_cloning.py
```
- Modal utilisera le GPU du nuage pour traiter la tâche et téléchargera le fichier de sortie lorsqu'il aura terminé.

Ajustement de la longueur de la séquence du modèle

Si l'échantillon audio est long (plus de 2-3 minutes), des erreurs de dimension de tenseur peuvent être rencontrées.
Solution :
1. spectacle (un billet) models.py Documentation.
2. localiser llama3_2_1B() en modifiant la fonction max_seq_len Paramètres :
```
def llama3_2_1B():
return llama3_2.llama3_2(max_seq_len=4096, ...)
```
3. sécurisé llama3_2_100M() est la même, enregistrez-la et relancez-la.

Fonction en vedette Fonctionnement

Accélération de l'informatique en nuage (Modal)

Modal propose des GPU en nuage pour ceux qui ne disposent pas d'appareils locaux puissants.
Simple à utiliser, il suffit d'installer Modal et d'exécuter les scripts appropriés pour un traitement plus rapide que le traitement local.

Traitement des données audio longues

Le réglage par défaut concerne les échantillons d'une durée maximale de 2 minutes et 50 secondes.
L'audio plus long doit être ajusté max_seq_len(comme décrit ci-dessus), ou couper l'échantillon à la longueur recommandée.

Problèmes courants résolus...

erreur de dimension du tenseur
en augmentation max_seq_len ou de raccourcir les échantillons audio.
CUDA en panne de mémoire
Utilisez des échantillons plus courts ou passez à un cycle de nuage modal.
Le téléchargement du modèle a échoué
Vérifiez les jetons et les réseaux Hugging Face pour vous assurer que les conditions du modèle ont été acceptées.

scénario d'application

création de contenu
- Description de la scène
  Les présentateurs peuvent générer une narration vidéo avec leur propre voix. Téléchargez un fichier audio de présentation, entrez un script et générez votre voix en quelques minutes, éliminant ainsi le besoin d'enregistrements répétés.
Soutien à l'éducation
- Description de la scène
  L'enseignant clone sa propre voix et saisit les cours magistraux pour générer un audio pédagogique. Les étudiants peuvent les réécouter à tout moment, ce qui convient à l'apprentissage à distance.
développement de jeux
- Description de la scène
  Les développeurs vocalisent les personnages du jeu. Enregistrez quelques échantillons pour générer plusieurs dialogues afin d'améliorer le réalisme des personnages.

QA

Quelle doit être la longueur de l'échantillon audio ?
Durée recommandée : 2 à 3 minutes. Trop court pour obtenir de mauvais résultats, trop long pour ajuster les paramètres.
Pourquoi la voix générée ne me ressemble-t-elle pas ?
La modélisation est limitée, elle conserve les caractéristiques du son mais n'est pas parfaite. Assurez-vous que l'échantillon est clair et essayez plusieurs fois avec des textes différents.
Quelle est la différence entre le mode modal et l'exécution locale ?
Modal utilise les GPU du cloud et est rapide pour les utilisateurs qui n'ont pas d'appareils puissants. L'exécution locale est gratuite mais nécessite une bonne carte graphique.