Clonage vocal CSM : Clonage vocal rapide avec CSM-1B
Introduction générale
CSM Voice Cloning est un projet open source développé par Isaiah Bjork et hébergé sur GitHub. Il est basé sur le modèle Sesame CSM-1B, qui permet aux utilisateurs de cloner leur propre voix et de générer leur propre voix personnalisée en fournissant simplement un échantillon audio. L'outil prend en charge à la fois les exécutions locales sur GPU et les exécutions sur le nuage Modal, ce qui le rend adapté aux créateurs de contenu, aux développeurs ou à toute personne intéressée par la technologie vocale. Bien que les résultats du clonage ne soient pas des plus parfaits, la voix générée conserve certaines des caractéristiques de la voix cible et l'effet est reconnaissable. Le projet nécessite quelques bases techniques, comme l'installation de Python et la configuration de l'environnement, mais un guide détaillé est officiellement disponible. Le projet est entièrement gratuit et la communauté est invitée à contribuer à l'amélioration du code.

Liste des fonctions
- Clonage de la parole : téléchargez des échantillons audio pour générer une parole similaire à l'échantillon.
- Synthèse vocale : saisissez du texte et générez des fichiers audio avec des voix clonées.
- Exécution locale : utilisez votre GPU personnel pour traiter les tâches de génération de la parole.
- Exécution dans le nuage : accélérée par les GPU du nuage par l'intermédiaire de la plateforme Modal.
- Support open source : le code est public et peut être modifié ou optimisé par l'utilisateur.
- Prend en charge les formats audio courants : accepte les fichiers MP3 ou WAV comme échantillons.
- Ajustement des paramètres : permet à l'utilisateur d'ajuster les paramètres du modèle pour s'adapter à différentes longueurs d'audio.
Utiliser l'aide
Processus d'installation
Pour utiliser le clonage vocal CSM, les utilisateurs doivent d'abord configurer l'environnement d'exécution. Voici les étapes détaillées :
Exécuter l'installation localement
- Vérifier les exigences en matière de matériel et de logiciel
- Nécessite Python 3.10 ou une version ultérieure.
- Des cartes graphiques compatibles NVIDIA CUDA et une mémoire vidéo suffisante sont nécessaires pour un fonctionnement local.
- Assurez-vous d'avoir une connexion internet pour télécharger les modèles et les dépendances.
- Cloner le dépôt de code
- Ouvrez un terminal (CMD ou PowerShell pour Windows, Bash pour Linux/Mac).
- Entrez la commande :
git clone https://github.com/isaiahbjork/csm-voice-cloning.git cd csm-voice-cloning
- Installation des dépendances
- S'exécute dans le terminal :
pip install -r requirements.txt
- Ceci installera les bibliothèques nécessaires telles que PyTorch, Hugging Face, etc.
- S'exécute dans le terminal :
Installation de Cloud Run (Modal)
- Installation de Modal
- S'exécute dans le terminal :
pip install modal
- S'exécute dans le terminal :
- Configuration de l'authentification modale
- Entrez la commande :
modal token new
- Suivez les instructions pour vous connecter à votre compte Modal ou pour créer un nouveau compte.
- Entrez la commande :
Configuration du compte "Hugging Face
- S'inscrire et obtenir un jeton
- Visitez le site web de Hugging Face pour vous inscrire ou vous connecter.
- existent Sésame CSM-1B Page modèle Cliquez sur "Access repository" et acceptez les conditions.
- Générer des jetons API : cliquez sur votre avatar dans le coin supérieur droit -> Paramètres -> Jetons -> Nouveau jeton.
- Jeton de configuration
- Méthode 1 : Tapez dans le terminal :
export HF_TOKEN="你的令牌"
- Méthode 2 : Modification
voice_clone.py
trouver le fichieros.environ["HF_TOKEN"]
Remplir le jeton.
- Méthode 1 : Tapez dans le terminal :
Préparation des échantillons audio
- Enregistrer l'audio
- Enregistrez un clip audio clair de 2 à 3 minutes, de préférence sans bruit de fond.
- Enregistrer au format MP3 ou WAV, par exemple
sample.mp3
.
- Transcription du texte
- dépense ou frais Chuchotement ou un autre outil pour transcrire le contenu audio, en notant le texte exact (par exemple : "Bonjour, c'est l'audio de mon test").
Principales fonctions
clone de locuteur natif (informatique)
- Modifier les paramètres
- spectacle (un billet)
voice_clone.py
modifiez les éléments suivants :context_audio_path = "sample.mp3"
(chemin audio).context_text = "你好,这是我的测试音频"
(texte transcrit).text = "今天天气很好"
(texte à générer).output_filename = "output.wav"
(nom du fichier de sortie).
- spectacle (un billet)
- programme de course
- Saisissez-le dans le terminal :
python voice_clone.py
- L'audio généré est enregistré dans le dossier du projet.
- Saisissez-le dans le terminal :
Clonage vocal dans le nuage (Modal)
- Modifier les paramètres
- spectacle (un billet)
modal_voice_cloning.py
en définissant les mêmes paramètres que pour le fichier local :context_audio_path = "sample.mp3"
.context_text = "你好,这是我的测试音频"
.text = "今天天气很好"
.output_filename = "output.wav"
.
- spectacle (un billet)
- programme de course
- Saisissez-le dans le terminal :
modal run modal_voice_cloning.py
- Modal utilisera le GPU du nuage pour traiter la tâche et téléchargera le fichier de sortie lorsqu'il aura terminé.
- Saisissez-le dans le terminal :
Ajustement de la longueur de la séquence du modèle
- Si l'échantillon audio est long (plus de 2-3 minutes), des erreurs de dimension de tenseur peuvent être rencontrées.
- Solution :
- spectacle (un billet)
models.py
Documentation. - localiser
llama3_2_1B()
en modifiant la fonctionmax_seq_len
Paramètres :def llama3_2_1B(): return llama3_2.llama3_2(max_seq_len=4096, ...)
- sécurisé
llama3_2_100M()
est la même, enregistrez-la et relancez-la.
- spectacle (un billet)
Fonction en vedette Fonctionnement
Accélération de l'informatique en nuage (Modal)
- Modal propose des GPU en nuage pour ceux qui ne disposent pas d'appareils locaux puissants.
- Simple à utiliser, il suffit d'installer Modal et d'exécuter les scripts appropriés pour un traitement plus rapide que le traitement local.
Traitement des données audio longues
- Le réglage par défaut concerne les échantillons d'une durée maximale de 2 minutes et 50 secondes.
- L'audio plus long doit être ajusté
max_seq_len
(comme décrit ci-dessus), ou couper l'échantillon à la longueur recommandée.
Problèmes courants résolus...
- erreur de dimension du tenseur
en augmentationmax_seq_len
ou de raccourcir les échantillons audio. - CUDA en panne de mémoire
Utilisez des échantillons plus courts ou passez à un cycle de nuage modal. - Le téléchargement du modèle a échoué
Vérifiez les jetons et les réseaux Hugging Face pour vous assurer que les conditions du modèle ont été acceptées.
scénario d'application
- création de contenu
- Description de la scène
Les présentateurs peuvent générer une narration vidéo avec leur propre voix. Téléchargez un fichier audio de présentation, entrez un script et générez votre voix en quelques minutes, éliminant ainsi le besoin d'enregistrements répétés.
- Description de la scène
- Soutien à l'éducation
- Description de la scène
L'enseignant clone sa propre voix et saisit les cours magistraux pour générer un audio pédagogique. Les étudiants peuvent les réécouter à tout moment, ce qui convient à l'apprentissage à distance.
- Description de la scène
- développement de jeux
- Description de la scène
Les développeurs vocalisent les personnages du jeu. Enregistrez quelques échantillons pour générer plusieurs dialogues afin d'améliorer le réalisme des personnages.
- Description de la scène
QA
- Quelle doit être la longueur de l'échantillon audio ?
Durée recommandée : 2 à 3 minutes. Trop court pour obtenir de mauvais résultats, trop long pour ajuster les paramètres. - Pourquoi la voix générée ne me ressemble-t-elle pas ?
La modélisation est limitée, elle conserve les caractéristiques du son mais n'est pas parfaite. Assurez-vous que l'échantillon est clair et essayez plusieurs fois avec des textes différents. - Quelle est la différence entre le mode modal et l'exécution locale ?
Modal utilise les GPU du cloud et est rapide pour les utilisateurs qui n'ont pas d'appareils puissants. L'exécution locale est gratuite mais nécessite une bonne carte graphique.
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...