Fish Speech : clonage rapide et très précis de la parole anglaise et chinoise à partir de quelques échantillons

Dernières ressources sur l'IAMise à jour il y a 7 mois Cercle de partage de l'IA

15.8K 00

Introduction générale

Fish Speech est un outil de synthèse texte-parole (TTS) open source développé par Fish Audio. Cet outil est basé sur des technologies d'intelligence artificielle de pointe telles que VQ-GAN, Llama et VITS. L'outil est basé sur des technologies d'IA de pointe telles que VQ-GAN, Llama, et VITS, et est capable de convertir un texte en une parole réaliste. Fish Speech supporte non seulement plusieurs langues, mais fournit également une solution de synthèse vocale efficace pour une variété de scénarios d'application, tels que la voix off, les assistants vocaux, et la lecture accessible.

Projet de clonage vocal FishSpeech 1.5 update ~ similaire au précédent que j'ai partagé par exemple F5-TTS , MasqueGCT FishSpeech est un projet de clonage vocal qui ne nécessite que 5 à 10 secondes d'échantillons vocaux pour reproduire fidèlement les caractéristiques de la voix d'une personne. Il prend en charge les échanges entre plusieurs langues telles que le chinois, l'anglais, le japonais et le coréen.

Un pack d'intégration Open Source Fish Speech v1.5.0 Optimised One Piece a été fourni.

Expérience en ligne sur https://fish.audio/zh-CN/

Recommandation : 30 secondes d'audio

Liste des fonctions

Prise en charge multilingueLa conversion du texte à la parole est possible dans plusieurs langues.
Synthèse efficaceSynthèse vocale efficace basée sur des techniques telles que VQ-GAN, Llama et VITS.
projet open sourceLe code est ouvert et les utilisateurs peuvent le télécharger et l'utiliser librement.
Démonstration en ligneLa fonction de démonstration en ligne permet aux utilisateurs d'expérimenter directement l'effet de la synthèse vocale.
Modèle à téléchargerSupport pour le téléchargement de modèles pré-entraînés à partir de la plateforme Hugging Face.

Utiliser l'aide

Processus d'installation

exigences du système

Mémoire GPUCapacité de stockage : 4 Go (pour le raisonnement), 8 Go (pour l'affinage)
systèmes: Linux, Windows

Configuration de Windows

utilisateur professionnel

Envisagez d'utiliser WSL2 ou Docker pour exécuter la base de code.

utilisateur non professionnel

Décompressez le fichier zip du projet.
frappe (sur le clavier) install_env.bat environnement d'installation.
- Vous pouvez décider d'utiliser ou non le téléchargement miroir en modifiant l'entrée USE_MIRROR dans le fichier install_env.bat.
  - USE_MIRROR=false Utilisez le site original pour télécharger la dernière version stable de l'environnement Torch.
  - USE_MIRROR=true Utiliser le site miroir pour télécharger la dernière version de l'environnement torch (par défaut).
- Vous pouvez décider d'activer ou non les téléchargements d'environnement compilables en modifiant l'entrée INSTALL_TYPE du fichier install_env.bat.
  - INSTALL_TYPE=preview Téléchargez la version de développement de l'environnement de compilation.
  - INSTALL_TYPE=stable Téléchargez la version stable sans l'environnement de compilation.
Si étape 2 INSTALL_TYPE=previewSi vous n'avez pas d'environnement de modèle compilé, effectuez cette étape (qui peut être ignorée, cette étape active l'environnement de modèle compilé).
- Téléchargez le compilateur LLVM :
  - LLVM-17.0.6(Téléchargement du site original)
  - LLVM-17.0.6(téléchargement du site miroir)
- Après avoir téléchargé LLVM-17.0.6-win64.exe, double-cliquez dessus pour l'installer, choisissez un emplacement d'installation approprié et cochez Add Path to Current User pour ajouter des variables d'environnement.
Télécharger et installer Microsoft Visual C++ Redistributable Packagepour résoudre le problème de la perte potentielle des fichiers .dll.
- MSVC++ 14.40.33810.0 téléchargements
Télécharger et installer Visual Studio Community Editionpour que l'outil de compilation MSVC++ résolve les dépendances des fichiers d'en-tête LLVM.
- Télécharger Visual Studio
- Après avoir installé le programme d'installation de Visual Studio, téléchargez Visual Studio Community 2022.
- Cliquez sur le bouton Modifier, recherchez l'élément Desktop Development using C++ et cochez Download.
télécharger et installer Boîte à outils CUDA 12.
double clic start.bat Ouvrez l'interface d'administration Training Reasoning WebUI. Si nécessaire, modifiez API_FLAGS comme indiqué ci-dessous.
- Vous voulez démarrer l'interface WebUI de raisonnement ? Editez API_FLAGS.txt dans le répertoire racine du projet et modifiez les trois premières lignes au format suivant :
```
--infer
# --api
# --listen ...
```
- Vous voulez démarrer le serveur API ? Editez API_FLAGS.txt dans le répertoire racine du projet et modifiez les trois premières lignes au format suivant :
```
# --infer
--api
--listen ...
```
double clic run_cmd.bat Entrez dans l'environnement de ligne de commande conda/python pour ce projet.

Configuration de Linux

Création d'un environnement virtuel python 3.10Vous pouvez également utiliser virtualenv :
```
conda create -n fish-speech python=3.10
conda activate fish-speech
```

Installation de pytorch: :

pip3 install torch torchvision torchaudio

Installer fish-speech: :
```
pip3 install -e .[stable]
```
(Utilisateurs Ubuntu / Debian) Installer sox: :
```
apt install libsox-dev
```

Configuration de Docker

Installation du NVIDIA Container Toolkit: :

Pour les utilisateurs d'Ubuntu :

curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \
&& curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
sudo apt-get update
sudo apt-get install -y nvidia-container-toolkit
sudo systemctl restart docker

Pour les utilisateurs d'autres distributions Linux, veuillez consulter le guide d'installation de NVIDIA Container Toolkit.

Tirer et exécuter l'image de la parole de poisson: :
```
docker pull lengyue233/fish-speech
docker run -it \
--name fish-speech \
--gpus all \
-p 7860:7860 \
lengyue233/fish-speech \
zsh
```
- Si vous devez utiliser un autre port, modifiez le paramètre -p paramètres YourPort:7860.
Télécharger les dépendances du modèle: :
- Assurez-vous d'être dans un terminal à l'intérieur du conteneur docker avant de télécharger les modèles vqgan et llama nécessaires depuis notre dépôt huggingface :
```
huggingface-cli download fishaudio/fish-speech-1.4 --local-dir checkpoints/fish-speech-1.4
```
- Pour les utilisateurs de Chine continentale, il peut être téléchargé via le site miroir :
```
HF_ENDPOINT=https://hf-mirror.com huggingface-cli download fishaudio/fish-speech-1.4 --local-dir checkpoints/fish-speech-1.4
```
Pour configurer les variables d'environnement, accédez à l'interface WebUI: :
- Dans un terminal à l'intérieur du conteneur docker, tapez :
```
export GRADIO_SERVER_NAME="0.0.0.0"
```
- Ensuite, dans le terminal à l'intérieur du conteneur docker, tapez :
```
python tools/webui.py
```
- Si vous utilisez WSL ou MacOS, accédez à la page http://localhost:7860 L'interface WebUI s'ouvre.
- S'il est déployé sur un serveur, remplacez le fichier localhost est l'IP de votre serveur.