Fish Speech: Schnelles und hochpräzises Klonen von chinesischer und englischer Sprache mit weniger Samples

Allgemeine Einführung

Fish Speech ist ein von Fish Audio entwickeltes Open-Source-Tool zur Text-zu-Sprache-Synthese (TTS). Das Tool basiert auf modernsten KI-Technologien wie VQ-GAN, Llama und VITS und ist in der Lage, Text in realistische Sprache umzuwandeln. Fish Speech unterstützt nicht nur mehrere Sprachen, sondern bietet auch hocheffiziente Sprachsyntheselösungen für eine Vielzahl von Anwendungsszenarien wie Voice-over, Sprachassistenten und barrierefreies Lesen.

Fish Speech: Ein effizientes Werkzeug zum Klonen und Synthetisieren von Sprache mit weniger Samples-1

Online-Erfahrung unter https://fish.audio/zh-CN/

Empfohlener 30-Sekunden-Ton

Funktionsliste

Mehrsprachige UnterstützungUnterstützt die Umwandlung von Text in Sprache in mehreren Sprachen.
Effiziente SyntheseEffiziente Sprachsynthese basierend auf Techniken wie VQ-GAN, Llama und VITS.
Open-Source-ProjektDer Code ist quelloffen und kann von den Nutzern frei heruntergeladen und verwendet werden.
Online-DemoOnline-Demo-Funktion: Benutzer können die Wirkung der Sprachsynthese direkt erleben.
Modell DownloadUnterstützung für das Herunterladen von vortrainierten Modellen von der Hugging Face Plattform.

Hilfe verwenden

Ablauf der Installation

Systemanforderungen

GPU-Speicher4 GB (für die Argumentation), 8 GB (für die Feinabstimmung)
SystemeLinux, Windows

Windows-Konfiguration

Profi-Anwender

Erwägen Sie die Verwendung von WSL2 oder Docker zur Ausführung der Codebasis.

nicht-professioneller Anwender

Entpacken Sie das Projekt-Zip.
Streik (auf der Tastatur) install_env.bat Installationsumgebung.
- Sie können entscheiden, ob Sie den Mirror-Download verwenden möchten oder nicht, indem Sie den Eintrag USE_MIRROR in install_env.bat bearbeiten.
  - USE_MIRROR=false Verwenden Sie die Originalseite, um die neueste stabile Version der Torch-Umgebung herunterzuladen.
  - USE_MIRROR=true Verwenden Sie die Spiegelseite, um die neueste Torch-Umgebung herunterzuladen (Standard).
- Sie können entscheiden, ob Sie kompilierbare Umgebungsdownloads aktivieren möchten, indem Sie den Eintrag INSTALL_TYPE in install_env.bat bearbeiten.
  - INSTALL_TYPE=Vorschau Laden Sie die Entwicklungsversion der Kompilierungsumgebung herunter.
  - INSTALL_TYPE=stable Laden Sie die stabile Version ohne die Kompilierungsumgebung herunter.
Wenn Schritt 2 INSTALL_TYPE=previewWenn Sie nicht über eine kompilierte Modellumgebung verfügen, führen Sie diesen Schritt aus (er kann übersprungen werden, dieser Schritt aktiviert die kompilierte Modellumgebung).
- Laden Sie den LLVM-Compiler herunter:
  - LLVM-17.0.6(Original-Website zum Herunterladen)
  - LLVM-17.0.6(Spiegelseiten-Download)
- Nachdem Sie LLVM-17.0.6-win64.exe heruntergeladen haben, doppelklicken Sie auf die Datei, um sie zu installieren, wählen Sie einen geeigneten Installationsort und markieren Sie Pfad zum aktuellen Benutzer hinzufügen, um Umgebungsvariablen hinzuzufügen.
Microsoft Visual C++ Redistributable Package herunterladen und installierenum das Problem des möglichen .dll-Verlustes zu lösen.
- MSVC++ 14.40.33810.0 herunterlad
Visual Studio Community Edition herunterladen und installierenum das MSVC++ Kompilierungswerkzeug dazu zu bringen, die Abhängigkeiten von LLVM-Header-Dateien aufzulösen.
- Visual Studio herunterladen
- Nach der Installation des Visual Studio Installers laden Sie Visual Studio Community 2022 herunter.
- Klicken Sie auf die Schaltfläche Ändern, suchen Sie den Punkt Desktop-Entwicklung mit C++ und markieren Sie Herunterladen.
herunterladen und installieren CUDA Werkzeugsatz 12.
Doppelklick start.bat Öffnen Sie die Verwaltungsoberfläche Training Reasoning WebUI. Ändern Sie ggf. API_FLAGS wie unten angegeben.
- Möchten Sie die Reasoning WebUI-Schnittstelle starten? Bearbeiten Sie API_FLAGS.txt im Stammverzeichnis des Projekts und ändern Sie die ersten drei Zeilen in das folgende Format:
```
--infer
# --api
# --listen ...
```
- Möchten Sie den API-Server starten? Bearbeiten Sie API_FLAGS.txt im Stammverzeichnis des Projekts und ändern Sie die ersten drei Zeilen in das folgende Format:
```
# --infer
--api
--listen ...
```
Doppelklick run_cmd.bat Geben Sie die conda/python-Kommandozeilenumgebung für dieses Projekt ein.

Linux-Konfiguration

Erstellen einer virtuellen Python 3.10-UmgebungSie können auch virtualenv verwenden:
```
conda create -n fish-speech python=3.10
conda activate fish-speech
```

Installation von pytorch::

pip3 install torch torchvision torchaudio

Fish-Speech installieren::
```
pip3 install -e . [stable]
```
(Ubuntu/Debian-Benutzer) Sox installieren::
```
apt install libsox-dev
```

Docker-Konfiguration

Installieren des NVIDIA Container Toolkits::

Für Ubuntu-Benutzer:

curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit- keyring.gpg \
    && curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
        sed s#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
        sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
sudo apt-get update
sudo apt-get install -y nvidia-container-toolkit
sudo systemctl restart docker

Für Benutzer anderer Linux-Distributionen siehe: NVIDIA Container Toolkit Install-guide.

Ziehen Sie das Fish-Speech-Bild und führen Sie es aus::

docker pull lengyue233/fish-speech
docker run -it \
    --name fish-speech \
    --gpus all \
    -p 7860:7860 \
    lengyue233/fish-speech \
    zsh

Wenn Sie einen anderen Anschluss verwenden müssen, ändern Sie die -p Parameter IhrPort:7860.

Modellabhängigkeiten herunterladen::
- Stellen Sie sicher, dass Sie sich in einem Terminal innerhalb des Docker-Containers befinden, bevor Sie die benötigten vqgan- und Lama-Modelle aus unserem Huggingface-Repository herunterladen:
```
huggingface-cli download fishaudio/fish-speech-1.4 --local-dir checkpoints/fish-speech-1.4
```
- Nutzer aus dem chinesischen Festland können es über die Mirror-Site herunterladen:
```
HF_ENDPOINT=https://hf-mirror.com huggingface-cli download fishaudio/fish-speech-1.4 --local-dir checkpoints/fish-speech-1.4
```
Um Umgebungsvariablen zu konfigurieren, rufen Sie die WebUI auf::
- Geben Sie in einem Terminal innerhalb des Docker-Containers ein:
```
exportieren GRADIO_SERVER_NAME="0.0.0.0"
```
- Als Nächstes geben Sie in das Terminal innerhalb des Docker-Containers ein:
```
python tools/webui.py
```
- Wenn WSL oder MacOS, rufen Sie die http://localhost:7860 Die WebUI-Oberfläche wird geöffnet.
- Beim Einsatz auf einem Server ersetzen Sie die localhost ist Ihre Server-IP.

Fish Audio Ein-Klick-Installationsprogramm

Dieser Inhalt wurde vom Autor versteckt. Bitte geben Sie den Verifizierungscode ein, um den Inhalt zu sehen.

Bitte beachten Sie diese Website WeChat öffentliche Nummer, Antwort "CAPTCHA, eine Art Challenge-Response-Test (Computer)", erhalten Sie den Verifizierungscode. Suchen Sie in WeChat nach "Chef-KI-Austauschkreis"oder"Looks-AI" oder WeChat, indem Sie die rechte Seite des QR-Codes scannen, können Sie die öffentliche WeChat-Nummer dieser Website aufrufen.

Der Leitfaden für Laien zum Einstieg in die KI

Hilft Ihnen, die Nutzung von KI-Tools kostengünstig und von Null an zu erlernen.KI ist, wie Bürosoftware, eine wesentliche Fähigkeit für jeden. Die Beherrschung von KI verschafft Ihnen einen Vorteil bei der Stellensuche und die Hälfte des Aufwands bei Ihrer zukünftigen Arbeit und Ihrem Studium.

Details ansehen>

Fish Speech: Schnelles und hochpräzises Klonen von chinesischer und englischer Sprache mit nur wenigen Samples

Allgemeine Einführung

Funktionsliste

Hilfe verwenden

Ablauf der Installation

Systemanforderungen

Windows-Konfiguration

Profi-Anwender

nicht-professioneller Anwender

Linux-Konfiguration

Docker-Konfiguration

Fish Audio Ein-Klick-Installationsprogramm

Ähnliche Artikel

Amphion MaskGCT: Null-Sample Text-zu-Sprache-Klonmodell (lokales Ein-Klick-Bereitstellungspaket)

CosyVoice: Open-Source-Projekt zum Klonen von 3-Sekunden-Stimmen von Ali mit Unterstützung für gefühlsgesteuerte Tags

Coqui TTS (xTTS): ein Deep-Learning-Toolkit für die Text-zu-Sprache-Erzeugung mit mehrsprachiger Unterstützung und Funktionen zum Klonen von Stimmen

F5-TTS: Samplefreies Klonen von Sprache zur Erzeugung von weichen und emotionalen Klonstimmen

Voice Changer: Ein Echtzeit-Stimmenwechsler, der deine Lieblings-Anime-Charaktere singen lässt!

Der Leitfaden für Laien zum Einstieg in die KI

Empfohlen

Kostenlose Nutzung von kostenpflichtigen Großmodellen

FLUX.1 Bildgenerator (unterstützt chinesische Eingaben)

Neuerscheinungen

Beliebte Artikel

Heiße Tags.

Chef-KI-Austauschkreis