AI Personal Learning
und praktische Anleitung

Fish Speech: Schnelles und hochpräzises Klonen von chinesischer und englischer Sprache mit nur wenigen Samples

Allgemeine Einführung

Fish Speech ist ein von Fish Audio entwickeltes Open-Source-Tool zur Text-zu-Sprache-Synthese (TTS). Das Tool basiert auf modernsten KI-Technologien wie VQ-GAN, Llama und VITS und ist in der Lage, Text in realistische Sprache umzuwandeln. Fish Speech unterstützt nicht nur mehrere Sprachen, sondern bietet auch hocheffiziente Sprachsyntheselösungen für eine Vielzahl von Anwendungsszenarien wie Voice-over, Sprachassistenten und barrierefreies Lesen.

 


Fish Speech: Ein effizientes Werkzeug zum Klonen und Synthetisieren von Sprache mit weniger Samples-1

Online-Erfahrung unter https://fish.audio/zh-CN/

 

Fish Speech: Ein effizientes Werkzeug zum Klonen und Synthetisieren von Sprache mit weniger Samples-1

Empfohlener 30-Sekunden-Ton

 

 

Funktionsliste

  • Mehrsprachige UnterstützungUnterstützt die Umwandlung von Text in Sprache in mehreren Sprachen.
  • Effiziente SyntheseEffiziente Sprachsynthese basierend auf Techniken wie VQ-GAN, Llama und VITS.
  • Open-Source-ProjektDer Code ist quelloffen und kann von den Nutzern frei heruntergeladen und verwendet werden.
  • Online-DemoOnline-Demo-Funktion: Benutzer können die Wirkung der Sprachsynthese direkt erleben.
  • Modell DownloadUnterstützung für das Herunterladen von vortrainierten Modellen von der Hugging Face Plattform.

 

 

Hilfe verwenden

Ablauf der Installation

Systemanforderungen

  • GPU-Speicher4 GB (für die Argumentation), 8 GB (für die Feinabstimmung)
  • SystemeLinux, Windows

Windows-Konfiguration

Profi-Anwender
  • Erwägen Sie die Verwendung von WSL2 oder Docker zur Ausführung der Codebasis.
nicht-professioneller Anwender
  1. Entpacken Sie das Projekt-Zip.
  2. Streik (auf der Tastatur) install_env.bat Installationsumgebung.
    • Sie können entscheiden, ob Sie den Mirror-Download verwenden möchten oder nicht, indem Sie den Eintrag USE_MIRROR in install_env.bat bearbeiten.
      • USE_MIRROR=false Verwenden Sie die Originalseite, um die neueste stabile Version der Torch-Umgebung herunterzuladen.
      • USE_MIRROR=true Verwenden Sie die Spiegelseite, um die neueste Torch-Umgebung herunterzuladen (Standard).
    • Sie können entscheiden, ob Sie kompilierbare Umgebungsdownloads aktivieren möchten, indem Sie den Eintrag INSTALL_TYPE in install_env.bat bearbeiten.
      • INSTALL_TYPE=Vorschau Laden Sie die Entwicklungsversion der Kompilierungsumgebung herunter.
      • INSTALL_TYPE=stable Laden Sie die stabile Version ohne die Kompilierungsumgebung herunter.
  3. Wenn Schritt 2 INSTALL_TYPE=previewWenn Sie nicht über eine kompilierte Modellumgebung verfügen, führen Sie diesen Schritt aus (er kann übersprungen werden, dieser Schritt aktiviert die kompilierte Modellumgebung).
    • Laden Sie den LLVM-Compiler herunter:
    • Nachdem Sie LLVM-17.0.6-win64.exe heruntergeladen haben, doppelklicken Sie auf die Datei, um sie zu installieren, wählen Sie einen geeigneten Installationsort und markieren Sie Pfad zum aktuellen Benutzer hinzufügen, um Umgebungsvariablen hinzuzufügen.
  4. Microsoft Visual C++ Redistributable Package herunterladen und installierenum das Problem des möglichen .dll-Verlustes zu lösen.
  5. Visual Studio Community Edition herunterladen und installierenum das MSVC++ Kompilierungswerkzeug dazu zu bringen, die Abhängigkeiten von LLVM-Header-Dateien aufzulösen.
    • Visual Studio herunterladen
    • Nach der Installation des Visual Studio Installers laden Sie Visual Studio Community 2022 herunter.
    • Klicken Sie auf die Schaltfläche Ändern, suchen Sie den Punkt Desktop-Entwicklung mit C++ und markieren Sie Herunterladen.
  6. herunterladen und installieren CUDA Werkzeugsatz 12.
  7. Doppelklick start.bat Öffnen Sie die Verwaltungsoberfläche Training Reasoning WebUI. Ändern Sie ggf. API_FLAGS wie unten angegeben.
    • Möchten Sie die Reasoning WebUI-Schnittstelle starten? Bearbeiten Sie API_FLAGS.txt im Stammverzeichnis des Projekts und ändern Sie die ersten drei Zeilen in das folgende Format:
      --infer
      # --api
      # --listen ...
      
    • Möchten Sie den API-Server starten? Bearbeiten Sie API_FLAGS.txt im Stammverzeichnis des Projekts und ändern Sie die ersten drei Zeilen in das folgende Format:
      # --infer
      --api
      --listen ...
      
  8. Doppelklick run_cmd.bat Geben Sie die conda/python-Kommandozeilenumgebung für dieses Projekt ein.

Linux-Konfiguration

  1. Erstellen einer virtuellen Python 3.10-UmgebungSie können auch virtualenv verwenden:
    conda create -n fish-speech python=3.10
    conda activate fish-speech
    
  2. Installation von pytorch::
    pip3 install torch torchvision torchaudio
    
  3. Fish-Speech installieren::
    pip3 install -e . [stable]
    
  4. (Ubuntu/Debian-Benutzer) Sox installieren::
    apt install libsox-dev
    

Docker-Konfiguration

  1. Installieren des NVIDIA Container Toolkits::
    • Für Ubuntu-Benutzer:
      curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit- keyring.gpg \
          && curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
              sed s#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
              sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
      sudo apt-get update
      sudo apt-get install -y nvidia-container-toolkit
      sudo systemctl restart docker
      
    • Für Benutzer anderer Linux-Distributionen siehe: NVIDIA Container Toolkit Install-guide.
  2. Ziehen Sie das Fish-Speech-Bild und führen Sie es aus::
    docker pull lengyue233/fish-speech
    docker run -it \
        --name fish-speech \
        --gpus all \
        -p 7860:7860 \
        lengyue233/fish-speech \
        zsh
    
    • Wenn Sie einen anderen Anschluss verwenden müssen, ändern Sie die -p Parameter IhrPort:7860.
  3. Modellabhängigkeiten herunterladen::
    • Stellen Sie sicher, dass Sie sich in einem Terminal innerhalb des Docker-Containers befinden, bevor Sie die benötigten vqgan- und Lama-Modelle aus unserem Huggingface-Repository herunterladen:
      huggingface-cli download fishaudio/fish-speech-1.4 --local-dir checkpoints/fish-speech-1.4
      
    • Nutzer aus dem chinesischen Festland können es über die Mirror-Site herunterladen:
      HF_ENDPOINT=https://hf-mirror.com huggingface-cli download fishaudio/fish-speech-1.4 --local-dir checkpoints/fish-speech-1.4
      
  4. Um Umgebungsvariablen zu konfigurieren, rufen Sie die WebUI auf::
    • Geben Sie in einem Terminal innerhalb des Docker-Containers ein:
      exportieren GRADIO_SERVER_NAME="0.0.0.0"
      
    • Als Nächstes geben Sie in das Terminal innerhalb des Docker-Containers ein:
      python tools/webui.py
      
    • Wenn WSL oder MacOS, rufen Sie die http://localhost:7860 Die WebUI-Oberfläche wird geöffnet.
    • Beim Einsatz auf einem Server ersetzen Sie die localhost ist Ihre Server-IP.

 

Fish Audio Ein-Klick-Installationsprogramm

Chef-KI-AustauschkreisDieser Inhalt wurde vom Autor versteckt. Bitte geben Sie den Verifizierungscode ein, um den Inhalt zu sehen.
Captcha:
Bitte beachten Sie diese Website WeChat öffentliche Nummer, Antwort "CAPTCHA, eine Art Challenge-Response-Test (Computer)", erhalten Sie den Verifizierungscode. Suchen Sie in WeChat nach "Chef-KI-Austauschkreis"oder"Looks-AI" oder WeChat, indem Sie die rechte Seite des QR-Codes scannen, können Sie die öffentliche WeChat-Nummer dieser Website aufrufen.

AI Leichtes Lernen

Der Leitfaden für Laien zum Einstieg in die KI

Hilft Ihnen, die Nutzung von KI-Tools kostengünstig und von Null an zu erlernen.KI ist, wie Bürosoftware, eine wesentliche Fähigkeit für jeden. Die Beherrschung von KI verschafft Ihnen einen Vorteil bei der Stellensuche und die Hälfte des Aufwands bei Ihrer zukünftigen Arbeit und Ihrem Studium.

Details ansehen>
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " Fish Speech: Schnelles und hochpräzises Klonen von chinesischer und englischer Sprache mit nur wenigen Samples

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)