Habla de pez: clonación rápida y muy precisa del habla inglesa y china con pocas muestras

Introducción general

Fish Speech es una herramienta de síntesis de texto a voz (TTS) de código abierto desarrollada por Fish Audio. La herramienta se basa en tecnologías de IA de vanguardia como VQ-GAN, Llama y VITS, y es capaz de convertir texto en habla realista.Fish Speech no solo es compatible con varios idiomas, sino que también ofrece soluciones de síntesis de voz muy eficientes para diversos escenarios de aplicación, como voz en off, asistentes de voz y lectura accesible.

Proyecto de clonación de voz FishSpeech 1.5 update ~ similar al anterior que compartí por ejemplo F5-TTS y MáscaraGCT FishSpeech es un proyecto de clonación de voz que sólo requiere de 5 a 10 segundos de muestras de voz para reproducir al máximo las características vocales de una persona, y admite intercambios en varios idiomas, como chino, inglés, japonés y coreano.

Se ha proporcionado un paquete de integración de código abierto Fish Speech v1.5.0 Optimised One Piece.

Fish Speech:快速且高精度使用少样本克隆中英文语音

Experiencia en línea en https://fish.audio/zh-CN/

 

Fish Speech:快速且高精度使用少样本克隆中英文语音

Audio recomendado de 30 segundos

 

Lista de funciones

  • Soporte multilingüe: Admite la conversión de texto a voz en varios idiomas.
  • Síntesis eficaz: Síntesis de voz eficiente basada en técnicas como VQ-GAN, Llama y VITS.
  • proyecto de código abiertoEl código es abierto y los usuarios pueden descargarlo y utilizarlo libremente.
  • Demostración en líneaProporcionar la función de demostración en línea, los usuarios pueden experimentar directamente el efecto de la síntesis de voz.
  • Descarga de modelos: Soporte para descargar modelos preentrenados de la plataforma Hugging Face.

 

Utilizar la ayuda

Proceso de instalación

requisitos del sistema

  • Memoria GPU: 4 GB (para razonamiento), 8 GB (para ajuste fino)
  • sistemas: Linux, Windows

Configuración de Windows

usuario profesional
  • Considere la posibilidad de utilizar WSL2 o Docker para ejecutar el código base.
usuario no profesional
  1. Descomprima el zip del proyecto.
  2. golpe (en el teclado) install_env.bat entorno de instalación.
    • Puede decidir si utilizar o no la descarga espejo editando la entrada USE_MIRROR en install_env.bat.
      • USE_MIRROR=false Utilice el sitio original para descargar la última versión estable del entorno de antorcha.
      • USE_MIRROR=true Utilice el sitio espejo para descargar el último entorno de antorcha (por defecto).
    • Puede decidir si desea activar las descargas compilables del entorno editando la entrada INSTALL_TYPE de install_env.bat.
      • INSTALL_TYPE=preview Descargue la versión de desarrollo del entorno de compilación.
      • INSTALL_TYPE=stable Descargue la versión estable sin el entorno de compilación.
  3. Si paso 2 INSTALL_TYPE=previewSi no dispone de un entorno de modelo compilado, realice este paso (que puede omitirse, este paso activa el entorno de modelo compilado).
    • Descarga el compilador LLVM:
    • Tras descargar LLVM-17.0.6-win64.exe, haga doble clic en él para instalarlo, elija una ubicación de instalación adecuada y marque Añadir ruta al usuario actual para añadir variables de entorno.
  4. Descargue e instale el paquete redistribuible de Microsoft Visual Cpara solucionar el posible problema de pérdida de .dll.
  5. Descargue e instale Visual Studio Community Editionpara que la herramienta de compilación MSVC++ resuelva las dependencias de los archivos de cabecera LLVM.
    • Descarga de Visual Studio
    • Tras instalar el instalador de Visual Studio, descarga Visual Studio Community 2022.
    • Haga clic en el botón Modificar, busque el elemento Desarrollo de escritorio con C++ y marque Descargar.
  6. descargar e instalar Kit de herramientas CUDA 12.
  7. doble clic iniciar.bat Abra la interfaz de administración Training Reasoning WebUI. Si es necesario, modifique API_FLAGS como se indica a continuación.
    • ¿Quieres iniciar la interfaz Reasoning WebUI? Edita API_FLAGS.txt en el directorio raíz del proyecto y cambia las tres primeras líneas al siguiente formato:
      --infer
      # --api
      # --listen ...
      
    • ¿Quieres iniciar el servidor API? Edite API_FLAGS.txt en el directorio raíz del proyecto y cambie las tres primeras líneas al siguiente formato:
      # --infer
      --api
      --listen ...
      
  8. doble clic run_cmd.bat Introduzca el entorno de línea de comandos conda/python para este proyecto.

Configuración de Linux

  1. Creación de un entorno virtual python 3.10También puedes utilizar virtualenv:
    conda create -n fish-speech python=3.10
    conda activate fish-speech
    
  2. Instalación de pytorch::
    pip3 install torch torchvision torchaudio
    
  3. Instalar fish-speech::
    pip3 install -e .[stable]
    
  4. (Usuarios de Ubuntu / Debian) Instalar sox::
    apt install libsox-dev
    

Configuración de Docker

  1. Instalación del NVIDIA Container Toolkit::
    • Para usuarios de Ubuntu:
      curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \
      && curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
      sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
      sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
      sudo apt-get update
      sudo apt-get install -y nvidia-container-toolkit
      sudo systemctl restart docker
      
    • Los usuarios de otras distribuciones de Linux pueden consultar la guía de instalación de NVIDIA Container Toolkit.
  2. Extraer y ejecutar la imagen fish-speech::
    docker pull lengyue233/fish-speech
    docker run -it \
    --name fish-speech \
    --gpus all \
    -p 7860:7860 \
    lengyue233/fish-speech \
    zsh
    
    • Si necesita utilizar otro puerto, cambie la opción -p parámetros YourPort:7860.
  3. Descargar Dependencias del modelo::
    • Asegúrate de que estás en un terminal dentro del contenedor docker antes de descargar los modelos vqgan y llama necesarios de nuestro repositorio huggingface:
      huggingface-cli download fishaudio/fish-speech-1.4 --local-dir checkpoints/fish-speech-1.4
      
    • Para los usuarios de China continental, puede descargarse a través del sitio espejo:
      HF_ENDPOINT=https://hf-mirror.com huggingface-cli download fishaudio/fish-speech-1.4 --local-dir checkpoints/fish-speech-1.4
      
  4. Para configurar las variables de entorno, accede a la WebUI::
    • En un terminal dentro del contenedor docker, escriba:
      export GRADIO_SERVER_NAME="0.0.0.0"
      
    • A continuación, en el terminal dentro del contenedor docker, escriba:
      python tools/webui.py
      
    • Si es WSL o MacOS, acceda al http://localhost:7860 Se abre la interfaz WebUI.
    • Si se implanta en un servidor, sustituya el archivo localhost es la IP de su servidor.

 

Instalador de Fish Audio con un solo clic


Recomendar la última versión de Niu, código de descifrado: niugee.com

https://drive.google.com/drive/folders/1KeYuZ9fYplDEgA3jg2IUKtECpT0wsz6V?usp=drive_link

Enlace:https://pan.baidu.com/s/1pWaziAC7xMV908TuOkYdyw?pwd=niug Código del extracto: niug

Espada 27 Edición Especial: https://pan.quark.cn/s/30608499dee1 La contraseña de descompresión del zip es jian27 o jian27.com

© declaración de copyright
AiPPT

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...