Habla de pez: clonación rápida y muy precisa del habla inglesa y china con pocas muestras

Últimos recursos sobre IAActualizado hace 1 año Círculo de intercambio de inteligencia artificial

83.3K 00

Introducción general

Fish Speech es una herramienta de síntesis de texto a voz (TTS) de código abierto desarrollada por Fish Audio. La herramienta se basa en tecnologías de IA de vanguardia como VQ-GAN, Llama y VITS, y es capaz de convertir texto en habla realista.Fish Speech no solo es compatible con varios idiomas, sino que también ofrece soluciones de síntesis de voz muy eficientes para diversos escenarios de aplicación, como voz en off, asistentes de voz y lectura accesible.

Proyecto de clonación de voz FishSpeech 1.5 update ~ similar al anterior que compartí por ejemplo F5-TTS y MáscaraGCT FishSpeech es un proyecto de clonación de voz que sólo requiere de 5 a 10 segundos de muestras de voz para reproducir al máximo las características vocales de una persona, y admite intercambios en varios idiomas, como chino, inglés, japonés y coreano.

Se ha proporcionado un paquete de integración de código abierto Fish Speech v1.5.0 Optimised One Piece.

Experiencia en línea en https://fish.audio/zh-CN/

Audio recomendado de 30 segundos

Lista de funciones

Soporte multilingüe: Admite la conversión de texto a voz en varios idiomas.
Síntesis eficaz: Síntesis de voz eficiente basada en técnicas como VQ-GAN, Llama y VITS.
proyecto de código abiertoEl código es abierto y los usuarios pueden descargarlo y utilizarlo libremente.
Demostración en líneaProporcionar la función de demostración en línea, los usuarios pueden experimentar directamente el efecto de la síntesis de voz.
Descarga de modelos: Soporte para descargar modelos preentrenados de la plataforma Hugging Face.

Utilizar la ayuda

Proceso de instalación

requisitos del sistema

Memoria GPU: 4 GB (para razonamiento), 8 GB (para ajuste fino)
sistemas: Linux, Windows

Configuración de Windows

usuario profesional

Considere la posibilidad de utilizar WSL2 o Docker para ejecutar el código base.

usuario no profesional

Descomprima el zip del proyecto.
golpe (en el teclado) install_env.bat entorno de instalación.
- Puede decidir si utilizar o no la descarga espejo editando la entrada USE_MIRROR en install_env.bat.
  - USE_MIRROR=false Utilice el sitio original para descargar la última versión estable del entorno de antorcha.
  - USE_MIRROR=true Utilice el sitio espejo para descargar el último entorno de antorcha (por defecto).
- Puede decidir si desea activar las descargas compilables del entorno editando la entrada INSTALL_TYPE de install_env.bat.
  - INSTALL_TYPE=preview Descargue la versión de desarrollo del entorno de compilación.
  - INSTALL_TYPE=stable Descargue la versión estable sin el entorno de compilación.
Si paso 2 INSTALL_TYPE=previewSi no dispone de un entorno de modelo compilado, realice este paso (que puede omitirse, este paso activa el entorno de modelo compilado).
- Descarga el compilador LLVM:
  - LLVM-17.0.6(Descarga del sitio original)
  - LLVM-17.0.6(descarga del sitio espejo)
- Tras descargar LLVM-17.0.6-win64.exe, haga doble clic en él para instalarlo, elija una ubicación de instalación adecuada y marque Añadir ruta al usuario actual para añadir variables de entorno.
Descargue e instale el paquete redistribuible de Microsoft Visual Cpara solucionar el posible problema de pérdida de .dll.
- MSVC++ 14.40.33810.0 descargas
Descargue e instale Visual Studio Community Editionpara que la herramienta de compilación MSVC++ resuelva las dependencias de los archivos de cabecera LLVM.
- Descarga de Visual Studio
- Tras instalar el instalador de Visual Studio, descarga Visual Studio Community 2022.
- Haga clic en el botón Modificar, busque el elemento Desarrollo de escritorio con C++ y marque Descargar.
descargar e instalar Kit de herramientas CUDA 12.
doble clic iniciar.bat Abra la interfaz de administración Training Reasoning WebUI. Si es necesario, modifique API_FLAGS como se indica a continuación.
- ¿Quieres iniciar la interfaz Reasoning WebUI? Edita API_FLAGS.txt en el directorio raíz del proyecto y cambia las tres primeras líneas al siguiente formato:
```
--infer
# --api
# --listen ...
```
- ¿Quieres iniciar el servidor API? Edite API_FLAGS.txt en el directorio raíz del proyecto y cambie las tres primeras líneas al siguiente formato:
```
# --infer
--api
--listen ...
```
doble clic run_cmd.bat Introduzca el entorno de línea de comandos conda/python para este proyecto.

Configuración de Linux

Creación de un entorno virtual python 3.10También puedes utilizar virtualenv:
```
conda create -n fish-speech python=3.10
conda activate fish-speech
```

Instalación de pytorch::

pip3 install torch torchvision torchaudio

Instalar fish-speech::
```
pip3 install -e .[stable]
```
(Usuarios de Ubuntu / Debian) Instalar sox::
```
apt install libsox-dev
```

Configuración de Docker

Instalación del NVIDIA Container Toolkit::

Para usuarios de Ubuntu:

curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \
&& curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
sudo apt-get update
sudo apt-get install -y nvidia-container-toolkit
sudo systemctl restart docker

Los usuarios de otras distribuciones de Linux pueden consultar la guía de instalación de NVIDIA Container Toolkit.

Extraer y ejecutar la imagen fish-speech::

docker pull lengyue233/fish-speech
docker run -it \
--name fish-speech \
--gpus all \
-p 7860:7860 \
lengyue233/fish-speech \
zsh

Si necesita utilizar otro puerto, cambie la opción -p parámetros YourPort:7860.

Descargar Dependencias del modelo::
- Asegúrate de que estás en un terminal dentro del contenedor docker antes de descargar los modelos vqgan y llama necesarios de nuestro repositorio huggingface:
```
huggingface-cli download fishaudio/fish-speech-1.4 --local-dir checkpoints/fish-speech-1.4
```
- Para los usuarios de China continental, puede descargarse a través del sitio espejo:
```
HF_ENDPOINT=https://hf-mirror.com huggingface-cli download fishaudio/fish-speech-1.4 --local-dir checkpoints/fish-speech-1.4
```
Para configurar las variables de entorno, accede a la WebUI::
- En un terminal dentro del contenedor docker, escriba:
```
export GRADIO_SERVER_NAME="0.0.0.0"
```
- A continuación, en el terminal dentro del contenedor docker, escriba:
```
python tools/webui.py
```
- Si es WSL o MacOS, acceda al http://localhost:7860 Se abre la interfaz WebUI.
- Si se implanta en un servidor, sustituya el archivo localhost es la IP de su servidor.