Habla de pez: clonación rápida y muy precisa del habla inglesa y china con pocas muestras
Últimos recursos sobre IAActualizado hace 6 meses Círculo de intercambio de inteligencia artificial 2.8K 00
Introducción general
Fish Speech es una herramienta de síntesis de texto a voz (TTS) de código abierto desarrollada por Fish Audio. La herramienta se basa en tecnologías de IA de vanguardia como VQ-GAN, Llama y VITS, y es capaz de convertir texto en habla realista.Fish Speech no solo es compatible con varios idiomas, sino que también ofrece soluciones de síntesis de voz muy eficientes para diversos escenarios de aplicación, como voz en off, asistentes de voz y lectura accesible.
Proyecto de clonación de voz FishSpeech 1.5 update ~ similar al anterior que compartí por ejemplo F5-TTS y MáscaraGCT FishSpeech es un proyecto de clonación de voz que sólo requiere de 5 a 10 segundos de muestras de voz para reproducir al máximo las características vocales de una persona, y admite intercambios en varios idiomas, como chino, inglés, japonés y coreano.
Se ha proporcionado un paquete de integración de código abierto Fish Speech v1.5.0 Optimised One Piece.
Experiencia en línea en https://fish.audio/zh-CN/
Audio recomendado de 30 segundos
Lista de funciones
- Soporte multilingüe: Admite la conversión de texto a voz en varios idiomas.
- Síntesis eficaz: Síntesis de voz eficiente basada en técnicas como VQ-GAN, Llama y VITS.
- proyecto de código abiertoEl código es abierto y los usuarios pueden descargarlo y utilizarlo libremente.
- Demostración en líneaProporcionar la función de demostración en línea, los usuarios pueden experimentar directamente el efecto de la síntesis de voz.
- Descarga de modelos: Soporte para descargar modelos preentrenados de la plataforma Hugging Face.
Utilizar la ayuda
Proceso de instalación
requisitos del sistema
- Memoria GPU: 4 GB (para razonamiento), 8 GB (para ajuste fino)
- sistemas: Linux, Windows
Configuración de Windows
usuario profesional
- Considere la posibilidad de utilizar WSL2 o Docker para ejecutar el código base.
usuario no profesional
- Descomprima el zip del proyecto.
- golpe (en el teclado) install_env.bat entorno de instalación.
- Puede decidir si utilizar o no la descarga espejo editando la entrada USE_MIRROR en install_env.bat.
USE_MIRROR=false
Utilice el sitio original para descargar la última versión estable del entorno de antorcha.USE_MIRROR=true
Utilice el sitio espejo para descargar el último entorno de antorcha (por defecto).
- Puede decidir si desea activar las descargas compilables del entorno editando la entrada INSTALL_TYPE de install_env.bat.
INSTALL_TYPE=preview
Descargue la versión de desarrollo del entorno de compilación.INSTALL_TYPE=stable
Descargue la versión estable sin el entorno de compilación.
- Puede decidir si utilizar o no la descarga espejo editando la entrada USE_MIRROR en install_env.bat.
- Si paso 2 INSTALL_TYPE=previewSi no dispone de un entorno de modelo compilado, realice este paso (que puede omitirse, este paso activa el entorno de modelo compilado).
- Descarga el compilador LLVM:
- LLVM-17.0.6(Descarga del sitio original)
- LLVM-17.0.6(descarga del sitio espejo)
- Tras descargar LLVM-17.0.6-win64.exe, haga doble clic en él para instalarlo, elija una ubicación de instalación adecuada y marque Añadir ruta al usuario actual para añadir variables de entorno.
- Descarga el compilador LLVM:
- Descargue e instale el paquete redistribuible de Microsoft Visual Cpara solucionar el posible problema de pérdida de .dll.
- Descargue e instale Visual Studio Community Editionpara que la herramienta de compilación MSVC++ resuelva las dependencias de los archivos de cabecera LLVM.
- Descarga de Visual Studio
- Tras instalar el instalador de Visual Studio, descarga Visual Studio Community 2022.
- Haga clic en el botón Modificar, busque el elemento Desarrollo de escritorio con C++ y marque Descargar.
- descargar e instalar Kit de herramientas CUDA 12.
- doble clic iniciar.bat Abra la interfaz de administración Training Reasoning WebUI. Si es necesario, modifique API_FLAGS como se indica a continuación.
- ¿Quieres iniciar la interfaz Reasoning WebUI? Edita API_FLAGS.txt en el directorio raíz del proyecto y cambia las tres primeras líneas al siguiente formato:
--infer # --api # --listen ...
- ¿Quieres iniciar el servidor API? Edite API_FLAGS.txt en el directorio raíz del proyecto y cambie las tres primeras líneas al siguiente formato:
# --infer --api --listen ...
- ¿Quieres iniciar la interfaz Reasoning WebUI? Edita API_FLAGS.txt en el directorio raíz del proyecto y cambia las tres primeras líneas al siguiente formato:
- doble clic run_cmd.bat Introduzca el entorno de línea de comandos conda/python para este proyecto.
Configuración de Linux
- Creación de un entorno virtual python 3.10También puedes utilizar virtualenv:
conda create -n fish-speech python=3.10 conda activate fish-speech
- Instalación de pytorch::
pip3 install torch torchvision torchaudio
- Instalar fish-speech::
pip3 install -e .[stable]
- (Usuarios de Ubuntu / Debian) Instalar sox::
apt install libsox-dev
Configuración de Docker
- Instalación del NVIDIA Container Toolkit::
- Para usuarios de Ubuntu:
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \ && curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \ sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \ sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list sudo apt-get update sudo apt-get install -y nvidia-container-toolkit sudo systemctl restart docker
- Los usuarios de otras distribuciones de Linux pueden consultar la guía de instalación de NVIDIA Container Toolkit.
- Para usuarios de Ubuntu:
- Extraer y ejecutar la imagen fish-speech::
docker pull lengyue233/fish-speech docker run -it \ --name fish-speech \ --gpus all \ -p 7860:7860 \ lengyue233/fish-speech \ zsh
- Si necesita utilizar otro puerto, cambie la opción
-p
parámetrosYourPort:7860
.
- Si necesita utilizar otro puerto, cambie la opción
- Descargar Dependencias del modelo::
- Asegúrate de que estás en un terminal dentro del contenedor docker antes de descargar los modelos vqgan y llama necesarios de nuestro repositorio huggingface:
huggingface-cli download fishaudio/fish-speech-1.4 --local-dir checkpoints/fish-speech-1.4
- Para los usuarios de China continental, puede descargarse a través del sitio espejo:
HF_ENDPOINT=https://hf-mirror.com huggingface-cli download fishaudio/fish-speech-1.4 --local-dir checkpoints/fish-speech-1.4
- Asegúrate de que estás en un terminal dentro del contenedor docker antes de descargar los modelos vqgan y llama necesarios de nuestro repositorio huggingface:
- Para configurar las variables de entorno, accede a la WebUI::
- En un terminal dentro del contenedor docker, escriba:
export GRADIO_SERVER_NAME="0.0.0.0"
- A continuación, en el terminal dentro del contenedor docker, escriba:
python tools/webui.py
- Si es WSL o MacOS, acceda al
http://localhost:7860
Se abre la interfaz WebUI. - Si se implanta en un servidor, sustituya el archivo
localhost
es la IP de su servidor.
- En un terminal dentro del contenedor docker, escriba:
Instalador de Fish Audio con un solo clic
Recomendar la última versión de Niu, código de descifrado: niugee.com
https://drive.google.com/drive/folders/1KeYuZ9fYplDEgA3jg2IUKtECpT0wsz6V?usp=drive_link
Enlace:https://pan.baidu.com/s/1pWaziAC7xMV908TuOkYdyw?pwd=niug Código del extracto: niug
Espada 27 Edición Especial: https://pan.quark.cn/s/30608499dee1 La contraseña de descompresión del zip es jian27 o jian27.com
© declaración de copyright
El artículo está protegido por derechos de autor y no debe reproducirse sin autorización.
Artículos relacionados
Sin comentarios...